8月11日,智譜開源了其最新一代視覺理解模型GLM-4.5V。這一模型基于智譜新一代文本基座模型GLM-4.5-Air訓練而來,延續(xù)上一代視覺推理模型GLM-4.1V-Thinking的技術路線,擁有1060億參數(shù),120億激活參數(shù)。GLM-4.5V還新增了思考模式的開關功能,用戶可自主控制模型是否進行思考。這一模型的視覺能力解鎖了一些有趣的玩法。例如,模型現(xiàn)在可以看懂麥當勞和肯德基炸雞翅的區(qū)別了,還從炸雞的色澤、外皮質(zhì)感等角度,進行了全面分析。
7月27日消息,原通義實驗室應用視覺團隊負責人薄列峰已加入騰訊混元大模型團隊,直接向騰訊副總裁兼混元項目負責人蔣杰匯報。據(jù)悉,薄列峰在今年4月30日從阿里離任,彼時曾有傳聞稱他已加盟某大型互聯(lián)網(wǎng)企業(yè),在美國任職,并負責多模態(tài)模型方向的全面工作,直接向公司高管匯報。薄列峰于2022年加入阿里,起初接棒譚平領導達摩院XR實驗室,后調(diào)至通義實驗室主導應用視覺方向,成為推動阿里圖像與視頻AIGC技術的重要人物。
7月17日,字節(jié)跳動豆包大模型視覺多模態(tài)生成方向負責人楊建朝在公司內(nèi)部宣布“暫時休息”,相關工作已完成交接。其工作由周暢(花名“時光”)接手,周暢所在架構仍為“多模態(tài)交互與世界模型”部門,向吳永輝匯報。此次人事變動原因未明確,有知情人士稱是“家庭因素”,也有說法稱其因長期高強度工作身心俱疲。楊建朝是字節(jié)AI體系內(nèi)公認的“技術大?!?,曾師從“計算機視覺之父”Thomas Huang,2018年加入字節(jié)跳動,2023年起帶領Seed視覺部門。接任者周暢本科畢業(yè)于復旦大學,博士就讀于北京大學,曾擔任阿里巴巴通義千問大模型的技術負責人,主導開發(fā)了M6多模態(tài)預訓練模型,2024年7月從阿里離職后加入字節(jié)跳動。
7月16日消息,近日,杭州高譜成像技術有限公司(簡稱“高譜成像”)宣布完成數(shù)千萬元人民幣首輪融資。本輪融資由海通創(chuàng)新私募基金管理有限公司與廣東弓葉科技有限公司分別代表市場化投資機構和產(chǎn)業(yè)投資方共同參與,高譜成像將以此為契機,加快產(chǎn)品研發(fā)迭代,強化國內(nèi)外渠道建設,進一步鞏固高譜成像公司在光譜視覺行業(yè)的領先地位。同時,加速標準化相機和整機產(chǎn)品的規(guī)?;a(chǎn),進一步降低成本,助力更多行業(yè)客戶的多維智能感知需求。近兩年來,通過聚焦工業(yè)檢測和低空遙感應用場景,高譜成像與行業(yè)龍頭企業(yè)建立起了深度合作關系,并在水質(zhì)遙感監(jiān)測、固廢回收分選、煙草檢測等場景形成了行業(yè)領先的批量交付。
6月28日消息,在本周舉行的阿斯彭思想節(jié)(Aspen Ideas Festival)上,福特CEO吉姆?法利( Jim Farley)表達了對特斯拉自動駕駛方案的疑慮。法利在與作家沃爾特?艾薩克森的交談中談到了對特斯拉和Waymo自動駕駛的看法。艾薩克森問法利更傾向于哪種模式,他表示W(wǎng)aymo基于激光雷達(LiDAR)的方案“更合理”,然后他列舉了安全、消費者信任以及基于攝像頭模型的局限性等因素來進行說明。但他也指出,特斯拉和Waymo都在自動駕駛方面“取得了很大進展”。法利還確認,他已就此事與馬斯克進行過交談。盡管如此他仍然認為LiDAR是自動駕駛的關鍵。
5月20日,騰訊正式發(fā)布混元游戲視覺生成平臺,這是依托混元大模型打造的首個工業(yè)級AIGC游戲內(nèi)容生產(chǎn)引擎,大幅優(yōu)化游戲資產(chǎn)生成與游戲制作流程。其面向游戲工業(yè)級內(nèi)容生產(chǎn),為游戲美術設計師提供一系列AI工具,幫助游戲設計廠商快速生成符合創(chuàng)作意圖的高質(zhì)量游戲素材/概念草案,讓游戲美術設計效率提升數(shù)十倍。目前,該“混元游戲”通過騰訊混元官網(wǎng)提供體驗入口,面向游戲行業(yè)設計師開放申請。
“互聯(lián)網(wǎng)八卦小喇叭”等多個微信公眾號爆料,阿里巴巴通義實驗室應用視覺團隊負責人薄列峰(職級P10),已于4月30日低調(diào)離職。他曾帶領團隊做出通義App上全民舞王「兵馬俑跳科目三」等爆款功能。知情人士透露,他已經(jīng)加入某互聯(lián)網(wǎng)大廠,base美國,擔任多模態(tài)模型部副總經(jīng)理,負責部門整體工作,直接向公司副總裁匯報。消息稱,該大廠剛剛進行了架構調(diào)整。據(jù)了解,薄列峰2022年加入阿里,此前擔任京東數(shù)字科技集團AI實驗室首席科學家一職。
近日,人工智能感知與邊緣計算芯片企業(yè)愛芯元智對外宣布,已于近期順利完成C輪融資,融資金額超過十億元人民幣。本輪融資的投資方包括寧波通商基金、鎮(zhèn)海產(chǎn)投、重慶產(chǎn)業(yè)投資母基金、重慶兩江基金、元禾璞華、韋豪創(chuàng)芯等知名投資機構。本輪資金將主要用于推動下一代先進人工智能芯片的技術研發(fā),加速智能產(chǎn)品量產(chǎn)進程,并加大市場推廣力度,旨在為客戶提供更高效、智能的解決方案。
4月7日,杭州藍芯科技有限公司(以下簡稱“藍芯科技”)正式宣布完成由鯤鵬基金領投的C+輪融資,融資金額數(shù)億元。目前藍芯科技產(chǎn)品涵蓋3D視覺傳感器、移動機器人、人形機器人、移動機器人核心零部件、智能化軟件系統(tǒng)等,本輪融資將重點投向3D視覺傳感器深化研發(fā)、人形機器人AI技術攻關、全球化供應鏈及服務體系升級。
3月28日,RoboSense速騰聚創(chuàng)正式發(fā)布機器人視覺全新品類Active Camera的首款產(chǎn)品AC1及AI-Ready生態(tài),為行業(yè)提供機器人感知開發(fā)一站式解決方案。AC1提供深度、色彩、運動姿態(tài)硬件級融合信息,讓機器人感知構型擺脫堆疊傳感器的傳統(tǒng)方法,進化為簡潔高效、便于大規(guī)模量產(chǎn)的商用方案;AI-Ready生態(tài)為開發(fā)者提基礎軟件工具與開源算法,提升開發(fā)效率,縮短開發(fā)周期。
去年12月,阿里通義千問推出了QVQ-72B-Preview, 作為一個探索模型,它存在一些不足之處。今天,我們正式推出 QVQ-Max 視覺推理模型的第一版。這一新版本的模型具備強大的多模態(tài)處理能力,它不僅能夠“看懂”圖片和視頻里的內(nèi)容,還能結合這些信息進行分析、推理,甚至給出解決方案。從數(shù)學題到生活小問題,從編程代碼到藝術創(chuàng)作,QVQ-Max 都表現(xiàn)出了不俗的能力。
據(jù)叢登資本公眾號2月18日消息,智能視覺解決方案提供商武漢尚易星通科技有限公司(以下簡稱“尚易星通”)完成Pre-A輪融資。此次融資由一起創(chuàng)資本獨家投資。尚易星通成立于2016年,已掌握彈道監(jiān)測系統(tǒng)核心技術并實現(xiàn)產(chǎn)業(yè)化,在智能視覺模塊行業(yè)領先實現(xiàn)軍用和民用融合發(fā)展,主要產(chǎn)品包括視覺測量裝備、視覺處理裝備和穿戴裝備等。尚易星通的客戶涵蓋航天科工、航天科技、長光所、兵器集團、百度、愛泊車、鐵科院、中車賽德等知名企業(yè)與機構。
12月25日,阿里云通義千問發(fā)布業(yè)界首個開源多模態(tài)推理模型QVQ-72B-Preview。QVQ展現(xiàn)出超預期的視覺理解和推理能力,在解決數(shù)學、物理、科學等領域的復雜推理問題上表現(xiàn)尤為突出。多項評測數(shù)據(jù)顯示,QVQ超越了此前的視覺理解模型「開源王者」Qwen2-VL,整體表現(xiàn)與「滿血版」OpenAI o1、Claude3.5 Sonnet等推理模型相當。目前,開發(fā)者可在魔搭社區(qū)和HuggingFace平臺上直接體驗。
針對字節(jié)豆包視覺理解模型定價低于同行85%,12月20日,火山引擎總裁譚待發(fā)文回應稱,3厘/千tokens的價格,字節(jié)仍然能有合理的毛利。他表示,對于2B業(yè)務,如果毛利是負的,規(guī)模越大虧損越多,商業(yè)模式是不成立的。能做到這個價格其實是字節(jié)模型技術能力、工程能力、軟硬件結合能力的體現(xiàn)。比如算法上預訓練階段的特別優(yōu)化,工程上的錯峰和混部,大規(guī)模的P/D推理分離,硬件優(yōu)化等等。技術先行,才能做好服務。
12月3日消息,在自動駕駛領域,特斯拉堅持以純視覺為核心的感知系統(tǒng),甚至已在旗下所有車型中取消了毫米波雷達,選擇完全依賴攝像頭與人工神經(jīng)網(wǎng)絡來實現(xiàn)自動駕駛。特斯拉 CEO 埃隆?馬斯克近期再次公開批評激光雷達,稱其為“錯誤的解決方案”,并重申了其一貫的觀點:在復雜的道路駕駛環(huán)境中,模擬生物神經(jīng)網(wǎng)絡和眼睛的視覺系統(tǒng),才是最為有效的方式。
11月26日,智境云創(chuàng)與西安交通大學空間視覺聯(lián)合實驗室簽署合作協(xié)議,攜手共建空間智能研究中心。雙方將利用自身技術和團隊優(yōu)勢,合作開展空間智能、具身智能等相關領域關鍵技術研究。研究中心設立于智境云創(chuàng)北京總部。
10月29日晚,小米集團董事長兼CEO雷軍公布小米汽車智能駕駛新進展:城市NOA將于10月30日開啟全量推送;小米智能駕駛搭載端到端大模型與視覺語言大模型,預計11月底開啟定向邀請內(nèi)測,12月底開啟先鋒版推送。???
日前,平方和(北京)科技有限公司(后稱“平方和”)宣布完成數(shù)億元B輪融資。本輪融資由同創(chuàng)偉業(yè)領投,元禾璞華、雅惠投資、云暉資本、相城金控資本、熵一資本及博行資本跟投。平方和從2018年初正式運營,為工業(yè)制造企業(yè)提供視覺整體解決方案,包括光學成像系統(tǒng)設計、視覺算法定制、視覺設備定制與開發(fā)、視覺及生產(chǎn)數(shù)據(jù)整合等。