8月19日,通義千問宣布,推出Qwen-Image-Edit,Qwen-Image的圖像編輯版本。Qwen-Image-Edit基于20B的Qwen-Image模型進(jìn)?步訓(xùn)練,將Qwen-Image的文本渲染能力延展至圖像編輯領(lǐng)域,實(shí)現(xiàn)了對(duì)圖片中文字的精準(zhǔn)編輯。
8月7日,阿里通義千問發(fā)布更小尺寸新模型——Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507。據(jù)通義千問介紹,在非推理領(lǐng)域,Qwen3-4B-Instruct-2507全面超越了閉源的GPT4.1-Nano;在推理領(lǐng)域,Qwen3-4B-Thinking-2507甚至可以媲美中等規(guī)模的Qwen3-30B-A3B(thinking)。目前新模型已在魔搭社區(qū)、HuggingFace正式開源。
6月28日,阿里推出多模態(tài)統(tǒng)一理解與生成模型Qwen VLo,用戶可通過Qwen Chat訪問該模型(預(yù)覽版)。Qwen VLo具有三大亮點(diǎn):理解和生成更準(zhǔn)確,支持開放指令編輯修改圖片,以及多語言指令支持。用戶可發(fā)送如“生成一張可愛貓咪的圖片”或“給貓咪頭上加頂帽子”等指令來生成或修改圖像。該模型還支持包括中文、英文在內(nèi)的多種語言指令,為全球用戶提供了便捷的交互體驗(yàn)。
通義千問3月27日宣布發(fā)布Qwen2.5-Omni,Qwen模型家族中新一代端到端多模態(tài)旗艦?zāi)P?。該模型專為全方位多模態(tài)感知設(shè)計(jì),能夠無縫處理文本、圖像、音頻和視頻等多種輸入形式,并通過實(shí)時(shí)流式響應(yīng)同時(shí)生成文本與自然語音合成輸出。該模型現(xiàn)已在Hugging Face、ModelScope、DashScope和GitHub上開源開放。
11月13日,據(jù)阿里云消息,阿里云通義大模型團(tuán)隊(duì)正式開源通義千問代碼模型全系列,共6款Qwen2.5-Coder模型。此次開源共推出0.5B/1.5B/3B/7B/14B/32B等6個(gè)尺寸的全系列模型,每個(gè)尺寸都開源了Base和Instruct模型。其中,Base模型可供開發(fā)者微調(diào),Instruct模型則是開箱即用的官方對(duì)齊模型。
9月19日云棲大會(huì),阿里云CTO周靖人發(fā)布通義千問新一代開源模型Qwen2.5,其中,旗艦?zāi)P蚎wen2.5-72B性能超越Llama 405B,再登全球開源大模型王座。Qwen2.5涵蓋多個(gè)尺寸的大語言模型、多模態(tài)模型、數(shù)學(xué)模型和代碼模型,每個(gè)尺寸都有基礎(chǔ)版本、指令跟隨版本、量化版本,總計(jì)上架100多個(gè)模型,刷新業(yè)界紀(jì)錄。截至2024年9月中旬,通義千問開源模型累計(jì)下載量已突破4000萬,成為僅次于Llama的世界級(jí)模型群。
1月26日消息,阿里云公布了多模態(tài)大模型的最新研究成果,繼Plus版本之后,再次推出Max版本。Qwen-VL-Max模型在視覺推理方面展現(xiàn)出卓越的能力,可以理解并分析復(fù)雜的圖片信息,包括識(shí)人、答題、創(chuàng)作和寫代碼等任務(wù)。此外,該模型還具備視覺定位功能,可根據(jù)畫面指定區(qū)域進(jìn)行問答。目前,Qwen-VL-Plus和Qwen-VL-Max限時(shí)免費(fèi)向用戶開放。用戶可以在通義千問官網(wǎng)、通義千問APP直接體驗(yàn)Max版本模型的能力,也可以通過阿里云靈積平臺(tái)(DashScope)調(diào)用模型API。
本輪融資由Lerer Hippeau領(lǐng)投。