新京報貝殼財經訊(記者羅亦丹)4月29日凌晨,阿里巴巴開源新一代通義千問模型Qwen3(簡稱千問3),參數量僅為DeepSeek-R1的1/3,成本大幅下降,性能則在各項測評中創下國產模型新高。
新京報貝殼財經記者登錄千問3發現,其界面布局相比其他大模型也有所創新,如其深度思考可以通過類似拖動“時間軸”按鈕的方式選擇控制思考的最大長度,從而實現控制tokens(算力單位)消耗預算。另外,其還在搜索框中添加了最近火熱的“MCP”(模型上下文協議)選項,不過顯示為“即將推出”。
千問3界面截圖,可以看到“思考預算”控制按鈕以及MCP選項
性能方面,千問3采用混合專家(MoE)架構,總參數量235B,激活僅需22B。千問3預訓練數據量達36T ,并在后訓練階段多輪強化學習,將非思考模式無縫整合到思考模型中。千問3在推理、指令遵循、工具調用、多語言能力等方面均大幅增強,即創下所有國產模型及全球開源模型的性能新高:在奧數水平的AIME25測評中,千問3斬獲81.5分,刷新開源紀錄;在考察代碼能力的LiveCodeBench評測中,千問3突破70分大關,表現甚至超過Grok3;在評估模型人類偏好對齊ArenaHard測評中,千問3以95.6分超越OpenAI-o1及DeepSeek-R1。性能大幅提升的同時,千問3的部署成本還大幅下降,僅需4張H20即可部署千問3滿血版,顯存占用僅為性能相近模型的三分之一。
此外,千問3還提供了豐富的模型版本,包含2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型,每款模型均斬獲同尺寸開源模型SOTA(最佳性能):千問3的30B參數MoE模型實現了10倍以上的模型性能杠桿提升,僅激活3B就能媲美上代Qwen2.5-32B模型性能;千問3的稠密模型性能繼續突破,一半的參數量可實現同樣的高性能,如32B版本的千問3模型可跨級超越Qwen2.5-72B性能。
這為應用部署提供了便捷,例如4B模型是手機端的絕佳尺寸;8B模型可在電腦和汽車端絲滑部署應用;32B模型最受大規模部署企業歡迎。
目前,千問3系列模型依舊采用寬松的Apache2.0協議開源,并首次支持119種語言,全球開發者、研究機構和企業均可免費在魔搭社區、HuggingFace等平臺下載模型并商用,也可以通過阿里云百煉調用千問3的API服務。個人用戶可立即通過通義APP直接體驗千問3,夸克也即將全線接入千問3。
據悉,阿里通義已開源200余個模型,全球下載量超3億次,千問衍生模型數超10萬個,已超越美國Llama,成為全球第一開源模型。
編輯 寇德娜
校對 劉軍