【財(cái)新網(wǎng)】開源大模型競(jìng)賽持續(xù)。4月29日,阿里巴巴發(fā)布了新一代開源大模型系列Qwen3,阿里巴巴稱新模型總參數(shù)量?jī)H為DeepSeek-R1的三分之一,部署門檻大幅降低,同時(shí)其性能優(yōu)于DeepSeek-R1。用戶可以通過阿里云的企業(yè)平臺(tái)或通義App直接體驗(yàn)該模型,夸克也將接入Qwen3。
Qwen3的旗艦?zāi)P筒捎没旌蠈<遥∕oE)架構(gòu),從36T的數(shù)據(jù)量上訓(xùn)練而來,總參數(shù)量為235B,激活參數(shù)量為22B。作為對(duì)照,同樣采用MoE架構(gòu)的DeepSeek-V3在14.8T的數(shù)量上訓(xùn)練而來,總參數(shù)量為671B,激活參數(shù)量為37B。