【財(cái)新網(wǎng)】開源模型還在不斷進(jìn)化。12月26日,國(guó)內(nèi)私募機(jī)構(gòu)幻方量化旗下的DeepSeek發(fā)布新一代開源大模型DeepSeek-v3,DeepSeek稱該模型是目前最強(qiáng)的開源大模型,能力與閉源的GPT-4o相近,而訓(xùn)練僅需要2048張英偉達(dá)H800AI芯片。作為參考,OpenAI訓(xùn)練最新模型單集群算力規(guī)模超過(guò)萬(wàn)卡。
具體來(lái)看,DeepSeek此次發(fā)布的模型為MoE(混合專家架構(gòu))架構(gòu),即將任務(wù)分類后分配給不同的專家模型解決,參數(shù)量為6710億,激活參數(shù)為370億。
DeepSeek提供的評(píng)測(cè)結(jié)果顯示,該模型在考察百科知識(shí)、代碼、數(shù)學(xué)能力的多個(gè)評(píng)測(cè)集中得分超過(guò)阿里云Qwen2.5-72B和Meta的Llama-3.1-405B這兩個(gè)最強(qiáng)的開源模型;在這些榜單中,DeepSeek-v3得分與OpenAI于2024年5月發(fā)布的GPT-4o,以及Anthropic于6月發(fā)布的Claude-3.5-Sonnet兩個(gè)標(biāo)桿閉源模型得分齊平。