【財(cái)新網(wǎng)】智源研究院正式公布統(tǒng)一模態(tài)模型進(jìn)展。10月21日,由科技部、北京市支持的民營(yíng)非營(yíng)利機(jī)構(gòu)智源研究院發(fā)布了采用了自回歸(autoregressive)技術(shù)路線的多模態(tài)模型“Emu3”,同步上線開(kāi)源社區(qū)供產(chǎn)業(yè)界進(jìn)一步探索。
自回歸模型根據(jù)之前輸入的變量來(lái)預(yù)測(cè)下一個(gè)變量,是OpenAI推出的GPT系列語(yǔ)言大模型底層技術(shù)路徑,目前市面上大多數(shù)多模態(tài)大模型App是集成了不同架構(gòu)的語(yǔ)言、文生圖、視頻模型,模型的訓(xùn)練、推理亦相互獨(dú)立。僅有OpenAI今年5月發(fā)布的GPT-4o、國(guó)內(nèi)私募機(jī)構(gòu)幻方量化旗下DeepSeek 10月發(fā)布的Janus等少數(shù)模型開(kāi)始了該路線做多模態(tài)的探索,但尚未涉及文生視頻。