【財新網(wǎng)】3月21日夜間,騰訊正式推出自研強推理模型“混元T1”正式版。該模型早期版本此前曾在AI聊天機器人元寶APP上小范圍測試,2月中旬曾和DeepSeek R1一起在元寶APP上提供模型服務(wù)。此次正式發(fā)布,騰訊稱混元T1通過大規(guī)模強化學(xué)習(xí),并結(jié)合數(shù)學(xué)、邏輯推理、科學(xué)和代碼等理科難題的專項優(yōu)化,進一步提升了推理能力。
混元T1是騰訊混元發(fā)布的第一款推理模型。推理模型是指模型在預(yù)訓(xùn)練之后的階段采用強化學(xué)習(xí)、思維鏈的技術(shù),進一步“訓(xùn)練”提高模型處理復(fù)雜邏輯推理任務(wù)的能力。混元團隊介紹,在模型后訓(xùn)練階段,96.7%的算力投入到了強化學(xué)習(xí)訓(xùn)練,重點圍繞純推理能力的提升以及對齊人類偏好的優(yōu)化。