【財新網(wǎng)】機器人AI引入大語言模型,即使遇到見過的新情況,也能理解。谷歌近日推出AI機器人模型Robotics Transformer 2(RT-2),作為視覺-語言-動作(vision-language-action,VLA)模型,RT-2配備了大語言模型技術(shù),直接從互聯(lián)網(wǎng)學習知識,可以識別物體、理解語言命令,然后做出有邏輯的動作。
RT-2主要有三種能力:符號理解(Symbol understanding)、推理(Reasoning)和人類識別(Human recognition),依靠這些能力,機器人可以理解“撿起即將從桌子上掉下來的袋子”或“把香蕉移到2加1的和的標志那里”這樣的命令——其中的物體或場景是原有機器人數(shù)據(jù)中從未有過的,機器人模型使用了互聯(lián)網(wǎng)的知識,最后完成操作。