Copyright 2005-2025 王晨云 版權(quán)所有 京ICP備20051637號(hào)-1
機(jī)器人與智能體領(lǐng)域,一個(gè)老大難問(wèn)題是:當(dāng)你讓機(jī)器人 “把黃碗放進(jìn)白色空籃子” 或 “從微波爐里把牛奶取出來(lái)放到餐桌上” 時(shí),它不僅要看懂環(huán)境,更要解釋指令、規(guī)劃路徑 / 可操作區(qū)域,并把這些推理落實(shí)為準(zhǔn)確的動(dòng)作。目前,很多 VLA(Vision-Language-Action)模型仍傾向直接輸出動(dòng)作,缺乏對(duì)可供性(affordance)與軌跡(trajectory)幾何關(guān)系的顯式推理,一旦遇到顏色相近、目標(biāo)重復(fù)或容器多選等場(chǎng)景,就容易出錯(cuò)。VLA-R1 的目標(biāo),不僅把 “會(huì)想” 這步補(bǔ)上,而且通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步加強(qiáng)執(zhí)行動(dòng)作的準(zhǔn)確性,讓機(jī)器人解釋清楚再去準(zhǔn)確執(zhí)行
VLA-R1 出場(chǎng):它是什么?
