風(fēng)雨飄搖中的Meta,于昨天發(fā)布了一篇重量級(jí)論文,提出了一種被稱作「早期經(jīng)驗(yàn)」(Early Experience)的全新范式,讓AI智能體「無(wú)師自通」,為突破強(qiáng)化學(xué)習(xí)瓶頸提供了一種新思路。
Meta自從Alexandr Wang加入后混亂不堪,人心惶惶,Yann LeCun也公開表達(dá)出走意愿。
但就在昨天,他們發(fā)了一篇大論文《Agent Learning via Early Experience》,提出了一種被稱作「早期經(jīng)驗(yàn)」(Early Experience)的全新范式,讓AI智能體「無(wú)師自通」,為突破強(qiáng)化學(xué)習(xí)瓶頸提供了一種新思路。

https://arxiv.org/abs/2510.08558
論文作者絕大多數(shù)都是華人。默默做事的,永遠(yuǎn)是華人。
研究背景與問(wèn)題
在現(xiàn)實(shí)場(chǎng)景中訓(xùn)練語(yǔ)言智能體常常面臨一個(gè)兩難困境:
強(qiáng)化學(xué)習(xí)需要明確的環(huán)境獎(jiǎng)勵(lì)信號(hào),但許多真實(shí)環(huán)境缺乏可驗(yàn)證的獎(jiǎng)勵(lì)反饋,或者任務(wù)跨度很長(zhǎng)導(dǎo)致信用分配(credit assignment)困難;
而模仿學(xué)習(xí)(通常采取監(jiān)督微調(diào))則依賴昂貴且有限的專家演示數(shù)據(jù),模型在訓(xùn)練中無(wú)法與環(huán)境交互,因而難以從失敗中學(xué)習(xí),遇到新情況時(shí)泛化能力差。
要么沒有獎(jiǎng)勵(lì)信號(hào)指導(dǎo)學(xué)習(xí),要么只有少量人類示范可供模仿,智能體的自主成長(zhǎng)因此受限。
目前大多數(shù)語(yǔ)言智能體采取監(jiān)督微調(diào)的范式:在靜態(tài)的專家軌跡數(shù)據(jù)上訓(xùn)練策略,將環(huán)境狀態(tài)映射到人類給定的動(dòng)作序列。
這種方法雖然訓(xùn)練方便,卻存在明顯局限:智能體訓(xùn)練時(shí)不與環(huán)境互動(dòng),看不到自己動(dòng)作導(dǎo)致的結(jié)果,無(wú)法「知錯(cuò)就改」,也很難推廣到訓(xùn)練數(shù)據(jù)覆蓋不到的新情境。
此外,高質(zhì)量專家示范數(shù)據(jù)獲取成本高昂,難以大規(guī)模擴(kuò)充。
另一方面,理想情況下我們希望讓智能體像人一樣通過(guò)自身經(jīng)驗(yàn)不斷成長(zhǎng),但是傳統(tǒng)強(qiáng)化學(xué)習(xí)在缺少獎(jiǎng)勵(lì)的環(huán)境中難以奏效。
面對(duì)缺乏獎(jiǎng)勵(lì)信號(hào)且示范數(shù)據(jù)有限的困境,我們亟需新的訓(xùn)練范式來(lái)讓智能體完成自主學(xué)習(xí)。