午夜在线一区二区,亚洲激情社区,国产字幕视频一区二区

風(fēng)雨飄搖中的Meta，于昨天發(fā)布了一篇重量級(jí)論文，提出了一種被稱作「早期經(jīng)驗(yàn)」（Early Experience）的全新范式，讓AI智能體「無(wú)師自通」，為突破強(qiáng)化學(xué)習(xí)瓶頸提供了一種新思路。

Meta自從Alexandr Wang加入后混亂不堪，人心惶惶，Yann LeCun也公開表達(dá)出走意愿。

但就在昨天，他們發(fā)了一篇大論文《Agent Learning via Early Experience》，提出了一種被稱作「早期經(jīng)驗(yàn)」（Early Experience）的全新范式，讓AI智能體「無(wú)師自通」，為突破強(qiáng)化學(xué)習(xí)瓶頸提供了一種新思路。

剛剛，Meta風(fēng)雨飄搖中發(fā)了篇重量級(jí)論文，作者幾乎全是華人

https://arxiv.org/abs/2510.08558

論文作者絕大多數(shù)都是華人。默默做事的，永遠(yuǎn)是華人。

研究背景與問(wèn)題

在現(xiàn)實(shí)場(chǎng)景中訓(xùn)練語(yǔ)言智能體常常面臨一個(gè)兩難困境：

強(qiáng)化學(xué)習(xí)需要明確的環(huán)境獎(jiǎng)勵(lì)信號(hào)，但許多真實(shí)環(huán)境缺乏可驗(yàn)證的獎(jiǎng)勵(lì)反饋，或者任務(wù)跨度很長(zhǎng)導(dǎo)致信用分配（credit assignment）困難；

而模仿學(xué)習(xí)（通常采取監(jiān)督微調(diào)）則依賴昂貴且有限的專家演示數(shù)據(jù)，模型在訓(xùn)練中無(wú)法與環(huán)境交互，因而難以從失敗中學(xué)習(xí)，遇到新情況時(shí)泛化能力差。

要么沒有獎(jiǎng)勵(lì)信號(hào)指導(dǎo)學(xué)習(xí)，要么只有少量人類示范可供模仿，智能體的自主成長(zhǎng)因此受限。

目前大多數(shù)語(yǔ)言智能體采取監(jiān)督微調(diào)的范式：在靜態(tài)的專家軌跡數(shù)據(jù)上訓(xùn)練策略，將環(huán)境狀態(tài)映射到人類給定的動(dòng)作序列。

這種方法雖然訓(xùn)練方便，卻存在明顯局限：智能體訓(xùn)練時(shí)不與環(huán)境互動(dòng)，看不到自己動(dòng)作導(dǎo)致的結(jié)果，無(wú)法「知錯(cuò)就改」，也很難推廣到訓(xùn)練數(shù)據(jù)覆蓋不到的新情境。

此外，高質(zhì)量專家示范數(shù)據(jù)獲取成本高昂，難以大規(guī)模擴(kuò)充。

另一方面，理想情況下我們希望讓智能體像人一樣通過(guò)自身經(jīng)驗(yàn)不斷成長(zhǎng)，但是傳統(tǒng)強(qiáng)化學(xué)習(xí)在缺少獎(jiǎng)勵(lì)的環(huán)境中難以奏效。

面對(duì)缺乏獎(jiǎng)勵(lì)信號(hào)且示范數(shù)據(jù)有限的困境，我們亟需新的訓(xùn)練范式來(lái)讓智能體完成自主學(xué)習(xí)。

欧美精品1区,99久久婷婷,亚洲国产日韩欧美在线,麻豆91精品视频

剛剛，Meta風(fēng)雨飄搖中發(fā)了篇重量級(jí)論文，作者幾乎全是華人

每日播報(bào)更多>>

營(yíng)銷策劃更多>>

原創(chuàng)作品更多>>

技術(shù)分享更多>>

網(wǎng)絡(luò)知識(shí)更多>>

博客圈子更多>>