邢龍和董瀟逸為本篇文章共同第一作者。邢龍是中國(guó)科學(xué)技術(shù)大學(xué)博士生,師從林達(dá)華教授和吳楓教授,研究興趣主要集中在 multi-modal LLMs 和 efficient AI。董瀟逸是香港中文大學(xué) MMLab 的博士后研究員,同時(shí)在上海人工智能實(shí)驗(yàn)室擔(dān)任兼職顧問(wèn)研究員,已在頂級(jí)會(huì)議和期刊(如 CVPR、ICCV、ECCV 等)上發(fā)表了 50 余篇論文,Google Scholar 上獲得超過(guò) 10000 次引用。
今天推薦一個(gè) Dense Image Captioning 的最新技術(shù) —— CapRL (Captioning Reinforcement Learning)。CapRL 首次成功將 DeepSeek-R1 的強(qiáng)化學(xué)習(xí)方法應(yīng)用到 image captioning 這種開(kāi)放視覺(jué)任務(wù),創(chuàng)新的以實(shí)用性重新定義 image captioning 的 reward。訓(xùn)練得到的 CapRL-3B 模型,可以成功達(dá)到與 Qwen2.5-VL-72B 相當(dāng)?shù)?captioning 水平!這是 image captioning 領(lǐng)域的一大進(jìn)展,更是為 GRPO 策略應(yīng)用于開(kāi)放任務(wù)提供了重要思路!
目前 Huggingface model&dataset 總下載量已經(jīng)突破 6k,并且正在迭代更強(qiáng)的基座模型以及升級(jí) training recipe,歡迎使用!
