Copyright 2005-2025 王晨云 版權所有 京ICP備20051637號-1
10月14日消息,昨夜,前特斯拉人工智能與自動駕駛視覺總監、OpenAI研究員安德烈·卡帕西(Andrej Karpathy)開源nanochat,號稱可以只用不到100美元(約合人民幣711.5元)訓練出“簡易版ChatGPT”,一經發布在GitHub上就獲得了5.6k星。
▲nanochat Github主頁(來源:Github)
與其早期只涵蓋預訓練的nanoGPT不同,nanochat是一個極簡的、從零構建的全棧訓練/推理流程,用最精簡的依賴代碼庫實現了“簡易版ChatGPT”。
▲安德烈·卡帕西(Andrej Karpathy)推文截圖(來源:X)
卡帕西在評論區中回復稱,nanochat的基本架構類似Meta的Llama,但有所簡化,并吸收了modded-nanoGPT的一些改進。
他還透露,截至指令微調(SFT)階段,整個訓練耗時3小時51分鐘,總成本為92.4美元(約合人民幣657.4元),“這樣我們甚至還能剩下8美元買個冰淇淋犒勞自己。”他開玩笑道。
值得注意的是,由于目前對強化學習(RL)的支持尚不完善,卡帕西稱他并未將其計入總運行時間。
也就是說,開發者只需啟動云GPU實例,運行單個腳本,只需不到100美元(約合人民幣711.5元),最快4小時,就能訓練出可進行簡單對話、創作故事詩歌、回答基礎問題的“簡易版ChatGPT”。
訓練約12小時,模型即可在評估模型推理能力、知識基礎等基礎能力的CORE指標上超越GPT-2。卡帕西還透露,當投入提升至約1000美元(約合人民幣7114.7元),訓練41.6小時后,模型表現還將顯著提升,能夠解決基礎數學/編程問題并通過選擇題測試。
例如,深度為30的模型訓練24小時(相當于GPT-3 Small 125M的計算量,約為GPT-3的千分之一)后,在多任務的語言理解基準MMLU得分超40分,在簡單常識推理任務ARC-Easy超70分,在數學推理能力基準測試GSM8K中獲得超20分的成績。