一個(gè)大模型持續(xù)寫代碼,能寫多久?一小時(shí)?一天?還是像大部分AI編程工具那樣,完成一個(gè)任務(wù)就結(jié)束對(duì)話?Cursor的CEO MichaelTruell決定搞一次極限壓力測(cè)試!
Michael Truell讓Cursor中的GPT-5.2連續(xù)運(yùn)行了整整一周。
不是一小時(shí),不是一天,而是不眠不休,晝夜不停,168小時(shí)持續(xù)寫代碼。
結(jié)果?
300萬(wàn)行代碼。數(shù)千個(gè)文件。
AI完全從零構(gòu)建出一個(gè)全新瀏覽器。

而且,還是Chrome那種瀏覽器。
HTML解析、CSS布局、文本渲染、還有一個(gè)自研的JavaScript虛擬機(jī)——全是AI自己寫的。
Michael Truell輕描淡寫地發(fā)了條推文:它基本能跑!簡(jiǎn)單的網(wǎng)頁(yè)能快速且正確地渲染出來(lái)。

一個(gè)模型究竟能跑多久
傳統(tǒng)的AI編程工具,比如Github Copilot和早期的其他IDE,都是一問(wèn)一答模式。
對(duì)話長(zhǎng)度有限,上下文有限,任務(wù)復(fù)雜度有限。
后來(lái)出現(xiàn)了所謂的Agentic編程——Claude Code、Cursor Agent、Windsurf等工具讓AI可以自主執(zhí)行多步任務(wù),讀取文件、運(yùn)行命令、修復(fù)錯(cuò)誤。
這已經(jīng)是很大的進(jìn)步,但大多數(shù)情況下,任務(wù)仍然以分鐘計(jì)算,最多幾小時(shí)。
AI完成一個(gè)功能,人類review,然后繼續(xù)下一個(gè)任務(wù)。
但沒(méi)有人嘗試過(guò)讓一個(gè)模型連續(xù)跑一周。
直到GPT-5.2。
Cursor團(tuán)隊(duì)讓GPT-5.2持續(xù)運(yùn)行了整整一周,不是斷斷續(xù)續(xù),而是連續(xù)工作。

在這一周里,它:
-
寫下了超過(guò)300萬(wàn)行代碼
-
創(chuàng)建了數(shù)千個(gè)文件
-
執(zhí)行了數(shù)萬(wàn)億個(gè)token
-
從零構(gòu)建了一個(gè)完整的瀏覽器渲染引擎
一個(gè)模型究竟能運(yùn)行多久?
答案是:理論上,可以無(wú)限。
只要基礎(chǔ)設(shè)施穩(wěn)定,只要任務(wù)足夠明確,AI就能持續(xù)工作——不眠不休,不吃不喝,7×24小時(shí)全年無(wú)休。
就像澳洲的放羊大叔的「賽博黑工」。
但實(shí)際上,不同模型的「耐力」差異巨大。
上下文窗口是第一道門檻。
早期的GPT-3.5只有4K token上下文,意味著對(duì)話稍長(zhǎng)就會(huì)失憶。
Claude 3推出了200K上下文,GPT-4 Turbo跟進(jìn)128K,Gemini 1.5 Pro更是號(hào)稱支持100萬(wàn)token。
但上下文長(zhǎng)度只是理論值——真正考驗(yàn)的是模型在長(zhǎng)任務(wù)中能否保持一致性、專注度和執(zhí)行力。
Cursor團(tuán)隊(duì)在實(shí)驗(yàn)中發(fā)現(xiàn)了關(guān)鍵差異。