毫無疑問,Google最新推出的Gemini 3再次攪動了硅谷的AI格局。在OpenAI與Anthropic激戰正酣之時,谷歌憑借其深厚的基建底蘊與全模態(Native Multimodal)路線,如今已從“追趕者”變成了“領跑者”。
此次Gemini 3不僅在多模態能力上實現了新的飛躍,更被視為谷歌對Scaling Law最極致的一次執行。
硅谷101在11月20日舉辦了一場直播,邀請了四位處于AI研發與應用最前線的嘉賓:
-
田淵棟,前Meta FAIR研究總監、AI科學家
-
陳羽北,加州大學戴維斯分校助理教授、Aizip聯合創始人
-
Gavin Wang,前Meta AI工程師、負責Llama 3后訓練及多模態推理
-
Nathan Wang,資深AI開發者、硅谷101特約研究員

我們試圖透過Gemini 3的發布,試圖回答關于AI未來的幾個關鍵問題:Gemini 3到底強在哪里?谷歌究竟做對了什么?全球大模型競爭格局將如何改變?LLM的未來走向,以及在LLM之外,最前沿的AI實驗室正在關注什么?
以下是我們直播中的嘉賓濃縮觀點,如果想收看完整直播內容,可以關注我們的YouTube和B站回放。
01 體驗實測:Gemini 3到底強在哪里?
在Gemini 3發布后的48小時內,各大榜單被迅速刷新。不同于以往模型僅在單一維度(如代碼或文本)上的提升,Gemini 3被認為是真正意義上的“全模態原生”模型。對于使用者而言,這種技術參數上的提升轉化為怎樣的實際體感?
來源:LM Arena
陳茜:各位這兩天都在高強度測試Gemini 3,它真的如排行榜那樣霸榜嗎?大家能不能舉例講講,它到底好在哪里?
Nathan Wang:我這兩天大概集中使用了三個主要產品:Gemini主App、針對開發者的Google AntiGravity,以及今天剛發布的Nano Banana Pro。
說實話,AntiGravity給我感覺非常像是一個Agentic時代的IDE(集成開發環境)。它和Cursor或者Claude Code不太一樣的地方在于,它把界面分成了 "Manager View"(經理視角) 和 "Editor View"(編輯視角)。
以前我們在Cursor里,雖然AI幫我們寫代碼,但感覺還是“我”在寫。但在AntiGravity里,Manager View讓你感覺你是坐在那里的經理,底下有8到10個Agent小弟在干活。你可以看著它們分工,有的在寫程序,有的在Run Unit Test(單元測試)。
最驚艷的是它結合了Browser Use的功能。比如我寫了一個前端網頁,它有一個叫Screenshot Pro的功能,跑分非常高。它可以直接調用Chrome瀏覽器打開那個網頁,“看”著屏幕去測試。如果你讓它上傳一個文件、點擊一個按鈕,它能像人一樣去操作。這意味著測試加上開發完全自動化了,變成了一體式的開發體驗。
另外,Nano Banana Pro在生成幻燈片這個點上解決了我很大的痛點。以前我讓AI做PPT,比如“解釋一下Gemini從1.0到3.0的發展路線”,它往往邏輯鏈是斷的。但這次我試了一下,它不僅能把邏輯理順,還能生成非常復雜的圖表。我覺得市面上那些做Slides(幻燈片)的軟件可能都要被它取代了。