Copyright 2005-2025 王晨云 版權所有 京ICP備20051637號-1
盡管目前文生圖模型(Text-to-Image Models)在生成高保真圖像上表現卓越,但在應對空間感知、空間邏輯推理及多目標空間交互等貼合現實場景的復雜空間智能任務時往往力不從心。現有評估基準主要依賴簡短或信息稀疏的提示詞,難以覆蓋復雜的空間邏輯,導致模型在這些關鍵空間智能維度上的能力缺陷被嚴重低估。
來自阿里高德的一篇最新 ICLR 2026 中稿論文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生圖空間智能的系統性評估基準 SpatialGenEval,旨在通過長文本、高信息密度的 T2I prompt 設計,以及圍繞空間感知、空間推理和空間交互的 10 大空間智能能力維度設計,深入探測文生圖模型的空間智能能力邊界。

SpatialGenEval 將生圖空間智能能力細分為 4 大維度,10 個子維度,覆蓋 25 個現實應用場景,基于 23 個 SOTA 模型的評估結果表明當前模型的空間智能能力仍有待大幅提升
