是「司機大模型」,也是你的司機 理想汽車 CEO 李想第一次提到 VLA,是在去年 12 月的與騰訊新聞科技主筆張小珺對談的 AI Talk 第一季上。當時他說:
我們在做的理想同學和自動駕駛,按照行業(yè)的標準其實是分割開的,處于早期階段。我們做的 Mind GPT,其實是大語言模型;我們在做的自動駕駛,我們自己內部叫行為智能,但是像李飛飛(斯坦福終身教授、前 Google 首席科學家)的定義,叫空間智能。只有你真正大規(guī)模去做的時候,你才知道,這兩個之間,有一天一定會連在一起,我們自己內部叫 VLA(Vision Language Action Model,視覺語言行動模型)。
首先是 3D 高斯表征技術,即用很多個「高斯點」來拼出一個 3D 物體,每個點都含有自己的位置、顏色和大小等信息。這項技術通過自監(jiān)督學習,利用海量真實數(shù)據訓練出一個強大的 3D 空間理解模型。有了它,VLA 就能像人一樣「看懂」周圍的世界,知道哪里是障礙物,哪里是可通行區(qū)域。