理想創(chuàng)始人李想再度發(fā)聲：不追特斯拉 FSD，自己的老師是 DeepSeek

m.crudeawakening.net 來源：愛范兒編輯：匿名類別：行業(yè)快報時間：2025/5/9 1

今年 3 月，英偉達 2025 春季 GTC 大會，理想汽車自動駕駛技術研發(fā)負責人賈鵬在臺上介紹了他們的最新成果：MindVLA 大模型。

這是一個擁有 22 億參數(shù)的視覺-語言-動作（Vision-Language-Action Model，VLA）模型，賈鵬進一步介紹稱，他們已經成功將該模型部署于車端。在理想看來，VLA 模型是解決 AI 與物理世界交互難題最有效的方法。

在過去的一年里，端到端架構成為智能駕駛領域的技術熱點，推動車企從傳統(tǒng)的分模塊規(guī)則設計轉向一體化系統(tǒng)。曾憑借規(guī)則算法領先的車企面臨轉型陣痛，而后發(fā)者則抓住了彎道超車的機會。

理想便是其中的代表。

理想去年在智能駕駛上的進步可謂飛快，7 月份就率先實現(xiàn)了全國無圖 NOA（導航輔助駕駛），還推出了獨特的「端到端（快系統(tǒng)）+VLM（慢系統(tǒng)）」架構，受到行業(yè)廣泛關注。

今晚，隨著理想 AI Talk 第二季進行，我們對李想口中的「人工智能公司」有了更深的了解。

是「司機大模型」，也是你的司機
理想汽車 CEO 李想第一次提到 VLA，是在去年 12 月的與騰訊新聞科技主筆張小珺對談的 AI Talk 第一季上。當時他說：

我們在做的理想同學和自動駕駛，按照行業(yè)的標準其實是分割開的，處于早期階段。我們做的 Mind GPT，其實是大語言模型；我們在做的自動駕駛，我們自己內部叫行為智能，但是像李飛飛（斯坦福終身教授、前 Google 首席科學家）的定義，叫空間智能。只有你真正大規(guī)模去做的時候，你才知道，這兩個之間，有一天一定會連在一起，我們自己內部叫 VLA（Vision Language Action Model，視覺語言行動模型）。

李想認為，基座模型到一定時刻一定會變成 VLA。原因在于，語言模型只能通過語言和認知去理解三維的世界，這是顯然不夠的。「它需要真正向量的，用 Diffusion（擴散模型）的方式，用生成的方式（去認識世界）」。

可以說，VLA 的誕生，既是對語言智能和空間智能深度結合的一次大膽嘗試，也是理想汽車對「智能汽車」概念的一次重新詮釋。

李想在今晚的 AI Talk 中進一步定義：「VLA 是一個司機大模型，像人類的司機一樣去工作�！顾粌H是一項技術，更是一個能與用戶自然溝通、自主決策的智能伙伴。

那么，VLA 究竟是什么？核心其實非常直白：通過整合視覺感知、自然語言理解和動作生成能力，讓車輛變成一個能與人溝通、能自己做決定的「司機 Agent」。

導航走 ETC 時，駕駛員可以直接命令系統(tǒng)走人工通道（輔助駕駛開啟狀態(tài)）

想象一下，你坐在車里，隨口說一句「今天有點累，開慢點吧」，車輛不僅能聽懂你的意思，還會調整速度，甚至選擇一條更平穩(wěn)的路線。這種自然流暢的交互，正是 VLA 想要實現(xiàn)的。李想透露，所有的短指令，都有由車端直接處理，復雜指令則交由云端 32 億參數(shù)模型解析，確保高效與智能兼得。

實現(xiàn)這樣的目標并不容易。VLA 的特別之處在于，它把視覺、語言和動作三個維度打通了。用戶的一個簡單指令背后，可能涉及到對周圍環(huán)境的實時感知、對語言意圖的精準理解，以及對駕駛行為的快速調整，三者缺一不可。

而 VLA 的厲害之處就在于，它能讓這三者無縫協(xié)作。

從愿景到現(xiàn)實，VLA 的研發(fā)是一片無人區(qū)。李想坦言：「視覺和動作數(shù)據的獲取最為困難，沒有公司能替代。」

要理解 VLA 的技術底色，還得看看理想汽車在智能駕駛上的演進脈絡。

李想表示，早期的系統(tǒng)是「昆蟲級別」智能，僅有百萬參數(shù)，靠規(guī)則和高精地圖驅動，遇到復雜路況就束手無策。后來，端到端架構和視覺-語言模型讓技術躍升至「哺乳動物級別」，擺脫地圖依賴，全國無圖 NOA 成為現(xiàn)實。

實際上，這一步已經讓理想汽車走在了行業(yè)前列，但他們顯然不滿足于此。在李想看來，VLA 的出現(xiàn)，標志著理想汽車的智能駕駛技術邁入了「人類智能」的新階段。

相比之前的系統(tǒng)，VLA 不僅能感知 3D 物理世界，還能進行邏輯推理，甚至生成接近人類水平的駕駛行為。

舉個簡單的例子，假設你在一條擁堵的街道上說「找個地方掉頭」，VLA 不會機械地執(zhí)行指令，而是會綜合路況、車流和交通規(guī)則，找到一個最合理的時間和位置完成掉頭。

李想表示，VLA 能通過生成數(shù)據快速適應新場景，哪怕初次遇到復雜修路，三天內也能優(yōu)化應對。這種靈活性和判斷力，正是 VLA 的核心優(yōu)勢。

理想的老師，是 DeepSeek
支撐 VLA 的，是理想汽車自研的一套復雜而精妙的技術體系。這套體系讓汽車不僅能「看懂」世界，還能像人類司機一樣思考和行動。

首先是 3D 高斯表征技術，即用很多個「高斯點」來拼出一個 3D 物體，每個點都含有自己的位置、顏色和大小等信息。這項技術通過自監(jiān)督學習，利用海量真實數(shù)據訓練出一個強大的 3D 空間理解模型。有了它，VLA 就能像人一樣「看懂」周圍的世界，知道哪里是障礙物，哪里是可通行區(qū)域。

當記憶車位被占，系統(tǒng)會自動尋找其他車位。還能聽懂駕駛員指令，通過墻上的指示牌找到「C3 區(qū)」

接著是混合專家架構（MoE），該架構由專家網絡、門控網絡和組合器組成。當模型參數(shù)超過千億級別時，傳統(tǒng)方法會讓所有神經元參與每個計算，比較浪費資源，MoE 架構中的門控網絡會根據任務的不同調用不同的專家，保證激活參數(shù)不會大幅增加。

聊到這里，李想還順帶夸了一下 DeepSeek：

DeepSeek 運用了人類的最佳實踐…… 他們在做 DeepSeek V3 的時候，其實 V3 也是一個 MoE 的，671B 的一個模型。我覺得 MoE 是個非常好的架構。它相當于把一堆專家組合在一起，然后每一個是一個專家能力。

最后，理想為 VLA 引入了稀疏注意力機制（Sparse Attention），說人話就是 VLA 會自動調整關鍵區(qū)域的注意力權重，從而提升端側的推理效率。

李想表示，在這個新的基座模型訓練過程中，理想的工程師們花了很多時間去找到最佳的數(shù)據配比，融入了大量 3D 數(shù)據和自動駕駛相關的圖文數(shù)據，并減少了文史類數(shù)據的比例。

從感知到決策，VLA 借鑒了人類思維的快慢結合模式。它既能快速輸出簡單的動作決策，比如緊急避讓，也能通過短思維鏈進行「慢思考」，應對更復雜的場景，比如臨時規(guī)劃一條繞開施工區(qū)域的路線。為了進一步提升實時性，VLA 還引入了投機推理和并行解碼技術，充分利用車端芯片的算力，確保決策過程快而不亂。

在生成駕駛行為時，VLA 用到了 Diffusion 模型和基于人類反饋的強化學習（RLHF）。Diffusion 模型負責生成優(yōu)化的駕駛軌跡，而 RLHF 則讓這些軌跡更貼近人類習慣，既安全又舒適。比如，VLA 會在轉彎時自動減速，或者在并線時留出足夠的安全距離，這些細節(jié)都體現(xiàn)了對人類駕駛行為的深度學習。

世界模型是另一關鍵技術，理想通過場景重建和生成，為強化學習提供了高質量的虛擬環(huán)境。李想透露，世界模型將驗證成本從每萬公里 17-18 萬元降至 4000 元。它讓 VLA 在模擬中不斷優(yōu)化，應對復雜場景如履平地。

說到訓練，VLA 的成長過程也頗有章法。整個流程分為三個階段：預訓練、后訓練和強化學習。「預訓練像學習知識，后訓練像駕校學車，強化學習像社會實踐�！估钕胝f。

預訓練階段，理想汽車為 VLA 打造了一個視覺-語言基座模型，塞進了豐富的 3D 視覺數(shù)據、2D 高清影像和駕駛相關的語料，讓它先學會「看」和「聽」；后訓練加入動作模塊，生成 4-8 秒駕駛軌跡，模型從 32 億參數(shù)擴大到 40 億。

強化學習分為兩步：先用 RLHF 對齊人類習慣，分析接管數(shù)據，確保安全舒適；再用純強化學習優(yōu)化，基于 G 值（舒適性）、碰撞和交通規(guī)則反饋，讓 VLA「開得比人類更好」。李想提到，這一階段在世界模型中完成，模擬真實交通場景，效率遠超傳統(tǒng)驗證。

這樣的訓練方式，既保證了技術上的先進性，也讓 VLA 在實際應用中足夠可靠。

李想坦言，VLA 的成功離不開行業(yè)標桿的啟發(fā)。DeepSeek 的 MoE 架構不僅提升了訓練效率，還為理想提供了寶貴經驗。他感慨：「我們站在巨人的肩膀上，加速了 VLA 的研發(fā)�！惯@種開放學習的態(tài)度，讓理想在無人區(qū)中走得更遠。

從「信息工具」到「生產工具」
當下，AI 行業(yè)正經歷一場從「信息工具」到「生產工具」的深刻變革。隨著大模型技術的成熟，AI 不再局限于處理數(shù)據和提供建議，而是開始具備自主決策和執(zhí)行任務的能力。

李想在 AI Talk 第二季中提出，AI 可分為信息工具（如搜索）、輔助工具（如語音導航）和生產工具。他強調：「人工智能變成生產工具，才是真正爆發(fā)的時刻。」隨著大模型技術成熟，AI 不再局限于處理數(shù)據，而是開始具備自主決策和執(zhí)行任務的能力。

這種趨勢，在「具身智能」概念中體現(xiàn)得尤為明顯——AI 系統(tǒng)被賦予物理實體，能夠感知、理解并與環(huán)境互動。

理想汽車的 VLA 模型正是這一趨勢的生動實踐。它通過整合視覺、語言和動作智能，將汽車打造成一個能夠自主駕駛、與用戶自然交互的智能體，完美詮釋了「具身智能」的核心理念。

只要人類會雇傭專業(yè)司機，人工智能就能成為生產工具。當 AI 成為生產工具時，人工智能才會真正爆發(fā)。

李想的這段話，點明了 VLA 的核心價值——它不再是簡單的輔助工具，而是能夠獨立執(zhí)行任務、承擔責任的「司機 Agent」。這種轉變，不僅提升了汽車的實用價值，也為 AI 在其他領域的應用打開了想象空間。

李想對 AI 的思考，總是帶著一種跳出框框的視角。他還提到：「VLA 不是突變的過程，是進化的過程。」這句話精準概括了理想汽車的技術路徑——

從早期的規(guī)則驅動，到端到端的突破，再到如今 VLA 的「人類智能」水平。這種進化思維，不僅讓 VLA 在技術上更具可行性，也為行業(yè)提供了可借鑒的范式。相比一些一味追求顛覆的嘗試，理想的務實路徑或許更適合復雜的中國市場。

從技術到信念，理想的 AI 探索并非坦途。李想坦言：「我們在 AI 領域經歷了很多挑戰(zhàn)，就像黎明前的黑暗，但我們相信，堅持下去就會看到光�！筕LA 的研發(fā)面臨算力瓶頸、數(shù)據倫理等難題，但理想通過自研基座模型和世界模型，逐步迎來了屬于他們的技術曙光。

李想在采訪中還提到，VLA 的成功離不開中國 AI 的崛起。

他表示，DeepSeek、通義千問等模型的出現(xiàn)讓中國 AI 水平迅速接近美國。其中，DeepSeek 所秉持的開源精神尤為令人振奮，它直接直接促使理想開源星環(huán) OS。李想稱：「這不是出于公司戰(zhàn)略考量，DeepSeek 給我們那么大幫助，我們應該為社會貢獻點什么�！�

在追求技術突破的同時，理想汽車并未忽視 AI 技術的安全性和倫理問題。VLA 引入的「超級對齊」技術，通過基于人類反饋的強化學習（RLHF），讓模型的行為更貼近人類習慣。數(shù)據顯示，VLA 的應用使高速 MPI（平均干預里程）從 240km 提升至 300km。

更重要的是，理想汽車強調打造「有人類價值觀的 AI」，將道德和信任視為技術發(fā)展的基石。從更宏觀的視角看，VLA 的意義還在于，它重新定義了車企這一角色。

過去，汽車是工業(yè)時代的交通工具；如今，它正在演變?yōu)槿斯ぶ悄軙r代的「空間機器人」。李想在 AI Talk 中提到：「理想以前走的是汽車的無人區(qū)，以后走的是人工智能的無人區(qū)。」理想的這種轉變，為汽車行業(yè)的商業(yè)模式帶來了新的想象空間。

當然，VLA 的發(fā)展并非沒有挑戰(zhàn)。算力的持續(xù)投入、數(shù)據倫理以及消費者對自動駕駛的信任建立，都是理想汽車需要面對的課題。此外，AI 行業(yè)的競爭日趨激烈，國內外巨頭如特斯拉、Waymo 和 OpenAI 都在加速布局多模態(tài)模型，理想需要在技術迭代和市場推廣上保持領先�！肝覀儧]有捷徑，只能深耕。」李想說。

毫無疑問，VLA 的落地將是關鍵節(jié)點。

理想汽車計劃在 2025 年 7 月與純電 SUV 理想 i8 同步發(fā)布 VLA，并在 2026 年實現(xiàn)量產。這不僅是對技術的一次全面檢驗，更是市場的一塊重要試金石。

李華 (李華)

汽車配件110網

理想創(chuàng)始人李想再度發(fā)聲：不追特斯拉 FSD，自己的老師是 DeepSeek

相關資訊:(　關鍵字：理想創(chuàng)始人李想)

最新行業(yè)快報報道

汽配新聞目錄索引

最新汽配加盟商

最新汽配供求

汽車配件110網

理想創(chuàng)始人李想再度發(fā)聲：不追特斯拉 FSD，自己的老師是 DeepSeek

相關資訊:( 關鍵字：理想創(chuàng)始人李想)

最新行業(yè)快報報道

汽配新聞目錄索引

最新汽配加盟商

最新汽配供求

理想創(chuàng)始人李想再度發(fā)聲：不追特斯拉 FSD，自己的老師是 DeepSeek

相關資訊:(　關鍵字：理想創(chuàng)始人李想)