李想對DeepSeek以及其創(chuàng)始人梁文鋒給出了高度評價,他說從DeepSeek學(xué)到的最重要的一件事,就是如何構(gòu)建模型能力。
李想本人包括謝炎(理想汽車CTO)的內(nèi)心很感謝DeepSeek帶來的幫助,覺得應(yīng)該給對社會貢獻(xiàn)點什么,不讓行業(yè)那么卷,并稱開源星環(huán)OS“說白了純粹是感謝DeepSeek。”
李想還提到了他對AI未來發(fā)展的看法,VLA司機(jī)大模型成為交通領(lǐng)域?qū)I(yè)的生產(chǎn)工具。
李想介紹了VLA的應(yīng)用價值,他表示,規(guī)則算法是“昆蟲動物智能”,端到端模型是“哺乳動物智能”,VLA司機(jī)大模型是“人類智能”。
對于特斯拉FSD入華后的表現(xiàn),李想表示特斯拉并未釋放出真實能力,要和特斯拉學(xué)基本功。
李想也回憶了創(chuàng)業(yè)十周年間的艱難時刻,2024年至2025年年初,理想自動駕駛核心團(tuán)隊成員幾乎接到超過20個獵頭電話。李想還分享了他本人的心路歷程,成為更有能量的人,關(guān)鍵在于關(guān)注自我,接受自身的優(yōu)點和不足,并用成長替代改變。
從信息量來看,這一小時的面對面溝通可謂是干貨滿滿,李想帶來了關(guān)于人工智能和輔助駕駛更深的思考,這也意味著理想汽車在朝著人工智能企業(yè)轉(zhuǎn)型的路上留下了更堅實的足跡。
一、李想高度認(rèn)可梁文鋒自律 開源星環(huán)OS感謝DeepSeek
在理想汽車AI Talk第一季,李想首次全面、深入分享了理想在AI轉(zhuǎn)型方面的進(jìn)展,目前已經(jīng)過去了130天。
理想汽車創(chuàng)始人、董事長兼CEO李想
對于這一期間的變化,李想回應(yīng),130天看到的是整個中國的進(jìn)步,對中國人工智能更有信心。
過去130天國際環(huán)境在發(fā)生重大的變化,技術(shù)也在發(fā)生變化,但技術(shù)最大的變化還是中國在人工智能方面帶來的變化,美國的變化反而沒那么大。
李想說,包括DeepSeek、通義千問在內(nèi)等中國模型,已經(jīng)跟美國的距離基本上拉近了,或者基本上在一個水平線上了,這些方面做的都非常的好。
李想介紹了他從DeepSeek上吸取到的經(jīng)驗。DeepSeek運用了人類的最佳實踐,比如說DeepSeek V3采用了一個671B的MoE(混合專家模型)。
李想從DeepSeek上學(xué)到的內(nèi)容
李想認(rèn)為,MoE(混合專家模型)是個非常好的架構(gòu)。專家能力是怎么來構(gòu)建的?DeepSeek展示了一個最佳實踐,第一步一定要先搞研究。搞完研究以后其實才搞研發(fā),第三步是要把能力表達(dá)出來,然后第四步是能力變成業(yè)務(wù)的價值。
李想認(rèn)為能力構(gòu)建的過程
這四個步驟是個極簡的人類最佳實踐,研究跑通了以后,研發(fā)效率會變得非常的高。但是研發(fā)又非常在意價值,能夠把價值表達(dá)出來,然后變成業(yè)務(wù),這是一個很重要的過程。
李想也對DeepSeek創(chuàng)始人梁文鋒給出了高度認(rèn)可。
去年的9月份,李想在和梁文鋒的溝通中發(fā)現(xiàn),他是個特別自律的人。并且他是會在全世界范圍之內(nèi)去研究和學(xué)習(xí)最佳實踐和最好的方法論的人。
李想還說:“我自己內(nèi)心,包括謝炎(理想汽車CTO)的內(nèi)心想法是,DeepSeek給我們帶來那么大的幫助,我們應(yīng)該給對社會貢獻(xiàn)點什么,不讓行業(yè)那么卷,說白了開源星環(huán)OS純粹是感謝DeepSeek。”
理想開源星環(huán)OS
為什么有了DeepSeek,理想還要自研基座模型?李想回應(yīng)說:“核心在場景需求不同,我們要做車載多模態(tài)交互,尤其是VLA(視覺語言行動模型)——需要3D/2D視覺融合,疊加汽車、交通、家庭場景的專業(yè)語料,這些垂直領(lǐng)域的數(shù)據(jù)和訓(xùn)練邏輯,是通用模型沒覆蓋的。”
對于人工智能未來的發(fā)展,李想表示,當(dāng)AI成為生產(chǎn)工具,人工智能才會迎來爆發(fā)時刻。
李想將AI工具分為信息工具、輔助工具和生產(chǎn)工具,他認(rèn)為當(dāng)AI成為生產(chǎn)工具時,人工智能才會真正爆發(fā),只要人類會雇傭?qū)I(yè)司機(jī),人工智能就能成為生產(chǎn)工具。
李想認(rèn)為工具的三個分級
二、輔助駕駛正經(jīng)歷黎明前的黑暗 VLA能力有機(jī)會超過人類
李想對于當(dāng)前輔助駕駛發(fā)展的爭議以及前景進(jìn)行了回應(yīng)。
今天的輔助駕駛其實走到了一個新的十字路口上,有的人說甚至覺得輔助駕駛應(yīng)該被叫停。
李想認(rèn)為,理想這么多年,從規(guī)則算法,做到了端到端+VLM,然后今天真正的邁入到了VLA(視覺語言行動模型)的階段,比較像黎明前的黑暗。輔助駕駛行業(yè)遇到了問題,這些問題(存在)恰恰是理想的價值所在。
李想認(rèn)為目前輔助駕駛處于黎明前的黑暗
為什么人類一定需要輔助駕駛?
對于這個問題,李想解釋說,只要人類會雇傭?qū)I(yè)司機(jī),人工智能的司機(jī)就存在需求。人工智能技術(shù)其實就是把類似這樣的一些功能和角色,去變成真正的生產(chǎn)力、生產(chǎn)工具,然后去進(jìn)行替代。
李想還說明了人工智能的司機(jī)應(yīng)該達(dá)到的標(biāo)準(zhǔn),李想表示,這和選員工一樣:專業(yè)、職業(yè)、信任。理想要做的人工智能,是有人類價值觀的人工智能,價值觀就像是給人工智能的邊界線、雙實線,要讓人工智能有道德、有邊界。
李想還詳細(xì)回應(yīng)了關(guān)于VLA司機(jī)大模型、人工智能等多個話題。
李想對VLA給出了更容易理解的解讀,簡單說,就是讓汽車像人類司機(jī)一樣思考行動的“大腦”。
VLA司機(jī)大模型以“司機(jī)Agent(智能體)”的產(chǎn)品形態(tài)呈現(xiàn),用戶可通過自然語言與司機(jī)Agent溝通,跟人類司機(jī)怎么說,就跟司機(jī)Agent怎么說。簡單通用的短指令由端側(cè)的VLA直接處理,復(fù)雜指令則先由云端的VL基座模型解析,再交由VLA處理。
司機(jī)Agent(智能體)
李想介紹了VLA的模型架構(gòu)與發(fā)展歷經(jīng)階段。他表示,VLA的實現(xiàn)不是一個突變的過程,是進(jìn)化的過程,經(jīng)歷了三個階段,對應(yīng)理想汽車輔助駕駛的昨天、今天和明天。
第一階段,理想汽車自2021年起自研依賴規(guī)則算法和高精地圖的輔助駕駛,類似“昆蟲動物智能”。第二階段,理想汽車自2023年起研究,并于2024年正式推送的端到端+VLM(Vision Language Model,視覺語言模型)輔助駕駛,接近“哺乳動物智能”。
李想認(rèn)為輔助駕駛進(jìn)化過程
端到端模型在處理復(fù)雜問題時存在局限,雖可借助VLM視覺語言模型輔助,但VLM使用開源模型,使其在交通領(lǐng)域的能力有限。同時端到端模型也難以與人類溝通。為了解決這些問題并提升用戶的智能體驗,理想汽車自2024年起開展VLA研究,并在多項頂級學(xué)術(shù)會議上發(fā)表論文,夯實了理論基礎(chǔ)。
VLA司機(jī)大模型訓(xùn)練與推理過程
在端到端的基礎(chǔ)上,到第三階段,VLA將開啟“人類智能”的階段。
它能通過3D和2D視覺的組合,完整地看到物理世界,而不像VLM僅能解析2D圖像。同時,VLA擁有完整的腦系統(tǒng),具備語言、CoT(Chain of Thought,思維鏈)推理能力,既能看,也能理解并真正執(zhí)行行動,符合人類的運作方式。
輔助駕駛強(qiáng)化學(xué)習(xí)
李想還列舉了端到端+VLM(視覺語言模型)架構(gòu)可能無法解決,但VLA(視覺語言行動模型)可以解決的corner case(長尾案例)。
他表示,VLA的突出優(yōu)勢表現(xiàn)在兩方面,一方面是對復(fù)雜東西的理解,VLA(司機(jī)大模型)能夠有效地去處理了,而且不需要通過海量的數(shù)據(jù)訓(xùn)練。
另外一方面是跟人溝通,雖然今天VLA可能能力還沒那么強(qiáng),像一個剛從駕校學(xué)完的新手司機(jī),但還有一個成長的過程。
雖然VLA較端到端+VLM實現(xiàn)了巨大提升,但有可能一步直達(dá)VLA嗎?
李想表示沒有可能,他表示,VLA的誕生不是突變,而是進(jìn)化,端到端是VLA的基礎(chǔ)。只有做好規(guī)則算法,才能知道如何做端到端,只有把端到端做到極致水平,才有機(jī)會去做VLA,這個過程沒有捷徑。
對于VLA的應(yīng)用前景,李想充滿了信心。他舉了DeepSeek爆發(fā)的例子,“擁抱DeepSeek的速度比想象中快,所以VLA到來的速度也比想象中快。”
VLA(視覺語言行動模型)是終極的架構(gòu)嗎?李想表示,VLA(司機(jī)大模型)能夠解決到全自動駕駛,但是VLA(司機(jī)大模型)是否是一個效率最高的方式,是否有效率更高的架構(gòu)出現(xiàn),這些還要打個問號,他認(rèn)為大概率還是會有下一代架構(gòu)的。
不過,李想表示,VLA是現(xiàn)階段能力最強(qiáng)的架構(gòu),它的能力是最接近人類的,甚至有機(jī)會超過人類。
針對理想汽車的人工智能的探索歷程,李想感慨到,理想人工智能走的是無人區(qū)。
李想說:“做VLA,理想走的是一個無人區(qū)。Deepseek沒有走過這條路,OpenAl沒有走過這條路,谷歌、Waymo也沒有走過這條路。理想以前走的是汽車的無人區(qū),以后走的是人工智能的無人區(qū)。”
三、理想輔助駕駛團(tuán)隊險被挖角 特斯拉FSD入華未釋放真實能力
李想之前對內(nèi)說過一句話,說理想的智駕原創(chuàng)性超過了增程。
李想說:“我們在這方面的研究工作真的做得很深。為了做好這個輔助駕駛,我們還做了操作系統(tǒng),構(gòu)建了完整的訓(xùn)練體系,甚至直接去改芯片、底層軟件,這方面工作肯定做的比這個增程做的工作量更多。
李想還透露:“2024年和2025今年年初,我們每一個輔助駕駛團(tuán)隊的核心人員可能基本上都會接到20個以上的獵頭電話。”
李想還談?wù)摿颂厮估璅SD在華表現(xiàn)等問題。
李想判斷,從實測來看,特斯拉大概在用FSD V12.5之前的模型,距離特斯拉真實能力還有巨大的差距。特斯拉FSD V13.0以后的能力還是非常強(qiáng)的,特斯拉基本功是非常扎實的。
李想也進(jìn)一步解釋了為什么特斯拉沒有在華釋放真實的能力的原因,中國有著極為復(fù)雜的路況,如果直接上端到端,遇到這些復(fù)雜的場景,還是會遇到挑戰(zhàn)。
四、創(chuàng)業(yè)十周年之際 李想自述耐受力很差
除了分享理想汽車在VLA大模型上的探索進(jìn)展及成果外,李想還分享了創(chuàng)業(yè)及對人性的思考。
今年7月份是理想成立十周年,站在今天,李想回憶了創(chuàng)業(yè)十年的幸福時刻和痛苦時刻。
李想腦海中第一個最重要的畫面,是2018年第一次發(fā)布,一直延續(xù)到2019年的4月份,上海車展第一次帶有價格的正式展示,理想真的做出來一輛車,并且受用戶喜歡。在上海車展的展館里面,理想是人流量最大的一個展臺。
理想ONE
另一個是2022年發(fā)布L9的時候,到了2025年,還有至少5個企業(yè)因為當(dāng)時L9的成功,在打造跟L9相同的產(chǎn)品。
剛經(jīng)歷了L9的幸福,痛苦就出現(xiàn)了。
李想回應(yīng)到,那時候全網(wǎng)的黑公關(guān)都說理想汽車倒閉,那一個季度理想虧了將近二十億,忽然從巔峰掉到谷底,理想認(rèn)識到很多能力不足,但正是因為這件事情,理想調(diào)整后在2023年做到了1200億的收入。
李想說:“反正我創(chuàng)業(yè)那么多年了,當(dāng)問題來的很多時候,又是一個更大的機(jī)會的到來。所以我對這方面其實也沒那么糾結(jié)。我對于不正常的事情耐受力很差,但我對于一些不好的東西解決完以后,整個記憶能力也很差,會把它忘掉。”
李想也進(jìn)一步分享了自己創(chuàng)業(yè)的心路歷程。
就如何能吸引到更多能量的人,李想談了自己的看法,他認(rèn)為要關(guān)注人,尤其是關(guān)注那些離得最近的人,關(guān)注親密關(guān)系的人,關(guān)注人的時候首先你得先關(guān)注自己。
李想介紹了他是如何關(guān)注自己的:“第一,我會接受自己所有的優(yōu)點。第二個是要能接受自己的不足。第三是用成長替代改變。”
李想還補(bǔ)充說,他在做理想汽車的時候就非常注重資本,請最好的FA(財務(wù)顧問),請最好的律所,“今天大家可以看到所有的新勢力企業(yè)里面,理想汽車的股權(quán)架構(gòu)、治理結(jié)構(gòu)、資本現(xiàn)金管理都是做得最好的。”
李想說:“我并沒有改變我的業(yè)務(wù),其實是增強(qiáng)了一個能力,所以它是個成長。我們會面臨方方面面的能力成長,就能給自己帶來能量。”
李想還講了如何帶來能量,第一能自己產(chǎn)生能量,第二能夠帶給別人能量,第三能從別人那獲取能量。
結(jié)語:VLA大模型競爭加劇
當(dāng)前,VLA也被業(yè)內(nèi)越來越多人視為實現(xiàn)L4級自動駕駛的關(guān)鍵路徑,能夠通過語言模型引入邏輯推理能力,突破端到端模型的黑箱局限。
關(guān)于VLA的競爭已經(jīng)打響,理想、元戎啟行、吉利汽車都已布局,行業(yè)正展開“軍備競賽”。
理想汽車在去年二季度財報電話會議上表示已啟動端到端VLA模型的研究,隨著VLA的落地上車,理想汽車有望進(jìn)一步讓用戶體驗到“專職司機(jī)”水平,加快從新能源汽車制造商向人工智能企業(yè)的轉(zhuǎn)型。