·大模型的長處在于能夠找到新的解法,幫助解決新問題,一旦解決以后可以在狹窄領(lǐng)域產(chǎn)生大量數(shù)據(jù),重新訓(xùn)練小模型。商湯推出了千億參數(shù)大模型,也會(huì)推出針對不同垂直領(lǐng)域的百億參數(shù)小模型,有的小模型甚至可以跑在終端上,成本更低。
今年4月,人工智能軟件企業(yè)商湯科技聯(lián)合上海人工智能實(shí)驗(yàn)室等提出首個(gè)感知決策一體化的端到端自動(dòng)駕駛大模型UniAD,開創(chuàng)了以全局任務(wù)為目標(biāo)的自動(dòng)駕駛大模型架構(gòu)先河。
大模型+自動(dòng)駕駛將帶來哪些駕駛體驗(yàn)?在今年7月舉辦的2023世界人工智能大會(huì)期間,商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛在接受采訪時(shí)表示,自動(dòng)駕駛的挑戰(zhàn)之一是AI模型的可解釋性不高,但大模型尤其是語言模型不單是輸出結(jié)果,還可以輸出邏輯推理過程來解釋原因,因此未來的自動(dòng)駕駛系統(tǒng)將會(huì)有更好的可解釋性。
商湯科技以視覺算法起家,2019年起布局10億參數(shù)規(guī)模的視覺模型,今年4月發(fā)布“日日新”大模型體系,涵蓋千億參數(shù)中文大語言模型應(yīng)用平臺(tái)“商量”、文生圖生成模型“秒畫”、AI數(shù)字人視頻生成平臺(tái)“如影”、3D內(nèi)容生成平臺(tái)“瓊宇”(場景生成)和“格物”(物體生成)等。
在“百模大戰(zhàn)”下,商湯如何保持競爭優(yōu)勢?王曉剛表示,一是軟硬件基礎(chǔ)設(shè)施,商湯建立了新型人工智能基礎(chǔ)設(shè)施AI大裝置,打通算力、算法和平臺(tái),降低人工智能生產(chǎn)要素價(jià)格,并從2019年開始研發(fā)大模型,較早建立軟硬件基礎(chǔ)設(shè)施并不斷完善保障了大模型開發(fā)。
二是針對大模型帶給行業(yè)的變化重塑研發(fā)體系。“過去幾年,商湯一個(gè)公司的模型就有幾萬個(gè),而現(xiàn)在是讓一個(gè)大模型賦能各行業(yè),所以需要針對這個(gè)特點(diǎn)重塑研發(fā)體系?!备餮邪l(fā)團(tuán)隊(duì)基于基礎(chǔ)大模型開發(fā)各個(gè)垂直方向的新研發(fā)體系和產(chǎn)品,前端產(chǎn)品深入到各行業(yè)后為基礎(chǔ)模型團(tuán)隊(duì)帶來有益反饋,不斷更新和加強(qiáng)模型。
三是不斷創(chuàng)新目標(biāo)和方式,聚集大量人才。今年6月,商湯科技與上海人工智能實(shí)驗(yàn)室、武漢大學(xué)聯(lián)合論文《以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛》(Planning-oriented Autonomous Driving,UniAD)斬獲頂會(huì)最佳論文,該論文提出首個(gè)感知決策一體化的端到端自動(dòng)駕駛大模型UniAD,開創(chuàng)了以全局任務(wù)為目標(biāo)的自動(dòng)駕駛大模型架構(gòu)先河?!按竽P偷难邪l(fā)不是一直去跟隨國外的成果,而是要基于大模型的應(yīng)用有自己的創(chuàng)新?!?
王曉剛還介紹了商湯智能決策今年在緊密模擬真實(shí)世界的暢銷游戲《我的世界》中取得的突破。過去幾年,人工智能研發(fā)機(jī)構(gòu)OpenAI、DeepMind在智能決策上花了大量精力,基于強(qiáng)化學(xué)習(xí)完成開放世界里的任務(wù),“它們過去幾年一共解決了78個(gè)任務(wù),而我們?nèi)诤险Z言模型能夠解決全部262個(gè)任務(wù)?!倍悄軟Q策的市場廣闊,基于大模型,未來可以應(yīng)用到機(jī)器人、自動(dòng)駕駛等領(lǐng)域。
自動(dòng)駕駛系統(tǒng)包含感知、預(yù)測和規(guī)劃三大主任務(wù)。在自動(dòng)駕駛大模型UniAD中,研究人員首次將三大類主任務(wù)及六小類子任務(wù)(目標(biāo)檢測、目標(biāo)跟蹤、場景建圖、軌跡預(yù)測、柵格預(yù)測和路徑規(guī)劃)整合到一個(gè)基于Transformer(注:谷歌開發(fā)的一種深度學(xué)習(xí)模型,OpenAI在此基礎(chǔ)上開發(fā)了GPT)的端到端網(wǎng)絡(luò)框架下,實(shí)現(xiàn)了全棧關(guān)鍵任務(wù)駕駛通用模型,多目標(biāo)跟蹤準(zhǔn)確率超越最佳性能20%,車道線%,預(yù)測運(yùn)動(dòng)位移和規(guī)劃的誤差分別降低38%和28%。
王曉剛表示,今天的自動(dòng)駕駛之所以還不夠智能,原因之一是盡管車上傳感器種類多,但不同類型的傳感器融合仍是挑戰(zhàn),判斷和決策模塊割裂。大模型的出現(xiàn)讓感知、決策、規(guī)劃、控制等眾多模塊實(shí)現(xiàn)端到端的優(yōu)化,“原來這些模塊都是割裂的,分別開發(fā),然后通過手動(dòng)的方式進(jìn)行鏈條,現(xiàn)在以最終的駕駛體驗(yàn)為目標(biāo)進(jìn)行端到端的優(yōu)化,可以提升開發(fā)效率和最終體驗(yàn)。”
王曉剛認(rèn)為,未來大模型將為自動(dòng)駕駛帶來三大變化。一是在核心決策模塊,語言模型將替代簡單規(guī)則,這是因?yàn)檎Z言模型展示出強(qiáng)大的邏輯推理和決策能力,尤其是面向開放世界的各種開放問題。
二是當(dāng)決策模塊變得強(qiáng)大,就可以更好融合從感知模塊輸出的各種信息?!艾F(xiàn)在感知模塊的輸出相對來說比較簡單,就是一些檢測框、標(biāo)簽,持續(xù)的感知信息融合也比較困難,因?yàn)槲覀兊臎Q策模塊不夠強(qiáng)大。當(dāng)決策模塊強(qiáng)大以后,感知輸出也會(huì)變得更加豐富和強(qiáng)大,提升整體安全性和駕駛體驗(yàn)?!?
三是未來的自動(dòng)駕駛系統(tǒng)將會(huì)有更好的可解釋性。自動(dòng)駕駛的挑戰(zhàn)之一是AI模型的可解釋性不高。而大模型尤其是語言模型不單是輸出結(jié)果,還可以輸出邏輯推理過程來解釋原因。所以未來基于大模型的自動(dòng)駕駛在出現(xiàn)問題時(shí),可以更好地診斷,幫助提升自動(dòng)駕駛能力。
除了自動(dòng)駕駛,大模型為各行各業(yè)帶來的價(jià)值是多方面的,價(jià)值也有高低。有時(shí)候大模型可以是一個(gè)聊天工具,有時(shí)候可以將它作為大腦操縱其他App,有時(shí)候也可以把它當(dāng)成編程工具。不同應(yīng)用方式為行業(yè)帶來的價(jià)值差別是巨大的。王曉剛表示,要對大模型進(jìn)行成本考量,在大模型商業(yè)化過程中選擇高價(jià)值的方向進(jìn)行研究和落地。
他表示,商湯正朝著“視覺版ChatGPT”和多模態(tài)大模型方向努力,多模態(tài)大模型的應(yīng)用價(jià)值體現(xiàn)在垂直行業(yè)里。其參與研發(fā)的200億參數(shù)多模態(tài)大模型“書生”統(tǒng)一了自然語言指令,可定義各種開放式任務(wù),對世界的理解更加完整和深刻?!霸械挠?jì)算機(jī)視覺定義任務(wù)時(shí),能夠提供的信息非常有限。現(xiàn)在因?yàn)槎嗄B(tài)模型對世界有了更好的理解,能夠通過語言與實(shí)體世界連接,產(chǎn)生交互。比如老人到國外拿到菜單看不懂,拍一張照片模型就可以告訴他菜單里有什么、點(diǎn)菜的價(jià)格,老人可以提要求是吃葷的還是吃素的、預(yù)算是多少,模型就會(huì)推薦菜品組合?!?
大模型的長處在于能夠找到新的解法,幫助解決新問題,一旦解決以后可以在狹窄領(lǐng)域產(chǎn)生大量數(shù)據(jù),重新訓(xùn)練小模型。這就好比把大模型想象成能力強(qiáng)大的運(yùn)動(dòng)員,“它能夠演示一個(gè)新的體操動(dòng)作,有了示范以后資質(zhì)差的再去學(xué)習(xí)就會(huì)容易很多。我們推出了千億參數(shù)大模型,也會(huì)推出針對不同垂直領(lǐng)域的百億參數(shù)小模型,有的小模型甚至可以跑在終端上,成本更低。如果沒有大模型,小模型也不會(huì)存在,因?yàn)樾∧P筒恢涝趺唇鉀Q某個(gè)問題?!?
大語言模型常常一本正經(jīng)地“胡說八道”,針對大模型存在的這一“幻覺”,王曉剛表示,把準(zhǔn)確信息放在知識(shí)庫里,通過知識(shí)庫的融合就可以較好解決“幻覺”問題。