由上海報業集團作為指導單位、界面新聞主辦、梅賽德斯-奔馳作為戰略合作伙伴的第七屆【界面財經年會】于12月18日在上海世博創意秀場成功舉辦。商湯絕影CTO肖楓發表主旨演講《讓每一輛車擁有「有趣的靈魂」》。
以下為主旨演講實錄:
大家好,我是來自商湯絕影的肖楓,今天非常有幸,我給大家分享一下我們最新的基于商湯流式多模態大模型的一個創新產品,它叫New Member,我們希望New Member能夠給每一輛車都帶來一個「有趣的靈魂」。
首先跟大家分享大模型進入車艙的整體趨勢。從去年開始大模型就開始逐漸進入智能車艙,帶來一個全新的智能化體驗。大家可以感受到首先進入的是一種工具的形態,從案例角度來說,大家看見有了「車書」,有了「閑聊」,都是基于大模型,尤其是語言大模型。記得「車書」有個挺有意思的例子,在網上說,有人指著一個儀表屏幕上面的標識問:“我突然看見一個小男孩背著一個寶劍在跳舞,這是什么?”
其實這個就是一個沒有系安全帶的提醒,但很多新手司機都不太清楚,然后大模型可以告訴你,“這是你沒有系安全帶,我在提醒”。我只是舉個例子,來說明一個簡單的工具模式是什么樣的。
然后大模型不斷進化,賦予座艙的能力也越來越強,我們把它稱為是一種助理模式。助理模式的典型的一個案例是大家熟知的Agent,也叫智能體。有了智能體以后,工具就變成了助手,比以前更強大了,能夠完成的不只是簡單的單一性的任務了。它可以做一些復雜任務,比如說現在大家都希望有一個旅程的推薦,智能體可以用一種非常泛化的方式,幫忙尋找更合適你的路線餐館等等。
大家在一些車里面已經感受到了這種能力,今天我給大家帶來的是,可以被認為是第三代的車艙大模型能力,這個能力最大的一個區別是,前面不管是工具還是助理智能體,首先車主或者乘客需要知道自己要什么,但在車里面現在場景越來越多,科技感越來越強,很多車主他可能很難描述要什么,也就無法下達準確的指令。
我們的New Member是一種主動性的、有互動能力的、人格化的體現,它能主動察言觀色,看到的這個環境里面用戶需要什么,然后可以推薦一個服務,服務的內容也是動態,會根據每個人的習慣,根據車里面的綜合信息來提供服務,能夠及時和你主動交互,實現一個更好的家庭成員般的服務體驗。
一個有趣的靈魂是怎么形成的,我們提煉了幾個關鍵要素。
首先它要能夠察言觀色,始終一直在觀察你車里面人、車、物、環境的這種變化。這里面核心的技術是商湯絕影的原生流式多模態大模型,多模態感知和理解能力非常強。
第二個叫無時不在,我們專門為這個構建了一個持續推理的框架,來支撐著New Member中流式多模態大模型的持續的運轉和推理。
在這個過程中我們會做到第三步,叫心有靈犀。如何做到心有靈犀?實際上就是把一些我們在人、車、物和環境里面的一些數據,能夠通過模型的推理形成記憶,通過記憶,把服務真正推動了車主和乘客,實現兩者之間的一個新的聯系。
接下來,展開介紹前面三個能力背后絕影的技術。
首先給大家講的是商湯絕影的原生流式多模態大模型,這是端到端的模型,現在很多多模態模型其實有好幾段組成,相當于把圖片轉換成文字,把視頻轉換成圖片再轉換成文字,這些和原生流式多模態大模型相比,雖然都是多模態,但我們的是原生的端到端,我們可以通過感知文字、圖片、視頻等信息,直接端到端的輸出音頻、文字、視頻等,所以整體效率非常高。
接下來是類人記憶框架。剛才談了很多,我們在無時無刻不斷觀察人、車、路、環境的一些數據,這些觀察到的數據我們稱為叫臨時記憶。這些臨時的記憶通過數據管線,通過我們的大模型的推理,可以做加強反思等,形成各種人和人之間的關系,人和物之間的關聯,還有人和車之間的一些關系,這些關系形成了長期記憶。
基于每天不同的場景,通過從臨時記憶和長期記憶中提取重要信息,對這些信息實時處理和分析,作出決策或者解決問題,這就是場景記憶。不同的記憶會塑造不同的New Member。
最后,為了實現人和車之間的心有靈犀,這要求服務是無時不在的,我們設計了Always-on持續推理框架,這個框架目前是端云一體的架構,80%的場景會在端上操作,但是考慮到云上的一些核心的擴展和推理,有一些強大的反思,我們稱為叫慢思考能力,所以還有20%場景就會放在云端,但在整個場景的融合用戶是沒有感知的。
說到數據,大家都會比較敏感。一個是安全方面,擔心私人的記憶是不是會被其他人看到或者聽到。我們商湯絕影專門設計了一個隱私保護和數據安全的安全框架,來支撐整個New Member的持續可靠運行,能夠保證整個數據記憶只會在生成數據的相應環境下才會被觸達,才會給用戶提供專屬的功能體驗。
剛才說了不少技術方面的一些信息,下面通過一個場景來演繹一下我們的產品和技術是怎么支撐的。周五下午,老丁和兒子豆豆一起上車,他們不需要和導航說目的地,New Member會根據數據和記憶進行推理,就會主動問老丁是不是要帶豆豆去網球場打球,得到確認后,就會主動設置導航路線。
最后,我給大家介紹下,產品層面的一些場景和大模型,整個工作流是如何耦合的。前面我們提到的老丁帶孩子打網球的場景,用戶上車了以后,New Member會主動詢問,這是因為Always-on持續運行框架,它一直在記錄人、車服務環境的一些數據,同時把這些數據轉化成為記憶,有了這些基礎,會根據場景推理出你要去的目的地。此外,New Member根據不同的穿著會推薦不同的地方,會猜測你想要做什么事情,有時候也會給出一些建議。
為了和車企更好的合作,我們也打造了記憶的場景庫,專門做了一些人設,這些人設都會自動的構建出來,通過大模型可以構建出不同的人設,車企可以利用這些基礎的場景庫進行組合,或者進行針對性訓練,打造更合適車企風格、滿足用戶需求的角色。
謝謝大家,因為現在有好幾個車企已經都已經開始和我們絕影進行合作,有些進入了量產階段,相信大家很快能夠在車上看到并體驗到“有趣的靈魂”。
作為國內領先的原創財經媒體,上海報業集團丨界面新聞始終關注財經領域最新動態,關注行業最新資訊,為品牌與企業提供市場的全面洞察,助力中國經濟持續發展。
特別鳴謝本次2024財經年會的戰略合作伙伴梅賽德斯-奔馳。作為汽車發明者,梅賽德斯-奔馳擁有著138年榮耀歷程,為廣大中國消費者提供杰出的產品、服務及品牌體驗,實現對中國市場的長期承諾。
歷經70年時光流轉,傳承11代,梅賽德斯-奔馳S級轎車以“世界,盡在于心”之格局,在大型豪華車領域開創駕乘安全新境界、樹立數字豪華新標桿。以數字豪華的智能人機交互體驗、領先完備的駕駛輔助科技,開創了豪華出行的全新時代。
年會最終解釋權歸界面新聞所有