文|AI鯨選社 曉睿
編輯|楊曉鶴
2023年的這時候,很多人都在講,所有的產品都值得用AI再做一遍。
前阿里的CEO張勇說:“面向AI時代,所有產品都值得用大模型重新升級。”
百度的CEO李彥宏說:“百度還要做第一個把全部產品重新做一遍的公司,用 AI 原生的思維重構產品。”
不過,這些都是大佬們發表在去年的話。在國內大廠卷了一年后,大模型的概念炒作階段已經過去,隨著AI升級后的效果顯現,人們對大模型技術逐漸祛魅,大佬們開始思考,AI的機會到底在哪。
尤其近期有媒體報道,被稱為“AI六小虎”的6家中國大模型獨角獸(智譜、零一萬物、MiniMax、百川智能、月之暗面、階躍星辰)中,已經有兩家逐步放棄預訓練模型,業務重心轉向AI應用,但產品端并沒有見多大動作。
李彥宏也冷靜了下來,他開始思考大模型的能力如何在業務和場景中應用。“簡單機械地往產品中集成大模型的能力,意義不大,純屬過度焦慮。”回望去年他曾發表過的言論,今年的這句話似乎有些反轉,但停下來思考技術如何服務于業務場景,確實是回到了正確的道路。
的確,這次AIGC的浪潮可以應用在非常廣泛的領域,如果AI真的如我們想象的那樣無所不能的話,那這些領域可能早就出現現象級的AI產品了。
但事實卻是,在現有AI能力的支撐下,可能只有10%的產品值得用AI再做一遍,其他90%的產品加了AI后,90%的人嘗鮮后就會忘記它,還有一部分人甚至會對AI產生反感,以及覺得AI很雞肋。
90%的AI功能都很雞肋
如果我們把AI產品分為兩類,一類是AI native的產品,像豆包、通義千問、文心一言這類純AI的對話類產品,這類產品如今已有了千萬級用戶量級的產品誕生,但和移動互聯網時代的微信QQ 10億+的用戶量級還差得很遠,留存率也是一個非常大的問題。
這類產品很受關注,但另一類AI產品也同樣值得關注,就是在原有的業務上如何利用AI做賦能,讓移動互聯網時代的 APP 能利用 AI 煥發新生。
最近新出的支小寶,就是這類產品的典型代表,它剛出現時讓不少人眼前一亮,用AI提升服務的質量的想法也很好。但細究整個操作路徑,改善有限。它本應該幫助人節省時間,提高效率,但支小寶有些能力反而拉長了原來支付寶的使用鏈路。
舉例,如果一個用戶想坐公交,需要刷公交碼,那他可以用手機的NFC直接刷碼上車,不需要打開任何App就完成了這個操作。即便是沒有NFC,也可以把交通碼直接放在桌面,一鍵點開,耗費時長不到2s。但如果我用支小寶坐公交,我需要把APP打開,點開對話,再輸入指令“我要坐公交”,等待2-3s加載出來,這個過程至少需要5s以上。
其次,從支小寶的AI能力上來看,大部分功能并未發揮出 AI 的能力,只要跳出產品定義好的指令模板提問,支小寶很快就會出現難以識別用戶意圖,回答無意義或瞎答的情況。現在大部分的功能看起來是通過產品側,定義某個問題的回答模板,然后調用之前支付寶已支持的接口。
拿【查下我的社保】來舉例,其實就是把原來支付寶社保小程序那個接口調了過來,然后app自動讀取了你支付寶的個人信息,通過你的個人信息決定調哪個城市的小程序,如果是北京就會調【京通】,然后你就能在支小寶里進入這個小程序了。這個和你在支付寶里搜【社保】顯示的內容沒有任何區別,這里到底哪里用到了AI能力,好像也沒有用到。
不管怎么說,支小寶給AI服務生活開了個好頭,并且造勢造得很大,這點還是勇氣可嘉的。不像其他的一些我們熟知的APP,大多都還在內測階段,產品經理們把AI助手的入口埋得很深,生怕用戶發現了它們的能力還很弱。
生活領域,頭部電商APP也在努力尋找AI的落地場景。淘寶在去年九月就上線了智能助手【淘寶問問】,但目前我只在搜索欄找到了它的入口,目前主打的功能是輔助用戶購物決策,這的確是一個很好的切入點,但目前給的建議很空泛,對用戶幾乎產生不了價值。
例如,我提了一個“推薦幾款沖鋒衣”的問題,小淘給我推薦了幾個沖鋒衣品牌的特點,想看具體的還得點擊跳轉。后面綴了一個千元以內的沖鋒衣排行榜的卡片,但這并不是我想要的價位。說明AI還不能根據用戶的消費習慣特征進行推薦,這一點不如直接在淘寶的頁面搜索關鍵詞再做篩選,還能更直觀地看到詳情圖和價格。
同為電商領域扛把子的京東也在瘋狂找AI購物助手的應用場景,和淘寶問問的定位很像,京東京言1.0同樣也在幫用戶做購物決策,它通過和用戶對話的方式推薦商品,同時可以讓AI劃重點總結評論。
體驗下來,發現京東京言的多輪對話理解能力較差,我上個問題在說推薦鼠標墊,中間插了一句無關緊要的話,再回去點我想要的鼠標墊款式,再推薦就變成了T裇 。
同樣讓我覺得對用戶產生不了價值的還有AI劃重點功能,基本只能對好評進行總結,眾所周知,電商的好評大多是被刷出來的,這種被濾鏡過的內容生成AI評價,屬于人為地讓AI『報喜不報憂』,看了之后對用戶沒有任何意義。
無獨有偶,用AI對評價進行總結的能力在餓了么也曾上線過,但是目前這個 APP 的AI入口都難以尋覓,據說之前上線過又很快下線了,原因可能是產品經理們也發現了,這一功能不僅礙眼,還對用戶產生不了價值,并且還要浪費調用大模型的費用。
未來,或許這一功能可以迭代成讓AI能識別真實的評價和刷單的評價,并對用戶評價做出更加客觀的總結和統計分析,差評好評都用更加多維和量化的方式展現出來,還能追溯到原評價的內容,做個完全公正的第三方AI,但這樣一來,亮出差評又有可能會傷害商家的利益,這確實是一個很難權衡的問題。
再說說國內Top1的旅游類產品,在首頁懸浮球上線了一個“攜程問道”,它能幫助用戶做旅行規劃,也能推薦一些景點,但說實話,攜程問道生成的干巴巴文字,并且你不知道它基于什么維度推薦。所以,我更愛看小紅書的真實用戶給出的圖文并茂的內容,或者直接去看攜程的口碑榜和社區版塊UGC發布的內容,現在攜程問道給我的感覺是,很像搜索,但又沒有搜索好用。
大廠產品經理,找不到AI的使用場景
吐槽了那么多,我并不是覺得現有的移動互聯網app都不適合做AI,而是因為在已有的成熟移動互聯網應用中嵌入AI能力,指望AI能為應用帶來指數級的增長,這對目前的大模型能力來說,還有很長的路要走。
核心是很多產品是為了跟上AI的潮流而做AI,而不是真的在解決用戶的痛點問題。
一個好的產品,首先應該解決用戶的痛點,我們現在處在AI風口的時代,同時也是移動互聯網的末期,這個時代有個特點,用戶的痛點基本上都被挖掘完了,每當你發現一個用戶可能存在的某個痛點時,你就會發現市面上早就有對應的產品在做這件事了,很難挖掘到某個用戶沒被解決的需求。所以,通過挖掘用戶痛點,寄希望用AI來滿足用戶未被滿足的需求,就成為一件非常困難的事情。
不可否認,的確有一些AI native產品找到了用戶的痛點,并且完成了市場落地。這些產品大多集中在幻覺率容錯程度高的場景。
例如AI占卜,像之前鯨哥在《高學歷年輕人迷上AI占卜》這篇文章里提到的,月見塔羅這類小眾的AI占卜應用現在都已經落地并且盈利了,其實本質上就是結合用戶的提問和塔羅牌的牌面檢索知識庫,并生成答案的過程,真人塔羅占卜得到的答案本身就模棱兩可,所以即便是AI說錯了答案,用戶的感知也會非常非常低。
例如虛擬女友,也是AI應用中最早落地的,這是因為在聊天的場景中,用戶允許不完美的回應,在聊天的過程中往往更注重情感上的陪伴和互動,而不是追求絕對正確的答案,因此會對虛擬女友的一些小錯誤或不完美之處更加包容。
這些產品發現了用戶的痛點——AI玄學產品,滿足了用戶對24h隨時占卜、價格又便宜的需求;AI聊天類產品,滿足了下沉市場里那些有情感陪伴需求的用戶。但這些需求只是一小部分人群需要的,看起來并不是大眾普遍存在的一些痛點,因此也很難落地成為現象級的應用。
幻覺率是大模型幾乎永遠無法避免的問題。因為訓練AI的數據集不可能是完美的,存在著知識上的錯誤或某些內容的缺失,遇到未涵蓋的情況時,AI就會編出一個答案,讓你覺得煞有其事,但仔細考究就會漏洞百出。
生成式AI的本質是是對已有的數據和知識進行向量化的歸納,總結出下一個字符出現的概率。就連蘋果也發文質疑——目前最先進的GPTo1根本不具備真正的邏輯推理能力,而是基于訓練數據中的模式進行匹配,而非像人類一樣進行符號和邏輯推導。
有人發現,此前測試回答正確的問題,只要改動一個小數據,答案大概率就會出現偏差。
論文鏈接:https://arxiv.org/abs/2410.05229
在一些嚴肅場景中,我們發現AI落地成功的產品寥寥無幾。為什么?因為嚴肅的場景不允許出現錯誤。
比如在銷售服務客戶的場景,設想如果AI來替代銷售服務客戶的話,一是很難對客戶的一些情緒做出回應,二是AI總是傾向于“討好”用戶,如果AI給出了一個錯誤的成交價,這個錯誤到底應該歸結于誰?假使企業宣布AI說的不算話,那又會導致越來越多的用戶不愿意相信AI,依然會直接轉接人工客服。
被寄予厚望的AI客服,雖然能給業務帶來銷量的提升,但卻使得客戶的滿意度降低了,有用戶評論:“作為消費者每次遇到AI客服真的就是怒火中燒,人工客服永遠排不上。”
再比如在出行的場景,AI在某天告訴用戶的預計起飛時間錯了,導致用戶錯誤地決定退票,這將給業務帶來多大的損失。
還有些場景AI可升級,是大家都明眼知道的,但是囿于其他因素,還不敢廣泛應用,因為會影響核心蛋糕。
比如百度的AI搜索,李彥宏聲稱AI搜索的結果永遠不放廣告,用戶對百度上線AI搜索功能后評價卻褒貶不一,有人說搜索的效率顯著提升,有人則認為AI生成的內容不僅慢還“驢頭不對馬嘴”。
從百度近期的財報上看,目前AI搜索不僅對業務營收貢獻甚微,還影響了百度的廣告變現率,對傳統的搜索業務帶來了沖擊。
大廠難做AI,小公司更難。因為大模型需要的算力成本太高,小公司無法承擔得起。
如果是一家小型的創業公司,想要讓LLM實現在嚴肅場景下的準確回答,就需要提供大量的優質數據集來訓練模型,大量的人工來進行數據標注,那就要面臨著GPU算力、部署算法、大模型成本、人力成本相關的問題,這需要非常高昂的成本。
要不要免費開放給用戶使用,又是一個讓產品經理糾結的問題。如果免費,那就意味著用戶量級一旦增加,會面臨著高昂的成本,而目前AI產品又沒有找到合適的商業化方式;如果收費,那就意味著產品的競爭力會變弱,一些本就需求不旺盛的用戶依然會選擇保持原有的習慣。
AI如何賦能現有的業務?
為什么AI從出現到現在,兩年半的時間,還沒有出現一個殺手級的應用?就連有強大算力、有密集人才、愿意投入資金做AI的大廠,諸如字節、阿里、京東這類公司也難以讓AI成功賦能現有的業務?
一是因為AI的使用門檻太高,它對于提問者的要求很高,而大多數人不會提問。就像Perplexity AI 的CEO在訪談中說的“我們最大的障礙不是Google,而是人們天生不會提問。” 沒有高質量的輸入就不會有高質量的輸出,這就是為什么需要有AI提示詞工程,因為在不同水平的提示詞下,大模型的水平差異確實會非常大。
就拿我公司做的智能助手來說,我們后臺看到的用戶提問大多是一些口語化的短句,有人甚至連問題都無法描述清楚,指望用幾個模糊不清的詞讓模型去理解,說實話一個碩士畢業的文科生都很難理解他的意圖,大模型在意圖理解能力上更弱了,它經常識別錯誤用戶的意圖,路由錯了,就會出現答非所問的情況。
為了讓產品更好地落地,一方面需要提升大模型能力,通過不斷地修復badcase提升大模型在垂直領域的生成能力。另一方面,需要引導用戶學會提問,比如在文生圖場景下,將一塊只有提問的白板變成常用場景下關鍵詞的選擇,這樣一來用戶的使用門檻就會低很多。
二是目前AI還處在初期階段,復雜問題的處理還難解決。雖然在Coze上的智能體百花齊放,但這可能需要時間落地產業,就像是互聯網的初期個人建站曾掀起大浪,成為大廠卻都需要10年以上的時間。
現在有一個閱讀類的智能體,主要功能是用戶提供書名,它提供書籍的核心內容和背景資料,使用人數達到了46萬。
現在市場共識,智能體是提升AI能力的捷徑,通過Agent實現復雜問題的拆解處理。很多大廠產品經理,確實在探索智能體解決目前的問題,當然,智能體的工作流如何發揮最大效果,還需要時間探索。
以上兩種方案是以發展的眼光解決問題,目前AI已經落地的業務就兩種:
第一種是AI+寫作/圖像,AI的確可以幫助創作者幾秒生成一篇文章或者一個圖像,一些創作者通過生成百次以上獲得滿意的作品,生成完之后還需要對一些細節問題進行二次加工。
不可否認的是,如果一個會提問的作者用上AI,在信息搜集、內容整理、文章潤色上的效率會翻倍。這一點的確賦能了無數自媒體創作者,有人成功做出來了百萬粉絲的賬號,有人運用AI洗稿一個人批量運營了上百個賬號。
圖像領域借助AI,很多傳統產品也取得了效果,美圖付費訂閱用戶數超1081萬,同比增長50.1%,付費滲透率約為4.2%。美圖負責人吳欣鴻表示:“目前美圖產品的AI含量已經達到87%以上。”雖然開創性AI技術少,但美圖確實利用開源嘗到了AI紅利。
第二種就是AI+ChatBot,除了我們熟知的豆包、文心一言、通義千問這類產品,AI情感陪伴類產品也出現了大規模的增長,一些產品如星野、叨叨、Character AI 等一些含有擦邊的虛擬女友類產品已完成了商業落地。
在一些嚴肅場景下,也有一些面向C端用戶的AI產品,只是目前還不成熟。例如Chat Law 能提供基礎的法律咨詢,完成簡單的法律專業文書寫作,醫聯能給人們線上問診,多鄰國的教育大模型能提供語言陪練、學習內容規劃等,螞蟻的螞小財,能提供最新的財報資訊解讀,還能分析某個基金的走勢。
嚴肅場景下的垂直大模型通過增量預訓練,注入該領域的專業知識,并進行指令微調,再運用RAG(檢索增強生成)來解決大模型在檢索和生成能力上的不足,它能夠讓大模型從外部知識中快速找到與問題相關的信息,然后將這些信息重新整合到現有的答案中,使答案更加豐富具體、符合要求。
但這些場景下的垂直大模型能力尚且不夠,距離能產品化還有很大的距離,還有很多的corner case沒有解決,例如如何拒識領域外的問題,如何避免領域外的問題大模型出現“幻覺”的情況。
不過我相信,隨著技術的迭代,未來大模型的能力會越來越強,成本也會越來越低,最終成為一個人人都用得起,真正走入人們生活,走入千家萬戶的生產力。
這就像是在蒸汽機開始的時代,瓦特1765年發明的蒸汽機,但過了近百年后,蒸汽機才真正被廣泛使用,成為高效又廉價的動力來源。
蔡崇信說:“AI模型訓練就像在教育孩子。”這句話告訴我們,要對AI有足夠的耐心,像培養一個孩子一樣不斷地喂給他成長所需的營養,也許在目前這個階段我們還不能明顯地感知到AI對我們的生活帶來的顛覆性改變,但是只要我們足夠耐心地長期投入,我相信會有一天,AIGC時代的“奇點”就會來臨。