文|讀懂財經
如果大模型是雷神之錘,那么適合它的釘子在哪?過去一年里,所有人都在急切地尋找這個問題的答案。人形機器人,可能是所有科技公司為數不多的一個共識。
近日,據外媒報道,微軟與OpenAI正洽談參與人形機器人公司Figure的新一輪融資,本輪融資金額最高可能達5億美元。
這已經是OpenAI出手投資的第二家人形機器人公司。這并不是孤例。幾乎所有布局大模型的人和公司,都在研究人形機器人有著濃厚的熱情,并投入了研究資源。從英偉達到谷歌,從亞馬遜到Meta,甚至包括馬斯克,莫不是如此。
作為一個曾經經歷幾度起伏的高科技技術,市場對人形機器人的熱情被AI 大模型徹底“點燃”。正如很多人預期的那樣,在在生成式AI通過AGI(人工通用智能)的道路上,人形機器人是不可或缺的重要硬件載體。
人形機器人,正在重新回到熟悉的聚光燈下。
/ 01 / 機器人熱情由來已久
此次投資Figure,并不是OpenAI第一次投資人形機器人公司。去年3月,來自挪威的人形機器人初創企業 1X Technologies(簡稱:1X),獲得了一輪由 OpenAI 創業基金領投的 2350 萬美元融資,成為了 OpenAI 投資的第一家硬件公司。
OpenAI的初創企業基金全稱是“OpenAI Startup Fund”,投資方向更側重于率先實現AI技術落地的方向。這也是OpenAI投資1X的重要邏輯。OpenAI一名高管曾公開表示,“投資1X瞄準的時機是其機器人硬件已經成熟,能夠在AI的加持下開拓更廣泛的勞動力市場。”
如今,再次加注機器人賽道,說明OpenAI對人形機器人賽道的高度看好。作為人形機器人領域領先的創業公司,1X和Figure都已經推出了人形機器人的產品。
其中,1X共有兩款機器人產品,工作機器人EVE和正在研發的家用雙足機器人NEO。而Figure也在去年發布了第一款通用人形機器人Figure 01,目前Figure已經與寶馬達成協議,將在汽車制造領域部署“通用人形機器人”。
事實上,OpenAI對人形機器人的熱情由來已久,比大家想象得更高,甚至OpenAI還一度專門在內部成立了一個機器人部門。
早在2017年,OpenAI的機器人團隊,就發布過用于模擬機器人控制的開源軟件Roboschool。2018年,團隊研發出來的機械臂已經能自如地“盤核桃”,即靈活把玩木塊。當然,OpenAI機器人團隊最著名的研究,是它研發的機械手,單手就能擰魔方:
當然,對人形機器人情有獨鐘的大模型企業還不止OpenAI。一個有趣的現象是,幾乎每一個在大模型領域有所建樹的企業,都或多或少地布局了人形機器人。
就拿谷歌來說,去年10月DeepMind發布RT-X機器人大模型,并開放訓練數據集Open X-Embodiment。今年1月,谷歌DeepMind團隊和斯坦福大學華人團隊合作研發的能炒菜、做家務的通用機器人Mobile ALOHA刷屏全網。
至于馬斯克就更不用說,去年7月成立了一家名為X.Al的人工智能公司,今年年底,特斯拉推出了人形機器人擎天柱,并有望在明年實現交付。
AI大模型落地過程中,人形機器人究竟扮演著怎么角色,能夠受到這么多的青睞?
/ 02 / 人形機器人,AGI的“答案”?
在說大模型與人形機器人關系之前,我們需要先對什么是人形機器人有一個認知。
必須明確一點的是,機器人并不是一個新興事物。在人形機器人出來之前,工業機器人已經是一個超過500億的市場,并廣泛應用于汽車、3C、紡織、包裝等行業。
但是工業機器人也有很明顯的弊端,就是通用性不足。傳統的工業機器人并不能直接使用,需要被系統集成商集成后使用。機器人的系統集成不僅需要結合對客戶工藝的理解高度定制,同時也是嚴重依賴工程師的經驗。這注定了工業機器人適用于大規模、重復性生產的工作。
與其說,工業機器人是機器人,倒不如說其更像是自動化設備。在這一點上,人形機器人無疑更接近我們對機器人的理解。
人形機器人,顧名思義就是形態更接近人的機器人。但外在的形態不過是表象,其內核的特點是機器人的智能性和通用性。之所以選擇“人形”,只是因為我們活動的世界是為人的身體所創造的,人的形態可以操作一切工具,具有最廣泛的適應性。
從物理維度上說,人形機器人由三個模塊組成,分別是“肢體”“小腦”和“大腦”,其中“肢體”由靈巧手、傳感器等一系列硬件組成,“小腦”負責運動控制,“大腦”則主導機器人的環境感知、推理決策和語言交互。
而大模型的出現,將語義理解能力和推理生成能力引入其中,相當于給人形機器人換了個“大腦”。 大模型對人形機器人的提升主要體現在兩個方面:感知能力和思考決策能力。
先說感知能力,大模型的強擬合能力使得人形機器人在進行目標識別、避障、三維重建、語義分割等任務時有可能實現更高的高精確度。舉個例子,現在AI已經可以做到識別障礙物,但是如果路邊有個人舉個牌子,說前方橋斷請繞行。過去的AI很難理解這種情況,但基于大模型的人形機器人卻有可能識別、理解這些信息。
思考決策能力的意思是,人形機器人具備較好的知識完備性,能夠把一個指令拆解成多個子任務和子指令,在不同場景去完成各種任務。比方說,你和機器人說“把飯熱一下”,它知道要去找微波爐。
隨著谷歌、英偉達等公司對大模型+機器人探索的深入,上述積極影響也得到了證實。2022 年 12 月,谷歌發布了RT-1模型。這是一個基于機器人數據的端到端模型,輸入端是一小段圖像序列和用文本描述的任務,輸出端是動作指令,包括7個維度的手臂動作指令、3個維度的基礎移動指令和1個維度的狀態切換指令。
研究人員讓機器人執行了超過 700 項任務,結果顯示:在之前見過的場景、之前未見過的場景、被干擾場景、背景更換場景,搭載 RT-1 模型的機器人都展現出了更高的成功率。
值得一提的是,這是機器人首次通過龐大的、多樣化的、任務無關的數據,展現出泛化性,執行了一些未曾見過的任務。
去年7月,谷歌發布了RT-2,這是一個視覺—語言—動作模型。在這個模型里,谷歌將參數量從35M提高到55B。研究人員對RT-2模型進行了和RT-1一樣的測試。結果顯示,RT-2的理解能力、推理能力、針對未知場景的泛化能力都顯著優于RT-1模型。
可以說,基于大模型的AI技術讓人形機器人通用化變成了可能。而人形機器人作為一個硬件載體,也讓生成式AI距離AGI的目標越來越近了。
/ 03 / 重新回到聚光燈下
盡管引入大模型后擁有了“常識”,并帶來了一定的泛化能力,解決了自然語言理解和任務規劃的兩大難題,也有越來越多公司發布人形機器人,似乎這一切離我們越來越近了。但我們必須清醒認識到:人形機器人距離真正落地仍然有很長的路要走。
大模型對人形機器人智能化的突破固然可喜,但并不解決機器人硬件層面的難題。人形機器人的操作能力和移動能力需要借助硬件本體的硬件和算法來實現,但在過去50年的人形機器人研究歷程中,這個難關一直沒有被攻克。
比如,掃地機器人能通過底盤滑動前行,四足機器狗可以靠四肢保持穩定和平衡,但人形機器人只有兩條腿,行動時只能依賴一條腿保證整個身體的穩定和平衡。大模型對物理運動能力的幫助是有限的。
對于人形機器人公司來說,另一大挑戰是數據。人形機器人的模型訓練需要大量決策數據做支撐,如果數據不夠,輸出的結果會容易漂移,成功率也會受影響。
目前,遙操作數據是各家機器人收集數據的重要方法,操作邏輯是先學習和分解人是怎么做到的,然后對應機器人要怎么做到。由于采用的是真實世界數據,數據質量最高,但采集成本也很高。比如,谷歌用于訓練 RT-1 和 RT-2 的機器人數據是歷時超過17個月在13個機器人上收集而來。當年,OpenAI解散了旗下的機器人團隊,獲取收集難度大就是一個重要原因。
這也是大模型企業都在布局人形機器人的原因。借助機器人的硬件本體,AI可以更多的接觸外界信息,這些數據也有反哺AI算法的可能性。比如,特斯拉的自動駕駛汽車在高速路上積累的數據,哺育了 FSD 的算法系統,提供了最基本的數據基礎。
盡管有著種種問題,但還是無法阻擋越來越多大模型公司沖入人形機器人賽道。很多人把去年稱為,人形機器人真正產業化的元年。但已經少有人記得,2016年那波人形機器人熱潮,潮水褪去,最后活下來的所謂人形機器人公司寥寥無幾。
當一項超出想象的新技術開始真正走向商業化,面世之初的震撼會很快消退。參與公司需要一邊接受商業規律的檢驗、一邊推動技術走向成熟。個人電腦、互聯網行業都經受住這樣的考驗,進而重塑了整個世界。人形機器人曾幾度突圍、幾度停滯,現在借著大模型的風口,新一批公司又到了這個階段。