
不久前,英偉達成立通用具身智能體研究實驗室(GEAR)的消息曝光,將機器人再度推上了風口。
過去一年,AI 大模型浪潮中,以大模型+機器人的路徑,為人與機器共存提供新的交互模式。甚至有觀點認為,機器人大腦的進化速度,主要取決于大模型的發展速度。
市場對機器人的火熱反映到實際的資本環境上,是動輒數億、乃至數十億的融資項目、相關零部件規模陡然增長、以及下游概念股也乘風而起……具身智能,成為機器人落地故事里備受矚目的關鍵詞。
但進入實際的落地中,機器人只能完成一些定制化任務,缺乏對復雜場景認知能力,應用局限;而另一邊,機器按照已設定算法運行,也難以產生更大智能,思考能力和決策能力無法得到提升。
如何讓具身智能機器人在與人、環境的不斷交互中繼續學習,成為了一個關鍵命題。

開放場景下的機器人難題
長久以來,AI和機器人領域都存在著一個經典悖論——莫拉維克悖論提出,和傳統假設不同,計算機要實現例如推理等人類所具備的高階智慧、僅需少量的計算能力,而若要直覺、感知等能力,卻需要巨大的運算能力。
簡單來說,電腦可以在和人類圍棋對弈中輕松取勝,但如果讓機器人為你取出冰箱里的可樂,卻并不簡單。
這一過程包括了幾個必要步驟。首先,機器人需要聽懂人發出的指令,將任務進行拆解;第二步是做出決策,確定目標定位并規劃行進路線;第三步到達目的地后,面對冰箱里各式物品,機器人既要能識別出“可樂”、還要能控制機械臂完成揀取動作;最后再將物品交到指定地點。
過去,上述行動可以預先設定,但由于技術不成熟,機器人只能提供case by case服務;即它只學會了取“可樂”,一旦物品換成“雪碧”,則需要工程師重新設定一套流程。
當機器人邁進真實場景里,往往面臨著泛化能力弱、交付難度高的兩大痛點。
雅可比機器人CEO邱迪聰在與硬氪交談中,將機器人應用場景劃分為封閉式和開放場景。
其中,封閉式場景指采用經典的定制化模式。預設機器人的任務執行邊界,用戶下發指令后,先收集現有數據進行訓練,在限定范圍內窮舉出所有任務可能性,盡可能覆蓋更多的解決路徑。
例如工業場景的運輸機器人,工程師會針對特定園區提前設置運輸線路,機器人只需在固定路徑上完成配送任務,靈活性低;即使存在多條路線,這些路徑亦經過編排和規劃,機器一旦脫離該地圖所設定的任務,便無法運轉。因此面對新任務,機器人需要再次收集數據訓練、設定方案和測試,從而導致了極大的資源和人力損耗。
開放場景則是指不受強封閉式規范和范圍限制的長尾問題,如商超服務、居家養老等。當機器人與人、環境進行大量的交互,數據集或存在少樣本、甚至零樣本的突發情況,這對機器人理解、處理多種任務的泛化能力要求極高。
比如自動分揀,目前機器人可完成物流分揀、倉庫分揀,但商超分揀卻遲遲未能實現。其主要原因就在于,倉庫物流中心的貨物可以標準化,按外形、大小分類,同時貨品密封性強,有更多冗余。相比之下,商超里品類繁多,同樣是1.5L白瓶包裝,它可能是牛奶、酸奶或是椰汁;再加上品類特性不同,比如雞蛋和紙巾的抗摔程度大相徑庭,這也對分揀機器人提出了極高的要求,從視覺到力控,都必須做的很精準。
在邱迪聰的設想中,機器人不應只是指令的執行者,還要具備舉一反三的學習能力。“今天機器人在清掃、巡檢等任務中可以做得很好,但想要真正走進人們日常生活,離不開它的感知、決策、執行能力。”
而2023年國內大模型的爆發式增長,令邱迪聰看到了AI+機器人的新機會。邱迪聰畢業于美國卡內基梅隆(CMU)大學機器人學院,曾參與NASA火星車研發、L4級自動駕駛等項目,有超過8年AI與機器人跨領域研究和落地經驗。
隨著技術改進和成本下降,掃地機器人、工業手臂等任務型機器人滲透率顯著提高。但要提高機器人智能水平,需要更先進的算法和數據支撐。
自然語言的數據是離線的,屬于方法論上的學習;而機器人決策離不開很多高質量數據,其中多數來自于開放場景中遇到的突發性狀況。由此,從單一的封閉式場景任務向開放場景延展,成為機器人從業者魚貫而入的一條路徑。
去年4月,邱迪聰和團隊成立了雅可比機器人,聚焦具身智能商超服務機器人,通過人類語音指令的控制,即可讓機器人在商超場景下實現多任務執行能力,包括自主巡檢、自動補貨、貨品分揀等。4個月后,雅可比機器人完成天種子輪融資,投資者包括AI大牛、奇績創壇創始人陸奇。
一邊是開放場景對機器人提出的極高要求,包括開放詞匯的感知能力、非機器學習方法的任務規劃、高頻任務執行的閉環能力等;另一邊,大模型的語義理解、抽象規劃和推理等能力被印證,可以處理許多復雜任務,這為機器人在長尾場景中應用提供了一個可行性的通路。

給機器人裝上「大腦+小腦」
諾貝爾經濟學獎得主 Daniel Kahneman 曾在《Thinking Fast And Slow》一書中提出,人類的兩種思考模式,第一種是以直覺判斷為主的“快思考”,第二種是“慢思考”,需要進行大量的推理和計算。
大模型與過去 AI 技術不同點就在于,它采用了“慢思考”模式,令機器人可以在與人類的交互中不斷學習,獲得更好解決任務、解決更多任務的能力。但也正因如此,關注AI、機器人賽道的投資人郭旭告訴硬氪,絕大部分落地或完整的機器人產品和項目,普遍希望“一招通吃”,例如大模型的能力很強,就想直接做一個端到端的巨型通用模型來解決所有問題。
對此邱迪聰指出,“從實際ROI投入產出比的角度來說,可能不一定劃算、或者說不一定適合當前這個階段。”
開放場景用戶的需求復雜,大模型的訓練和推理費用高昂。據海外《The Economics of Large Language Models》研究測算,每個token(1000 token約為750個單詞)的訓練成本通常約為6N(N為參數的計量單位),推理成本約2N。即推理成本相當于訓練成本的三分之一。一旦模型上線使用,其推理成本可能遠超訓練成本。
因此,大模型應用于機器人的部署成本也很高。最終帶來的結果是,其市場價格并非普通中小型企業能消費得起的,市場規模和普及程度有限。
要平衡這種尷尬局面,類人腦機器人不失為一個重要的探索方向。即讓機器人模仿人腦的運轉分工,通過“大腦+小腦”兩個結構互補,大腦負責視覺、聽覺和意識等高層次的感知和決策功能,小腦則負責協同數據來控制運動、平衡和行為姿態。
以邱迪聰和團隊提出的“通用機器人大腦”為例,通用機器人大腦由“大腦”J-Mind和“小腦”J-Box構成,J-Mind負責理解任務、下發指令,并交由J-Box來執行。
首先在感知層,結合了LLM+VLM(大型視覺 – 語言模型)的技術路線可以就指令、結合物理環境進行理解,提高機器人對開放場景的認知能力,即不僅能“看到”場景中的各種物品, 還能“看懂”用戶的需求。比如機器人原先只認識可樂,但在看到雪碧、橙汁等新物品時,可以通過其外形與可樂相似、“推斷”出它們也是罐裝飲料,并讀取包裝信息,從而認知到新物品。

雅可比機器人工作中
邱迪聰告訴硬氪,雅可比機器人之所以選擇商超作為自身產品的首個應用場景,正是因為商超的人員聚集效應,有大量反復的物品信息和交互產生,可以為機器人自我學習提供數據支撐。也即是說,機器人是從真實場景中收集數據實時學習,而非在已有的數據庫找答案。
在決策層,機器人通過J-Mind可以將用戶需求轉化具體的指令和子步驟,形成任務分配輸出與決策動態閉環,下發執行任務給到J-Box。隨后,再由J-Box來驅動機器人完成操控、抓取、放下等動作。

機器人正在進行「抓取、放下」
例如,當商超貨架缺貨時,店員只需以口頭或文字輸入的形式,提出“貨架上可樂缺貨、需補貨”的指令,雅可比機器人可自動移動到所需補貨的貨架前,識別貨架陳列狀態。當J-Mind在多類物品識別到可樂后,可將補貨指令拆解為子步驟,由J-Box來抓取可樂、并把可樂放置到貨架的空缺位置中。
這種“大腦+小腦”路線在通用機器人大腦的基礎框架上,集成了很多經典的主流機器人算法,無需部署工程師,開箱即可使用;同時還支持人工調度和機器人自動化協助,靈活性更高,由機器人大腦來判斷任務是否需要調用大模型、亦或是用算法就能解決的,進而降低服務成本。

商業化困局:迭代周期長、高成本
公開數據顯示,2017年至2021年五年間,全球智能服務機器人從原本未達百億的市場增長至200億美元,預計到2026年將超過600億美元。
其中,中國智能專業服務機器人市場也從2021年的百億元、預計到2026年可邁向千億規模,增速較快。
可以看到,相比于商場里只能移動或展示廣告的傳統機器人,大模型的出現讓人們看到了具身智能的希望,以雅可比為代表的商超機器人已經實現了一個臺階的提升。
不過,其痛點也依舊存在。在技術層面,大模型增強了機器人的理解能力,但機器人本身是一個復雜的跨學科系統,涉及仿生學設計、AI應用、動力學建模、能量管理等等,要實現從理解、決策到控制運動、執行任務,還需要匹配各種算法和軟件。AI技術升級迭代不是線性發展的,周期長、投入高,存在長期無法突破關鍵技術的風險。
硬件方面,機器人的征集結構復雜,核心零部件決定了其精度、穩定性、負荷能力等重要性能指標,其中技術難度最高分別是減速器、伺服系統和控制器,占成本的70%。加上傳感器等其他零部件,這些都會增加機器人的制造和后期維護的成本
。邱迪聰就告訴硬氪,商超場景客戶對ROI十分關注。為此,雅可比機器人已找到核心零部件的供應渠道,“這種方式的成本控制空間較高,核算下來符合預期。”
此外,機器人在產品化過程中,基于開放場景的融合打磨和迭代,也需要時間來產生和驗證價值。
某機器人廠商的市場負責人向硬氪表示,“下游買家一定是需要拓展和教育的,很難實現一上市就得以被接受和認可。解決方法一是產品持續迭代,二是要與客戶保持緊密溝通,這是一個共同打磨產品、共同打磨場景的過程,通過這種共創的形式,發掘更多產品價值。”
例如除商超場景外,雅可比機器人也在探索餐飲服務、辦公室、家用等環境。機器人作為餐廳服務員可以完成點菜、上菜等任務;作為公司前臺可以引導訪客,并完成材料分發、倒水等任務;作為家庭助手,協助整理衣物、擦洗家具等。

機器人餐飲服務工作流程
“我們最終的目標是,從商超場景出發,將機器人所學遷移至更多場景中,進入到日常的家庭生活,真正實現多個任務的自動化閉環。”邱迪聰說到。
無法否認,目前市場上的機器人整體還處于一種“玩具”的階段,遠沒有達到大規模產業化的地步。但可以期待的是,通過機器人和大模型的融合方法,有“大腦+小腦”的仿真演化,有大模型與經典算法的自動化協同,有規則和模型的相互轉化,一個更復雜的、可以不斷自我成長的機器人智能體或許已經不遠了。
原標題:當AI大模型卷向服務機器人,會有哪些新故事?
來源:tk0123小助手奧豆

加入賣家交流群
快速對接各種平臺優質資源

標簽:東莞到濟南市專線泰國出口專線國際快遞多少錢物流 東莞國際易碎品物流海運 馬來西亞到越南的海運費用越南專線二區三區固德國際物流深圳澳大利亞物流