目前大模型技術已從單純的大語言模型(LLM)發展到圖像-語言多模態模型(VLM)乃 至圖像-語言-動作多模態模型(VLA),其中圖像-語言-動作多模態模型(VLA)的推出,實 現了數據與處理任務的躍升。從文本到圖像再到現實世界,大模型的數據模態逐漸豐富,數 據規模的數量級迅速增長,大模型的應用場景和價值量也成比例擴張。
在人形機器人領域,AI 大模型將會從感知(語音、視覺)、決策、控制等多方面與人形 機器人結合,形成感知、決策、控制閉環,提升機器人的智能水平。
未來人形機器人大模型的方向將會是感知-決策-控制一體化的端到端通用大模型,集合 大規模數據集管理、云邊端一體計算架構、多模態感知與環境建模等技術。
1 微軟 ChatGPT
在機器人領域的應用主要體現在兩個方面:自然語言交互和自動化決 策。在自然語言方面,機器人可以通過 ChatGPT 來理解人類的自然語 言指令,并根據指令進行相應的動作;在自動化決策方面,機器人可以 通過 ChatGPT 來生成任務方案,根據任務要求做出相應的決策。
柏林工業大學和 Google Robotics 團隊 PaLM-E
是最大的多模態視覺語言模型,在 PaLM 模型基礎上,引入了具身化和 多模態概念,實現了指導現實世界機器人完成相應任務的功能。
2 谷歌 RT-2
全球第一個控制機器人的視覺-語言-動作(Vision-Language-Action, VLA)模型,通過將 VLM 預訓練與機器人數據相結合,能夠端到端直接 輸出機器人的控制。
斯坦福大學李飛飛團隊 VoxPoser
智能系統 VoxPose 可以從大模型 LLM 和視覺語言模型 VLM 中提取可行 性和約束,以構建 3D 仿真環境中的值地圖,供運動規劃器使用,用于 零樣本地合成機器人操縱任務的軌跡,從而實現在真實世界中的零樣 本機器人操縱。
3 Meta 和 CMU 團隊 RoboAgent
采用了大規模機器人數據集進行訓練,考慮到機器人在現實世界中的 訓練和部署效率問題,Meta 將數據集限制到了 7500 個操作軌跡中,并 基于此讓 RoboAgent 實現了 12 種不同的復雜技能,包括烘焙、拾取物 品、上茶、清潔廚房等任務,并能在 100 種未知場景中泛化應用。
4 英偉達 Eureka
該系統以 OpenAI 的 GPT-4 為基礎,本質是一種由大模型驅動的算法生 成工具,能訓練實體機器人執行例如“轉筆”、“開抽屜”、“拿剪 刀”、“雙手互傳球”等多種復雜動作。
5 英偉達 GR00T
目標是成為人形機器人通用大模型,旨在讓人形機器人理解自然語言文本、語音、視頻,以模仿人類運動,并與現實世界互動。
6 阿里云機器人大模型
方案集成了通義千問、通義萬相等基礎模型及阿里云物聯網平臺,可賦予機器人知識庫問答、工藝流程代碼生成、機械臂軌跡規劃、3D 目標 檢測和動態環境理解等全方位能力,不僅可以大幅降低機器人開發的 門檻,還讓機器人輕松完成靈活性更高的非標任務,推動機器人在更廣 泛的應用場景落地。
7 華為盤古大模型
“盤古”大模型具備強大的語義理解、動態規劃、多模態信號理解等能 力,將為人形機器人大模型的開發提供智能化決策基礎。依托盤古大模 型的數據處理能力,可建立豐富且高質量的人形機器人數據集,并且充分發揮盤古大模型的多模態能力,實現復雜任務場景下綜合感知和任 務分解,提升各類泛化場景下的具身智能操作水平。
商用機器人 Disinfection Robot 展廳機器人 智能垃圾站 輪式機器人底盤 迎賓機器人 移動機器人底盤 講解機器人 紫外線消毒機器人 大屏機器人 霧化消毒機器人 服務機器人底盤 智能送餐機器人 霧化消毒機 機器人OEM代工廠 消毒機器人排名 智能配送機器人 圖書館機器人 導引機器人 移動消毒機器人 導診機器人 迎賓接待機器人 前臺機器人 導覽機器人 酒店送物機器人 云跡科技潤機器人 云跡酒店機器人 智能導診機器人 |