華發佈首個通用具身基座模型GO-1
機械人將可快速進化?
近日,上海首家人形機械人量產企業——智元機械人發佈通用具身模型基座:智元啟元大模型(Genie Operator-1,簡稱GO-1),令機械人具有學習能力,能快速適應新任務,成功把家務機械人的成功率提升百分之三十二。智元具身研究中心常務主任任廣輝表示,人形機械人走進家庭創造價值(進家庭“打工”),還需五年左右。
智元機械人表示,這款模型具有泛化能力,能夠在極少數據甚至零樣本下,泛化到新場景、新任務,降低了具身模型的使用門檻,降低了後訓練成本,能夠快速適應新任務、學習新技能。
據介紹,該模型可以利用人類視頻學習,完成小樣本快速泛化。其Vision-Language-Latent-
Action(ViLLA)架構,是由VLM(多模態大模型)+MoE(混合專家)組成,其中VLM借助海量互聯網圖文數據獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規劃器)借助大量跨本體和人類操作數據獲得通用的動作理解能力,MoE中的Action Expert(動作專家)借助百萬真機數據獲得精細的動作執行能力。在推理時,VLM(多模態大模型)、Latent Planner(隱式規劃器)和Action Expert(動作專家)三者協同工作。目前智元啟元大模型已成功部署到智元多款機械人本體,能夠高效地完成落地,並在實際使用中持續不斷地快速進化。
智元具身研究中心常務主任任廣輝表示,GO-1大模型藉助人類和多種機械人數據,讓機械人獲得了革命性的學習能力,可泛化應用到各類環境和物品中,快速適應新任務、學習新技能。同時,它還支持部署到不同的機械人本體,高效地完成落地,並在實際使用中持續不斷地快速進化。
任廣輝把GO-1大模型的特點歸納為四個方面:首先是人類視頻學習。GO-1大模型可以結合互聯網視頻和人類示範進行學習,增強模型對人類行為的理解。第二是小樣本快速泛化。GO-1大模型具有強大的泛化能力,能够在極少數據甚至零樣本下泛化到新場景、新任務。以“倒水”這一動作為例,如果人形機器人沒有搭載大模型,完成該動作的訓練需要一萬至五萬條數據採集;搭載大模型後,完成該動作僅需一千條左右數據採集。第三是“一腦多形”。作為通用機械人策略模型,GO-1大模型能夠在不同機械人形態之間遷移,快速適配到不同本體,類似“群體升智”。第四是持續進化,搭配一整套數據回流系統,GO-1大模型可以從實際執行遇到的問題數據中持續進化學習,“越用越聰明”。
簡單來說,GO-1不僅能夠理解人類的指令,還能通過學習人類的影片,形成自己的動作庫,不僅能夠識別物體的位置,還能根據環境變化靈活調整自己的行動策略,讓機械人能在複雜的家庭環境中,模仿人類,靈活執行各種家務任務。這種能力的提升,意味着家務服務機械人將更具智能化,能夠更好地融入我們的日常生活。
水 登