(相關(guān)資料圖)
RoboCat 面世,“Self-improving”為通用機器人鋪平道路。1)近期,Googel DeepMind 推出RoboCat,其基于其多模態(tài)模型Gato,可在模擬和物理環(huán)境中處理語言、圖像和動作。2)自我提升的關(guān)鍵在于自我生成訓(xùn)練數(shù)據(jù)。RoboCat 可基于輸入的機械臂操作實例,通過練習(xí)生成新的訓(xùn)練數(shù)據(jù),并將新數(shù)據(jù)合并進入訓(xùn)練集,用于新版本RoboCat 的訓(xùn)練,持續(xù)迭代。3)“通用性學(xué)習(xí)能力”為RoboCat 強項,可快速適應(yīng)不同機械臂和任務(wù)操作。在多樣化訓(xùn)練下,即使新的機械臂更加復(fù)雜,它也能在幾個小時內(nèi)學(xué)會操作,并且在觀察1000 個由人類控制的示范項目(僅僅幾個小時就收集完畢)后,便能靈巧指揮新的機械臂。4)RoboCat 具備良性的訓(xùn)練循環(huán),學(xué)習(xí)新任務(wù)越多,就能更好學(xué)習(xí)額外新任務(wù)。最初版本只有36%概率成功完成以前未接觸的任務(wù),但最新版本已接受更多不同任務(wù)訓(xùn)練,成功率增加一倍多。同時,RoboCat 完成現(xiàn)實世界訓(xùn)練任務(wù)的成功率要遠高于傳統(tǒng)基于視覺的模型方案。5)RoboCat 獨立學(xué)習(xí)技能和快速自我提高的能力,特別是應(yīng)用于不同的機器人時,將有助于為新一代更有效、通用的機器人鋪平道路。
從通用機器人到行業(yè)機器人,“ViT+GPT+機械”為標準范式。1)行業(yè)機器人的實現(xiàn)難度相對通用機器人更低,而多模態(tài)GPT 的發(fā)展是通往行業(yè)機器人的鑰匙。多模態(tài)GPT 助力機器人在交互能力、規(guī)劃控制能力、泛化能力、感知能力等多方面得到極大提升。與此同時,ViT 可應(yīng)用于各種模態(tài),使用transformer 編碼器得到包含輸入模態(tài)特征的編碼,可行性已經(jīng)得到了以上業(yè)界眾多工作的驗證,成為了多模態(tài)GPT 的典型范式。
Google 推出5620 億參數(shù)的PalM-E 模型,將540B PaLM 和ViT-22B 結(jié)合。通過ViT 將連續(xù)的具體觀察結(jié)果(例如圖像、狀態(tài)估計或其他傳感器模態(tài))以類似于語言的方式注入到語言模型中,可以執(zhí)行多種具體任務(wù),包括機器人操作規(guī)劃、視覺問題解答、生成字幕等。并具備能與數(shù)據(jù)集中不存在的物體交互的泛化能力。2)執(zhí)行器是實現(xiàn)動態(tài)運動的最關(guān)鍵的部分,當前業(yè)界與學(xué)界有眾多型號的人形機器人,分別采用不同的方案。根據(jù)UCLA《Design of a Highly Dynamic Humanoid Robot》分類,目前有腿機器人的執(zhí)行器方案可分為高速齒輪減速+力矩傳感器執(zhí)行器、串聯(lián)彈性執(zhí)行器、本體驅(qū)動器和液壓執(zhí)行器等。伴隨機器人需求持續(xù)釋放,產(chǎn)業(yè)鏈也有望迎來景氣。
建議關(guān)注算法及行業(yè)機器人潛力公司:1)硬件供應(yīng)商:三花智控、拓普集團、鳴志電器、綠的諧波、峰岹科技等。2)潛力方案廠商:大華股份、海康威視、千方科技、中科創(chuàng)達、中科信息、云從科技、億嘉和、螢石網(wǎng)絡(luò)、商湯科技等。
風(fēng)險提示:機器人技術(shù)迭代不及預(yù)期風(fēng)險;經(jīng)濟下行超預(yù)期風(fēng)險;行業(yè)競爭加劇風(fēng)險。
關(guān)鍵詞: