您好,歡迎進入美譽度品牌管理官網(wǎng)!

江蘇危機公關公司

一站式提供商

提供設計,生產(chǎn),安裝,售后服務一條龍服務

400-021-0821
公司資訊
您的位置: 主頁 > 新聞中心 > 公司資訊
重磅!DeepMind“機器貓”自學成才,能操作多個機器人、不依賴人類監(jiān)督
發(fā)布時間:2023-07-20 09:23瀏覽次數(shù):

美譽度品牌管理
作者 | jojo
編輯 | Anddy

美譽度6月21日消息,剛剛,谷歌DeepMind推出了一種可以自我改進、自我提升(self-improving)的用于機器人的AI智能體,名為RoboCat。

DeepMind稱它是全球第一個可以解決和適應多種任務的機器人AI智能體,并且它可以在各類真實的機器人產(chǎn)品上完成這些任務。

▲RoboCat操控機械臂完成各種各樣的任務,來源:Google DeepMind

整體來看,RoboCat最主要的突破在三個方面:

1、DeepMind讓一個神經(jīng)網(wǎng)絡能在多個不同的機器人上工作,可以快速操作新的機械臂,解決新的復雜任務。

2、RoboCat學習的新任務越多,就越擅長學習和解決額外的新任務。

3、RoboCat是通用機器人領域的重要研究進展,能夠減少對人類監(jiān)督訓練的需求。 

▲RoboCat解決更多類型的任務,來源:Google DeepMind

AI智能體可以自己操控機械臂,學習玩套圈、搭積木、抓水果了!效率極高,還不需要多少人力。

只需要通過100次左右的演示,RoboCat就可以學會操控機械臂來完成各式各樣的任務,并且它還能通過自生成的數(shù)據(jù)來進行迭代改進。

最重要的是,不論是它操控的機械臂還是它要完成的任務,RoboCat之前都從來沒見過。

▲RoboCat可以解決的各類任務,來源:Google DeepMind

這種“通用性學習能力”是RoboCat的強項,此外,RoboCat最主要的特點就是“學得快”, 這種能力對于加快機器人領域的研究有重要意義,因為有了這種能力,人類監(jiān)督訓練的需求就會極大減少,這是創(chuàng)造通用機器人非常重要的一環(huán)。

在DeepMind演示視頻中,RoboCat可以通過自主學習完成“套圈”、“搭積木”、“拿放水果”等任務。目前RoboCat完成一項新任務的成功率已經(jīng)從初期的36%提升至74%。

▲RoboCat前后版本完成任務成功率對比,來源:Google DeepMind

并且根據(jù)DeepMind論文,RoboCat完成現(xiàn)實世界訓練任務的成功率要遠高于傳統(tǒng)基于視覺的模型方案,領先幅度還是比較明顯的,這也是DeepMind研究的重要價值所在。

▲RoboCat與基于視覺的模型在完成現(xiàn)實世界訓練任務成功率方面的對比,來源:Google DeepMind

值得一提的是,RoboCat用到的關鍵技術之一,是一種多模態(tài)模型(multimodal model)Gato,而Gato在西班牙語里意為“貓”,也就是“cat”,這也是“RoboCat”這一命名的由來之一。

此前研究人員已經(jīng)在機器人大規(guī)模學習多種任務方面進行了探索,并將對語言模型的理解與現(xiàn)實世界的機器人能力相結合。而RoboCat的進步性在于,它是第一個可以解決和適應多種任務的機器人AI智能體。

DeepMind認為,RoboCat獨立學習技能、快速自我提升的能力,以及對于不同硬件設備的快速適應能力,將對新一代通用機器人AI智能體的發(fā)展起到重要推動作用。

論文地址:

https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/robocat-a-self-improving-robotic-agent/robocat-a-self-improving-foundation-agent-for-robotic-manipulation.pdf

一、套圈、搭積木樣樣精通,將水果從碗里拿出來總共分幾步?

首先,我們來看看這個RoboCat到底能做什么。

從DeepMind的演示視頻中我們可以看到,研究人員在機器人的攝像頭下面將物體擺好,機器人就會將擺好的物體狀態(tài)設定為“目標圖像”,在設定好目標圖像后,研究人員會將物體的擺放位置還原,然后讓機器人操作還原剛才的物體擺放狀態(tài)。

▲RoboCat完成“套圈”任務,來源:Google DeepMind

在“套圈”這個任務中,RoboCat可以很好的操控機械臂還原橘紅色圓圈的位置。

在同一類“套圈”任務中,RoboCat還可以解決更復雜的情況,比如區(qū)分大圈和小圈并準確套在對應的金屬柱上。

▲RoboCat完成更復雜的“套圈”任務,來源:Google DeepMind

DeepMind還演示了一個任務,就是抓水果。這個任務RoboCat已經(jīng)在此前的訓練中看到過,但值得注意的是,此前的訓練數(shù)據(jù)中從來沒有過“人手”出現(xiàn),這次研究人員給RoboCat設定的目標圖像中卻包含了人手,最終,RoboCat仍然可以順利完成任務。

▲RoboCat在目標圖像有“人手”干擾的情況下完成抓水果任務,來源:Google DeepMind

這還沒完,后續(xù)研究人員進一步提高難度,讓RoboCat操控了一個它之前從未見過的機械臂,這個機械臂跟之前抓水果用的有所不同,但最終RoboCat依然可以操控這一新的機械臂來成任務。

▲RoboCat操控從未見過的機械臂完成此前學過的任務,來源:Google DeepMind

在另一個“搭積木”的測試中,研究人員展示了RoboCat的另一項技能,當目標圖像設定好后,不論初始積木位置是怎樣的,RoboCat都可以很好的還原目標圖像中的積木狀態(tài)。

▲當目標圖像設定好后,不論初始積木位置是怎樣的,RoboCat都可以很好的還原目標圖像中的積木狀態(tài),來源:Google DeepMind

除了搭積木,RoboCat還可以完成將水果從碗里拿進拿出這樣的任務。

二、基于超大數(shù)據(jù)集,還會自我迭代升級,五步就能掌握新本領

具體來看RoboCat背后的硬核技術,DeepMind提到,RoboCat用到了一種多模態(tài)模型Gato,Gato模型可以在模擬環(huán)境和物理環(huán)境中處理語言、圖像和動作,研究人員將Gato的架構與一個大型訓練數(shù)據(jù)集進行了結合,這個數(shù)據(jù)集包含了各種機械臂解決數(shù)百個不同任務的圖像序列和動作。

在第一輪訓練之后,研究人員讓RoboCat進入一個“自我提升(self-improvement)”的訓練周期,在這個訓練周期中,RoboCat會學習解決很多以前從未見過的任務。

每項新任務的學習分為五個步驟:

1、收集100-1000個由研究人員控制的機械臂完成的新任務演示。

2、在新任務所使用的機械臂上微調(Fine-tune)RoboCat,創(chuàng)建一個專用的衍生代理。

3、衍生代理在機械臂上練習10000次,以生成更多的訓練數(shù)據(jù)。

4、將演示數(shù)據(jù)和自生成數(shù)據(jù)合并到RoboCat的現(xiàn)有訓練數(shù)據(jù)集中。

5、在新的訓練數(shù)據(jù)集上訓練RoboCat的新版本。

▲RoboCat的訓練周期示意圖,它能夠自生成額外的訓練數(shù)據(jù),來源:Google DeepMind

上述所有這些訓練的結合,意味著RoboCat的數(shù)據(jù)集將包含數(shù)百萬次的訓練軌跡數(shù)據(jù),這些數(shù)據(jù)來自真實機械臂以及模擬機械臂,包括了RoboCat自生成的數(shù)據(jù)。

▲RoboCat從各種訓練數(shù)據(jù)類型和任務中學習,來源:Google DeepMind

研究人員總共使用了四種不同類型的機器人和各類機械臂來收集基于視覺的數(shù)據(jù)。

▲RoboCat使用現(xiàn)實和虛擬機械臂積累訓練數(shù)據(jù),來源:Google DeepMind

三、RoboCat:一個“自我提升的通才”

在上述這種多樣化的訓練方式下,RoboCat可以在幾個小時內(nèi)學會操作不同的機械臂,包括一些更加復雜的從未見過的機械臂。

RoboCat可以操作這些機械臂完成之前見過的任務,比如套圈、拿取水果,甚至是在對應形狀的格子中放上對應形狀的物品,這些任務會考驗RoboCat操作的精準度、理解力以及對于形狀匹配難題的解決能力。

▲RoboCat用新機械臂完成此前學過的任務,來源:Google DeepMind

用DeepMind的話來說,RoboCat是一個“自我提升的通才”,因為它是基于一個良性的訓練循環(huán)來學習新任務。簡單來說,它學習的新任務越多,它就能更好地學習和解決額外的新任務。

最初版本的RoboCat,在每個新任務進行500次演示后,只有36%的概率能成功的完成之前從未見過的任務,但是最新版本的RoboCat已經(jīng)將這一成功率提升至74%。

這些提升歸功于RoboCat不斷增長的經(jīng)驗廣度,就像人類在特定領域不斷深化學習,從而發(fā)展出更加多樣化的能力一樣。

今天,機器人在我們的生活中已經(jīng)廣泛應用,但大部分機器人只能完成特定的任務,這些機器人基本上都是被提前編程設定好的。

在制造可以完成更多種類任務的“通用機器人”方面,研究進展一直很緩慢,因為收集現(xiàn)實世界中的訓練數(shù)據(jù)是非常費時費力的。

RoboCat這種獨立學習技能、快速自我提升的能力,以及對于不同硬件設備的快速適應能力,將對新一代通用機器人AI智能體的發(fā)展起到重要推動作用。

結語:多模態(tài)AI模型引入,通用機器人研究再進一步

在全球AI研究熱點涌向大模型的當下,谷歌DeepMind似乎對大模型競賽并不熱衷,仍專注于解決AI如何與物理世界交互的問題,并將研究重心鎖定在優(yōu)化機器人技術的基礎模型上。

而最新發(fā)布的RoboCat,絕對是個了不起的AI模型。它通過視覺目標調節(jié)解決了不同平臺的各種拾取和放置任務,只需100次演示就能學會在不同的機器人上執(zhí)行各種任務,從自生成訓練數(shù)據(jù)提高技能的方法令人眼前一亮。

多模態(tài)AI模型的引入,為邁向通用機器人的歷程貢獻了又一個激動人心的進展!

來源:Google DeepMind

400-021-0821