您好,歡迎進(jìn)入美譽度品牌管理官網(wǎng)!

江蘇危機(jī)公關(guān)公司

一站式提供商

提供設(shè)計,生產(chǎn),安裝,售后服務(wù)一條龍服務(wù)

400-021-0821
公司資訊
您的位置: 主頁 > 新聞中心 > 公司資訊
真能聽懂人話!機(jī)器人ChatGPT來了,谷歌發(fā)布又一AI大模型黑科技
發(fā)布時間:2023-11-27 11:02瀏覽次數(shù):

美譽度品牌管理

美譽度7月29日消息,Google DeepMind再放AI機(jī)器人大招!周五,這家前沿AI研究機(jī)構(gòu)宣布以訓(xùn)練AI聊天機(jī)器人的方式訓(xùn)練了一款全新的機(jī)器人模型Robotic Transformer 2(RT-2)。

RT-2相當(dāng)于機(jī)器人版ChatGPT,被Google DeepMind稱作是其視覺-語言-動作 (VLA)模型的新版本。該模型可以教會機(jī)器人更好地識別視覺和語言模態(tài),能夠解釋人類用自然語言發(fā)出的指令,并推斷出如何做出相應(yīng)的行動。它還可以理解英語以外的語言的指示。

結(jié)合思維鏈推理,RT-2可以執(zhí)行多階段語義推理。即便是一些抽象概念,RT-2也能理解并指揮機(jī)械臂做出正確的動作。比如讓它找一把臨時用的簡易錘子,它會抓起石頭;讓它給疲憊的人選一款飲料,它會選擇紅牛;讓它把可樂罐移到泰勒·斯威夫特的照片上,它也能順利完成。

根據(jù)論文,RT-2模型基于網(wǎng)絡(luò)和機(jī)器人數(shù)據(jù)進(jìn)行訓(xùn)練,利用了谷歌自己的Bard等大型語言模型的研究進(jìn)展,并將其與機(jī)器人數(shù)據(jù)(例如要移動的關(guān)節(jié))相結(jié)合,然后將這些知識轉(zhuǎn)化為機(jī)器人控制的通用指令,同時保留web-scale能力。


Google DeepMind博客文章寫道,RT-2顯示出超越其所接觸的機(jī)器人數(shù)據(jù)的泛化能力以及語義和視覺理解能力,包括解釋新命令并通過執(zhí)行基本推理(例如關(guān)于對象類別或高級描述的推理)來響應(yīng)用戶命令。

其將信息轉(zhuǎn)化為行動的能力表明,機(jī)器人有望更快地適應(yīng)新的情況和環(huán)境。

在對RT-2模型進(jìn)行了超過6000次的機(jī)器人試驗后,研究團(tuán)隊發(fā)現(xiàn),RT-2在訓(xùn)練數(shù)據(jù)或“可見”任務(wù)上的表現(xiàn)與之前的模型RT-1一樣好。它在新奇的、不可預(yù)見的場景中的表現(xiàn)幾乎翻番,從RT-1的32%提高到62%。

一、讓機(jī)器人用AI大模型學(xué)習(xí)新技能

機(jī)器人技術(shù)領(lǐng)域正悄然進(jìn)行一場革命——將大型語言模型的最新進(jìn)展引入機(jī)器人,讓機(jī)器人變得更聰明,并具備新的理解和解決問題的能力。

《紐約時報》技術(shù)專欄作家凱文·羅斯(Kevin Roose)在谷歌機(jī)器人部門觀看了實際演示,工程師給機(jī)器人發(fā)出指令:“撿起滅絕的動物”,一個單臂機(jī)器人呼呼地響了一會兒,然后伸出機(jī)械臂,爪子張開落下,準(zhǔn)確抓住了它面前桌子上的恐龍塑料制品。


在這場長達(dá)1小時的演示中,RT-2還成功執(zhí)行了“將大眾汽車移到德國國旗上”的復(fù)雜指令,RT-2找到并抓住一輛大眾巴士模型,并將其放在幾英尺外的微型德國國旗上。

▲兩名谷歌工程師Ryan Julian(左)和Quan Vuong成功指示RT-2“將大眾汽車移到德國國旗上”。(圖源:《紐約時報》)

多年以來,谷歌和其他公司的工程師訓(xùn)練機(jī)器人執(zhí)行機(jī)械任務(wù)(例如翻轉(zhuǎn)漢堡)的方式是使用特定的指令列表對其進(jìn)行編程。然后機(jī)器人會一次又一次地練習(xí)該任務(wù),工程師每次都會調(diào)整指令,直到得到滿意的結(jié)果為止。

這種方法適用于某些有限的用途。但以這種方式訓(xùn)練機(jī)器人,既緩慢又費力。它需要從現(xiàn)實世界的測試中收集大量數(shù)據(jù)。如果你想教機(jī)器人做一些新的事情(例如從翻轉(zhuǎn)漢堡改做翻轉(zhuǎn)煎餅),你通常必須從頭開始重新編程。

部分源于這些限制,硬件機(jī)器人的改進(jìn)速度慢于基于軟件的同類機(jī)器人。

近年來,谷歌的研究人員有了一個想法:如果機(jī)器人使用AI大型語言模型(來為自己學(xué)習(xí)新技能,而不是逐一為特定任務(wù)進(jìn)行編程,會怎樣?

據(jù)谷歌研究科學(xué)家卡羅爾·豪斯曼(Karol Hausman)介紹,他們大約兩年前開始研究這些語言模型,意識到它們蘊藏著豐富的知識,所以開始將它們連接到機(jī)器人。

高容量視覺-語言模型(VLM)在web-scale數(shù)據(jù)集上進(jìn)行訓(xùn)練,使這些系統(tǒng)非常擅長識別視覺或語言模式并跨不同語言進(jìn)行操作。但要讓機(jī)器人達(dá)到類似的能力水平,他們需要收集每個物體、環(huán)境、任務(wù)和情況的第一手機(jī)器人數(shù)據(jù)。

RT-2的工作建立在RT-1的基礎(chǔ)上。這是一個經(jīng)過多任務(wù)演示訓(xùn)練的模型,可學(xué)習(xí)機(jī)器人數(shù)據(jù)中看到的任務(wù)和對象的組合。更具體地說,谷歌的研究工作使用了在辦公室廚房環(huán)境中用13個機(jī)器人在17 個月內(nèi)收集的RT-1機(jī)器人演示數(shù)據(jù)。

谷歌首次嘗試將語言模型和物理機(jī)器人結(jié)合起來是一個名為PaLM-SayCan的研究項目,該項目于去年公布,它引起了一些關(guān)注,但其用處有限。機(jī)器人缺乏解讀圖像的能力,而這是能夠理解世界的一項重要技能。他們可以為不同的任務(wù)寫出分步說明,但無法將這些步驟轉(zhuǎn)化為行動。

谷歌的新機(jī)器人模型RT-2就能做到這一點。這個“視覺-語言-動作”模型不僅能夠看到和分析周圍的世界,還能告訴機(jī)器人如何移動。

它通過將機(jī)器人的動作轉(zhuǎn)換為一系列數(shù)字(這一過程稱為標(biāo)注)并將這些標(biāo)注合并到與語言模型相同的訓(xùn)練數(shù)據(jù)中來實現(xiàn)這一點。

最終,就像ChatGPT或Bard學(xué)會推測一首詩或一篇歷史文章中接下來應(yīng)該出現(xiàn)什么詞一樣,RT-2可以學(xué)會猜測機(jī)械臂應(yīng)該如何移動來撿起球或?qū)⒖掌奕舆M(jìn)回收站垃圾桶。

采用視覺語言模型進(jìn)行機(jī)器人控制

RT-2表明視覺-語言模型(VLM)可以轉(zhuǎn)化為強(qiáng)大的視覺-語言-動作(VLA)模型,通過將VLM預(yù)訓(xùn)練與機(jī)器人數(shù)據(jù)相結(jié)合,直接控制機(jī)器人。

RT-2以視覺-語言模型(VLM)為基礎(chǔ),將一個或多個圖像作為輸入,并生成一系列通常代表自然語言文本的標(biāo)注。此類VLM已接受web-scale數(shù)據(jù)的訓(xùn)練,能夠執(zhí)行視覺問答、圖像字幕或?qū)ο笞R別等任務(wù)。Google DeepMind團(tuán)隊采用PaLI-X和PaLM-E模型作為RT-2的支柱。

為了控制機(jī)器人,必須訓(xùn)練它輸動作。研究人員通過將操作表示為模型輸出中的標(biāo)注(類似于語言標(biāo)注)來解決這一挑戰(zhàn),并將操作描述為可以由標(biāo)準(zhǔn)自然語言標(biāo)注生成器處理的字符串,如下所示:

▲RT-2訓(xùn)練中使用的動作字符串的表示形式。這種字符串的示例可以是機(jī)器人動作標(biāo)記編號的序列,例如“1 128 91 241 5 101 127 217”。

該字符串以一個標(biāo)志開頭,指示是繼續(xù)還是終止當(dāng)前情節(jié),而不執(zhí)行后續(xù)命令,然后是更改末端執(zhí)行器的位置和旋轉(zhuǎn)以及機(jī)器人夾具所需延伸的命令。

研究人員使用了與RT-1中相同的機(jī)器人動作離散版本,并表明將其轉(zhuǎn)換為字符串表示使得可以在機(jī)器人數(shù)據(jù)上訓(xùn)練VLM模型,因為此類模型的輸入和輸出空間不需要改變了。

▲RT-2架構(gòu)和訓(xùn)練:研究人員針對機(jī)器人和網(wǎng)絡(luò)數(shù)據(jù)共同微調(diào)預(yù)先訓(xùn)練的VLM模型。生成的模型接收機(jī)器人攝像頭圖像并直接預(yù)測機(jī)器人要執(zhí)行的動作。

研究人員在RT-2模型上進(jìn)行了一系列定性和定量實驗,進(jìn)行了6000多次機(jī)器人試驗。

在探索RT-2的新興功能時,他們首先搜索了需要將web-scale數(shù)據(jù)的知識與機(jī)器人的經(jīng)驗相結(jié)合的任務(wù),然后定義三類技能:符號理解、推理和人類識別。

每項任務(wù)都需要理解視覺語義概念以及執(zhí)行機(jī)器人控制以操作這些概念的能力。需要諸如“撿起即將從桌子上掉下來的袋子”之類的命令,其中要求機(jī)器人對機(jī)器人數(shù)據(jù)中從未見過的物體或場景執(zhí)行操作任務(wù)將知識從基于網(wǎng)絡(luò)的數(shù)據(jù)轉(zhuǎn)化為可操作的。

▲機(jī)器人數(shù)據(jù)中不存在的新興機(jī)器人技能示例,需要通過網(wǎng)絡(luò)預(yù)訓(xùn)練進(jìn)行知識遷移。

在所有類別中,研究人員觀察到與之前的基線(例如之前的RT-1模型和Visual Cortex(VC-1)等模型)相比,RT-2的泛化性能提高到3倍以上,這些模型是在大型視覺數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的。

▲緊急技能評估的成功率:RT-2模型優(yōu)于之前的RT-1和VC-1基線。

研究人員還進(jìn)行了一系列定量評估,從最初的RT-1任務(wù)開始,在機(jī)器人數(shù)據(jù)中提供了示例,然后繼續(xù)對機(jī)器人進(jìn)行不同程度的以前未見過的物體、背景和環(huán)境,要求機(jī)器人從VLM預(yù)訓(xùn)練中學(xué)習(xí)泛化能力。

▲機(jī)器人以前未見過的環(huán)境示例,RT-2可以推廣到新的情況。

RT-2保留了機(jī)器人數(shù)據(jù)中看到的原始任務(wù)的性能,并提高了機(jī)器人在以前未見過的場景上的性能,從RT-1的32%提高到了62%,展示了大規(guī)模預(yù)訓(xùn)練的巨大優(yōu)勢。

此外,研究人員觀察到與僅視覺任務(wù)預(yù)訓(xùn)練的基線相比有顯著改進(jìn),例如VC-1和機(jī)器人操作的Reusable Representations for Robotic Manipulation(R3M),以及用VLM進(jìn)行對象識別的算法,例如Manipulation of Open-World Objects(MOO)。

▲RT-2在可見的分布內(nèi)任務(wù)上實現(xiàn)了高性能,并且在分布外未見的任務(wù)上優(yōu)于多個基線。

在機(jī)器人任務(wù)的開源Language Table套件上評估其模型,研究人員在模擬中實現(xiàn)了90%的成功率,高于之前的基線,包括BC-Z(72%)、RT-1(74%)和LAVA(77%)。

然后研究人員在現(xiàn)實世界中評估相同的模型(因為它是在模擬和真實數(shù)據(jù)上進(jìn)行訓(xùn)練的),并展示了其泛化到新對象的能力,如下所示,其中除了藍(lán)色立方體之外,沒有任何對象出現(xiàn)在訓(xùn)練中數(shù)據(jù)集。

▲RT-2在真實機(jī)器人Language Table任務(wù)中表現(xiàn)良好。除了藍(lán)色立方體之外,訓(xùn)練數(shù)據(jù)中不存在任何對象。

受大型語言模型中使用思維鏈提示方法的啟發(fā),研究人員探索其模型,將機(jī)器人控制與思維鏈推理相結(jié)合,以便能夠在單個模型中學(xué)習(xí)長期規(guī)劃和簡易技能。

特別是,他們對RT-2的變體進(jìn)行了幾百個梯度步驟的微調(diào),以提高其聯(lián)合使用語言和動作的能力,然后對數(shù)據(jù)進(jìn)行了擴(kuò)充,添加了一個額外的“計劃”步驟,首先用自然語言描述機(jī)器人即將采取的動作的目的,然后是“動作”和動作標(biāo)注。

這里,研究人員展示了這種推理和機(jī)器人的最終行為的示例:

▲思維鏈推理可以學(xué)習(xí)一個獨立的模型,該模型既可以規(guī)劃長期技能序列,又可以預(yù)測機(jī)器人的動作。

通過這一過程,RT-2可以執(zhí)行更多復(fù)雜的命令,這些命令需要推理完成用戶指令所需的中間步驟。得益于其VLM主干,RT-2還可以根據(jù)圖像和文本命令進(jìn)行規(guī)劃,從而實現(xiàn)基于視覺的規(guī)劃,而當(dāng)前的計劃和行動方法(如SayCan)無法看到現(xiàn)實世界并完全依賴于語言。

多年來,研究人員們一直試圖讓機(jī)器人具有更好的推理能力,以解決如何在現(xiàn)實生活環(huán)境中生存的問題。以前,訓(xùn)練機(jī)器人需要很長時間。研究人員必須單獨制定方向。但借助RT-2等VLA模型的強(qiáng)大功能,機(jī)器人可以獲取更多信息來推斷下一步該做什么。

加州大學(xué)伯克利分校機(jī)器人學(xué)教授肯·戈德堡(Ken Goldberg)說,機(jī)器人的靈巧程度仍達(dá)不到人類的水平,在一些基本任務(wù)上也表現(xiàn)不佳,但谷歌利用AI大型語言模型賦予機(jī)器人新的推理和即興創(chuàng)作技能,這是一個有希望的突破。

谷歌沒有立即計劃銷售RT-2機(jī)器人或更廣泛地發(fā)布它們,但其研究人員相信這些配備新語言的機(jī)器最終將不僅僅用于室內(nèi)魔術(shù),具有內(nèi)置語言模型的機(jī)器人可以放入倉庫、用于醫(yī)藥,甚至可以用作家庭助理——折疊衣物、從洗碗機(jī)中取出物品、在房子周圍收拾東西。

Google DeepMind機(jī)器人技術(shù)主管文森特·范霍克(Vincent Vanhoucke)認(rèn)為,這確實開啟了在有人所在的環(huán)境中使用機(jī)器人的大門——在辦公室環(huán)境中,在家庭環(huán)境中,在所有需要完成大量體力任務(wù)的地方。

當(dāng)然,在雜亂無章的物理世界中移動物體,比在受控實驗室中移動物體要困難。人類本能地知道該如何清理潑到桌上的飲料,但機(jī)器人需要更多的指令才能去做這項看似輕而易舉的工作。

鑒于AI大型語言模型經(jīng)常犯錯誤或發(fā)明無意義的答案,將它們用作機(jī)器人的大腦可能會帶來新的風(fēng)險。但戈德堡教授說,這些風(fēng)險仍然很小?!拔覀儾⒉皇窃谡?wù)撟屵@些東西失控,”他說,“在這些實驗室環(huán)境中,他們只是試圖在桌子上推一些物體。”

谷歌方面表示,RT-2配備了大量安全功能。除了每個機(jī)器人背面都有一個紅色大按鈕(按下按鈕后機(jī)器人會停止在軌道上)之外,該系統(tǒng)還使用傳感器來避免撞到人或物體。

RT-2內(nèi)置的AI軟件有自己的保護(hù)措施,可以用來防止機(jī)器人做出任何有害的事情。例如,谷歌的機(jī)器人經(jīng)過訓(xùn)練后不會拿起裝有水的容器,因為如果水溢出,它們的硬件可能會損壞。

谷歌的RT-2機(jī)器人并不完美。在實際演示中,它把一罐檸檬味蘇打水的味道錯猜成“橘子味”。還有一次被問到桌子上有什么水果時,機(jī)器人回答成“白色”,而正確答案是香蕉。谷歌發(fā)言人解釋說,該機(jī)器人使用了緩存的答案來回答之前測試者的問題,因為它的Wi-Fi曾短暫中斷過。

但瑕不掩瑜。RT-2不僅是對現(xiàn)有VLM模型的簡單而有效的修改,而且還展示了構(gòu)建通用物理機(jī)器人的前景,該機(jī)器人可以推理、解決問題和解釋信息,以在現(xiàn)實世界中執(zhí)行各種任務(wù)。

在大型語言模型研究的啟發(fā)下,機(jī)器人正變得更加智能。

400-021-0821