无码欧亚熟妇人妻AV在线外遇,欧美日韩在线亚洲一区蜜芽

真能聽懂人話！機(jī)器人ChatGPT來了，谷歌發(fā)布又一AI大模型黑科技

發(fā)布時間：2023-11-27 11:02瀏覽次數(shù)：

美譽度品牌管理

美譽度7月29日消息，Google DeepMind再放AI機(jī)器人大招！周五，這家前沿AI研究機(jī)構(gòu)宣布以訓(xùn)練AI聊天機(jī)器人的方式訓(xùn)練了一款全新的機(jī)器人模型Robotic Transformer 2（RT-2）。

RT-2相當(dāng)于機(jī)器人版ChatGPT，被Google DeepMind稱作是其視覺-語言-動作（VLA）模型的新版本。該模型可以教會機(jī)器人更好地識別視覺和語言模態(tài)，能夠解釋人類用自然語言發(fā)出的指令，并推斷出如何做出相應(yīng)的行動。它還可以理解英語以外的語言的指示。

結(jié)合思維鏈推理，RT-2可以執(zhí)行多階段語義推理。即便是一些抽象概念，RT-2也能理解并指揮機(jī)械臂做出正確的動作。比如讓它找一把臨時用的簡易錘子，它會抓起石頭；讓它給疲憊的人選一款飲料，它會選擇紅牛；讓它把可樂罐移到泰勒·斯威夫特的照片上，它也能順利完成。

根據(jù)論文，RT-2模型基于網(wǎng)絡(luò)和機(jī)器人數(shù)據(jù)進(jìn)行訓(xùn)練，利用了谷歌自己的Bard等大型語言模型的研究進(jìn)展，并將其與機(jī)器人數(shù)據(jù)（例如要移動的關(guān)節(jié)）相結(jié)合，然后將這些知識轉(zhuǎn)化為機(jī)器人控制的通用指令，同時保留web-scale能力。

Google DeepMind博客文章寫道，RT-2顯示出超越其所接觸的機(jī)器人數(shù)據(jù)的泛化能力以及語義和視覺理解能力，包括解釋新命令并通過執(zhí)行基本推理（例如關(guān)于對象類別或高級描述的推理）來響應(yīng)用戶命令。

其將信息轉(zhuǎn)化為行動的能力表明，機(jī)器人有望更快地適應(yīng)新的情況和環(huán)境。

在對RT-2模型進(jìn)行了超過6000次的機(jī)器人試驗后，研究團(tuán)隊發(fā)現(xiàn)，RT-2在訓(xùn)練數(shù)據(jù)或“可見”任務(wù)上的表現(xiàn)與之前的模型RT-1一樣好。它在新奇的、不可預(yù)見的場景中的表現(xiàn)幾乎翻番，從RT-1的32%提高到62%。

一、讓機(jī)器人用AI大模型學(xué)習(xí)新技能

機(jī)器人技術(shù)領(lǐng)域正悄然進(jìn)行一場革命——將大型語言模型的最新進(jìn)展引入機(jī)器人，讓機(jī)器人變得更聰明，并具備新的理解和解決問題的能力。

《紐約時報》技術(shù)專欄作家凱文·羅斯（Kevin Roose）在谷歌機(jī)器人部門觀看了實際演示，工程師給機(jī)器人發(fā)出指令：“撿起滅絕的動物”，一個單臂機(jī)器人呼呼地響了一會兒，然后伸出機(jī)械臂，爪子張開落下，準(zhǔn)確抓住了它面前桌子上的恐龍塑料制品。

在這場長達(dá)1小時的演示中，RT-2還成功執(zhí)行了“將大眾汽車移到德國國旗上”的復(fù)雜指令，RT-2找到并抓住一輛大眾巴士模型，并將其放在幾英尺外的微型德國國旗上。

▲兩名谷歌工程師Ryan Julian（左）和Quan Vuong成功指示RT-2“將大眾汽車移到德國國旗上”。（圖源：《紐約時報》）

多年以來，谷歌和其他公司的工程師訓(xùn)練機(jī)器人執(zhí)行機(jī)械任務(wù)（例如翻轉(zhuǎn)漢堡）的方式是使用特定的指令列表對其進(jìn)行編程。然后機(jī)器人會一次又一次地練習(xí)該任務(wù)，工程師每次都會調(diào)整指令，直到得到滿意的結(jié)果為止。

這種方法適用于某些有限的用途。但以這種方式訓(xùn)練機(jī)器人，既緩慢又費力。它需要從現(xiàn)實世界的測試中收集大量數(shù)據(jù)。如果你想教機(jī)器人做一些新的事情（例如從翻轉(zhuǎn)漢堡改做翻轉(zhuǎn)煎餅），你通常必須從頭開始重新編程。

部分源于這些限制，硬件機(jī)器人的改進(jìn)速度慢于基于軟件的同類機(jī)器人。

近年來，谷歌的研究人員有了一個想法：如果機(jī)器人使用AI大型語言模型（來為自己學(xué)習(xí)新技能，而不是逐一為特定任務(wù)進(jìn)行編程，會怎樣？

據(jù)谷歌研究科學(xué)家卡羅爾·豪斯曼（Karol Hausman）介紹，他們大約兩年前開始研究這些語言模型，意識到它們蘊藏著豐富的知識，所以開始將它們連接到機(jī)器人。

高容量視覺-語言模型（VLM）在web-scale數(shù)據(jù)集上進(jìn)行訓(xùn)練，使這些系統(tǒng)非常擅長識別視覺或語言模式并跨不同語言進(jìn)行操作。但要讓機(jī)器人達(dá)到類似的能力水平，他們需要收集每個物體、環(huán)境、任務(wù)和情況的第一手機(jī)器人數(shù)據(jù)。

RT-2的工作建立在RT-1的基礎(chǔ)上。這是一個經(jīng)過多任務(wù)演示訓(xùn)練的模型，可學(xué)習(xí)機(jī)器人數(shù)據(jù)中看到的任務(wù)和對象的組合。更具體地說，谷歌的研究工作使用了在辦公室廚房環(huán)境中用13個機(jī)器人在17 個月內(nèi)收集的RT-1機(jī)器人演示數(shù)據(jù)。

谷歌首次嘗試將語言模型和物理機(jī)器人結(jié)合起來是一個名為PaLM-SayCan的研究項目，該項目于去年公布，它引起了一些關(guān)注，但其用處有限。機(jī)器人缺乏解讀圖像的能力，而這是能夠理解世界的一項重要技能。他們可以為不同的任務(wù)寫出分步說明，但無法將這些步驟轉(zhuǎn)化為行動。

谷歌的新機(jī)器人模型RT-2就能做到這一點。這個“視覺-語言-動作”模型不僅能夠看到和分析周圍的世界，還能告訴機(jī)器人如何移動。

它通過將機(jī)器人的動作轉(zhuǎn)換為一系列數(shù)字（這一過程稱為標(biāo)注）并將這些標(biāo)注合并到與語言模型相同的訓(xùn)練數(shù)據(jù)中來實現(xiàn)這一點。

最終，就像ChatGPT或Bard學(xué)會推測一首詩或一篇歷史文章中接下來應(yīng)該出現(xiàn)什么詞一樣，RT-2可以學(xué)會猜測機(jī)械臂應(yīng)該如何移動來撿起球或?qū)⒖掌奕舆M(jìn)回收站垃圾桶。

采用視覺語言模型進(jìn)行機(jī)器人控制

RT-2表明視覺-語言模型（VLM）可以轉(zhuǎn)化為強(qiáng)大的視覺-語言-動作（VLA）模型，通過將VLM預(yù)訓(xùn)練與機(jī)器人數(shù)據(jù)相結(jié)合，直接控制機(jī)器人。

RT-2以視覺-語言模型（VLM）為基礎(chǔ)，將一個或多個圖像作為輸入，并生成一系列通常代表自然語言文本的標(biāo)注。此類VLM已接受web-scale數(shù)據(jù)的訓(xùn)練，能夠執(zhí)行視覺問答、圖像字幕或?qū)ο笞R別等任務(wù)。Google DeepMind團(tuán)隊采用PaLI-X和PaLM-E模型作為RT-2的支柱。

為了控制機(jī)器人，必須訓(xùn)練它輸動作。研究人員通過將操作表示為模型輸出中的標(biāo)注（類似于語言標(biāo)注）來解決這一挑戰(zhàn)，并將操作描述為可以由標(biāo)準(zhǔn)自然語言標(biāo)注生成器處理的字符串，如下所示：

▲RT-2訓(xùn)練中使用的動作字符串的表示形式。這種字符串的示例可以是機(jī)器人動作標(biāo)記編號的序列，例如“1 128 91 241 5 101 127 217”。

該字符串以一個標(biāo)志開頭，指示是繼續(xù)還是終止當(dāng)前情節(jié)，而不執(zhí)行后續(xù)命令，然后是更改末端執(zhí)行器的位置和旋轉(zhuǎn)以及機(jī)器人夾具所需延伸的命令。

研究人員使用了與RT-1中相同的機(jī)器人動作離散版本，并表明將其轉(zhuǎn)換為字符串表示使得可以在機(jī)器人數(shù)據(jù)上訓(xùn)練VLM模型，因為此類模型的輸入和輸出空間不需要改變了。

▲RT-2架構(gòu)和訓(xùn)練：研究人員針對機(jī)器人和網(wǎng)絡(luò)數(shù)據(jù)共同微調(diào)預(yù)先訓(xùn)練的VLM模型。生成的模型接收機(jī)器人攝像頭圖像并直接預(yù)測機(jī)器人要執(zhí)行的動作。

研究人員在RT-2模型上進(jìn)行了一系列定性和定量實驗，進(jìn)行了6000多次機(jī)器人試驗。

在探索RT-2的新興功能時，他們首先搜索了需要將web-scale數(shù)據(jù)的知識與機(jī)器人的經(jīng)驗相結(jié)合的任務(wù)，然后定義三類技能：符號理解、推理和人類識別。

每項任務(wù)都需要理解視覺語義概念以及執(zhí)行機(jī)器人控制以操作這些概念的能力。需要諸如“撿起即將從桌子上掉下來的袋子”之類的命令，其中要求機(jī)器人對機(jī)器人數(shù)據(jù)中從未見過的物體或場景執(zhí)行操作任務(wù)將知識從基于網(wǎng)絡(luò)的數(shù)據(jù)轉(zhuǎn)化為可操作的。

▲機(jī)器人數(shù)據(jù)中不存在的新興機(jī)器人技能示例，需要通過網(wǎng)絡(luò)預(yù)訓(xùn)練進(jìn)行知識遷移。

在所有類別中，研究人員觀察到與之前的基線（例如之前的RT-1模型和Visual Cortex（VC-1）等模型）相比，RT-2的泛化性能提高到3倍以上，這些模型是在大型視覺數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的。

▲緊急技能評估的成功率：RT-2模型優(yōu)于之前的RT-1和VC-1基線。

研究人員還進(jìn)行了一系列定量評估，從最初的RT-1任務(wù)開始，在機(jī)器人數(shù)據(jù)中提供了示例，然后繼續(xù)對機(jī)器人進(jìn)行不同程度的以前未見過的物體、背景和環(huán)境，要求機(jī)器人從VLM預(yù)訓(xùn)練中學(xué)習(xí)泛化能力。

▲機(jī)器人以前未見過的環(huán)境示例，RT-2可以推廣到新的情況。

RT-2保留了機(jī)器人數(shù)據(jù)中看到的原始任務(wù)的性能，并提高了機(jī)器人在以前未見過的場景上的性能，從RT-1的32%提高到了62%，展示了大規(guī)模預(yù)訓(xùn)練的巨大優(yōu)勢。

此外，研究人員觀察到與僅視覺任務(wù)預(yù)訓(xùn)練的基線相比有顯著改進(jìn)，例如VC-1和機(jī)器人操作的Reusable Representations for Robotic Manipulation（R3M），以及用VLM進(jìn)行對象識別的算法，例如Manipulation of Open-World Objects（MOO）。

▲RT-2在可見的分布內(nèi)任務(wù)上實現(xiàn)了高性能，并且在分布外未見的任務(wù)上優(yōu)于多個基線。

在機(jī)器人任務(wù)的開源Language Table套件上評估其模型，研究人員在模擬中實現(xiàn)了90%的成功率，高于之前的基線，包括BC-Z（72%）、RT-1（74%）和LAVA（77%）。

然后研究人員在現(xiàn)實世界中評估相同的模型（因為它是在模擬和真實數(shù)據(jù)上進(jìn)行訓(xùn)練的），并展示了其泛化到新對象的能力，如下所示，其中除了藍(lán)色立方體之外，沒有任何對象出現(xiàn)在訓(xùn)練中數(shù)據(jù)集。

▲RT-2在真實機(jī)器人Language Table任務(wù)中表現(xiàn)良好。除了藍(lán)色立方體之外，訓(xùn)練數(shù)據(jù)中不存在任何對象。

受大型語言模型中使用思維鏈提示方法的啟發(fā)，研究人員探索其模型，將機(jī)器人控制與思維鏈推理相結(jié)合，以便能夠在單個模型中學(xué)習(xí)長期規(guī)劃和簡易技能。

特別是，他們對RT-2的變體進(jìn)行了幾百個梯度步驟的微調(diào)，以提高其聯(lián)合使用語言和動作的能力，然后對數(shù)據(jù)進(jìn)行了擴(kuò)充，添加了一個額外的“計劃”步驟，首先用自然語言描述機(jī)器人即將采取的動作的目的，然后是“動作”和動作標(biāo)注。

這里，研究人員展示了這種推理和機(jī)器人的最終行為的示例：

▲思維鏈推理可以學(xué)習(xí)一個獨立的模型，該模型既可以規(guī)劃長期技能序列，又可以預(yù)測機(jī)器人的動作。

通過這一過程，RT-2可以執(zhí)行更多復(fù)雜的命令，這些命令需要推理完成用戶指令所需的中間步驟。得益于其VLM主干，RT-2還可以根據(jù)圖像和文本命令進(jìn)行規(guī)劃，從而實現(xiàn)基于視覺的規(guī)劃，而當(dāng)前的計劃和行動方法（如SayCan）無法看到現(xiàn)實世界并完全依賴于語言。

多年來，研究人員們一直試圖讓機(jī)器人具有更好的推理能力，以解決如何在現(xiàn)實生活環(huán)境中生存的問題。以前，訓(xùn)練機(jī)器人需要很長時間。研究人員必須單獨制定方向。但借助RT-2等VLA模型的強(qiáng)大功能，機(jī)器人可以獲取更多信息來推斷下一步該做什么。

加州大學(xué)伯克利分校機(jī)器人學(xué)教授肯·戈德堡（Ken Goldberg）說，機(jī)器人的靈巧程度仍達(dá)不到人類的水平，在一些基本任務(wù)上也表現(xiàn)不佳，但谷歌利用AI大型語言模型賦予機(jī)器人新的推理和即興創(chuàng)作技能，這是一個有希望的突破。

谷歌沒有立即計劃銷售RT-2機(jī)器人或更廣泛地發(fā)布它們，但其研究人員相信這些配備新語言的機(jī)器最終將不僅僅用于室內(nèi)魔術(shù)，具有內(nèi)置語言模型的機(jī)器人可以放入倉庫、用于醫(yī)藥，甚至可以用作家庭助理——折疊衣物、從洗碗機(jī)中取出物品、在房子周圍收拾東西。

Google DeepMind機(jī)器人技術(shù)主管文森特·范霍克（Vincent Vanhoucke）認(rèn)為，這確實開啟了在有人所在的環(huán)境中使用機(jī)器人的大門——在辦公室環(huán)境中，在家庭環(huán)境中，在所有需要完成大量體力任務(wù)的地方。

當(dāng)然，在雜亂無章的物理世界中移動物體，比在受控實驗室中移動物體要困難。人類本能地知道該如何清理潑到桌上的飲料，但機(jī)器人需要更多的指令才能去做這項看似輕而易舉的工作。

鑒于AI大型語言模型經(jīng)常犯錯誤或發(fā)明無意義的答案，將它們用作機(jī)器人的大腦可能會帶來新的風(fēng)險。但戈德堡教授說，這些風(fēng)險仍然很小?！拔覀儾⒉皇窃谡?wù)撟屵@些東西失控，”他說，“在這些實驗室環(huán)境中，他們只是試圖在桌子上推一些物體。”

谷歌方面表示，RT-2配備了大量安全功能。除了每個機(jī)器人背面都有一個紅色大按鈕（按下按鈕后機(jī)器人會停止在軌道上）之外，該系統(tǒng)還使用傳感器來避免撞到人或物體。

RT-2內(nèi)置的AI軟件有自己的保護(hù)措施，可以用來防止機(jī)器人做出任何有害的事情。例如，谷歌的機(jī)器人經(jīng)過訓(xùn)練后不會拿起裝有水的容器，因為如果水溢出，它們的硬件可能會損壞。

谷歌的RT-2機(jī)器人并不完美。在實際演示中，它把一罐檸檬味蘇打水的味道錯猜成“橘子味”。還有一次被問到桌子上有什么水果時，機(jī)器人回答成“白色”，而正確答案是香蕉。谷歌發(fā)言人解釋說，該機(jī)器人使用了緩存的答案來回答之前測試者的問題，因為它的Wi-Fi曾短暫中斷過。

但瑕不掩瑜。RT-2不僅是對現(xiàn)有VLM模型的簡單而有效的修改，而且還展示了構(gòu)建通用物理機(jī)器人的前景，該機(jī)器人可以推理、解決問題和解釋信息，以在現(xiàn)實世界中執(zhí)行各種任務(wù)。

在大型語言模型研究的啟發(fā)下，機(jī)器人正變得更加智能。

上一篇：和AI口語老師聊完68個話題，我對學(xué)英語頓悟了

下一篇：十年研發(fā)投入萬億人民幣，專利費如何幫華為“回血”？

公司資訊

新聞中心

公司資訊

公司資訊

新聞中心

公司資訊

微信號：15221830078微信二維碼