gif动态图无码专区,日韩精品一区二区三区中文字幕

中科院出手！1000億參數(shù)全模態(tài)大模型發(fā)布，能看懂視頻、繪畫作曲、分析信號

發(fā)布時間：2023-07-24 09:17瀏覽次數(shù)：

美譽度品牌管理
作者 | ZeR0
編輯 | jonyle

美譽度6月16日報道，在今日舉行的人工智能框架生態(tài)峰會2023上，中國科學院自動化研究所所長徐波正式發(fā)布。

相比以前的大模型，紫東太初2.0新增了視頻、傳感信號、3D點云等模態(tài)，擁有了更強的認知、理解、創(chuàng)作能力。

它不僅有和ChatGPT類似的多輪問答、文本創(chuàng)作能力，還實現(xiàn)了全模態(tài)輸入，支持視頻、圖像、音樂、3D、信號的理解，并能夠?qū)崿F(xiàn)圖文音搜索、圖像生成、音樂生成、信號分析等功能。

美譽度第一時間對紫東太初2.0的音樂能力、信號類能力、視頻能力、跨模態(tài)能力、圖像能力、語言能力等進行體驗。

紫東太初2.0可以通過給定的文本提示，可控生成高保真的音樂，并支持即興創(chuàng)作多種風格類型和多種樂器演奏的音樂。

648c16a582594_648c16a58254b_屏幕錄制2023-06-16-13.11.17

比如，上傳一段音樂文件，讓紫東太初2.0識別這個音樂是什么，它能識別出這是貝多芬的交響曲，并分享了這段音樂表達了怎樣的感情。

你還可以詢問這段音樂是用什么樂器演奏的，讓紫東太初2.0根據(jù)這段音樂作詩，或者追問貝多芬的生平是怎樣的。

紫東太初2.0也支持雷達信號鑒別與知識交互，可借助模型快速掌握信號基本來源及參數(shù)等。

上傳一段信號后，你可以向它詢問這段信號的相關(guān)信息。

視頻能力方面，紫東太初2.0能基于用戶上傳的視頻素材，準確理解并回答視頻識別、視頻描述類問題，同時支持上下文信息理解和多輪問答。

比如，上傳一段唱歌跳舞的視頻，問紫東太初2.0這段視頻描述了什么、對視頻中音樂的感受、是否認可等問題。

此外，紫東太初2.0擁有海量的高質(zhì)視頻素材庫，具備視頻素材檢索能力。

比如讓它找一個踢足球的視頻。

你還可以針對視頻內(nèi)容進一步發(fā)問，讓紫東太初2.0結(jié)合動作和音樂分析視頻，或是根據(jù)視頻內(nèi)容預測后面可能發(fā)生什么事。

紫東太初2.0能結(jié)合多個圖像、音頻、視頻文件，進行綜合理解與創(chuàng)作。

上傳兩個視頻，問這兩個視頻的共同特點是什么？對此，紫東太初2.0能夠結(jié)合視頻的畫面和聲音，分析出共通之處以及各自的差異點。

另一個例子是圖像+音頻。

上傳一張圖書館的圖片和一段鼓掌聲音頻，問這段音頻有沒有可能出現(xiàn)在圖片里的場景中？

紫東太初2.0給出答案：不太可能，原因是圖片中的場景沒有慶?；驓g迎的氛圍。

或者，上傳一張足球場的圖片+一段鼓掌聲音頻，讓紫東太初2.0結(jié)合圖片和音頻，分析一下場景的氛圍。

通過綜合理解圖像、音頻、視頻信息，紫東太初2.0“拼出”一個完整的信息描述，或者將這些內(nèi)容串聯(lián)形成一段流暢的故事。

紫東太初2.0能基于用戶上傳的圖片素材，準確理解并回答圖片識別類問題，包括識別圖像主體、背景、動作、顏色等等，同時支持上下文信息理解和多輪問答。

比如問“圖里有幾只動物”、“小狗和小貓在做什么”，紫東太初2.0給出了具體的描述。

你還可以針對這張圖片，詢問更多細節(jié)，比如小動物的毛色、它們在什么地方玩。

上傳風車的圖片，問“這個裝置的作用是什么”，紫東太初2.0給的回答包括“風力發(fā)電站”。

接著追問“為什么要在圖中位置建設這樣的裝置”，它馬上給出回答：“為了讓它更加接近自然環(huán)境，以便更好地利用風能?！?/p>

此外，紫東太初2.0具備基于點云數(shù)據(jù)的3D場景理解和物體感知能力。你可以讓它描述從這張三維圖里看到了什么信息。

不過在理解梗圖方面，紫東太初2.0的能力還沒有開發(fā)出來，并不能弄明白下圖好笑在哪兒。

除了搜視頻，紫東太初2.0也能被用于搜圖。比如讓它生成一張熊貓的圖片。

在生成圖像方面，紫東太初2.0可以生成指定風格的圖。比如我要求“用中國畫風格畫一只慵懶的貓”，紫東太初2.0立刻畫出了一張臥著的虎皮貓。

在語言能力方面，和多數(shù)大型語言模型一樣，紫東太初2.0支持中文問答、邏輯推理、文本摘要、文本續(xù)寫、文本創(chuàng)作、標題生成、語法分析、機器翻譯等等。

它能準確理解用戶輸入的問題語境，并能做出準確的知識性問答，包括生活常識、工作技能、醫(yī)學知識、歷史人文等知識領域。

給紫東太初2.0一篇文章，它能快速理解文章的核心觀點，根據(jù)長文本提取簡潔而準確的摘要。

它也能寫一個擁有出人意料結(jié)局的推理小說。

寫個快速排序代碼，同樣不在話下。

綜合來看，紫東太初2.0在圖文音多模態(tài)能力的基礎之上，增加了對視頻、3D場景和信號等模態(tài)的理解，用更多模態(tài)信息來彌補單模態(tài)的局限性，更好地增強了對多種模態(tài)的綜合理解和認知。

徐波說，中科院早在2008年就開始推進圖文音的單獨攻關(guān)，2020年1月啟動多模態(tài)聯(lián)合攻關(guān)，從2021年1月做出百億模型到2021年9月發(fā)布，再到推出紫東太初2.0，以昇騰AI硬件及昇思MindSpore AI框架為基礎，依托武漢人工智能計算中心算力支持，利用預訓練+微調(diào)技術(shù)，在大的神經(jīng)網(wǎng)絡上，把多個場景的知識和數(shù)據(jù)都吸納到一個模型上。

但物理世界的信息種類遠多于圖文音，有大量結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)，包括溫度、深度、壓力信號、3D超聲波指紋、脈搏波、降水量、人體紅外、3D激光等等諸多形式。

基于這樣的認識，面向數(shù)字物聯(lián)時代，紫東太初2.0推出實現(xiàn)了能接入非結(jié)構(gòu)化、半結(jié)構(gòu)化、結(jié)構(gòu)化等數(shù)據(jù)的全模態(tài)大模型開放系統(tǒng)架構(gòu)。

面對全模態(tài)數(shù)據(jù)，紫東太初2.0率先實現(xiàn)了認知增強的多模態(tài)關(guān)聯(lián)，在全模態(tài)理解能力、生成能力、對齊能力上實現(xiàn)了躍升。

研究團隊重點研究突破了多模態(tài)分組認知編碼、全模態(tài)認知對齊和融合、多模態(tài)分組認知解碼等關(guān)鍵技術(shù)，使多模態(tài)關(guān)聯(lián)的認知能力大幅提高。

通過完成音樂、圖像、視頻等數(shù)據(jù)之間的跨模態(tài)對齊，紫東太初2.0可處理音樂視頻分析、三維導航等多模態(tài)關(guān)聯(lián)應用應用需求，并可實現(xiàn)音樂、視頻等多模態(tài)內(nèi)容生成。

由此，紫東太初2.0打通了感知、認知乃至決策的交互屏障，具有全模態(tài)能力的涌現(xiàn)，使得人工智能進一步感知、認知世界，從而延伸出更加強大的通用能力。

徐波說，紫東太初底座大模型正賦能千行百業(yè)，包括布匹紡織及缺陷檢測、文旅導游、柔性手術(shù)機器人、AI手語老師等。

例如在醫(yī)療場景，基于紫東太初打造的顱內(nèi)手術(shù)多模態(tài)智能助手可實現(xiàn)不同模態(tài)的高效協(xié)同與轉(zhuǎn)換，尤其是視覺、觸覺的跨模態(tài)融合，解決了機器人輔助手術(shù)中觸覺缺失的國際性難題。

協(xié)和醫(yī)院用到紫東太初2.0在全模態(tài)方面的推理功能，去嘗試在醫(yī)療診斷方面做一些有挑戰(zhàn)性的工作，尤其是在心、腦、腎三個罕見病中，利用多種醫(yī)療模態(tài)和患者病例特點，生成擬診討論，在診斷、鑒別診斷和治療計劃給出一些建議。

在交通場景，以前智能系統(tǒng)更多關(guān)注識別到比較常見的交通違規(guī)行為，但實際場景中會有很多細碎的違規(guī)行為，比如壓實線、摩托車不戴頭盔、三輪車違法載人等等。只需輸入對違規(guī)行為的文字描述，再給1~2張圖片，紫東太初就能實現(xiàn)對違規(guī)行為認知級別的研判。

在互聯(lián)網(wǎng)短視頻場景中，有些短視頻的標題和簡介文本沒有問題，但視頻內(nèi)容包含敏感信息。利用多模態(tài)融合感知技術(shù)，可以對視頻進行溯源，及時發(fā)現(xiàn)風險內(nèi)容。

在大模型的基礎上，中科院也研發(fā)了紫東太初開放服務平臺，以惠及更多用戶。

徐波說，大模型成為人工智能發(fā)展的里程碑和分水嶺，以ChatGPT為代表的“大算力+大數(shù)據(jù)+大模型”標志著通用人工智能時代的來臨，大模型將實現(xiàn)對勞動力、資本等生產(chǎn)要素的智能替代和功能倍增，促進全要素生產(chǎn)率的提高。

人類的學習和交互過程中充滿了多模態(tài)信息，包括自然語言、視覺、聽覺、觸覺、嗅覺/味覺、生理信號等等。以嬰兒早期發(fā)育為例，它通過多種模態(tài)信息可以很容易地感知和學習世界，基于這一認識，紫東太初大模型從一開始走的就是多模態(tài)技術(shù)路線。

據(jù)徐波分享，通過可自主進化通用人工智能有三條路徑：類腦智能、信息智能、博弈智能。

他認為，目前全模態(tài)的信息智能走得更快，但它一定會吸納類腦智能在極低功耗及演化機制方面的優(yōu)勢，也一定會吸納博弈智能與環(huán)境交互產(chǎn)生自適應能力的機制，融合起來，才是更強的通用人工智能。

上一篇：OV被逼退場，小米交百億“專利稅”保身，諾基亞專利大棒為何這么硬？

下一篇：大模型+AIoT=？宇視和四大行業(yè)先鋒開啟一場AIGC平權(quán)試驗

公司資訊

新聞中心

公司資訊

公司資訊

新聞中心

公司資訊

微信號：15221830078微信二維碼