您好,歡迎進入美譽度品牌管理官網(wǎng)!

江蘇危機公關(guān)公司

一站式提供商

提供設計,生產(chǎn),安裝,售后服務一條龍服務

400-021-0821
公司資訊
您的位置: 主頁 > 新聞中心 > 公司資訊
中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫作曲、分析信號
發(fā)布時間:2023-07-24 09:17瀏覽次數(shù):

美譽度品牌管理
作者 |  ZeR0
編輯 |  jonyle

美譽度6月16日報道,在今日舉行的人工智能框架生態(tài)峰會2023上,中國科學院自動化研究所所長徐波正式發(fā)布。

相比以前的大模型,紫東太初2.0新增了視頻、傳感信號、3D點云等模態(tài),擁有了更強的認知、理解、創(chuàng)作能力。

它不僅有和ChatGPT類似的多輪問答、文本創(chuàng)作能力,還實現(xiàn)了全模態(tài)輸入,支持視頻、圖像、音樂、3D、信號的理解,并能夠?qū)崿F(xiàn)圖文音搜索、圖像生成、音樂生成、信號分析等功能。

美譽度第一時間對紫東太初2.0的音樂能力、信號類能力、視頻能力、跨模態(tài)能力、圖像能力、語言能力等進行體驗。

紫東太初2.0可以通過給定的文本提示,可控生成高保真的音樂,并支持即興創(chuàng)作多種風格類型和多種樂器演奏的音樂。

648c16a582594_648c16a58254b_屏幕錄制2023-06-16-13.11.17

比如,上傳一段音樂文件,讓紫東太初2.0識別這個音樂是什么,它能識別出這是貝多芬的交響曲,并分享了這段音樂表達了怎樣的感情。

你還可以詢問這段音樂是用什么樂器演奏的,讓紫東太初2.0根據(jù)這段音樂作詩,或者追問貝多芬的生平是怎樣的。

紫東太初2.0也支持雷達信號鑒別與知識交互,可借助模型快速掌握信號基本來源及參數(shù)等。

上傳一段信號后,你可以向它詢問這段信號的相關(guān)信息。

視頻能力方面,紫東太初2.0能基于用戶上傳的視頻素材,準確理解并回答視頻識別、視頻描述類問題,同時支持上下文信息理解和多輪問答。

比如,上傳一段唱歌跳舞的視頻,問紫東太初2.0這段視頻描述了什么、對視頻中音樂的感受、是否認可等問題。

此外,紫東太初2.0擁有海量的高質(zhì)視頻素材庫,具備視頻素材檢索能力。

比如讓它找一個踢足球的視頻。

你還可以針對視頻內(nèi)容進一步發(fā)問,讓紫東太初2.0結(jié)合動作和音樂分析視頻,或是根據(jù)視頻內(nèi)容預測后面可能發(fā)生什么事。

紫東太初2.0能結(jié)合多個圖像、音頻、視頻文件,進行綜合理解與創(chuàng)作。

上傳兩個視頻,問這兩個視頻的共同特點是什么?對此,紫東太初2.0能夠結(jié)合視頻的畫面和聲音,分析出共通之處以及各自的差異點。

另一個例子是圖像+音頻。

上傳一張圖書館的圖片和一段鼓掌聲音頻,問這段音頻有沒有可能出現(xiàn)在圖片里的場景中?

紫東太初2.0給出答案:不太可能,原因是圖片中的場景沒有慶?;驓g迎的氛圍。

或者,上傳一張足球場的圖片+一段鼓掌聲音頻,讓紫東太初2.0結(jié)合圖片和音頻,分析一下場景的氛圍。

通過綜合理解圖像、音頻、視頻信息,紫東太初2.0“拼出”一個完整的信息描述,或者將這些內(nèi)容串聯(lián)形成一段流暢的故事。

紫東太初2.0能基于用戶上傳的圖片素材,準確理解并回答圖片識別類問題,包括識別圖像主體、背景、動作、顏色等等,同時支持上下文信息理解和多輪問答。

比如問“圖里有幾只動物”、“小狗和小貓在做什么”,紫東太初2.0給出了具體的描述。

你還可以針對這張圖片,詢問更多細節(jié),比如小動物的毛色、它們在什么地方玩。

上傳風車的圖片,問“這個裝置的作用是什么”,紫東太初2.0給的回答包括“風力發(fā)電站”。

接著追問“為什么要在圖中位置建設這樣的裝置”,它馬上給出回答:“為了讓它更加接近自然環(huán)境,以便更好地利用風能?!?/p>

此外,紫東太初2.0具備基于點云數(shù)據(jù)的3D場景理解和物體感知能力。你可以讓它描述從這張三維圖里看到了什么信息。

不過在理解梗圖方面,紫東太初2.0的能力還沒有開發(fā)出來,并不能弄明白下圖好笑在哪兒。

除了搜視頻,紫東太初2.0也能被用于搜圖。比如讓它生成一張熊貓的圖片。

在生成圖像方面,紫東太初2.0可以生成指定風格的圖。比如我要求“用中國畫風格畫一只慵懶的貓”,紫東太初2.0立刻畫出了一張臥著的虎皮貓。

在語言能力方面,和多數(shù)大型語言模型一樣,紫東太初2.0支持中文問答、邏輯推理、文本摘要、文本續(xù)寫、文本創(chuàng)作、標題生成、語法分析、機器翻譯等等。

它能準確理解用戶輸入的問題語境,并能做出準確的知識性問答,包括生活常識、工作技能、醫(yī)學知識、歷史人文等知識領域。

給紫東太初2.0一篇文章,它能快速理解文章的核心觀點,根據(jù)長文本提取簡潔而準確的摘要。

它也能寫一個擁有出人意料結(jié)局的推理小說。

寫個快速排序代碼,同樣不在話下。

綜合來看,紫東太初2.0在圖文音多模態(tài)能力的基礎之上,增加了對視頻、3D場景和信號等模態(tài)的理解,用更多模態(tài)信息來彌補單模態(tài)的局限性,更好地增強了對多種模態(tài)的綜合理解和認知。

徐波說,中科院早在2008年就開始推進圖文音的單獨攻關(guān),2020年1月啟動多模態(tài)聯(lián)合攻關(guān),從2021年1月做出百億模型到2021年9月發(fā)布,再到推出紫東太初2.0,以昇騰AI硬件及昇思MindSpore AI框架為基礎,依托武漢人工智能計算中心算力支持,利用預訓練+微調(diào)技術(shù),在大的神經(jīng)網(wǎng)絡上,把多個場景的知識和數(shù)據(jù)都吸納到一個模型上。

但物理世界的信息種類遠多于圖文音,有大量結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),包括溫度、深度、壓力信號、3D超聲波指紋、脈搏波、降水量、人體紅外、3D激光等等諸多形式。

基于這樣的認識,面向數(shù)字物聯(lián)時代,紫東太初2.0推出實現(xiàn)了能接入非結(jié)構(gòu)化、半結(jié)構(gòu)化、結(jié)構(gòu)化等數(shù)據(jù)的全模態(tài)大模型開放系統(tǒng)架構(gòu)。

面對全模態(tài)數(shù)據(jù),紫東太初2.0率先實現(xiàn)了認知增強的多模態(tài)關(guān)聯(lián),在全模態(tài)理解能力、生成能力、對齊能力上實現(xiàn)了躍升。

研究團隊重點研究突破了多模態(tài)分組認知編碼、全模態(tài)認知對齊和融合、多模態(tài)分組認知解碼等關(guān)鍵技術(shù),使多模態(tài)關(guān)聯(lián)的認知能力大幅提高。

通過完成音樂、圖像、視頻等數(shù)據(jù)之間的跨模態(tài)對齊,紫東太初2.0可處理音樂視頻分析、三維導航等多模態(tài)關(guān)聯(lián)應用應用需求,并可實現(xiàn)音樂、視頻等多模態(tài)內(nèi)容生成。

由此,紫東太初2.0打通了感知、認知乃至決策的交互屏障,具有全模態(tài)能力的涌現(xiàn),使得人工智能進一步感知、認知世界,從而延伸出更加強大的通用能力。

徐波說,紫東太初底座大模型正賦能千行百業(yè),包括布匹紡織及缺陷檢測、文旅導游、柔性手術(shù)機器人、AI手語老師等。

例如在醫(yī)療場景,基于紫東太初打造的顱內(nèi)手術(shù)多模態(tài)智能助手可實現(xiàn)不同模態(tài)的高效協(xié)同與轉(zhuǎn)換,尤其是視覺、觸覺的跨模態(tài)融合,解決了機器人輔助手術(shù)中觸覺缺失的國際性難題。

協(xié)和醫(yī)院用到紫東太初2.0在全模態(tài)方面的推理功能,去嘗試在醫(yī)療診斷方面做一些有挑戰(zhàn)性的工作,尤其是在心、腦、腎三個罕見病中,利用多種醫(yī)療模態(tài)和患者病例特點,生成擬診討論,在診斷、鑒別診斷和治療計劃給出一些建議。

在交通場景,以前智能系統(tǒng)更多關(guān)注識別到比較常見的交通違規(guī)行為,但實際場景中會有很多細碎的違規(guī)行為,比如壓實線、摩托車不戴頭盔、三輪車違法載人等等。只需輸入對違規(guī)行為的文字描述,再給1~2張圖片,紫東太初就能實現(xiàn)對違規(guī)行為認知級別的研判。

在互聯(lián)網(wǎng)短視頻場景中,有些短視頻的標題和簡介文本沒有問題,但視頻內(nèi)容包含敏感信息。利用多模態(tài)融合感知技術(shù),可以對視頻進行溯源,及時發(fā)現(xiàn)風險內(nèi)容。

在大模型的基礎上,中科院也研發(fā)了紫東太初開放服務平臺,以惠及更多用戶。

徐波說,大模型成為人工智能發(fā)展的里程碑和分水嶺,以ChatGPT為代表的“大算力+大數(shù)據(jù)+大模型”標志著通用人工智能時代的來臨,大模型將實現(xiàn)對勞動力、資本等生產(chǎn)要素的智能替代和功能倍增,促進全要素生產(chǎn)率的提高。

人類的學習和交互過程中充滿了多模態(tài)信息,包括自然語言、視覺、聽覺、觸覺、嗅覺/味覺、生理信號等等。以嬰兒早期發(fā)育為例,它通過多種模態(tài)信息可以很容易地感知和學習世界,基于這一認識,紫東太初大模型從一開始走的就是多模態(tài)技術(shù)路線。

據(jù)徐波分享,通過可自主進化通用人工智能有三條路徑:類腦智能、信息智能、博弈智能。

他認為,目前全模態(tài)的信息智能走得更快,但它一定會吸納類腦智能在極低功耗及演化機制方面的優(yōu)勢,也一定會吸納博弈智能與環(huán)境交互產(chǎn)生自適應能力的機制,融合起來,才是更強的通用人工智能。

400-021-0821