精品人妻无码在中文字幕,av一级片在线观看网站,国产日韩欧美一区二区东京热

智源連甩多個開源王炸！悟道3.0大模型數(shù)彈齊發(fā)，大模型評測體系上線

發(fā)布時間：2023-07-31 09:20瀏覽次數(shù)：

6月9日報道，當生成式AI和大模型的颶風呼嘯而來，全球掀起了一場狂熱的GPT競賽，大量緊迫的前沿議題隨之接踵而至：

語言、視覺、多模態(tài)大模型分別有哪些研究突破口？如何顯著提升大模型的計算速度、效率和擴展性？怎樣確保大模型始終安全可控、符合人類意圖和價值觀？國內(nèi)產(chǎn)學研界亟待做些什么，才能更好地迎接大模型時代？

這些問題的答案，正在今日開幕的國內(nèi)現(xiàn)象級AI內(nèi)行頂級盛會——2023北京智源大會上——碰撞出專業(yè)深度的火花。

隨著AI大模型爆火，智源大會因規(guī)格之高、嘉賓陣容之強大而廣受矚目：這場面向AI精英人群的專業(yè)大會已經(jīng)連續(xù)舉辦5年，即日起兩天15場專題論壇匯聚了一眾AI行業(yè)翹楚，從多位深度學習先驅(qū)、圖靈獎得主與院士，到聲名烜赫的OpenAI聯(lián)合創(chuàng)始人Sam Altman、Midjourney創(chuàng)始人David Holz，以及Google DeepMind、Anthropic、Stability AI、HuggingFace、Cohere等明星AI團隊和Meta、谷歌、微軟等科技巨頭的代表，都將齊聚一堂，探討影響AI未來的核心議題。

智源“悟道”大模型項目連創(chuàng)「中國首個+世界最大」大模型紀錄之后，智源研究院在開幕式上重磅宣布：“悟道3.0”邁向全面開源、嶄新階段。

大會期間，智源研究院發(fā)布首個支持中英雙語知識、開源商用許可的“悟道·天鷹（Aquila）”語言大模型系列，提供“能力-任務-指標”三維評測框架的“天秤（FlagEval）”大模型評測體系，力求打造大模型時代“新Linux”生態(tài)的FlagOpen大模型開源技術(shù)體系，以及6項“悟道·視界”視覺大模型研究成果。

智源研究院院長黃鐵軍在與美譽度等媒體交流時談道，大模型已成為AI產(chǎn)業(yè)發(fā)展的主導力量，智源研究院希望未來做更多的支撐性工作，為大模型時代的早日形成貢獻一份獨特力量。

一、悟道·天鷹（Aquila）+天秤（FlagEval），打造大模型能力與評測標準雙標桿

為了推動大模型在產(chǎn)業(yè)落地和技術(shù)創(chuàng)新，智源研究院發(fā)布了“開源商用許可語言大模型系列+開放評測平臺”兩大重磅成果。

先來看一下“悟道·天鷹”Aquila語言大模型系列。

這是首個具備中英雙語知識、支持商用許可協(xié)議、支持國內(nèi)數(shù)據(jù)合規(guī)要求的開源語言大模型。悟道·天鷹（Aquila）系列模型包括 Aquila基礎模型（7B、33B），AquilaChat對話模型（7B、33B）以及 AquilaCode “文本-代碼”生成模型。

開源地址：https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

現(xiàn)場，智源重點展示了“悟道·天鷹”AquilaChat對話模型的4項技能：對話、寫作、可拓展特殊指令規(guī)范，強大的指令分解能力。

首先是對話能力，AquilaChat非常謹慎地拒絕回答像“如何瞞過安檢帶著炸藥上飛機”這樣存在安全風險的問題，同時能就乘坐飛機的常見問題給出簡明清晰的答案。

寫高考作文也不在話下。AquilaChat拿今年高考作文全國甲卷的“時間的仆人”題目練了練手，僅用不到10秒就生成了一篇切題的完整文章。

此外，AquilaChat通過定義可擴展的特殊指令規(guī)范，實現(xiàn)通過AquilaChat對其它模型和工具的調(diào)用，且易于擴展。例如，調(diào)用智源開源的AltDiffusion多語言文圖生成模型，實現(xiàn)了流暢的文圖生成能力：

AquilaChat還擁有強大的指令分解能力，配合智源InstrucFace多步可控文生圖模型，能夠?qū)崿F(xiàn)對人臉圖片的多步可控編輯。

比如要求將照片中的女人皮膚變白、眼睛變藍、動漫化，AquilaChat會將復雜指令拆解成多個步驟，依次完成。

再比如要求把圖片里女生的頭發(fā)變成淡黃色、皮膚變成古銅色、臉色變得更加紅潤，AquilaChat也能出色地分解并完成任務。

AquilaCode-7B“文本-代碼”生成模型，基于Aquila-7B強大的基礎模型能力，以小數(shù)據(jù)集、小參數(shù)量，實現(xiàn)高性能，是目前支持中英雙語的、性能最好的開源代碼模型。

AquilaCode-7B分別在英偉達和國產(chǎn)芯片上完成了代碼模型的訓練，并通過對多種架構(gòu)的代碼+模型開源，推動芯片創(chuàng)新與多元化發(fā)展。

值得一提的是，悟道·天鷹Aquila語言大模型基座是在中英文高質(zhì)量語料（有近40%的中文語料）基礎上從零開始訓練的，通過數(shù)據(jù)質(zhì)量的控制、深層次數(shù)據(jù)清洗處理、多種訓練的優(yōu)化方法，實現(xiàn)在更小的數(shù)據(jù)集、更短的訓練時間，獲得了比其它開源模型更優(yōu)的性能。

Aquila基礎模型底座（7B、33B）在技術(shù)上繼承了GPT-3、LLaMA等模型的架構(gòu)設計優(yōu)點，使用智源FlagAI開源代碼框架，替換了一批更高效的底層算子實現(xiàn)、重新設計實現(xiàn)了中英雙語的tokenizer，升級了BMTrain并行訓練方法。

結(jié)果，Aquila在訓練過程中，實現(xiàn)了比Megtron-LM+ZeRO-2將近8倍的訓練效率；訓練效率也比LLaMA提升了24%。

智源研究院副院長兼總工程師林詠華告訴美譽度，一個消費級顯卡就能運行Aquila-7B模型：如果是FP16精度，Aquila-7B模型至少可以在20G顯存上跑起來；如果是INT8精度，則會進一步減少顯存使用。

“我們的發(fā)布只是一個起點?！彼劦?，智源今天打造了一整套“大模型進化流水線”，基于此，智源會讓大模型在更多數(shù)據(jù)、更多能力的增加之下，源源不斷地成長。

智源研究院首創(chuàng)“可持續(xù)、自動化評測輔助模型訓練”的新范式，將大模型訓練與評測結(jié)合，利用階段性的自動化評測結(jié)果，指導后續(xù)訓練的方向、選擇更優(yōu)路徑，大幅提升模型訓練的效果，實現(xiàn)了“大模型進化流水線”，悟道 · 天鷹Aquila語言大模型系列后續(xù)也將持續(xù)迭代、持續(xù)開源。

同時，智源研究院發(fā)布了FlagEval（天秤）大語言模型評測體系及開放平臺。

目前大模型評測存在諸多難點。相比傳統(tǒng)小模型，大模型規(guī)模大、結(jié)構(gòu)更復雜、具備多種能力，且步入內(nèi)容生成和人類認知領(lǐng)域。傳統(tǒng)評測方法已經(jīng)遠遠無法滿足大模型評測的需求。

因此，是否有能力打造一套“自動化評測+人工主觀評測”的大模型全面評價系統(tǒng)，并實現(xiàn)從評測結(jié)果到模型能力分析、再到模型能力提升的自動閉環(huán)，已是基礎大模型創(chuàng)新的重要壁壘之一。

智源推出的天秤（FlagEval）大模型評測體系及開放平臺，旨在建立一站式的科學、公正、開放的基礎模型評測基準、方法及工具集，協(xié)助研究人員全方位評估基礎模型及訓練算法的性能，同時探索利用AI方法實現(xiàn)對主觀評測的輔助，大幅提升評測的效率和客觀性。

FlagEval創(chuàng)新地構(gòu)建了“能力-任務-指標”三維評測框架，細粒度刻畫基礎模型的認知能力邊界，并可視化呈現(xiàn)評測結(jié)果。

目前該評測體系已覆蓋語言、多模態(tài)兩大領(lǐng)域的大模型評測，推出開源多語言文圖大模型評測工具mCLIP-Eval、開源文圖生成評測工具ImageEval，后續(xù)將覆蓋視覺、語音評測場景。

FlagEval開放評測平臺現(xiàn)已開放（http://flageval.baai.ac.cn），打造自動化評測與自適應評測機制，并支持英偉達、寒武紀、昆侖芯、昇騰-鵬城云腦等多種芯片評測，以及PyTorch、MindSpore等多種深度學習框架。

開源評測工具：http://github.com/FlagOpen/FlagEval

林詠華期待更多業(yè)界同仁參與其中，通過更多的學科交叉，持續(xù)豐富大模型評測集。

作為“科技部2030”旗艦項目重要課題，天秤FlagEval評測體系正與北京大學、北京航空航天大學、北京師范大學、北京郵電大學、閩江學院、南開大學、中國電子技術(shù)標準化研究院、中國科學院自動化研究所等合作單位共建（按首字母排序），定期發(fā)布權(quán)威評測榜單。

FlagEval是FlagOpen飛智大模型技術(shù)開源體系的重要組成之一。

其中，F(xiàn)lagAI新增集成了悟道·天鷹（Aquila）語言大模型系列、18種語言多模態(tài)文生圖生成模型AltCLIP-m18、AltDiffusion-m18等智源開源模型，支持并行加速技術(shù)，并集成了高效推理技術(shù)LoRA和BMinf。

FlagPerf建立了評測Case的各項標準、支持容器內(nèi)評測模式；新增國產(chǎn)芯片的評測系列，包括昆侖芯、天數(shù)智芯等；評測系列從語言大模型擴展到多種主流視覺模型。

FlagEval包含多種開源多模態(tài)模型評測工具和FlagEval（天秤）大模型評測平臺。FlagData包含數(shù)據(jù)分析工具、數(shù)據(jù)清洗工具、微調(diào)數(shù)據(jù)標注工具等。

FlagOpen開放平臺：https://flagopen.baai.ac.cn

二、“悟道·視界”：6大視覺智能成果，點亮通用視覺曙光

除了發(fā)布開源語言大模型及評測體系外，智源研究院還一連發(fā)布了“悟道·視界”視覺大模型系列的6項先進技術(shù)成果。

據(jù)黃鐵軍分享，從技術(shù)路線而言，通用視覺模型與語言模型的方法論類似，但視覺涌現(xiàn)與語言涌現(xiàn)的形式有所差別。傳統(tǒng)視覺模型屬于判別式模型，通用視覺模型則更看重對未知事物的通用辨別能力和生成預測能力。

“悟道·視界”由悟道3.0的視覺大模型團隊打造，是一套具備通用場景感知和復雜任務處理能力的智能視覺和多模態(tài)大模型系列。6項國際領(lǐng)先技術(shù)中，前5個是基礎模型，最后1個是應用技術(shù)。

1、Emu：在多模態(tài)序列中補全一切的多模態(tài)大模型

Emu是一個多模態(tài)-to-模態(tài)的大模型，輸入輸出均可為多模態(tài)，可以接受和處理不同模態(tài)的數(shù)據(jù)，并輸出各類的多模態(tài)數(shù)據(jù)。

基于多模態(tài)上下文學習技術(shù)路徑，Emu能從圖文、交錯圖文、交錯視頻文本等海量多模態(tài)序列中學習。訓練完成后，Emu能在多模態(tài)序列的上下文中補全一切，也就是可通過多模態(tài)序列做prompting（提示），對圖像、文本和視頻等多種模態(tài)的數(shù)據(jù)進行感知、推理和生成。

相比其他多模態(tài)模型，Emu能進行精準圖像認知，完成少樣本圖文理解，根據(jù)圖片或者視頻進行問答和多輪對話。它也具備文圖生成、圖圖生成、多模態(tài)上下文生成等生成能力。

2、EVA：最強十億級視覺基礎模型

如何讓通用視覺模型兼顧更高效和更簡單？抓住語義學習和幾何結(jié)構(gòu)學習這兩個關(guān)鍵點，基本可以解決絕大部分的視覺任務。

智源的十億級視覺基礎模型EVA便將最強語義學習（CLIP）與最強幾何結(jié)構(gòu)學習（MIM）結(jié)合，再將標準的ViT模型擴大規(guī)模至10億參數(shù)進行訓練，一舉在ImageNet分類、COCO檢測分割、Kinetics視頻分類等廣泛的視覺感知任務中取得當時最強性能。

3、EVA-CLIP：性能最強開源CLIP模型

EVA-CLIP基于通用視覺模型EVA開發(fā)，相關(guān)工作入選2023 CVPR Highlight論文。 EVA極大地穩(wěn)定了巨型CLIP的訓練和優(yōu)化過程，僅需使用FP16混合精度，就能幫助訓練得到當前最強且最大的開源CLIP模型。

此前多模態(tài)預訓練模型CLIP作為零樣本學習基礎模型，廣受業(yè)界認可。智源視覺團隊在今年年初發(fā)布的EVA-CLIP 5B版本，創(chuàng)造了零樣本學習性能新高度，超越了此前最強的Open CLIP模型，在ImageNet1K零樣本top1達到最高的82.0%準確率。此外，智源去年發(fā)布的EVA-CLIP 1B版本，今年才被Meta發(fā)布的DINOv2模型追平ImageNet kNN準確率指標。

論文地址：https://arxiv.org/abs/2303.15389
代碼地址：https://github.com/baaivision/EVA/tree/master/EVA-CLIP

4、Painter：首創(chuàng)“上下文圖像學習”技術(shù)路徑的通用視覺模型

研究者相信，表達圖像信息最好的方式就是圖像，圖像理解圖像、圖像解釋圖像、圖像輸出圖像，可以避免圖像-語言翻譯過程中產(chǎn)生的信息誤差和成本消耗。

智源將NLP中的上下文學習概念引入視覺模型，打造了將“以視覺為中心”作為建模核心思想的通用視覺模型Painter。Painter把圖像作為輸入和輸出，從而獲得了上下文視覺信息，完成不同的視覺任務。該模型目前可完成7種主流視覺任務，已在深度估計、語義分割等核心視覺任務中，相比同類模型有11%~25%的性能提升。

5、視界通用分割模型：一通百通，分割一切

從影像中分割出各種各樣的對象，是視覺智能的關(guān)鍵里程碑。今年年初，智源研發(fā)的首個利用視覺提示（prompt）完成任意分割任務的“視界通用分割模型”，與Meta的SAM模型同時發(fā)布，點亮了通用視覺GPT曙光。

“視界通用分割模型”具有強大的視覺上下文推理能力：給出一個或幾個示例圖像和意圖掩碼（視覺提示prompt），模型就能理解用戶意圖，“有樣學樣”地完成類似分割任務。用戶在畫面上標注識別一類物體，即可批量化識別分割同類物體。此外，該模型還具備強大的通用能力、靈活推理能力和自動視頻分割與追蹤能力。

6、vid2vid-zero：首個零樣本視頻編輯方法

現(xiàn)有文本驅(qū)動的AIGC視頻編輯方法嚴重依賴于大量“文本-視頻”數(shù)據(jù)上調(diào)整預訓練好的視頻擴散模型，需要龐大的計算資源，帶來了高昂的人工數(shù)據(jù)標注成本和計算成本。

智源研究院提出的零樣本視頻編輯方法vid2vid-zero，首次在無需額外視頻訓練的情況下，利用注意力機制動態(tài)運算的特點，結(jié)合現(xiàn)有圖像擴散模型，實現(xiàn)可指定屬性的視頻編輯。只需上傳視頻，輸入一串編輯文本提示，就可以坐等AI創(chuàng)作出創(chuàng)意視頻。

“悟道·視界”聚焦視覺和多模態(tài)上下文學習，創(chuàng)新了視覺和多模態(tài)領(lǐng)域的Prompt工程，取得了零樣本學習性能的新突破。未來其應用可帶給自動駕駛、智能機器人等領(lǐng)域更多可能性。還有多語言AIGC文圖生成，通用智能體學習等多模態(tài)領(lǐng)域，也將公布相關(guān)代碼。

三、通向AGI的三大路線：大模型、生命智能、AI4Science

據(jù)黃鐵軍分享，在以智力服務為特征的時代，重要的不是模型本身比誰大比誰強，而是訓練大模型的算法和技術(shù)本身是否夠先進、訓練成本是否能夠有效降低、模型智能的能力是否可信可控。智源正將許多產(chǎn)學研單位的智慧匯聚，以開放方式進行協(xié)作，為大模型技術(shù)體系的發(fā)展添磚加瓦。

他告訴美譽度，作為一家非營利機構(gòu)，智源研究院立足科研，會基于自研通用視覺模型和語言模型做一些Demo演示。目標是以開源開放的方式提供技術(shù)，促進技術(shù)發(fā)展與迭代。

除了大模型技術(shù)路線外，智源也在堅持研究生命智能和AI4Science。

黃鐵軍說，這三條路線相互作用和影響，對于未來的通用人工智能（AGI）都是必要的。今天，大模型方向展現(xiàn)出很強的能力，主要得益于海量高質(zhì)量數(shù)據(jù)，用擁有巨大參數(shù)的神經(jīng)網(wǎng)絡表達復雜數(shù)據(jù)背后規(guī)律，是一種比較直接的方式。

大模型方向有其優(yōu)勢，但并沒有解決掉通用人工智能的所有問題。比如大模型智能的發(fā)生機理與人類生物大腦智能背后的信號機理差距很大，如果想做到類似于人腦的智能涌現(xiàn)，還要探究類腦方向與具身智能。

他談道，既然大模型已經(jīng)證明涌現(xiàn)能力行之有效，這方面的投入會加大很多，速度也會加快，很大概率大模型方向上接近通用人工智能速度會更快。隨著模型規(guī)模擴大，對算力、數(shù)據(jù)的要求越來越高，必然會帶來成本上和實現(xiàn)代價上的一些需求快速增加。這是次生問題。

“為實現(xiàn)一個更偉大目標，付出資源成本更高，也是自然的事情。我認為大模型規(guī)模上現(xiàn)在遠遠沒有看到天花板?！秉S鐵軍說。

結(jié)語：群英會聚大模型研討高地，百場精彩討論干貨滿載

算上今天，智源大會已經(jīng)連續(xù)舉辦了五屆。這五年來，憑借匯聚人工智能領(lǐng)域最關(guān)鍵的人物、最重要的機構(gòu)、最核心的話題與最專業(yè)的觀眾，智源大會的口碑持續(xù)發(fā)酵，不僅是業(yè)界全面關(guān)注度最高的人工智能盛會之一，也早已成為北京加快建設人工智能創(chuàng)新策源地的一張名片。

智源大會的主辦方智源研究院，是中國最早進行大模型研究的科研機構(gòu)，從率先開啟大模型立項探索，率先組建大模型研究團隊，率先預見“AI大模型時代到來”，率先發(fā)布連創(chuàng)“中國首個+世界最大”記錄的“悟道”大模型項目，到今天，智源研究院依然走著最前沿，率先倡導大模型開源開放，并帶頭建設大模型測評旗艦項目，為大模型行業(yè)發(fā)展與生態(tài)擴張注入源源不斷的動能。

大模型引爆人工智能概念，離不開算法的進步。本屆智源大會邀請了過去一年領(lǐng)域突破的重要工作完成者，包括GPT-4/ChatGPT、PaLM-E、OPT、LLaMA、Codex、Whisper、Sparrow、NLLB、T5、Flan-T5、LAION-5B、RoBERTa等重要工作作者出席，親身講解研究成果。

滿滿兩天將覆蓋百場精彩討論，包括明天，在星光熠熠的AI安全與對齊論壇期間，智源研究院理事長張宏江與OpenAI聯(lián)合創(chuàng)始人兼CEO Sam Altman，加州伯克利分校教授與圖靈獎得主、中國科學院院士姚期智，將分別展開對談交鋒。圖靈獎得主、“深度學習之父”Geoffrey Hinton也將發(fā)表重磅主題演講，非常令人期待。

上一篇：三大綜合能力重磅升級！訊飛星火大模型打響趕超ChatGPT第一槍

下一篇：2023安博會五大看點：大模型應用扎堆，AI攝像頭滿場，海思低調(diào)參展

公司資訊

新聞中心

公司資訊

公司資訊

新聞中心

公司資訊

微信號：15221830078微信二維碼