您好,歡迎進入美譽度品牌管理官網(wǎng)!

江蘇危機公關(guān)公司

一站式提供商

提供設(shè)計,生產(chǎn),安裝,售后服務(wù)一條龍服務(wù)

400-021-0821
公司資訊
您的位置: 主頁 > 新聞中心 > 公司資訊
北京大模型應(yīng)用再加碼!發(fā)創(chuàng)新應(yīng)用白皮書、點亮公共算力平臺、首期中文互聯(lián)網(wǎng)語料庫CCI亮相
發(fā)布時間:2023-12-25 17:00瀏覽次數(shù):

美譽度品牌管理

美譽度11月29日報道,今天,AICC 2023人工智能計算大會上,北京市公布了大模型應(yīng)用、算力基礎(chǔ)設(shè)施、中文數(shù)據(jù)集三方面的重磅新成果!

1、《北京市人工智能行業(yè)大模型創(chuàng)新應(yīng)用白皮書(2023年)》(以下簡稱《白皮書》)發(fā)布,調(diào)研六大領(lǐng)域近百家企業(yè)的大模型應(yīng)用,為大模型產(chǎn)業(yè)應(yīng)用落地提供參考;

《白皮書》鏈接:https://kw.beijing.gov.cn/art/2023/11/29/art_6382_724110.html

2、海淀區(qū)北京人工智能公共算力平臺點亮,與智譜華章、紫東太初等首批入駐大模型企業(yè)簽約;

3、“中文互聯(lián)網(wǎng)語料庫”首期104GB數(shù)據(jù)公開,數(shù)據(jù)集時間跨度為2001年1月至2023年11月。

智源開放數(shù)據(jù)倉庫下載地址: https://data.baai.ac.cn/details/BAAI-CCI

HuggingFace下載地址:https://huggingface.co/datasets/BAAI/CCI-Data

國際數(shù)據(jù)調(diào)研機構(gòu)IDC和算力龍頭企業(yè)浪潮信息聯(lián)合發(fā)布的《2023-2024年中國人工智能計算力發(fā)展評估報告》提到,中國人工智能計算力發(fā)展評估城市排行榜的前五名為北京、杭州、深圳、上海、蘇州,且北京連續(xù)六年排名第一。

從大模型產(chǎn)業(yè)的發(fā)展情況來看,北京市目前在人工智能創(chuàng)新算力基礎(chǔ)、人才資源、研發(fā)能力方面都有較大優(yōu)勢,且人工智能核心企業(yè)數(shù)量、算力基礎(chǔ)設(shè)施規(guī)模、備案大模型數(shù)量位居全國第一。

此次發(fā)布的一系列重磅成果,正是北京市面向大模型產(chǎn)業(yè)發(fā)展在算力、數(shù)據(jù)、應(yīng)用落地等核心痛點的有利突破。創(chuàng)新成果從北京市大模型企業(yè)的實際案例出發(fā),為企業(yè)創(chuàng)新發(fā)展提供一定的借鑒參考,并從政策層面為產(chǎn)業(yè)生態(tài)提供支撐。

此前,北京市已經(jīng)發(fā)布了一系列人工智能相關(guān)的政策,如《北京市加快建設(shè)具有全球影響力的人工智能創(chuàng)新策源地實施方案(2023-2025年)》、《北京市促進通用人工智能創(chuàng)新發(fā)展的若干措施》、《人工智能算力券實施方案(2023—2025年)》,這些都已經(jīng)成為北京市人工智能產(chǎn)業(yè)加速發(fā)展的重要保障。

一、北京大模型約占全國一半,行業(yè)應(yīng)用四大特點凸顯

距離2022年11月30日ChatGPT發(fā)布已經(jīng)一年,大模型帶來的技術(shù)革新熱度不減,與此同時,大模型產(chǎn)業(yè)的眾多參與者已經(jīng)將目光從算力投向應(yīng)用落地。

從國內(nèi)的大模型產(chǎn)業(yè)發(fā)展來看,北京市已經(jīng)成為國內(nèi)人工智能領(lǐng)域創(chuàng)新基礎(chǔ)、人才資源、研發(fā)能力都有明顯優(yōu)勢的城市之一。根據(jù)《白皮書》,2022年北京市人工智能核心產(chǎn)值規(guī)模達(dá)2170億元,核心企業(yè)數(shù)量已經(jīng)超過1800家,截至2023年10月,我國10億參數(shù)規(guī)模以上的大模型廠商及高校院所共計254家,北京擁有其中122家,約占全國的一半。

與此同時,大模型應(yīng)用落地加速之際,北京市眾多產(chǎn)業(yè)玩家已經(jīng)在政務(wù)、金融、醫(yī)療等領(lǐng)域?qū)崿F(xiàn)落地,并且其布局特點也逐漸清晰。

從模型演進來看,通用大模型已經(jīng)呈現(xiàn)出強大的泛化能力,但在與各行各業(yè)深入融合時,由于缺乏行業(yè)深度,無法針對性解決特定行業(yè)的實際需求。因此,通過面向特定領(lǐng)域進行大模型訓(xùn)練,打造垂直行業(yè)大模型能滿足行業(yè)特定需求,成為大模型商業(yè)化落地的重要方向。

在大模型應(yīng)用的賽道方面,目前北京市大模型的應(yīng)用速度較快的領(lǐng)域為傳統(tǒng)產(chǎn)業(yè)賦能和金融領(lǐng)域,原因在于這兩大領(lǐng)域的央國企密集,具有較強的數(shù)據(jù)基礎(chǔ)設(shè)施、算力投入和人工智能應(yīng)用基礎(chǔ),對于推進大模型應(yīng)用也更加主動。

大模型對于內(nèi)容理解、生成的能力不斷增強,逐漸從文字、圖片生成升級到視頻、音頻、3D動畫生成。《白皮書》提到,大模型的應(yīng)用類型主要有內(nèi)容生成、智能問答、IT支持、數(shù)據(jù)分析、智能識別和智能硬件六類。

其中,內(nèi)容生成和智能問答兩個方面的應(yīng)用類型已經(jīng)逐漸成熟。面向B端,這兩類應(yīng)用對于行業(yè)降本增效、業(yè)務(wù)價值提升、落地速度的價值體現(xiàn)更為明顯,這在一定程度上能夠快速完成市場教育,進一步推進大模型應(yīng)用落地。

在商業(yè)模式角度,大模型形成了以通用大模型人工智能服務(wù)為主的基礎(chǔ)層、以垂直行業(yè)領(lǐng)域人工智能服務(wù)為主的行業(yè)層和以大模型應(yīng)用服務(wù)為主的應(yīng)用層的“基礎(chǔ)+行業(yè)+應(yīng)用”的三層架構(gòu)。

大模型的商業(yè)模式正是通過通用大模型底座的強大能力,與行業(yè)細(xì)分領(lǐng)域相結(jié)合,再將能力集成到實際應(yīng)用中,從而讓大模型的真正社會價值得以體現(xiàn),并對人們的生活、工作產(chǎn)生影響。

不論從大模型自身能力的升級迭代,還是行業(yè)實際痛點來看,大模型商業(yè)化落地應(yīng)用已經(jīng)迫在眉睫。一些行業(yè)先行玩家的應(yīng)用落地實例,為國內(nèi)大模型大規(guī)模商業(yè)化落地提供了經(jīng)驗。

二、調(diào)研六大領(lǐng)域近百家企業(yè),AI率先落地傳統(tǒng)產(chǎn)業(yè)及金融

從北京市的大模型產(chǎn)業(yè)應(yīng)用來看,大模型產(chǎn)業(yè)玩家的落地應(yīng)用集中于政務(wù)、金融、醫(yī)療、傳統(tǒng)產(chǎn)業(yè)賦能、文化旅游、智慧城市六大領(lǐng)域。

《白皮書》調(diào)研了六大領(lǐng)域中近百家企業(yè)的行業(yè)大模型應(yīng)用案例,并梳理出其中18個典型案例,從不同領(lǐng)域的特點出發(fā),結(jié)合企業(yè)的實際案例,以此整合出當(dāng)下北京市行業(yè)大模型商業(yè)落地的挑戰(zhàn)。其中,應(yīng)用發(fā)展較快的為傳統(tǒng)產(chǎn)業(yè)賦能和金融領(lǐng)域。

金融業(yè)的痛點在于,其IT架構(gòu)龐大,數(shù)據(jù)量很高,如何在符合數(shù)據(jù)安全合規(guī)等要求下,用大模型的能力實現(xiàn)降本增效,并擴展其兼容能力。

再加上金融行業(yè)對信息準(zhǔn)確性、數(shù)據(jù)合規(guī)等要求較高,短期內(nèi),大模型在金融行業(yè)的落地方向集中于研報撰寫、客服輔助提示等非核心系統(tǒng)應(yīng)用。從長期來看,大模型的應(yīng)用方向在金融領(lǐng)域?qū)⑦M一步擴大,隨著大模型能力的進一步提升,招股書生成編寫、智能研報合規(guī)審查、大模型智能數(shù)據(jù)治理等場景或許將與大模型實現(xiàn)更好的結(jié)合。

目前,基于大模型技術(shù),AI獨角獸公司曠視科技推出個人征信創(chuàng)新技術(shù)方案,該方案可以自動篩選有效變量,并通過Transformer架構(gòu)進行自監(jiān)督預(yù)訓(xùn)練,進一步預(yù)測用戶的貸款意愿。在此基礎(chǔ)上,曠視科技與樸道征信合作打造的個人客戶資質(zhì)評分服務(wù),幫助樸道征信的客戶轉(zhuǎn)化率提升了20%。

傳統(tǒng)產(chǎn)業(yè)是我國經(jīng)濟的重要組成部分,大模型技術(shù)在推動傳統(tǒng)產(chǎn)業(yè)的數(shù)字化轉(zhuǎn)型升級方面扮演著重要角色。

這一產(chǎn)業(yè)的特點在于,中小企業(yè)在營銷工具、IT研發(fā)等方面基礎(chǔ)薄弱,平臺型企業(yè)較難帶動產(chǎn)業(yè)鏈上中下游中小企業(yè),以及因傳統(tǒng)企業(yè)涉及場景較多,其市場需求個性化程度較高,中小企業(yè)很難快速了解企業(yè)的核心痛點。

因此,《白皮書》提到,針對傳統(tǒng)產(chǎn)業(yè)的痛點,一些頭部玩家可以建立專屬企業(yè)的大模型,加速構(gòu)建新一代人工智能能力基礎(chǔ)設(shè)施,然后構(gòu)建不同的大模型應(yīng)用。中小企業(yè)可以從試點場景出發(fā),找到大模型落地應(yīng)用的真實價值后,再進行廣泛應(yīng)用。

正如此前提到的,智能客服等場景對于大模型價值的體現(xiàn)更為快速且直接,因此傳統(tǒng)產(chǎn)業(yè)在驗證大模型市場價值初期,也可以從這一場景切入。

以國家電網(wǎng)為例,其在大規(guī)模復(fù)雜電網(wǎng)系統(tǒng)管理運營方面面臨電網(wǎng)設(shè)備數(shù)量多、關(guān)鍵設(shè)備運行缺陷需快速發(fā)現(xiàn)響應(yīng)。結(jié)合文心大模型,百度打造了電網(wǎng)智能分析與智能應(yīng)用平臺,并訓(xùn)練了電力行業(yè)NLP大模型,在電力專業(yè)分詞任務(wù)上,F(xiàn)1(精確率和召回率的調(diào)和平均數(shù))指標(biāo)達(dá)到92.376%。

值得注意的是,大模型在加速各行各業(yè)轉(zhuǎn)型升級、降本增效的同時,這些典型案例也體現(xiàn)出目前國內(nèi)大模型在應(yīng)用落地方面仍面臨諸多挑戰(zhàn),如算力資源持續(xù)供應(yīng)、高質(zhì)量數(shù)據(jù)、大模型“幻覺”問題、“蹭熱度”以及同質(zhì)化等。

三、打造公共算力平臺、中文互聯(lián)網(wǎng)語料庫,搶灘大模型應(yīng)用

大模型發(fā)展與算力、算法、數(shù)據(jù)密切相關(guān)。其中,訓(xùn)練數(shù)據(jù)的數(shù)量、質(zhì)量等是大模型智能水平的關(guān)鍵因素。

北京智源人工智能研究院副院長兼總工程師林詠華談道,目前大型語言模型、多模態(tài)大模型中使用的開源數(shù)據(jù)集多來自海外,中文部分較少,如Common Crawl中中文數(shù)據(jù)占比不到5%,且其中超80%為海外網(wǎng)站,因此這些數(shù)據(jù)在訓(xùn)練大模型時會有英文思維,并且存在內(nèi)容安全風(fēng)險。

在大會的“大模型創(chuàng)新論壇”上,北京智源人工智能研究院發(fā)布了“中文互聯(lián)網(wǎng)語料庫(CCI)”。該語料庫是在中國網(wǎng)絡(luò)空間安全協(xié)會人工智能安全治理專業(yè)委員會數(shù)據(jù)集工作組、北京市委網(wǎng)信辦、北京市科委中關(guān)村管委會、海淀區(qū)政府的指導(dǎo)下,由智源研究院聯(lián)合拓爾思、中科聞歌共建,旨在為國內(nèi)大數(shù)據(jù)及人工智能行業(yè)提供一個安全、可靠的語料資源,并以此為契機促進不同機構(gòu)合作,共同推動大數(shù)據(jù)和人工智能領(lǐng)域的健康發(fā)展。

該語料庫首期開放的數(shù)據(jù)(CCI v1.0.0)規(guī)模為104GB,數(shù)據(jù)集總體的時間跨度為2001年1月至2023年11月。

目前CCI語料庫首期開放的104GB數(shù)據(jù),包括智源研究院400GB“悟道”數(shù)據(jù)集、拓爾思貢獻(xiàn)的250GB數(shù)據(jù)集、中科聞歌貢獻(xiàn)的200GB數(shù)據(jù)集。

為了保證數(shù)據(jù)質(zhì)量,智源研究院會對上述數(shù)據(jù)基于合規(guī)站源數(shù)據(jù)進行高質(zhì)量數(shù)據(jù)清洗、去重,同時為了避免數(shù)據(jù)集混雜測試數(shù)據(jù),他們會把可能存在的主流評測數(shù)據(jù)進行過濾。

從今年4月到10月,國家網(wǎng)信辦發(fā)布的《生成式人工智能服務(wù)管理辦法(征求意見稿)》、以及國家網(wǎng)信等七部門聯(lián)合發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》等都強調(diào)了數(shù)據(jù)真實、安全等。

今年10月,中國網(wǎng)絡(luò)空間安全協(xié)會設(shè)立了人工智能安全治理專業(yè)委員會,下設(shè)數(shù)據(jù)工作組,其目的在于聯(lián)手國內(nèi)數(shù)據(jù)、互聯(lián)網(wǎng)、大模型等企業(yè),推動中文語料庫的建設(shè)。

林詠華談道,構(gòu)建高質(zhì)量的中文語料庫主要有三個階段,首先是建設(shè)中文互聯(lián)網(wǎng)語料庫,這是一個長期持續(xù)的過程,本次發(fā)布的中文互聯(lián)網(wǎng)語料庫,其數(shù)據(jù)主要來源為地市級以上政府門戶網(wǎng)站、重點新聞網(wǎng)站、中央和地方報刊等。

第二個階段就是建設(shè)綜合數(shù)據(jù)集,其囊括的數(shù)據(jù)范圍也更加廣泛,包括科技類、媒體類、書籍期刊等文字、圖片、視頻等數(shù)據(jù)。

第三個階段就是建設(shè)行業(yè)數(shù)據(jù)集,針對不同行業(yè)的應(yīng)用需求,打造面向金融、醫(yī)療等領(lǐng)域的數(shù)據(jù)集。

為推動“中文互聯(lián)網(wǎng)語料庫CCI”的廣泛使用,吸引國內(nèi)大模型領(lǐng)域研究機構(gòu)、企業(yè)共建、共享高質(zhì)量、多樣化、安全合規(guī)的中文語料庫,會上,智源研究院聯(lián)合17家大模型機構(gòu)和企業(yè)共同發(fā)起《“中文互聯(lián)網(wǎng)語料庫”共建共享倡議書》,倡導(dǎo)堅持合作共享、安全合規(guī)、數(shù)據(jù)高質(zhì)量等6項原則,持續(xù)推動人工智能產(chǎn)業(yè)健康持續(xù)發(fā)展。

在商業(yè)落地背后,算力基礎(chǔ)設(shè)施是支撐人工智能產(chǎn)業(yè)發(fā)展的堅實底座。北京市海淀區(qū)的北京人工智能公共算力平臺舉行了點亮儀式,同時,北京電信作為算力平臺代表與智譜華章、紫東太初等首批入駐大模型企業(yè)完成了簽約儀式。

結(jié)語:開啟大模型應(yīng)用落地新階段

如今,大模型的技術(shù)創(chuàng)新升級與商業(yè)落地正穩(wěn)步推進,作為國內(nèi)在大模型領(lǐng)域具有一定資源優(yōu)勢、先發(fā)優(yōu)勢的城市,北京市已經(jīng)錨定大模型下一階段發(fā)展的核心及持續(xù)性痛點,通過算力基礎(chǔ)設(shè)施、中文互聯(lián)網(wǎng)語料庫、應(yīng)用創(chuàng)新等,為國內(nèi)大模型產(chǎn)業(yè)發(fā)展筑起堅實的底座。

《白皮書》提到,北京市將進一步培育大模型產(chǎn)業(yè)生態(tài),將人才、資金、產(chǎn)業(yè)生態(tài)等方面與大模型產(chǎn)業(yè)發(fā)展結(jié)合的更為緊密;在算力方面,北京市也通過算力券、資金補貼等為企業(yè)提供支撐;在行業(yè)落地角度,北京市還通過行業(yè)大模型創(chuàng)新應(yīng)用大賽,為企業(yè)探索大模型實際落地場景提供機會;同時,在大模型應(yīng)用監(jiān)管方面,北京市也提供了圍繞大模型底層設(shè)施、關(guān)鍵技術(shù)、上層應(yīng)用的標(biāo)準(zhǔn)體系。

大模型產(chǎn)業(yè)發(fā)展至今,企業(yè)對于大規(guī)模商業(yè)落地的探索加快,可以看出,北京市已經(jīng)形成了從算力、數(shù)據(jù)、應(yīng)用三個角度出發(fā),圍繞軟硬件基礎(chǔ)設(shè)施、關(guān)鍵技術(shù)、應(yīng)用落地等重點為這一產(chǎn)業(yè)打造了一系列支撐,大模型正重塑千行百業(yè)。

400-021-0821