您好,歡迎進(jìn)入美譽(yù)度品牌管理官網(wǎng)!

江蘇危機(jī)公關(guān)公司

一站式提供商

提供設(shè)計(jì),生產(chǎn),安裝,售后服務(wù)一條龍服務(wù)

400-021-0821
公司資訊
您的位置: 主頁 > 新聞中心 > 公司資訊
國(guó)內(nèi)首創(chuàng)!高交會(huì)上,國(guó)產(chǎn)14nm Chiplet大模型推理芯片問世
發(fā)布時(shí)間:2023-12-22 11:46瀏覽次數(shù):

國(guó)產(chǎn)大模型芯片,又有了好消息。

作為“中國(guó)科技第一展”,深圳高交會(huì)正在如火如荼的舉辦,4295家企業(yè)展出了琳瑯滿目的高精尖科技成果,歷來在高交會(huì)發(fā)布重磅產(chǎn)品的AI企業(yè)云天勵(lì)飛,一如既往上了盤“硬菜”——

國(guó)產(chǎn)Chiplet大模型推理芯片DeepEdge10。

▲云天勵(lì)飛董事長(zhǎng)兼CEO陳寧博士發(fā)布Edge10芯片

這是云天勵(lì)飛迄今算力最強(qiáng)的旗艦AI芯片SoC,內(nèi)置自研新一代神經(jīng)網(wǎng)絡(luò)處理器NNP400T,通過D2D高速互聯(lián)Chiplet技術(shù)、C2CMesh互聯(lián)架構(gòu)實(shí)現(xiàn)算力擴(kuò)展,能夠支持千億級(jí)參數(shù)大模型,落地于邊緣設(shè)備和邊緣服務(wù)器。

而“國(guó)產(chǎn)”,當(dāng)屬這顆芯片最吸睛的標(biāo)簽。

制程工藝是國(guó)產(chǎn),基板是國(guó)產(chǎn),D2D Chiplet先進(jìn)封裝架構(gòu)是國(guó)產(chǎn),RISC-V CPU IP、GPU IP是國(guó)產(chǎn),云天勵(lì)飛自研的NNP更是國(guó)產(chǎn)。

波譎云詭的國(guó)際環(huán)境中,中國(guó)企業(yè)采用海外先進(jìn)芯片技術(shù)的可能性不斷受限。今天,在國(guó)產(chǎn)供應(yīng)鏈的襄助下,云天勵(lì)飛證明了通過多重創(chuàng)新技術(shù)的組合拳,自主可控的AI芯片能夠滿足高算力、大內(nèi)存的大模型推理需求。

▲三款不同規(guī)格的Edge10系列芯片(美譽(yù)度拍攝)

云天勵(lì)飛是怎么做到的?為何在自研芯片路上堅(jiān)持至今?未來又有怎樣的戰(zhàn)略規(guī)劃?在深圳高交會(huì)期間,美譽(yù)度與云天勵(lì)飛副總裁、芯片產(chǎn)品線總經(jīng)理李愛軍進(jìn)行了深入交流。

一、大模型創(chuàng)新爆發(fā)時(shí)代,需要什么樣的邊緣推理芯片?

大模型正在顛覆生產(chǎn)力,海量數(shù)據(jù)和參數(shù)的運(yùn)算需求、日趨豐富的應(yīng)用場(chǎng)景帶來了全新的計(jì)算泛式和計(jì)算要求,給AI芯片提出新的挑戰(zhàn)。

一方面,多模態(tài)大模型成為大勢(shì)所趨,帶動(dòng)推理算力需求激增;另一方面,OpenAI、微軟等接連開放自定義GPT能力,掀起新一股生成式AI應(yīng)用模型創(chuàng)新熱潮,更加分散泛化的多元場(chǎng)景,需要大量邊緣推理算力的支撐。

據(jù)云天勵(lì)飛副總裁、芯片產(chǎn)品線總經(jīng)理李愛軍回憶,在推進(jìn)芯片落地的過程中,云天勵(lì)飛深刻體會(huì)到邊緣計(jì)算場(chǎng)景存在算力碎片化、算法長(zhǎng)尾化、產(chǎn)品非標(biāo)化、規(guī)模碎片化的痛點(diǎn)。

追求單一場(chǎng)景極致PPA(性能、功耗、面積)的傳統(tǒng)芯片方式,已經(jīng)難以適應(yīng)邊緣計(jì)算場(chǎng)景下AI落地的需求。大模型的出現(xiàn),為行業(yè)提供了算法層面的解決之道,因而日漸成為大勢(shì)所趨。

那么讓大模型在邊緣計(jì)算場(chǎng)景實(shí)際落地,需要怎樣的AI推理芯片?

一些方向已經(jīng)是業(yè)界共識(shí):既要有更高算力,又要增加更多的內(nèi)存容量、更大的內(nèi)存帶寬,這樣才能存得下、搬得快足夠多的數(shù)據(jù)。同時(shí),邊緣計(jì)算對(duì)低功耗、低成本的要求更為苛刻。

除了支持大模型等AI計(jì)算任務(wù),AI邊緣推理芯片還承擔(dān)了“落地應(yīng)用最后一公里”的職責(zé),需要具備較強(qiáng)的通用算力。

針對(duì)這些需求,云天勵(lì)飛自主研發(fā)并推出了面向邊緣計(jì)算全場(chǎng)景、基于國(guó)產(chǎn)工藝的大模型推理芯片平臺(tái)——DeepEdge10。

二、全面兼容大模型新型計(jì)算范式,主控級(jí)SoC支持通用算法

李愛軍告訴美譽(yù)度,DeepEdge10芯片的研發(fā)始于2020年。得益于其算法部門在前沿AI算法方面的敏銳認(rèn)知,云天勵(lì)飛芯片團(tuán)隊(duì)預(yù)見到未來視覺算法會(huì)基于Transformer和注意力機(jī)制,因此對(duì)大模型計(jì)算方式進(jìn)行了深度解構(gòu),著重考慮到如何通過靈活的架構(gòu)設(shè)計(jì)來實(shí)現(xiàn)高效支持。

Edge10有4大技術(shù)加持:1)主控級(jí)SoC;2)新一代神經(jīng)網(wǎng)絡(luò)處理器,高效支持Transformer;3)D2D Chiplet架構(gòu),實(shí)現(xiàn)算力靈活擴(kuò)展;4)C2CMesh互聯(lián)擴(kuò)展,支持千億級(jí)參數(shù)大模型。

其主控級(jí)SoC集成了CPU、GPU、NPU、多媒體、顯示、外設(shè)、安全等功能,支持傳統(tǒng)的CNN、DNN、SLAM等算法,可滿足絕大部分場(chǎng)景的控制需要。CPU、GPU均為國(guó)產(chǎn)IP。RISC-V CPU采用2+8核,主頻最高達(dá)1.8Ghz;多媒體能力最大支持8K30視頻編解碼、2億像素JPEG編解碼;具備國(guó)際主流的硬件級(jí)安全性。

與支持大模型運(yùn)行最為相關(guān)的,當(dāng)屬其自研的新一代神經(jīng)網(wǎng)絡(luò)處理器NNP400T。

NNP400T采用三維并行的矩陣計(jì)算架構(gòu),矩陣計(jì)算與矢量計(jì)算聯(lián)合優(yōu)化,大幅提升Softmax、Layernorm等算子的執(zhí)行性能。

結(jié)合國(guó)產(chǎn)工藝的特點(diǎn),NNP400T通過稀疏化、參數(shù)/數(shù)據(jù)壓縮、低比特量化等措施,有效實(shí)現(xiàn)大模型帶寬的極致優(yōu)化。它還支持混合數(shù)據(jù)精度計(jì)算,包括INT8、INT16、FP16。

通過這些設(shè)計(jì),芯片在支撐大模型推理時(shí)的能效比,可以被控制在合理的水平。

而在D2D、C2C Mesh高速互聯(lián)架構(gòu)的加持下,NPU算力能夠無極擴(kuò)展,同時(shí)統(tǒng)一內(nèi)存最高可達(dá)512GB、統(tǒng)一內(nèi)存帶寬最高可達(dá)1920GB/s,能夠滿足大到千億級(jí)參數(shù)大模型在邊緣端部署的需求。

三、國(guó)產(chǎn)14nm Chiplet大模型推理芯片:國(guó)內(nèi)首創(chuàng),四大創(chuàng)新亮點(diǎn)

總體來看,面向邊緣場(chǎng)景的大模型部署需求,DeepEdge10芯片平臺(tái)具有4大創(chuàng)新亮點(diǎn):

1、支持大模型新型計(jì)算范式

新一代神經(jīng)網(wǎng)絡(luò)處理器兼容Transformer,支持低精度混合計(jì)算、分布式并行計(jì)算。云天勵(lì)飛現(xiàn)已向國(guó)內(nèi)頭部的AIoT芯片設(shè)計(jì)廠商、智慧汽車芯片設(shè)計(jì)廠商、服務(wù)機(jī)器人廠商、國(guó)家重點(diǎn)實(shí)驗(yàn)室等提供神經(jīng)網(wǎng)絡(luò)處理器的IP授權(quán)。

2、D2D Chiplet+C2C Mesh互聯(lián)架構(gòu)

據(jù)李愛軍分享,在啟動(dòng)Edge10研發(fā)時(shí),云天勵(lì)飛芯片團(tuán)隊(duì)就在思考,如何在國(guó)產(chǎn)制程工藝與國(guó)際先進(jìn)水平存在代差的情況下,通過其他技術(shù)手段追齊性能?像搭積木一樣將不同制程、不同IP模塊組合到一起的Chiplet先進(jìn)封裝思路,成為一條有希望的路徑。

在無法采用國(guó)際先進(jìn)制程的客觀限制下,云天勵(lì)飛與合作伙伴一起從三年前展開聯(lián)合技術(shù)攻關(guān),在D2D Chiplet技術(shù)上定制了一系列的IP,雖然成本、功耗會(huì)高一些,但實(shí)現(xiàn)了基于國(guó)產(chǎn)14nm工藝在單臺(tái)設(shè)備跑大模型的能力。

▲云天勵(lì)飛副總裁、芯片產(chǎn)品線總經(jīng)理李愛軍講解D2D Chiplet架構(gòu)

D2D Chiplet通過在多Die間架起“高速公路”,在不犧牲時(shí)延的情況下能做到算力靈活擴(kuò)展,可實(shí)現(xiàn)一次設(shè)計(jì)流片、多次封裝,生產(chǎn)不同計(jì)算規(guī)格的芯片。C2C Mesh互聯(lián)技術(shù)可實(shí)現(xiàn)各個(gè)計(jì)算節(jié)點(diǎn)之間的最短傳輸延遲,保證大模型推理達(dá)到最短時(shí)延,支持不同規(guī)格的大模型靈活部署。

“在片內(nèi)高速互聯(lián)速度上,我們已經(jīng)做到了14nm上的最好水平了。”李愛軍說,“我們將立足國(guó)產(chǎn)工藝打造自主可控的AI芯片,這條路很艱難,我們會(huì)堅(jiān)持不懈的走下去?!?/p>

3、支持大模型部署的異構(gòu)多核軟件棧

為了適應(yīng)D2D/C2C架構(gòu),云天勵(lì)飛構(gòu)建了一套支持大模型部署的異構(gòu)多核軟件棧,包括設(shè)計(jì)了一套高效異構(gòu)多核Syslink通信庫(kù),實(shí)現(xiàn)高效的D2D/C2C數(shù)據(jù)搬運(yùn)管理、Mesh互聯(lián)下的統(tǒng)一內(nèi)存調(diào)度管理和模型分布式并行管理,因此能實(shí)現(xiàn)集群的大模型部署。

4、符合大模型演進(jìn)趨勢(shì)的統(tǒng)一工具鏈

云天勵(lì)飛打造了一套符合大模型演進(jìn)趨勢(shì)的一站式統(tǒng)一工具鏈,通過分布式并行策略、基于硬件的流水線排布、先進(jìn)的量化策略、多機(jī)并行的編譯機(jī)制,來支持千億級(jí)大模型快速部署。

DeepEdge10已支持超過100個(gè)主流開源模型,數(shù)量還在持續(xù)更新,同時(shí)支持云天勵(lì)飛客戶模型的定制部署。

四、單芯片算力最高48TOPS,加速卡能跑70億參數(shù)大模型

通過上述架構(gòu)創(chuàng)新,云天勵(lì)飛Edge10系列芯片有三種規(guī)格:Edge10C(8核CPU)、Edge10標(biāo)準(zhǔn)版(10核CPU)、Edge10Max(40核CPU),峰值算力分別為8TOPS、12TOPS、48TOPS,總體性能比上一代芯片高出20倍;統(tǒng)一內(nèi)存最高32GB,內(nèi)存帶寬最高120GB/s。

其中,Edge10C和Edge10標(biāo)準(zhǔn)版適用于邊緣計(jì)算領(lǐng)域;Edge10Max適用于邊緣CV大模型,單芯片能跑SAM視覺大模型。

相應(yīng)的出貨形態(tài)包括芯片、板卡、盒子、加速卡、推理服務(wù)器等,可廣泛應(yīng)用于AIoT邊緣視頻、移動(dòng)機(jī)器人等場(chǎng)景。

Edge10適用于邊緣設(shè)備和邊緣服務(wù)器,在Edge Device上運(yùn)行70億參數(shù)大語言模型,生成速度可達(dá)27Tokens/s;能夠兼容運(yùn)行130億參數(shù)大語言模型。

第一代Edge Server基于DeepEye1000小算力芯片。基于Edge10系列芯片的IPU X2000、IPU X5000、IPU X6000加速卡,算力從24TOPS到256TOPS。

經(jīng)C2C Mesh擴(kuò)展,AI算力能達(dá)到1024TOPS,在Edge Server上運(yùn)行700億參數(shù)大語言模型,可實(shí)現(xiàn)42Token/s的生成速度;能夠兼容運(yùn)行千億級(jí)參數(shù)大語言模型、百億級(jí)參數(shù)視覺大模型,未來將兼容多模態(tài)大模型。

五、落地邊緣計(jì)算三大應(yīng)用場(chǎng)景,助攻AI電腦跑AIGC應(yīng)用

DeepEdge10芯片布局邊緣計(jì)算的三大芯片平臺(tái)解決方案:感知計(jì)算、視頻高密、大模型推理。

感知計(jì)算場(chǎng)景下,基于Edge10和Edge10Max芯片,云天勵(lì)飛打造了能支持多傳感器接入的主板方案,可以滿足機(jī)器人自主導(dǎo)航和運(yùn)動(dòng)、無人機(jī)自主避障與導(dǎo)航、汽車智能安全駕駛控制、家居系統(tǒng)智能控制等應(yīng)用場(chǎng)景的感知要求。

視頻高密場(chǎng)景下,芯片、加速卡結(jié)合云天勵(lì)飛過去幾年在公共安全領(lǐng)域及行業(yè)領(lǐng)域積累的專業(yè)算法和長(zhǎng)尾算法,共同形成了面向嵌入式邊緣計(jì)算端設(shè)備的單芯片主控方案和加速卡方案,這些方案可以滿足智能化園區(qū)管理、消防應(yīng)急管理、智慧物業(yè)、智慧城市治理等場(chǎng)景的視頻高密需要。

像IPU X6000單卡可支持320路視頻處理,算力有256TOPS。一臺(tái)服務(wù)器可以插8張卡,相當(dāng)于實(shí)現(xiàn)超過2500路的視頻高密方案。

大模型推理方面,在Edge Device上,Edge10可作為當(dāng)前信創(chuàng)PC的算力協(xié)處理器方案,把大模型的能力應(yīng)用到傳統(tǒng)信創(chuàng)PC上,讓信創(chuàng)PC能跑AIGC辦公應(yīng)用,包括文案生成、代碼生成、智能決策、增強(qiáng)設(shè)計(jì)等。

在Edge Server上,基于IPU X6000的算力加速卡方案,可實(shí)現(xiàn)1~8卡靈活擴(kuò)展的服務(wù)器部署,滿足行業(yè)大模型和場(chǎng)景大模型集中化的推進(jìn)。

據(jù)李愛軍透露,云天勵(lì)飛會(huì)優(yōu)先選擇在一些邊緣計(jì)算場(chǎng)景的頭部行業(yè)玩家進(jìn)行深度合作,提供Edge10系列芯片和產(chǎn)品,再逐步對(duì)外開放。

六、披露八年自研芯片路線圖,以三年為周期進(jìn)行迭代

云天勵(lì)飛自2014年成立至今,一直堅(jiān)持自主研發(fā)芯片,沉淀“算法芯片化”的核心能力,其核心芯片團(tuán)隊(duì)設(shè)計(jì)經(jīng)驗(yàn)平均超過14年。

“算法芯片化”并不是簡(jiǎn)單的“算法+芯片”,而是云天勵(lì)飛基于對(duì)場(chǎng)景的理解,以及對(duì)算法關(guān)鍵計(jì)算任務(wù)在應(yīng)用場(chǎng)景中的量化分析,將芯片設(shè)計(jì)者的理念、思想與算法相融合的AI芯片設(shè)計(jì)流程,能夠讓AI芯片在實(shí)際應(yīng)用中發(fā)揮更優(yōu)的效果。

在“算法芯片化”核心能力的支持下,云天勵(lì)飛已完成3代指令集架構(gòu)、4代神經(jīng)網(wǎng)絡(luò)處理器架構(gòu)的研發(fā),且已陸續(xù)商用。

據(jù)云天勵(lì)飛董事長(zhǎng)兼CEO陳寧博士分享,從第一代芯片起,云天勵(lì)飛的自研芯片就一直定位在邊緣計(jì)算,與其系統(tǒng)產(chǎn)品相輔相成,落地到智慧城市、智能交通、智能制造、智慧教育、智能配送、邊緣計(jì)算模型等場(chǎng)景中。

其第一代芯片DeepEye1000在2020年初實(shí)現(xiàn)商用,過去四年多應(yīng)用在人臉門禁和AI相機(jī)、工業(yè)AI相機(jī)和安全PC、商業(yè)機(jī)器人等邊緣計(jì)算設(shè)備中。最新推出的DeepEdge10邊緣推理芯片,采用云天勵(lì)飛的第二代異構(gòu)多核架構(gòu)、第一代Chiplet架構(gòu),相較上一代性能整體提升。

“我們基本上是以三年為一個(gè)周期,相信2025年我們將會(huì)推出DeepEdge20,推動(dòng)我們的性能以20倍以上的速度進(jìn)行提升?!标悓幷f。

按其“劇透”,下一代DeepEdge20芯片將采用第三代異構(gòu)多核架構(gòu)、第二代Chiplet架構(gòu),內(nèi)置多核RISC-V、第四代自研NPU。

七、擁有近30家算法芯片化合作伙伴,已開放超過100種算法

一路走來,云天勵(lì)飛神經(jīng)網(wǎng)絡(luò)處理器的核心技術(shù)和芯片的能力逐步獲得行業(yè)內(nèi)合作伙伴的認(rèn)可。

其自研芯片曾先后獲得工信部、發(fā)改委、科技部三大部委人工智能專項(xiàng),并獲得吳文俊人工智能專項(xiàng)獎(jiǎng)芯片項(xiàng)目一等獎(jiǎng),已被國(guó)內(nèi)頂尖芯片設(shè)計(jì)公司采用,芯片進(jìn)入了大規(guī)模應(yīng)用中。

李愛軍認(rèn)為,國(guó)際AI芯片巨頭最堅(jiān)不可摧的壁壘是生態(tài),走兼容路線只是短期內(nèi)的權(quán)宜之計(jì),從長(zhǎng)遠(yuǎn)來看,國(guó)內(nèi)芯片企業(yè)必須實(shí)打?qū)嵉爻掷m(xù)投入軟件研發(fā)和生態(tài)構(gòu)筑。

云天勵(lì)飛現(xiàn)有近30家算法芯片化合作伙伴,并將合作伙伴需求植入下一代芯片中;還打造了開放的算法應(yīng)用生態(tài),所有使用云天芯片產(chǎn)品的合作伙伴,均可在線下載更新其超過100種算法。

在2020年的高交會(huì)上,云天勵(lì)飛首次公布自進(jìn)化城市智能體戰(zhàn)略。

而驅(qū)動(dòng)自進(jìn)化城市智能體發(fā)展的核心邏輯,是打造“應(yīng)用生產(chǎn)數(shù)據(jù)、數(shù)據(jù)訓(xùn)練算法、算法定義芯片、芯片規(guī)模化賦能應(yīng)用”的數(shù)據(jù)飛輪。

對(duì)于云天勵(lì)飛自身來說,芯片是決定AI應(yīng)用廣度與深度的關(guān)鍵載體,也是自進(jìn)化城市智能體建設(shè)的重要算力支撐。今天發(fā)布的大模型推理芯片,是其自進(jìn)化城市智能體底層核心算力平臺(tái)補(bǔ)齊大模型能力的重要成果展示。

陳寧談道,未來,云天勵(lì)飛將繼續(xù)加大自主研發(fā)力度,立足自主可控,以自研“芯”,為自進(jìn)化城市智能體發(fā)展提供強(qiáng)大引擎。

結(jié)語:大模型正向邊緣端滲透,AI推理芯片研發(fā)需結(jié)合本土落地需求

生成式AI和大模型的應(yīng)用落地正逐步從云端向邊緣和終端進(jìn)行滲透,最新一代的智能手機(jī)、個(gè)人電腦(PC)等邊緣端側(cè)設(shè)備已經(jīng)具備在本地部署運(yùn)行百億級(jí)參數(shù)大模型的能力。

在陳寧看來,訓(xùn)練、生產(chǎn)大模型不是目的,千行百業(yè)的落地和應(yīng)用才是最終目的,所謂邊緣,不管是機(jī)器人、無人駕駛汽車、新型智能傳感,還是未來的智慧硬件和腦機(jī)接口芯片,需要的都是大模型推理芯片。

今天,大模型推理芯片還是百家爭(zhēng)鳴的景象,尤其在中國(guó),我們要考慮如何基于國(guó)產(chǎn)工藝進(jìn)行技術(shù)攻關(guān)和生態(tài)建設(shè),打造出契合本土落地需求的AI芯片。

展望未來,陳寧預(yù)言,未來三年,可能會(huì)有80%以上的企業(yè)將運(yùn)行在大模型之上;未來五年,機(jī)器人和數(shù)字人的數(shù)量將超過人類的數(shù)量;未來七年,也就是到2030年,大模型的智慧程度將超過人腦,GPT10.0的版本將會(huì)具備1萬億的參數(shù)體量,相當(dāng)于是人腦末梢神經(jīng)連接的數(shù)量。

“我們正在踏入第四次工業(yè)革命的開端,未來已來。”他也透露了云天勵(lì)飛將會(huì)在今年年底發(fā)布大模型,說敬請(qǐng)期待。

400-021-0821