首個兩千億參數(shù)中文預(yù)訓(xùn)練語言模型 “盤古α” 全開源至啟智社區(qū)

2021年4月26日,在深圳召開的HDC全球開發(fā)者大會上,鵬城實驗室鵬城云腦技術(shù)總師、北京大學(xué)田永鴻教授發(fā)布了業(yè)界首個全開源2000億參數(shù)中文預(yù)訓(xùn)練語言模型“盤古α”。這是國產(chǎn)全棧式AI基礎(chǔ)設(shè)施支持2000億級超大規(guī)模語言模型訓(xùn)練的第1次,探索并驗證了國產(chǎn)E級智算平臺在軟硬件協(xié)同優(yōu)化、大規(guī)模分布式并行訓(xùn)練等核心關(guān)鍵技術(shù)的可行性。代碼、模型、評測數(shù)據(jù)集全部同步在OpenI啟智社區(qū)全面開源開放,訓(xùn)練語料和在線服務(wù)體驗將在測試評估優(yōu)化后開源開放。

田永鴻介紹,基于鵬城云腦II大科學(xué)裝置,“盤古α”形成了國產(chǎn)自主可控的通用超大規(guī)模分布式訓(xùn)練基座及相關(guān)核心技術(shù),由鵬城實驗室聯(lián)合諾亞方舟實驗室、Mindspore團(tuán)隊以及北京大學(xué)組建的技術(shù)聯(lián)合攻關(guān)團(tuán)隊,經(jīng)過數(shù)月的艱苦工作,開發(fā)完成了“盤古α”模型,模型在16個下游任務(wù)中大部分指標(biāo)優(yōu)于SOTA模型,其中零樣本學(xué)習(xí)任務(wù)11個任務(wù)領(lǐng)先,單樣本學(xué)習(xí)任務(wù)12個任務(wù)領(lǐng)先,小樣本學(xué)習(xí)任務(wù)13個任務(wù)領(lǐng)先。

鵬城云腦技術(shù)總師田永鴻介紹“盤古α”

田永鴻表示,為了訓(xùn)練“盤古α”這樣的超大規(guī)模參數(shù)的模型面臨諸多挑戰(zhàn),以鵬城實驗室為首的聯(lián)合攻關(guān)團(tuán)隊做了許多的創(chuàng)新:首先構(gòu)建了一個大規(guī)模中文訓(xùn)練語料收集與自動化處理平臺,從近80TB多源文本數(shù)據(jù)中通過過濾、查重和模型評估提煉了近1.1TB高質(zhì)量的訓(xùn)練語料,為超大規(guī)模語言模型的訓(xùn)練奠定了很好的基礎(chǔ);從模型本身上提出了隨機(jī)順序自回歸訓(xùn)練的模型ALM,提升了算法小樣本學(xué)習(xí)能力;MindSpore的多維度混合自動并行從工程上大幅提升了在大規(guī)模集群上自動訓(xùn)練的效率;在OpenI啟智社區(qū)實現(xiàn)“盤古α”數(shù)據(jù)、算法、模型和服務(wù)的逐步全面開源開放,希望以啟智開源社區(qū)為載體,集眾智、聚眾力,吸引開發(fā)者共同參與到模型的壓縮輕量化和應(yīng)用創(chuàng)新工作中,不斷探索“盤古α”模型的強(qiáng)大潛力。

OpenI啟智社區(qū)是在國家實施新一代人工智能發(fā)展戰(zhàn)略背景下,新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟(AITISA)組織產(chǎn)學(xué)研用協(xié)作共建共享的開源平臺,旨在以鵬城云腦重大科研基礎(chǔ)設(shè)施及Trustie軟件開發(fā)群體化方法與平臺為基礎(chǔ),全面推動人工智能領(lǐng)域的開源開放協(xié)同創(chuàng)新。“盤古α”的全面開源開放旨在通過以大模型為基礎(chǔ),在探索通用智能的道路上不斷前進(jìn),打通大規(guī)模AI設(shè)備集群和通用性軟硬件生態(tài)協(xié)同的屏障,形成國產(chǎn)自主可控的通用超大規(guī)模分布式訓(xùn)練基座及相關(guān)核心技術(shù)。同時通過支持開源開放、賦能相關(guān)產(chǎn)業(yè)界的應(yīng)用創(chuàng)新和基礎(chǔ)研究的不斷協(xié)同進(jìn)步。

“盤古α”開源地址:https://git.openi.org.cn/PCL-Platform.Intelligence/PanGu-Alpha

  

撰稿:網(wǎng)絡(luò)智能部 陶恒韜 趙海英

 

Share this article:

Facebook
Twitter
LinkedIn
WhatsApp