恭喜這2個(gè)大模型開(kāi)源項(xiàng)目進(jìn)入OpenI啟智社區(qū)孵化培育管道

近期,OpenI啟智社區(qū)召集了技術(shù)委員會(huì)成員針對(duì)社區(qū)重點(diǎn)項(xiàng)目進(jìn)入孵化培育管道的評(píng)審決策會(huì)議,最終共計(jì)通過(guò)2個(gè)重點(diǎn)開(kāi)源項(xiàng)目的貢獻(xiàn)申請(qǐng),分別是來(lái)自鵬城實(shí)驗(yàn)室開(kāi)源所貢獻(xiàn)的鵬程·盤(pán)古α項(xiàng)目與來(lái)自智源語(yǔ)言大模型加速技術(shù)創(chuàng)新中心貢獻(xiàn)的OpenBMB項(xiàng)目。

恭喜這2個(gè)項(xiàng)目正式進(jìn)入啟智社區(qū)開(kāi)源項(xiàng)目孵化管道,它們豐富了OpenI啟智社區(qū)在模型儲(chǔ)備方面的內(nèi)容,進(jìn)一步完善社區(qū)總體技術(shù)架構(gòu)。

鵬程·盤(pán)古α

logo.jpg

PanGu-α

2000億參數(shù)中文自回歸大模型

貢獻(xiàn)者:鵬城實(shí)驗(yàn)室

許可證:Apache License 2.0

項(xiàng)目地址:https://git.openi.org.cn/PCL-Platform.Intelligence

鵬程·盤(pán)古α是業(yè)界首個(gè)2000億參數(shù)以中文為核心的預(yù)訓(xùn)練生成語(yǔ)言模型,目前開(kāi)源了兩個(gè)版本:鵬程·盤(pán)古α和鵬程·盤(pán)古α增強(qiáng)版,并支持NPU和GPU兩個(gè)版本,支持豐富的場(chǎng)景應(yīng)用,在知識(shí)問(wèn)答、知識(shí)檢索、知識(shí)推理、閱讀理解等文本生成領(lǐng)域表現(xiàn)突出,具備較強(qiáng)的少樣本學(xué)習(xí)的能力。例如:

Input: 中國(guó)和美國(guó)和日本和法國(guó)和加拿大和澳大利亞的首都分別是哪里?
Generate: 中國(guó)的首都是北京,美國(guó)的首都是華盛頓,日本的首都是東京,法國(guó)的首都是巴黎,澳大利亞的首都是堪培

基于盤(pán)古系列大模型提供大模型應(yīng)用落地技術(shù)幫助用戶高效的落地超大預(yù)訓(xùn)練模型到實(shí)際場(chǎng)景。

整個(gè)框架特點(diǎn)如下:

主要有如下幾個(gè)核心模塊:

  • 數(shù)據(jù)集:從開(kāi)源開(kāi)放數(shù)據(jù)集、common crawl數(shù)據(jù)集、電子書(shū)等收集近80TB原始語(yǔ)料,構(gòu)建了約1.1TB的高質(zhì)量中文語(yǔ)料數(shù)據(jù)集、53種語(yǔ)種高質(zhì)量單、雙語(yǔ)數(shù)據(jù)集2TB。

  • 基礎(chǔ)模塊:提供預(yù)訓(xùn)練模型庫(kù),支持常用的中文預(yù)訓(xùn)練模型,包括鵬程·盤(pán)古α、鵬程·盤(pán)古α增強(qiáng)版等。

  • 應(yīng)用層:支持常見(jiàn)的NLP應(yīng)用比如多語(yǔ)言翻譯、開(kāi)放域?qū)υ挼?,支持預(yù)訓(xùn)練模型落地工具,包括模型壓縮、框架移植、可持續(xù)學(xué)習(xí),助力大模型快速落地。

正在進(jìn)行的開(kāi)源工作有:

  • 應(yīng)用組件:為快速適配用戶的應(yīng)用場(chǎng)景,將推出基于盤(pán)古大模型的一系列組件,如微調(diào)、壓縮、框架遷移等,實(shí)現(xiàn)一鍵式微調(diào)和模型遷移功能。

  • 云服務(wù)提供:結(jié)合智算網(wǎng)絡(luò)提供模型訓(xùn)練、微調(diào)、壓縮等開(kāi)源應(yīng)用創(chuàng)新的算力支持,優(yōu)化基礎(chǔ)大模型的云服務(wù)能力,支持本地調(diào)用的同時(shí),也可以在云上實(shí)現(xiàn)調(diào)用,給用戶帶來(lái)高效的從訓(xùn)練到落地的完整體驗(yàn)。

盤(pán)古α項(xiàng)目已在OpenI啟智社區(qū)實(shí)現(xiàn)了數(shù)據(jù)、算法、模型和服務(wù)的逐步全面開(kāi)源開(kāi)放,希望以O(shè)penI啟智開(kāi)源社區(qū)為載體,集眾智、聚眾力,吸引開(kāi)發(fā)者共同參與到模型的壓縮輕量化和應(yīng)用創(chuàng)新工作中,不斷探索“盤(pán)古α”模型的強(qiáng)大潛力。

OpenBMB

Open Lab for Big Model Base

大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型庫(kù)與相關(guān)工具

貢獻(xiàn)者:清華大學(xué)、北京智源人工智能研究院語(yǔ)言大模型加速技術(shù)創(chuàng)新中心、ModelBest

許可證:Apache License 2.0

項(xiàng)目地址:https://git.openi.org.cn/OpenBMB

OpenBMB全稱為Open Lab for Big Model Base,旨在打造大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型庫(kù)與相關(guān)工具,加速百億級(jí)以上大模型的訓(xùn)練、微調(diào)與推理,降低大模型使用門(mén)檻,與國(guó)內(nèi)外開(kāi)發(fā)者共同努力形成大模型開(kāi)源社區(qū),推動(dòng)大模型生態(tài)發(fā)展,實(shí)現(xiàn)大模型的標(biāo)準(zhǔn)化、普及化和實(shí)用化,讓大模型飛入千家萬(wàn)戶。

OpenBMB將努力建設(shè)大模型開(kāi)源社區(qū),團(tuán)結(jié)廣大開(kāi)發(fā)者不斷完善大模型從訓(xùn)練、微調(diào)、推理到應(yīng)用的全流程配套工具。

基于貢獻(xiàn)者團(tuán)隊(duì)前期工作,OpenBMB設(shè)計(jì)了大模型全流程研發(fā)框架,并初步開(kāi)發(fā)了相關(guān)工具,這些工具各司其職、相互協(xié)作,共同實(shí)現(xiàn)大模型從訓(xùn)練、微調(diào)到推理的全流程高效計(jì)算。

OpenBMB開(kāi)源社區(qū)推崇簡(jiǎn)潔,追求極致,相信數(shù)據(jù)與模型的力量。歡迎志同道合的開(kāi)發(fā)者們加入,共同為大模型應(yīng)用落地添磚加瓦,早日讓大模型飛入千家萬(wàn)戶。

OpenI啟智社區(qū)從服務(wù)新一代人工智能重大科技項(xiàng)目出發(fā),為我國(guó)的新一代人工智能發(fā)現(xiàn)項(xiàng)目、培育項(xiàng)目、檢驗(yàn)項(xiàng)目和推廣項(xiàng)目。目前,社區(qū)已孵化33個(gè)重點(diǎn)開(kāi)源項(xiàng)目,形成包含基礎(chǔ)設(shè)施、軟件環(huán)境、算法框架、模型儲(chǔ)備、應(yīng)用開(kāi)發(fā)部署的多維度、全流程的社區(qū)開(kāi)源技術(shù)體系。

社區(qū)堅(jiān)持以開(kāi)放的心態(tài)與國(guó)內(nèi)外的社區(qū)、項(xiàng)目合作,也在“尊重創(chuàng)新”的原則下, 歡迎有志于AI開(kāi)源事業(yè)的開(kāi)發(fā)者加入社區(qū),共同促進(jìn)AI開(kāi)源開(kāi)放生態(tài)體系建設(shè)。如有意貢獻(xiàn)項(xiàng)目和參與社區(qū)孵化培育的個(gè)人或組織,請(qǐng)參考《啟智社區(qū)項(xiàng)目開(kāi)源指南》提供項(xiàng)目相關(guān)材料。

Share this article:

Facebook
Twitter
LinkedIn
WhatsApp

More articles