文心大模型踏上新征程：讀懂產(chǎn)業(yè)剛需，摸清落地路徑

原創(chuàng) 贊收藏評論

舉報(bào) 2022-05-20

掃描,分享朋友圈

作為深度學(xué)習(xí)領(lǐng)域最大規(guī)模的開發(fā)者盛會，Wave Summit深度學(xué)習(xí)開發(fā)者峰會已經(jīng)進(jìn)入到第四個(gè)年頭。

和2019年首屆峰會時(shí)的情形做個(gè)對比的話，人工智能的產(chǎn)業(yè)應(yīng)用落地有著肉眼可見的進(jìn)步：正在從部分場景滲透到千行百業(yè)，由局部探索升級為全面落地，人工智能技術(shù)的通用性越來越強(qiáng)，不再是少數(shù)幾家科技巨頭的專屬，而是一步步向普惠AI演進(jìn)，同時(shí)中國的產(chǎn)業(yè)智能化進(jìn)程也從破局階段進(jìn)入了深水區(qū)。

當(dāng)一個(gè)行業(yè)進(jìn)入“深水區(qū)”的時(shí)候，往往也伴隨著新的瓶頸：算力、算法、數(shù)據(jù)等要素應(yīng)如何滿足；人工智能技術(shù)如何快速下沉到碎片化的場景；百萬級的人才缺口如何填補(bǔ)……這些繁瑣且迫切的挑戰(zhàn)直接關(guān)系著AI產(chǎn)業(yè)化的成色。

2019年就錨定“工業(yè)大生產(chǎn)”的飛槳，自然也在思索上述問題的解法，并在Wave Summit 2022上給出了自己的思路。

01 被寄予厚望的“大模型”

自從GPT-3在人工智能研究領(lǐng)域“出圈”后，谷歌、微軟、英偉達(dá)、百度等科技巨頭迅速掀起了一場比拼資金和人才的“軍備競賽”。

OpenAI在2020年發(fā)布的NLP預(yù)訓(xùn)練模型GPT-3，模型參數(shù)達(dá)到了1750億個(gè)；谷歌在2021年初發(fā)布的Switch Transformer，對外宣稱是萬億級的模型；微軟和英偉達(dá)在當(dāng)年11月完成了5300億參數(shù)的MT-NLG，為此燒壞了4480塊CPU……

中國的科技企業(yè)同樣下場參戰(zhàn)。百度在2019年就開始深耕預(yù)訓(xùn)練模型，當(dāng)年3月發(fā)布了中國首個(gè)正式開放的預(yù)訓(xùn)練模型ERNIE1.0，并在2021年12月聯(lián)合鵬城實(shí)驗(yàn)室發(fā)布了全球首個(gè)知識增強(qiáng)的千億大模型——2600億參數(shù)規(guī)模的鵬城-百度·文心大模型。華為、阿里、浪潮等也紛紛發(fā)力大模型，平均的模型參數(shù)超過百億級。

為何科技巨頭們對預(yù)訓(xùn)練大模型寄予厚望？其中的原因離不開預(yù)訓(xùn)練技術(shù)的誘人前景：可以用自監(jiān)督學(xué)習(xí)的方法讓模型對海量無標(biāo)注數(shù)據(jù)中的規(guī)律和知識進(jìn)行提煉、學(xué)習(xí)，當(dāng)面向任務(wù)和場景應(yīng)用時(shí)，只需要少量的任務(wù)標(biāo)注數(shù)據(jù)，就能通過持續(xù)微調(diào)得到在應(yīng)用場景中非常好用的模型。

預(yù)訓(xùn)練大模型就像是找到了從“原油”中提煉“成品油”的方法。意味著開發(fā)者可以將天然存在的大量數(shù)據(jù)利用起來，擺脫了對精標(biāo)數(shù)據(jù)的深度依賴，有望徹底解決應(yīng)用場景碎片化的困擾。

不過，“大模型”在落地過程中的痛點(diǎn)也很直接。

隨著“大模型”越變越大，對計(jì)算和存儲成本的消耗自然也越來越大；當(dāng)大模型訓(xùn)練好去使用時(shí)，模型太“大”會讓推理過程變得十分緩慢；倘若只是調(diào)整大模型中的一些參數(shù)，下游任務(wù)的適配也是一件復(fù)雜的事。所以現(xiàn)階段很多科研機(jī)構(gòu)只是在訓(xùn)練大模型，應(yīng)用卻處于非常低的水平。

但文心大模型讓外界看到了另一種可能：

某大型保險(xiǎn)公司基于文心大模型中的文心ERNIE大模型的能力，實(shí)現(xiàn)了對保險(xiǎn)合同中條款文本的自動解析識別，可以智能提取39個(gè)維度的關(guān)鍵信息，工作效率提升了30倍；化合物表征大模型文心HELIX-GEM被應(yīng)用于醫(yī)藥研發(fā)，可以一次性預(yù)測50多種藥物代謝動力學(xué)相關(guān)的指標(biāo)，且綜合效果超過其他機(jī)器學(xué)習(xí)方法4%以上；基于文心ERNIE的搜索召回和排序大模型上線后，為百度的搜索召回模塊帶來了3.96%的效果提升，排序模塊帶來了6.00%的效果提升……

02 業(yè)界首發(fā)行業(yè)大模型

對于文心大模型在“實(shí)用性”方面遠(yuǎn)超同類產(chǎn)品的秘密，飛槳在Wave Summit 2022深度學(xué)習(xí)開發(fā)者峰會上公布了答案。

按照百度集團(tuán)副總裁、深度學(xué)習(xí)技術(shù)及應(yīng)用國家工程研究中心副主任吳甜的說法，大模型技術(shù)與真實(shí)場景需求的有效匹配是落地要解決的關(guān)鍵問題，并給出支撐大模型產(chǎn)業(yè)落地的三個(gè)關(guān)鍵路徑：建設(shè)更適配場景需求的大模型體系，提供全流程支持應(yīng)用落地的工具和方法，營造激發(fā)創(chuàng)新的開放生態(tài)。

大模型體系涵蓋基礎(chǔ)大模型、任務(wù)大模型和行業(yè)大模型。飛槳在Wave Summit 2022深度學(xué)習(xí)開發(fā)者峰會上一口氣發(fā)布了10個(gè)大模型，再次刷新了文心全景圖，模型體系格局初現(xiàn)。

其中的焦點(diǎn)莫過于業(yè)內(nèi)首發(fā)的行業(yè)大模型，核心特色是“行業(yè)知識增強(qiáng)”，即基于通用數(shù)據(jù)訓(xùn)練的文心大模型，加上挖掘行業(yè)應(yīng)用場景中，大量存在的行業(yè)特有大數(shù)據(jù)和知識，進(jìn)一步提升大模型對行業(yè)應(yīng)用的適配性。

在能源電力行業(yè)，百度和國家電網(wǎng)探索出了行業(yè)大模型機(jī)制。基于通用的文心大模型，百度在海量數(shù)據(jù)中挖掘了電力行業(yè)數(shù)據(jù)，引入電力業(yè)務(wù)積累的樣本數(shù)據(jù)和特有知識，并且在訓(xùn)練中結(jié)合雙方在預(yù)訓(xùn)練算法和電力領(lǐng)域業(yè)務(wù)與算法的經(jīng)驗(yàn)，設(shè)計(jì)了電力領(lǐng)域?qū)嶓w判別、電力領(lǐng)域文檔判別等算法作為預(yù)訓(xùn)練任務(wù)，讓文心大模型深入學(xué)習(xí)電力專業(yè)知識，打造出了國網(wǎng)-百度.文心大模型。

相似的思路被應(yīng)用在金融領(lǐng)域，百度和浦發(fā)銀行聯(lián)合研發(fā)了金融行業(yè)大模型——浦發(fā)-百度.文心大模型?；谖男拇竽Ｐ瓦M(jìn)行行業(yè)數(shù)據(jù)挖掘，結(jié)合浦發(fā)場景積累的行業(yè)數(shù)據(jù)與知識，雙方技術(shù)和業(yè)務(wù)專家一起設(shè)計(jì)了針對性的財(cái)報(bào)領(lǐng)域判別、金融客服問答匹配等預(yù)訓(xùn)練任務(wù)，讓文心大模型學(xué)習(xí)到金融行業(yè)的知識，并在浦發(fā)典型任務(wù)應(yīng)用效果顯著提升。

不夸張地說，文心大模型與伙伴聯(lián)合探索出的行業(yè)大模型方法，讓大模型向行業(yè)場景走進(jìn)了一大步。

工具和平臺包括多種數(shù)據(jù)預(yù)處理工具、多樣化的精調(diào)工具、高性能的部署方案、豐富的預(yù)制任務(wù)構(gòu)成的大模型套件，大模型API服務(wù)和面向不同能力開發(fā)者的EasyDL和BML開發(fā)平臺。目前EasyDL和BML上有超過1萬名開發(fā)者基于文心大模型開發(fā)，創(chuàng)建了超過3萬個(gè)任務(wù)，應(yīng)用到輸電通路巡檢、零部件瑕疵檢測、農(nóng)業(yè)病蟲害識別等場景中。

同時(shí)為了進(jìn)一步拉近大模型和開發(fā)者的距離，飛槳上線了基于文心大模型的旸谷大模型創(chuàng)意與探索社區(qū)，試圖讓用戶零距離感受文心大模型的魅力和應(yīng)用創(chuàng)新潛力?！痘茨献印芬粫袑ⅰ皶D谷”解釋為“日出的地方”，或許也承載了百度對于大模型的寄托，大模型的價(jià)值不在于有多少量級的模型參數(shù)，在于能否讓開發(fā)者方便地將智能化能力帶到千行百業(yè)。

如果說文心大模型的三個(gè)關(guān)鍵路徑掃清了大模型的落地障礙，讓路徑得以跑通并規(guī)?；?wù)工業(yè)大生產(chǎn)的力量，還要?dú)w功于飛槳的訓(xùn)練推理一體化技術(shù)。

在訓(xùn)練層面，飛槳自主研發(fā)了端到端自適應(yīng)分布式架構(gòu)，既包含了并行訓(xùn)練策略的創(chuàng)新，也包含針對異構(gòu)硬件的自適應(yīng)并行訓(xùn)練支持，打造了框架與算力、算法相結(jié)合三位一體的大模型訓(xùn)練解決方案，實(shí)現(xiàn)了端到端的極致性能優(yōu)化；在推理層面，飛槳推出了針對大模型的壓縮、推理、服務(wù)化全流程部署方案，擁有業(yè)內(nèi)領(lǐng)先性能，并已支撐自然語言理解、對話、跨模態(tài)生成等各類大模型的在線應(yīng)用。

做一個(gè)總結(jié)的話，文心大模型所考量的不單單是大模型的優(yōu)良特性，還在打通規(guī)?；渴鸬淖詈笠还?，讓強(qiáng)大的AI能力走出實(shí)驗(yàn)室、走進(jìn)場景中。

03 “護(hù)航”中國產(chǎn)業(yè)智能化

飛槳圍繞文心大模型產(chǎn)業(yè)級應(yīng)用的探索，似乎并不讓人感到意外，甚至說是一種可以預(yù)見的必然結(jié)果。

2019年的首屆Wave Summit深度學(xué)習(xí)開發(fā)者峰會上，百度CTO王海峰博士就前瞻性地提出“深度學(xué)習(xí)正在推動人工智能進(jìn)入工業(yè)大生產(chǎn)階段”，并確立了飛槳“源于產(chǎn)業(yè)實(shí)踐，服務(wù)于產(chǎn)業(yè)應(yīng)用”的建設(shè)思路。

三年時(shí)間里，這一觀點(diǎn)已經(jīng)在飛槳的實(shí)踐中得到驗(yàn)證。百度CTO、深度學(xué)習(xí)技術(shù)及應(yīng)用國家工程研究中心主任在王海峰Wave Summit 2022上介紹，在AI工業(yè)大生產(chǎn)階段，深度學(xué)習(xí)技術(shù)的通用性越來越強(qiáng)、深度學(xué)習(xí)平臺的標(biāo)準(zhǔn)化、自動化和模塊化特征越來越顯著、深度學(xué)習(xí)應(yīng)用越來越廣泛且深入，已經(jīng)遍地開花。

文心大模型折射出的僅僅是飛槳“護(hù)航”產(chǎn)業(yè)智能化的一個(gè)側(cè)面，為了降低人工智能的產(chǎn)業(yè)應(yīng)用門檻，飛槳在技術(shù)、場景、生態(tài)上的深化遠(yuǎn)不止于此。

比如在技術(shù)維度上，飛槳在V2.3的版本中升級了定制開發(fā)、高性能訓(xùn)練、自動化壓縮、高性能推理等核心能力。

為了滿足高階開發(fā)者的深度定制開發(fā)需求，飛槳推出了高復(fù)用性算子庫，典型算子內(nèi)核的代碼量降低到了行業(yè)內(nèi)的領(lǐng)先水平；通過對通用異構(gòu)參數(shù)服務(wù)器架構(gòu)升級，適配新硬件代碼量從萬行減少到了千行。同時(shí)針對開發(fā)者性能調(diào)優(yōu)的困難，推出了業(yè)內(nèi)首個(gè)全流程性能自動調(diào)優(yōu)方案，實(shí)現(xiàn)了關(guān)鍵環(huán)節(jié)感知硬件特性自動調(diào)優(yōu)。

而在模型的推理部署方面，飛槳推出了業(yè)內(nèi)首個(gè)自動化壓縮功能，通過蒸餾微調(diào)解除了對模型訓(xùn)練代碼的依賴，可以自動選擇最優(yōu)的壓縮方案；特別是對于多算力中心數(shù)據(jù)、算力共享的場景，飛槳推出了業(yè)內(nèi)首個(gè)異構(gòu)多云自適應(yīng)分布式訓(xùn)練架構(gòu)，幫助客戶利用多個(gè)算力中心聯(lián)合訓(xùn)練進(jìn)行算力共享和知識共享。

比如在場景維度上，飛槳深入結(jié)合場景需要發(fā)布了訓(xùn)推一體導(dǎo)航圖、產(chǎn)業(yè)模型選型工具、飛槳移動工作站，為AI應(yīng)用落地提供了“快速直達(dá)目的地的智能導(dǎo)航”和一站式便攜方案；發(fā)布PaddleScience賽槳，促進(jìn)了數(shù)據(jù)驅(qū)動和理論推演兩大科研范式的深度融合，加速前沿技術(shù)創(chuàng)新和應(yīng)用落地；以及深度學(xué)習(xí)實(shí)踐教輔書，助力AI人才的培養(yǎng)。

站在開發(fā)者的視角上，飛槳在場景落地方面不可謂不貼心：可以利用訓(xùn)推一體導(dǎo)航圖，實(shí)現(xiàn)開發(fā)、訓(xùn)練到推理部署的全流程智能導(dǎo)航；可以根據(jù)產(chǎn)業(yè)模型選型工具的推薦選擇模型，配合使用產(chǎn)業(yè)實(shí)踐范例，照著流程實(shí)施就能進(jìn)行模型落地；飛槳的產(chǎn)業(yè)級開源算法已經(jīng)超過500個(gè)，其中被譽(yù)為“神器”的PP系列模型已經(jīng)從13個(gè)增加到23個(gè)，由于PP系列模型對精度和速度的平衡做到了極致，可以省去大量的人力開發(fā)成本……

再比如飛槳大航海2.0新增了面向三個(gè)領(lǐng)域的共創(chuàng)計(jì)劃，包括飛槳產(chǎn)業(yè)實(shí)踐范例庫、飛槳AI for Science，以及飛槳硬件生態(tài)共創(chuàng)計(jì)劃。

值得一提的是，飛槳和硬件伙伴的合作也在逐漸深入。2020年“共聚”，飛槳與13家硬件伙伴聯(lián)合發(fā)起了飛槳硬件生態(tài)圈，促進(jìn)AI產(chǎn)業(yè)鏈的適配升級；2021年“共研”，飛槳與硬件伙伴軟硬一體聯(lián)合優(yōu)化，適配飛槳的芯片/IP超過30種。有理由相信，隨著飛槳與合作伙伴在廠商版飛槳框架、建設(shè)模型庫、開發(fā)課程等方面的通力合作，將更好地服務(wù)開發(fā)者。

隱藏在這些新動作背后的，恰恰是飛槳對中國產(chǎn)業(yè)剛需的深刻洞察，既在解決人工智能在應(yīng)用時(shí)的一系列棘手問題，也為千行百業(yè)的智能化升級指明了方向，中國的產(chǎn)業(yè)界正在進(jìn)入“普惠AI”的時(shí)代。

04 寫在最后

每一次工業(yè)革命的爆發(fā)，都離不開通用性技術(shù)的普及。

人工智能是否是第四次工業(yè)革命的通用性技術(shù)？至少在飛槳的示范下，答案已經(jīng)越來越確定。無論是大模型的產(chǎn)業(yè)化落地，還是深度學(xué)習(xí)框架本身的朝著產(chǎn)業(yè)級、低門檻的持續(xù)演變，都詮釋了人工智能作為通用性技術(shù)的潛力。

飛槳的征程還在繼續(xù)，但智能化的未來已經(jīng)觸手可及。

本文系作者授權(quán)數(shù)英發(fā)表，內(nèi)容為作者獨(dú)立觀點(diǎn)，不代表數(shù)英立場。
轉(zhuǎn)載請?jiān)谖恼麻_頭和結(jié)尾顯眼處標(biāo)注：作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。