久久人妻牲爱视频,亚洲无码视频区,黑人操人妻一区二区,aaa在线视频,日产精品久久久久久久,99熟妇诱惑视频,激情只爱无码,国产精品日韩一区二区,超碰成人三级在线

文心大模型踏上新征程:讀懂產(chǎn)業(yè)剛需,摸清落地路徑

原創(chuàng) 收藏 評論
舉報(bào) 2022-05-20

作為深度學(xué)習(xí)領(lǐng)域最大規(guī)模的開發(fā)者盛會,Wave Summit深度學(xué)習(xí)開發(fā)者峰會已經(jīng)進(jìn)入到第四個(gè)年頭。

和2019年首屆峰會時(shí)的情形做個(gè)對比的話,人工智能的產(chǎn)業(yè)應(yīng)用落地有著肉眼可見的進(jìn)步:正在從部分場景滲透到千行百業(yè),由局部探索升級為全面落地,人工智能技術(shù)的通用性越來越強(qiáng),不再是少數(shù)幾家科技巨頭的專屬,而是一步步向普惠AI演進(jìn),同時(shí)中國的產(chǎn)業(yè)智能化進(jìn)程也從破局階段進(jìn)入了深水區(qū)。

當(dāng)一個(gè)行業(yè)進(jìn)入“深水區(qū)”的時(shí)候,往往也伴隨著新的瓶頸:算力、算法、數(shù)據(jù)等要素應(yīng)如何滿足;人工智能技術(shù)如何快速下沉到碎片化的場景;百萬級的人才缺口如何填補(bǔ)……這些繁瑣且迫切的挑戰(zhàn)直接關(guān)系著AI產(chǎn)業(yè)化的成色。

2019年就錨定“工業(yè)大生產(chǎn)”的飛槳,自然也在思索上述問題的解法,并在Wave Summit 2022上給出了自己的思路。

01 被寄予厚望的“大模型”

自從GPT-3在人工智能研究領(lǐng)域“出圈”后,谷歌、微軟、英偉達(dá)、百度等科技巨頭迅速掀起了一場比拼資金和人才的“軍備競賽”。

OpenAI在2020年發(fā)布的NLP預(yù)訓(xùn)練模型GPT-3,模型參數(shù)達(dá)到了1750億個(gè);谷歌在2021年初發(fā)布的Switch Transformer,對外宣稱是萬億級的模型;微軟和英偉達(dá)在當(dāng)年11月完成了5300億參數(shù)的MT-NLG,為此燒壞了4480塊CPU……

中國的科技企業(yè)同樣下場參戰(zhàn)。百度在2019年就開始深耕預(yù)訓(xùn)練模型,當(dāng)年3月發(fā)布了中國首個(gè)正式開放的預(yù)訓(xùn)練模型ERNIE1.0,并在2021年12月聯(lián)合鵬城實(shí)驗(yàn)室發(fā)布了全球首個(gè)知識增強(qiáng)的千億大模型——2600億參數(shù)規(guī)模的鵬城-百度·文心大模型。華為、阿里、浪潮等也紛紛發(fā)力大模型,平均的模型參數(shù)超過百億級。

為何科技巨頭們對預(yù)訓(xùn)練大模型寄予厚望?其中的原因離不開預(yù)訓(xùn)練技術(shù)的誘人前景:可以用自監(jiān)督學(xué)習(xí)的方法讓模型對海量無標(biāo)注數(shù)據(jù)中的規(guī)律和知識進(jìn)行提煉、學(xué)習(xí),當(dāng)面向任務(wù)和場景應(yīng)用時(shí),只需要少量的任務(wù)標(biāo)注數(shù)據(jù),就能通過持續(xù)微調(diào)得到在應(yīng)用場景中非常好用的模型。

預(yù)訓(xùn)練大模型就像是找到了從“原油”中提煉“成品油”的方法。意味著開發(fā)者可以將天然存在的大量數(shù)據(jù)利用起來,擺脫了對精標(biāo)數(shù)據(jù)的深度依賴,有望徹底解決應(yīng)用場景碎片化的困擾。

不過,“大模型”在落地過程中的痛點(diǎn)也很直接。

隨著“大模型”越變越大,對計(jì)算和存儲成本的消耗自然也越來越大;當(dāng)大模型訓(xùn)練好去使用時(shí),模型太“大”會讓推理過程變得十分緩慢;倘若只是調(diào)整大模型中的一些參數(shù),下游任務(wù)的適配也是一件復(fù)雜的事。所以現(xiàn)階段很多科研機(jī)構(gòu)只是在訓(xùn)練大模型,應(yīng)用卻處于非常低的水平。

但文心大模型讓外界看到了另一種可能:

某大型保險(xiǎn)公司基于文心大模型中的文心ERNIE大模型的能力,實(shí)現(xiàn)了對保險(xiǎn)合同中條款文本的自動解析識別,可以智能提取39個(gè)維度的關(guān)鍵信息,工作效率提升了30倍;化合物表征大模型文心HELIX-GEM被應(yīng)用于醫(yī)藥研發(fā),可以一次性預(yù)測50多種藥物代謝動力學(xué)相關(guān)的指標(biāo),且綜合效果超過其他機(jī)器學(xué)習(xí)方法4%以上;基于文心ERNIE的搜索召回和排序大模型上線后,為百度的搜索召回模塊帶來了3.96%的效果提升,排序模塊帶來了6.00%的效果提升……

02 業(yè)界首發(fā)行業(yè)大模型

對于文心大模型在“實(shí)用性”方面遠(yuǎn)超同類產(chǎn)品的秘密,飛槳在Wave Summit 2022深度學(xué)習(xí)開發(fā)者峰會上公布了答案。

按照百度集團(tuán)副總裁、深度學(xué)習(xí)技術(shù)及應(yīng)用國家工程研究中心副主任吳甜的說法,大模型技術(shù)與真實(shí)場景需求的有效匹配是落地要解決的關(guān)鍵問題,并給出支撐大模型產(chǎn)業(yè)落地的三個(gè)關(guān)鍵路徑:建設(shè)更適配場景需求的大模型體系,提供全流程支持應(yīng)用落地的工具和方法,營造激發(fā)創(chuàng)新的開放生態(tài)。

大模型體系涵蓋基礎(chǔ)大模型、任務(wù)大模型和行業(yè)大模型。飛槳在Wave Summit 2022深度學(xué)習(xí)開發(fā)者峰會上一口氣發(fā)布了10個(gè)大模型,再次刷新了文心全景圖,模型體系格局初現(xiàn)。

其中的焦點(diǎn)莫過于業(yè)內(nèi)首發(fā)的行業(yè)大模型,核心特色是“行業(yè)知識增強(qiáng)”,即基于通用數(shù)據(jù)訓(xùn)練的文心大模型,加上挖掘行業(yè)應(yīng)用場景中,大量存在的行業(yè)特有大數(shù)據(jù)和知識,進(jìn)一步提升大模型對行業(yè)應(yīng)用的適配性。

在能源電力行業(yè),百度和國家電網(wǎng)探索出了行業(yè)大模型機(jī)制。基于通用的文心大模型,百度在海量數(shù)據(jù)中挖掘了電力行業(yè)數(shù)據(jù),引入電力業(yè)務(wù)積累的樣本數(shù)據(jù)和特有知識,并且在訓(xùn)練中結(jié)合雙方在預(yù)訓(xùn)練算法和電力領(lǐng)域業(yè)務(wù)與算法的經(jīng)驗(yàn),設(shè)計(jì)了電力領(lǐng)域?qū)嶓w判別、電力領(lǐng)域文檔判別等算法作為預(yù)訓(xùn)練任務(wù),讓文心大模型深入學(xué)習(xí)電力專業(yè)知識,打造出了國網(wǎng)-百度.文心大模型。

相似的思路被應(yīng)用在金融領(lǐng)域,百度和浦發(fā)銀行聯(lián)合研發(fā)了金融行業(yè)大模型——浦發(fā)-百度.文心大模型?;谖男拇竽P瓦M(jìn)行行業(yè)數(shù)據(jù)挖掘,結(jié)合浦發(fā)場景積累的行業(yè)數(shù)據(jù)與知識,雙方技術(shù)和業(yè)務(wù)專家一起設(shè)計(jì)了針對性的財(cái)報(bào)領(lǐng)域判別、金融客服問答匹配等預(yù)訓(xùn)練任務(wù),讓文心大模型學(xué)習(xí)到金融行業(yè)的知識,并在浦發(fā)典型任務(wù)應(yīng)用效果顯著提升。

不夸張地說,文心大模型與伙伴聯(lián)合探索出的行業(yè)大模型方法,讓大模型向行業(yè)場景走進(jìn)了一大步。

工具和平臺包括多種數(shù)據(jù)預(yù)處理工具、多樣化的精調(diào)工具、高性能的部署方案、豐富的預(yù)制任務(wù)構(gòu)成的大模型套件,大模型API服務(wù)和面向不同能力開發(fā)者的EasyDL和BML開發(fā)平臺。目前EasyDL和BML上有超過1萬名開發(fā)者基于文心大模型開發(fā),創(chuàng)建了超過3萬個(gè)任務(wù),應(yīng)用到輸電通路巡檢、零部件瑕疵檢測、農(nóng)業(yè)病蟲害識別等場景中。

同時(shí)為了進(jìn)一步拉近大模型和開發(fā)者的距離,飛槳上線了基于文心大模型的旸谷大模型創(chuàng)意與探索社區(qū),試圖讓用戶零距離感受文心大模型的魅力和應(yīng)用創(chuàng)新潛力?!痘茨献印芬粫袑ⅰ皶D谷”解釋為“日出的地方”,或許也承載了百度對于大模型的寄托,大模型的價(jià)值不在于有多少量級的模型參數(shù),在于能否讓開發(fā)者方便地將智能化能力帶到千行百業(yè)。

如果說文心大模型的三個(gè)關(guān)鍵路徑掃清了大模型的落地障礙,讓路徑得以跑通并規(guī)?;?wù)工業(yè)大生產(chǎn)的力量,還要?dú)w功于飛槳的訓(xùn)練推理一體化技術(shù)。

在訓(xùn)練層面,飛槳自主研發(fā)了端到端自適應(yīng)分布式架構(gòu),既包含了并行訓(xùn)練策略的創(chuàng)新,也包含針對異構(gòu)硬件的自適應(yīng)并行訓(xùn)練支持,打造了框架與算力、算法相結(jié)合三位一體的大模型訓(xùn)練解決方案,實(shí)現(xiàn)了端到端的極致性能優(yōu)化;在推理層面,飛槳推出了針對大模型的壓縮、推理、服務(wù)化全流程部署方案,擁有業(yè)內(nèi)領(lǐng)先性能,并已支撐自然語言理解、對話、跨模態(tài)生成等各類大模型的在線應(yīng)用。

做一個(gè)總結(jié)的話,文心大模型所考量的不單單是大模型的優(yōu)良特性,還在打通規(guī)?;渴鸬淖詈笠还?,讓強(qiáng)大的AI能力走出實(shí)驗(yàn)室、走進(jìn)場景中。

03 “護(hù)航”中國產(chǎn)業(yè)智能化

飛槳圍繞文心大模型產(chǎn)業(yè)級應(yīng)用的探索,似乎并不讓人感到意外,甚至說是一種可以預(yù)見的必然結(jié)果。

2019年的首屆Wave Summit深度學(xué)習(xí)開發(fā)者峰會上,百度CTO王海峰博士就前瞻性地提出“深度學(xué)習(xí)正在推動人工智能進(jìn)入工業(yè)大生產(chǎn)階段”,并確立了飛槳“源于產(chǎn)業(yè)實(shí)踐,服務(wù)于產(chǎn)業(yè)應(yīng)用”的建設(shè)思路。

三年時(shí)間里,這一觀點(diǎn)已經(jīng)在飛槳的實(shí)踐中得到驗(yàn)證。百度CTO、深度學(xué)習(xí)技術(shù)及應(yīng)用國家工程研究中心主任在王海峰Wave Summit 2022上介紹,在AI工業(yè)大生產(chǎn)階段,深度學(xué)習(xí)技術(shù)的通用性越來越強(qiáng)、深度學(xué)習(xí)平臺的標(biāo)準(zhǔn)化、自動化和模塊化特征越來越顯著、深度學(xué)習(xí)應(yīng)用越來越廣泛且深入,已經(jīng)遍地開花。

文心大模型折射出的僅僅是飛槳“護(hù)航”產(chǎn)業(yè)智能化的一個(gè)側(cè)面,為了降低人工智能的產(chǎn)業(yè)應(yīng)用門檻,飛槳在技術(shù)、場景、生態(tài)上的深化遠(yuǎn)不止于此。

比如在技術(shù)維度上,飛槳在V2.3的版本中升級了定制開發(fā)、高性能訓(xùn)練、自動化壓縮、高性能推理等核心能力。

為了滿足高階開發(fā)者的深度定制開發(fā)需求,飛槳推出了高復(fù)用性算子庫,典型算子內(nèi)核的代碼量降低到了行業(yè)內(nèi)的領(lǐng)先水平;通過對通用異構(gòu)參數(shù)服務(wù)器架構(gòu)升級,適配新硬件代碼量從萬行減少到了千行。同時(shí)針對開發(fā)者性能調(diào)優(yōu)的困難,推出了業(yè)內(nèi)首個(gè)全流程性能自動調(diào)優(yōu)方案,實(shí)現(xiàn)了關(guān)鍵環(huán)節(jié)感知硬件特性自動調(diào)優(yōu)。

而在模型的推理部署方面,飛槳推出了業(yè)內(nèi)首個(gè)自動化壓縮功能,通過蒸餾微調(diào)解除了對模型訓(xùn)練代碼的依賴,可以自動選擇最優(yōu)的壓縮方案;特別是對于多算力中心數(shù)據(jù)、算力共享的場景,飛槳推出了業(yè)內(nèi)首個(gè)異構(gòu)多云自適應(yīng)分布式訓(xùn)練架構(gòu),幫助客戶利用多個(gè)算力中心聯(lián)合訓(xùn)練進(jìn)行算力共享和知識共享。

比如在場景維度上,飛槳深入結(jié)合場景需要發(fā)布了訓(xùn)推一體導(dǎo)航圖、產(chǎn)業(yè)模型選型工具、飛槳移動工作站,為AI應(yīng)用落地提供了“快速直達(dá)目的地的智能導(dǎo)航”和一站式便攜方案;發(fā)布PaddleScience賽槳,促進(jìn)了數(shù)據(jù)驅(qū)動和理論推演兩大科研范式的深度融合,加速前沿技術(shù)創(chuàng)新和應(yīng)用落地;以及深度學(xué)習(xí)實(shí)踐教輔書,助力AI人才的培養(yǎng)。

站在開發(fā)者的視角上,飛槳在場景落地方面不可謂不貼心:可以利用訓(xùn)推一體導(dǎo)航圖,實(shí)現(xiàn)開發(fā)、訓(xùn)練到推理部署的全流程智能導(dǎo)航;可以根據(jù)產(chǎn)業(yè)模型選型工具的推薦選擇模型,配合使用產(chǎn)業(yè)實(shí)踐范例,照著流程實(shí)施就能進(jìn)行模型落地;飛槳的產(chǎn)業(yè)級開源算法已經(jīng)超過500個(gè),其中被譽(yù)為“神器”的PP系列模型已經(jīng)從13個(gè)增加到23個(gè),由于PP系列模型對精度和速度的平衡做到了極致,可以省去大量的人力開發(fā)成本……

再比如飛槳大航海2.0新增了面向三個(gè)領(lǐng)域的共創(chuàng)計(jì)劃,包括飛槳產(chǎn)業(yè)實(shí)踐范例庫、飛槳AI for Science,以及飛槳硬件生態(tài)共創(chuàng)計(jì)劃。

值得一提的是,飛槳和硬件伙伴的合作也在逐漸深入。2020年“共聚”,飛槳與13家硬件伙伴聯(lián)合發(fā)起了飛槳硬件生態(tài)圈,促進(jìn)AI產(chǎn)業(yè)鏈的適配升級;2021年“共研”,飛槳與硬件伙伴軟硬一體聯(lián)合優(yōu)化,適配飛槳的芯片/IP超過30種。有理由相信,隨著飛槳與合作伙伴在廠商版飛槳框架、建設(shè)模型庫、開發(fā)課程等方面的通力合作,將更好地服務(wù)開發(fā)者。

隱藏在這些新動作背后的,恰恰是飛槳對中國產(chǎn)業(yè)剛需的深刻洞察,既在解決人工智能在應(yīng)用時(shí)的一系列棘手問題,也為千行百業(yè)的智能化升級指明了方向,中國的產(chǎn)業(yè)界正在進(jìn)入“普惠AI”的時(shí)代。

04 寫在最后

每一次工業(yè)革命的爆發(fā),都離不開通用性技術(shù)的普及。

人工智能是否是第四次工業(yè)革命的通用性技術(shù)?至少在飛槳的示范下,答案已經(jīng)越來越確定。無論是大模型的產(chǎn)業(yè)化落地,還是深度學(xué)習(xí)框架本身的朝著產(chǎn)業(yè)級、低門檻的持續(xù)演變,都詮釋了人工智能作為通用性技術(shù)的潛力。

飛槳的征程還在繼續(xù),但智能化的未來已經(jīng)觸手可及。


本文系作者授權(quán)數(shù)英發(fā)表,內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場。
轉(zhuǎn)載請?jiān)谖恼麻_頭和結(jié)尾顯眼處標(biāo)注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
本文系作者授權(quán)數(shù)英發(fā)表,內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,授權(quán)事宜請聯(lián)系作者本人,侵權(quán)必究。
本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
本文系數(shù)英原創(chuàng),未經(jīng)允許不得轉(zhuǎn)載。
授權(quán)事宜請至數(shù)英微信公眾號(ID: digitaling) 后臺授權(quán),侵權(quán)必究。

    評論

    文明發(fā)言,無意義評論將很快被刪除,異常行為可能被禁言
    DIGITALING
    登錄后參與評論

    評論

    文明發(fā)言,無意義評論將很快被刪除,異常行為可能被禁言
    800

    推薦評論

    暫無評論哦,快來評論一下吧!

    全部評論(0條)

    枞阳县| 许昌市| 瓮安县| 荣昌县| 黎城县| 饶阳县| 武邑县| 长武县| 巴楚县| 大化| 翼城县| 屯留县| 新竹市| 呼图壁县| 无锡市| 东乌珠穆沁旗| 开原市| 手游| 延庆县| 南澳县| 三门峡市| 新宁县| 建德市| 五寨县| 温泉县| 云安县| 利津县| 舒兰市| 荔浦县| 德令哈市| 宜宾县| 宁波市| 白玉县| 收藏| 马关县| 休宁县| 五指山市| 安国市| 罗源县| 于田县| 石景山区|