日韩久久精品一区二区三区-日韩久久精品视频-日韩久草视频-日韩久草-国产成人短视频-国产成人调教视频在线观看

當(dāng)前位置:首頁 > 團(tuán)建方案 > 諾亞方舟拓展訓(xùn)練(諾亞方舟心理游戲流程)

諾亞方舟拓展訓(xùn)練(諾亞方舟心理游戲流程)

admin3年前 (2022-04-27)團(tuán)建方案

出品 | AI科技大本營(yíng)(ID:rgznai100)

BERT之后,新的預(yù)訓(xùn)練語言模型XLnet、RoBERTa、ERNIE不斷推出,這次,華為諾亞方舟實(shí)驗(yàn)室開源了基于BERT的中文預(yù)訓(xùn)練語言模型NEZHA(哪吒),寓意模型能像哪吒那樣三頭六臂、大力出奇跡,可以處理很多不同的自然語言任務(wù)。

據(jù)介紹,當(dāng)前版本的NEZHA基于BERT模型,并進(jìn)行了多處優(yōu)化,能夠在一系列中文自然語言理解任務(wù)達(dá)到先進(jìn)水平。

NEZHA模型的實(shí)驗(yàn)中采用了5個(gè)中文自然語言理解任務(wù),即CMRC(中文閱讀理解)、XNLI(自然語言推斷)、LCQMC(句義匹配)、PD-NER (命名實(shí)體識(shí)別任務(wù))、ChnSenti(情感分類)。

研究人員在中文維基百科、中文新聞、百度百科數(shù)據(jù)上訓(xùn)練NEZHA模型,并且和谷歌發(fā)布的中文BERT,以及哈工大和科大訊飛聯(lián)合發(fā)布的BERT-WWM,還有百度發(fā)布的ERNIE-Baidu進(jìn)行了比較。從下表可以看出,NEZHA在XNLI,LCQMC,PeoplesDaily NER,ChnSenti任務(wù)上達(dá)到了先進(jìn)水平(SOTA)。表中NEZHA,NEZHA-WWM和NEZHA-Span分別代表由原始的BERT預(yù)訓(xùn)練任務(wù)訓(xùn)練得到的,加入全詞Mask訓(xùn)練得到的以及加入Span預(yù)測(cè)任務(wù)訓(xùn)練得到的NEZHA模型(三者均使用了全函數(shù)式相對(duì)位置編碼)。

諾亞方舟拓展訓(xùn)練

GitHub鏈接:

https://github.com/huawei-noah/Pretrained-Language-Model/blob/master/README.md

論文鏈接:

https://arxiv.org/abs/1909.00204

此外,諾亞方舟實(shí)驗(yàn)室還開源了TinyBERT預(yù)訓(xùn)練語言模型。

盡管語言模型預(yù)訓(xùn)練(例如BERT)大大改善了許多自然語言處理任務(wù)的性能。但是,預(yù)訓(xùn)練語言模型通常在計(jì)算上昂貴且占用了大量?jī)?nèi)存,因此很難在某些資源受限的設(shè)備上有效執(zhí)行它們。為了加快推理速度、減小模型大小并同時(shí)保持精度,華為研究人員提出了一種新穎的transformer蒸餾方法,該方法是針對(duì)基于transformer模型專門設(shè)計(jì)的知識(shí)蒸餾(KD)方法。

通過利用這種新的知識(shí)蒸餾方法,可以將BERT中編碼的大量知識(shí)很好地轉(zhuǎn)移到TinyBERT。此外,他們?yōu)門inyBERT引入了一個(gè)新的兩階段學(xué)習(xí)框架,該框架在預(yù)訓(xùn)練階段和特定任務(wù)的學(xué)習(xí)階段都執(zhí)行transformer蒸餾方法。該框架確保TinyBERT可以捕獲BERT的一般領(lǐng)域知識(shí)和特定任務(wù)知識(shí)。在GLUE基準(zhǔn)測(cè)試中,TinyBERT相比BERT小7.5倍,比其推理的速度快9.4倍,并且在自然語言理解任務(wù)中具有競(jìng)爭(zhēng)優(yōu)勢(shì)。

它在預(yù)訓(xùn)練和特定任務(wù)的學(xué)習(xí)階段都運(yùn)行了新型的transformer蒸餾方法。TinyBERT學(xué)習(xí)的概述如下所示:

諾亞方舟拓展訓(xùn)練

論文鏈接:

https://arxiv.org/abs/1909.10351

NEZHA預(yù)訓(xùn)練語言模型的三大改進(jìn)維度

據(jù)諾亞方舟實(shí)驗(yàn)室的官方資料,NEZHA(哪吒)基于BERT在模型、預(yù)訓(xùn)練任務(wù)和訓(xùn)練算法三個(gè)維度進(jìn)行了改進(jìn)。

諾亞方舟拓展訓(xùn)練

模型改進(jìn):BERT的網(wǎng)絡(luò)架構(gòu)是一個(gè)多層的Transformer網(wǎng)絡(luò),由于Transformer并沒有直接考慮輸入的token的位置信息,原始的Transformer模型和BERT分別采用了函數(shù)式和參數(shù)式的絕對(duì)位置編碼方式,即每一個(gè)位置上的輸入的token會(huì)疊加一個(gè)與位置信息相關(guān)的一個(gè)embedding(這個(gè)embedding稱為絕對(duì)位置編碼:absolute position embedding,APE),前者的位置編碼是一個(gè)與位置相關(guān)的函數(shù),后者則是模型參數(shù)的一部分,在預(yù)訓(xùn)練過程中學(xué)到的。

此后,又有工作提出了相對(duì)位置編碼方式,即在每一層計(jì)算隱狀態(tài)的相互依賴的時(shí)候考慮他們之間的相對(duì)位置關(guān)系,這個(gè)相對(duì)位置信息表示為一個(gè)相對(duì)位置編碼(relative position embedding,RPE),已有工作均在相對(duì)位置編碼中加入了可學(xué)習(xí)的參數(shù)。本工作在BERT模型中使用了完全函數(shù)式的相對(duì)位置編碼(相對(duì)位置編碼沒有任何需要學(xué)習(xí)的參數(shù)),實(shí)驗(yàn)結(jié)果表明該位置編碼方式使得模型在各個(gè)下游任務(wù)上的效果均得到明顯提升。

預(yù)訓(xùn)練任務(wù):本工作引入了全詞Mask技術(shù),即不同于原始的BERT模型Mask單個(gè)中文字,該技術(shù)在MLM預(yù)訓(xùn)練任務(wù)中Mask整個(gè)詞而不是單個(gè)字(如下圖全詞Mask方法Mask了一整個(gè)詞“華為”),進(jìn)而提升了任務(wù)難度使得BERT學(xué)到更多語義信息。

諾亞方舟拓展訓(xùn)練

此外,借鑒SpanBERT ,NEZHA模型還引入了Span預(yù)測(cè)任務(wù),該任務(wù)Mask一個(gè)連續(xù)的Span(例如下圖中“機(jī)”,“很”,“不”三個(gè)字),利用Span前后的兩個(gè)字的最上層表示(下圖中的x3和x7)以及待預(yù)測(cè)字的位置信息來預(yù)測(cè)該字,如下圖中,待預(yù)測(cè)字為“不”,Span預(yù)測(cè)任務(wù)會(huì)使用x3,x7和“不“”這個(gè)字的位置信息(就是x3和x6還有x6和x7之間的相對(duì)位置編碼)來預(yù)測(cè)該字,“機(jī)”和“很”的預(yù)測(cè)也是同樣的方法。

該方法使得Span前后的字的表示會(huì)包含Span中字的語義信息,由于在訓(xùn)練過程中,一個(gè)句子會(huì)被隨機(jī)Mask很多次,所以句子中每個(gè)字都有機(jī)會(huì)成為Span的前后字,進(jìn)而使得各個(gè)字學(xué)到的表示都會(huì)包含周圍Span的信息,Span預(yù)測(cè)任務(wù)能夠有效提高模型在下游的Span抽取任務(wù)(此任務(wù)的目標(biāo)是獲取一段文字中目標(biāo)片段的開始和結(jié)束位置)的效果。

諾亞方舟拓展訓(xùn)練

訓(xùn)練算法:在訓(xùn)練過程中,采用混合精度訓(xùn)練(Mixed Precision Training)方式,在傳統(tǒng)的深度學(xué)習(xí)訓(xùn)練過程中,所有的變量包括weight,activation和gradient都是用FP32(單精度浮點(diǎn)數(shù))來表示。而在混合精度訓(xùn)練過程中,每一個(gè)step會(huì)為模型的所有weight維護(hù)一個(gè)FP32的copy,稱為Master Weights,在做前向和后向傳播過程中,Master Weights會(huì)轉(zhuǎn)換成FP16(半精度浮點(diǎn)數(shù))格式,權(quán)重,激活函數(shù)和梯度都是用FP16進(jìn)行表示,最后梯度會(huì)轉(zhuǎn)換成FP32格式去更新Master Weights。

優(yōu)化器方面使用了LAMB優(yōu)化器,通常在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的Batch Size很大的情況下(超過一定閾值)會(huì)給模型的泛化能力帶來負(fù)面影響,而LAMB優(yōu)化器通過一個(gè)自適應(yīng)式的方式為每個(gè)參數(shù)調(diào)整learning rate,能夠在Batch Size很大的情況下不損失模型的效果,使得模型訓(xùn)練能夠采用很大的Batch Size,進(jìn)而極大提高訓(xùn)練速度。在訓(xùn)練BERT的研究中,使用LAMB優(yōu)化器在不損失模型效果的前提下,Batch Size達(dá)到了超過30k,使得BERT的訓(xùn)練時(shí)間從3天降到了76分鐘。

掃描二維碼推送至手機(jī)訪問。

版權(quán)聲明:本文由一點(diǎn)團(tuán)建發(fā)布,如需轉(zhuǎn)載請(qǐng)注明出處。

本頁地址:http://www.379exw.cn/post/158717.html

主站蜘蛛池模板: 浦东新区| 洛隆县| 洪江市| 绥江县| 平邑县| 将乐县| 张家川| 东光县| 榆中县| 九龙县| 互助| 廊坊市| 宿松县| 崇义县| 元江| 乃东县| 福清市| 广汉市| 石城县| 南漳县| 新宾| 德昌县| 元江| 洪湖市| 吉首市| 长泰县| 龙门县| 云林县| 渝北区| 冕宁县| 九台市| 秀山| 宜章县| 神池县| 凌云县| 乌苏市| 南汇区| 新干县| 象山县| 广州市| 分宜县|