日韩免费视频一区二区,在线看欧美人妻

繼電器模型圖_中間繼電器3d模型

蒸餾的類型

通用數(shù)據(jù)集上蒸餾，和特定數(shù)據(jù)集上蒸餾，并且在特定數(shù)據(jù)集上做數(shù)據(jù)增加效果會(huì)更好
TinyBERT中蒸餾的整體過程：首先進(jìn)行通用蒸餾，然后用數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)，在特定任務(wù)上進(jìn)行蒸餾，本文主要進(jìn)行了第二階段的蒸餾，模型是利用第一階段得到的通用小模型tinybert-6l-768d-v2進(jìn)行初始化。

蒸餾層的選擇

知識(shí)的蒸餾通常是通過讓學(xué)生模型學(xué)習(xí)相關(guān)的蒸餾相損失函數(shù)實(shí)現(xiàn)，在本實(shí)驗(yàn)中，蒸餾的學(xué)習(xí)目標(biāo)由兩個(gè)部分組成，分別是中間層的蒸餾損失和預(yù)測層的蒸餾損失。其中，中間層的蒸餾包括對Embedding層的蒸餾、對每個(gè)Transformer layer輸出的蒸餾、以及對每個(gè)Transformer中attention矩陣（softmax之前的結(jié)果）的蒸餾，三者均采用的是均方誤差損失函數(shù)。而預(yù)測層蒸餾的學(xué)習(xí)目標(biāo)則是學(xué)生模型輸出的logits和教師模型輸出的logits的交叉熵?fù)p失。

蒸餾層的映射

由于教師模型是12層，學(xué)生模型的層數(shù)少于教師模型的層數(shù)，因此需要選擇一種layer mapping的方式。論文中采用了一種固定的映射方式，當(dāng)學(xué)生模型的層數(shù)為教師模型的1/2時(shí)，學(xué)生第i層的attention矩陣，需要學(xué)習(xí)教師的第2i+1層的attention矩陣，Transformer layer輸出同理。

繼電器模型圖_中間繼電器3d模型

猜你喜歡

離心泵特性曲線測定實(shí)驗(yàn)報(bào)告數(shù)據(jù)處理_離心泵特性曲線

2020年水泵市場容量_2022年我國水泵行業(yè)市場數(shù)據(jù)分析

什么是智慧供水？智慧供水大數(shù)據(jù)平臺(tái)整體解決方案

下列關(guān)于潛水泵使用表述正確的有_選擇潛水泵時(shí)應(yīng)了解的基本數(shù)據(jù)

農(nóng)村污水治理現(xiàn)狀,農(nóng)村污水治理“大數(shù)據(jù)”是發(fā)展方向-泵業(yè)

水環(huán)境污染現(xiàn)象,觸目驚心的水污染數(shù)據(jù)，改變現(xiàn)狀，一定要用一體化泵站

繼電器模型圖_中間繼電器3d模型

猜你喜歡

離心泵特性曲線測定實(shí)驗(yàn)報(bào)告數(shù)據(jù)處理_離心泵特性曲線

2020年水泵市場容量_2022年我國水泵行業(yè)市場數(shù)據(jù)分析

什么是智慧供水？智慧供水大數(shù)據(jù)平臺(tái)整體解決方案

下列關(guān)于潛水泵使用表述正確的有_選擇潛水泵時(shí)應(yīng)了解的基本數(shù)據(jù)

農(nóng)村污水治理現(xiàn)狀,農(nóng)村污水治理“大數(shù)據(jù)”是發(fā)展方向-泵業(yè)

水環(huán)境污染現(xiàn)象,觸目驚心的水污染數(shù)據(jù)，改變現(xiàn)狀，一定要用一體化泵站

微信識(shí)別二維碼

微信號(hào)：18932453205微信二維碼

什么是智慧供水？智慧供水大數(shù)據(jù)平臺(tái)整體解決方案

水環(huán)境污染現(xiàn)象,觸目驚心的水污染數(shù)據(jù)，改變現(xiàn)狀，一定要用一體化泵站