Hi!请登陆

李航等提出多粒度AMBERT模型中文提升顯著

2020-9-2 26 9/2

選自arXiv

作者:Xinsong Zhang、李航

機器之心編譯

編輯:杜偉、小舟

自谷歌 BERT 模型問世以來,各式各樣的 BERT 變體模型在自然語言理解任務上大顯身手。近日,字節跳動 AI 實驗室李航等研究者提出瞭一種新型多粒度 BERT 模型,該模型在 CLUE 和 GLUE 任務上的性能超過瞭谷歌 BERT、Albert、XLNet 等。

BERT 等預訓練語言模型在自然語言理解(Natural Language Understanding, NLU)的許多任務中均表現出瞭卓越的性能。

可以看到,模型中的 token 通常是細粒度的,對於像英語這樣的語言,token 是單詞或子詞;對於像中文這樣的語言,則是單個漢字。例如在英語中有多個單詞表達式構成的自然詞匯單元,因此使用粗粒度標記化(tokenization)似乎也是合理的。實際上,細粒度和粗粒度標記化對於學習預訓練語言模型都各有利弊。

近日,字節跳動 Xinsong Zhang、李航兩位研究者在細粒度和粗粒度標記化的基礎上,提出瞭一種新的預訓練語言模型,他們稱之為 AMBERT(一種多粒度 BERT)。在構成上,AMBERT 具有兩個編碼器。

對於英文,AMBERT 將單詞序列(細粒度標記)和短語序列(粗粒度標記)作為標記化後的輸入,其中使用一個編碼器處理單詞序列,另一個編碼器處理短語序列,並利用兩個編碼器之間的共享參數,最終分別創建單詞和短語的上下文表示序列。

論文鏈接:https://arxiv.org/pdf/2008.11869.pdf

研究團隊已經在一些中文和英文的基準數據集(包括 CLUE、GLUE、SQuAD 和 RACE)上進行瞭實驗。實驗結果表明,AMBERT 的性能幾乎在所有情況下都優於現有的最佳性能模型。尤其是對於中文而言,AMBERT的提升效果顯著。

我們首先看一下中英文任務中細、粗粒度模型層的註意力圖。

下圖 1 顯示瞭適用於中英文句子的細粒度模型的首層註意力圖。可以看到,某些 token 不恰當地出現在句子的其他 token 上。

例如在英文句子中,「drawing」、「new」和「dog」分別對「portrait」、「york」和「food」這幾個詞有高註意力權重,但這是不合適的。而在中文句子中,漢字「拍」、「北」和「長」分別對「賣」「京」「市」有高註意力權重,這也是不合適的。

下圖 2 顯示瞭中英文相同句子粗粒度模型的首層註意力圖。

在英文句子中,單詞組成的短語包括「drawing room」、「york minister」和「dog food」,前兩個句子中的註意力是恰當的,但最後一個句子則因為不正確的標記化而出現瞭不恰當的註意力。類似地,在中文句子中,高註意力權重的「球拍(bat)」和「京城(capital)」都是合理的,但「市長(mayor)」不合理。但請註意:錯誤的標記化是不可避免的。

接下來詳細解讀 AMBERT 模型的細節和實驗結果。

AMBERT 模型

研究者在下圖 3 中給出瞭 AMBERT 的整體框架。AMBERT 以文本作為輸入,其中,文本要麼是單個文檔中的長序列,要麼是兩個不同文檔中兩個短序列的級聯。接著在輸入文本上進行標記化,以獲得細、粗粒度的 token 序列。

AMBERT 模型整體框架

具體來說,AMBERT 具有兩個編碼器,分別用於處理細、粗粒度 token 序列。每個編碼器具有與 BERT(Devlin 等人,2018)或 Transformer 編碼器(Vaswani 等人,2017)完全相同的架構。

此外,兩個編碼器在每個對應層共享相同的參數,但兩者的嵌入參數不同。細粒度編碼器在對應層上從細粒度 token 序列中生成上下文表示,而粗粒度編碼器在對應層上從粗粒度 token 序列中生成上下文表示。

最後,AMBERT 分別輸出細、粗粒度 token 的上下文表示序列。

預訓練

AMBERT 的預訓練主要基於掩碼語言建模(mask language modeling, MLM)進行,並從細、粗粒度兩個層面展開。出於比較的目的,研究者在實驗中隻使用瞭預測下一個句子(next sentence prediction, NSP)。

預訓練過程被定義為以下函數的優化:

微調

在分類任務上的 AMBERT 微調中,細、粗粒度編碼器分別創建特定的 [CLS] 表示,並且這些表示都用於分類任務。微調過程被定義為以下函數的優化:

類似地,我們可以對跨度檢測(span detection)任務上的 AMBERT 進行微調,其中細粒度 token 的表示與對應粗粒度 token 的表示實現瞭級聯。

替代模型

研究者還提出瞭 AMBERT 的兩種替代模型 AMBERT-Combo 和 AMBERT-Hybrid,它們也依賴於多粒度的標記化。研究者在實驗部分也將三者進行瞭比較。

實驗

在實驗部分,研究者分別在中英文基準數據集上,將 AMBERT 與細、粗粒度 BERT 基線以及 AMBERT-Combo 和 AMBERT-Hybrid 替代模型進行瞭比較。

中文任務

下表 1 展示瞭分類任務的結果。可以看到,AMBERT 將 BERT 基線方法的平均得分提升瞭約 1.0%,並且其性能優於 AMBERT-Combo 和 AMBERT-Hybrid 替代模型。

下表 2 展示瞭機器閱讀理解(Machine Reading Comprehensive, MRC)任務上的結果。可以看到,AMBERT 將 BERT 基線的平均得分提升瞭約 3.0%。

此外,研究者還在 CLUE 排行榜上將 AMBERT 與當前最優模型進行瞭比較,結果如下表所示:

英文任務

研究者在 GLUE 任務上將 AMBERT 與 BERT 模型以及 AMBERT-Combo、AMBERT-Hybrid 替代模型進行瞭比較。Google BERT 的結果出自原論文,Our BERT 的結果由研究者獲得。

如下表 4 所示,AMBERT 在大多數任務上的性能優於其他模型,並且 AMBERT 等多粒度模型能夠取得優於單粒度模型的結果。在多粒度模型中,AMBERT 在參數和計算量更少的情況下依然實現瞭最佳性能。

研究者在 SQuAD 任務上將 AMBERT 與其他 BERT 模型進行瞭比較。Google BERT 結果出自原論文或者由研究者使用官方代碼運行獲得。

如下表 5 所示,AMBERT 在 SQuAD 任務上顯著優於 Google BERT。Our BERT (word)通常表現良好,Our BERT (phrase)在跨度檢測任務上表現糟糕。

此外,在RACE任務上,AMBERT在所有開發集和測試集的基線中表現最好。

AMBERT是最佳的多粒度模型。

最後,研究者在 GLUE 和 MRC 任務上將 AMBERT 與 SOTA 模型進行瞭比較,結果如下表 6 所示:

案例研究

研究者對 BERT 和 AMBERT 的結果進行瞭定性研究,結果如下表 7 所示,研究者給出瞭蘊含任務 QNLI 和 CMNLI 的一些隨機示例。其中數值「0」表示有蘊含關系,數值「1」表示無蘊含關系。WORD/PHRASE 表示 Our BERT 的詞或者短語。

【來源:愛因兒科技】

聲明:轉載此文是出於傳遞更多信息之目的。若有來源標註錯誤或侵犯瞭您的合法權益,請作者持權屬證明與本網聯系,我們將及時更正、刪除,謝謝。 郵箱地址:[email protected]

相关推荐