首頁 > 運動

今日 Paper｜自注意力對齊；自動化評估；關係抽取任務；LSTM模型等

由雷峰網leiphone 發表于運動2023-01-24

簡介目錄自注意力對齊：使用自注意力網路和跳塊的一種延時控制的端到端語音識別模型為什麼我們需要為NLG設計新的自動化評估指標利用多輪問答模型處理實體-關係抽取任務傾聽“聲音”的聲音：一種用於聲音事件檢測的“時間-頻率”注意力模型用於端到端流式語音

grammar怎麼讀語音

自注意力對齊：使用自注意力網路和跳塊的一種延時控制的端到端語音識別模型

為什麼我們需要為NLG設計新的自動化評估指標

利用多輪問答模型處理實體-關係抽取任務

傾聽“聲音”的聲音：一種用於聲音事件檢測的“時間-頻率”注意力模型

用於端到端流式語音識別的單向LSTM模型結構分析

自注意力對齊：使用自注意力網路和跳塊的一種延時控制的端到端語音識別模型

論文名稱：self-attention aligner： a latency-control end-to-end model for ASR using self-attention network and chunk-hopping

作者：Linhao Dong / Feng Wang / Bo Xu

發表時間：2019/2/18

論文連結：https：//paper。yanxishe。com/review/16749？from=leiphonecolumn_paperreview0420

推薦原因

為了解決RNN結構的語音識別模型存在的訓練時間長、對一些噪音很敏感等問題，作者參考了transformer結構設計了一個語音識別模型，其中編碼部分使用了時間維度的池化操作進行下采樣來進行時間維度的資訊互動並提高模型速度，解碼的部分設計了一種模擬CTC的對齊結構。此外，作者將語音識別模型與語言模型進行端到端的聯合訓練，使得CER得到進一步提升。

將transformer結構應用語音識別，今天已經不新鮮了。但是就去年本文發表的時期而言，將另一個領域的優秀模型應用到本領域來，會遇到什麼問題，要怎麼解決這些問題，如何進行最佳化？本文的這些思路都是很值得參考的。比如，transformer模型能很好的解決文字類的NLP任務，那麼將其與語音識別聯合訓練，也更有可能收斂，以達到提高表現的目的。

為什麼我們需要為NLG設計新的自動化評估指標

論文名稱：Why We Need New Evaluation Metrics for NLG

作者：Jekaterina Novikova / Ondrej Du ˇ sek / Amanda Cercas Curry ˇ / Verena Rieser

發表時間：2017/7/21

論文連結：https：//paper。yanxishe。com/review/16619？from=leiphonecolumn_paperreview0420

推薦原因

核心內容：作者針對NLG（nature language generation）自動化評估問題，對於WBMs（Word-based Metrics）， GBMs（Grammar-based metrics）兩大類總計21個當時常用的評估指標進行了分析，具體是用了3個SOTA模型以及三個屬於不同領域的資料集上進行測試，並且將測試結果進一步交由眾包平臺進行人工打分，進而對自動評估和人工評估進行有效性對比以及關聯性分析。同時，對於測試結果進行了模型、資料集、以及具體樣本級別的詳細錯誤分析，得出了包括BLEU在內的大部分指標並不能令人滿意的結論。

文章亮點：系統地分析了自動評估與人工評估關聯性及其在不同資料集上的表現；作者公開了全部的程式碼、資料以及分析結果。

推薦理由：設計一個模型的時候，對資料集進行分析是理所當然的，對於當前的自動化評估指標是否適用於資料集就沒那麼直觀了，本文對於如何設計出一個令人滿意的NLP模型給人以啟發。

利用多輪問答模型處理實體-關係抽取任務

論文名稱：Entity-Relation Extraction as Multi-turn Question Answering

作者：Xiaoya Li / Fan Yin / Zijun Sun / Xiayu Li / Arianna Yuan /Duo Chai / Mingxin Zhou and Jiwei Li

發表時間：2019/9/4

論文連結：https：//paper。yanxishe。com/review/15956？from=leiphonecolumn_paperreview0420

推薦原因

如今NLP領域很多研究人員將非QA（question answer）的任務轉換成QA問題，取得了不錯的效果，受此啟發，作者提出了使用設計了一種問答模型的新模式來處理事件抽取任務，其核心部分是：針對首實體（head entity）和關係（relation）分別設計了一種將實體轉換為問題（question）的模板，並透過生成答案（answer）來依次抽取head entity和整個三元組。同時，本文參考了對話系統中利用強化學習來進行多輪任務的思想，設計了多輪問答模型。

本文涉及到事件抽取、問答系統、閱讀理解、強化學習等多個NLP方面的知識，並提出了一個有利於事件抽取的中文資料集，在多個數據集上均達到了新的SOTA。

從作者的數量能看出，他們做了大量的工作，對於個人來說可能很難復現他們的實驗，但是其融合NLP多個領域來進行模型的最佳化的思想，很值得學習。

傾聽“聲音”的聲音：一種用於聲音事件檢測的“時間-頻率”注意力模型

論文名稱：Learning How to Listen： A Temporal-Frequential Attention Model for Sound Event Detection

作者：Yu-Han Shen / Ke-Xin He / Wei-Qiang Zhang

發表時間：2018/10/29

論文連結：https：//paper。yanxishe。com/review/15418？from=leiphonecolumn_paperreview0420

推薦原因

這篇文章被 ICASSP 2019收錄，核心內容是作者作為一個參賽者對DCASE2017中的一個特殊語音事件檢測任務的分析，作者的思路是利用attention機制，提取出聲音訊號中最為重要的特徵，並且從單個frame的頻譜特性（ spectral characteristic）以及樣本中多個frames的時間特性的角度設計注意力模型，使用maxpooling將一段聲音中的關鍵特徵抽取出來。

從比賽結果來看，作為沒有使用整合學習的單個模型，作者提出的這種模型結構所得到的分數是比賽中最優的。

本文不僅模型設計的很出色，對於資料不均衡、音訊噪聲等問題的處理也值得一讀。

用於端到端流式語音識別的單向LSTM模型結構分析

論文名稱：Unidirectional Neural Network Architectures for End-to-End Automatic Speech Recognition

作者：Niko Moritz / Takaaki Hori / Jonathan Le Roux

發表時間：2019/9/19

論文連結：https：//paper。yanxishe。com/review/15822？from=leiphonecolumn_paperreview0420

推薦原因

端到端ASR模型中，以往的語音識別模組結構變成了單一的神經網路，這要求模型能處理更長的上下文資訊，目前，雙向LSTM（BiLSTM）已經在這方面取得了相當好的效果，但是並不適合流式語音識別。作者以此為出發點，討論了現在流行的幾種單向LSTM網路模型以及基於延時控制（latency-controlled）的BiLSTM，並且以此為基礎提出了兩種更好的TDLSTM（time-delayed LSTM），並且在中英文語音資料集上進行了驗證。

本文專門討論網路模型設計，一方面，為了保證公平，對作為baseline的模型均做了一些最佳化，同時簡化了輸入輸出模組，除了“Kaldi”-TDNN-LSTM模型在大型訓練集上出現了記憶體溢位，其他模型均在包括延時控制、模型引數數量等方面均很接近的條件下進行訓練，另一方面，作者對於如何設計一個滿足需求的神經網路模型講解的很細緻，有一種讀教材的感覺。因此，我還特意去搜到這個作者的個人網站，的確是個牛人http：//www。jonathanleroux。org/。

求職交流

現AI 研習社已經和阿里大文娛、曠視、搜狗搜尋、小米等知名公司達成聯絡，為幫助大家更好地求職找工作，社群成立了AI求職內推社群，找工作找實習的小夥伴可以掃碼進群了，也歡迎在讀的同學來交流學習。（群裡有企業hr，專案招聘人員）

雷鋒網雷鋒網雷鋒網

Tags：模型語音作者識別論文

上一篇：唐代詩人寫出一篇“滿分作文”，考官：字數不夠，不予錄取

下一篇：位於龍山縣的惹巴拉景區，俯拍整體景色美如畫，碧水藍天完美融合

首頁 > 運動

今日 Paper｜自注意力對齊；自動化評估；關係抽取任務；LSTM模型等

相關文章

推薦文章