九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
淺談問題生成(Question Generation)
本文將根據(jù)時(shí)間線對(duì)問題生成的相關(guān)研究進(jìn)行梳理,并在文末介紹了一些個(gè)人認(rèn)為有價(jià)值的研究方向。

傳統(tǒng)的問題生成依賴于人工設(shè)計(jì)的規(guī)則和模版將陳述句轉(zhuǎn)換為疑問句,這樣的方法需耗費(fèi)大量人力且依賴于深層的語(yǔ)法知識(shí),泛化性能和可擴(kuò)展能力較差。

使用深度學(xué)習(xí)方法進(jìn)行問題生成最早在 2017 年被提出。Learning to Ask: Neural Question Generation for Reading Comprehension (ACL 2017)將端到端訓(xùn)練的神經(jīng)網(wǎng)絡(luò)應(yīng)用于問題生成,采用 seq2seq+attention 模型架構(gòu),擺脫了轉(zhuǎn)換規(guī)則與模版的局限,取得了相比于傳統(tǒng)方法更好的性能。另一篇將神經(jīng)網(wǎng)絡(luò)應(yīng)用于 QG 的奠基工作 Neural question generation from text: A preliminary study(EMNLP 2017)在編碼時(shí)額外考慮了答案位置與語(yǔ)法信息,取得了更好的性能。

之后到 2019 年,相關(guān)研究主要以 seq2seq 架構(gòu)為基礎(chǔ),改變模型結(jié)構(gòu)和或使用一些技巧來提升模型的性能,具體包括以下幾個(gè)方面。

答案編碼

將答案作為輸入來指導(dǎo)模型生成問題時(shí)更關(guān)注答案以提升模型性能,常用方法包括將答案位置作為輸入特征或使用額外的編碼器對(duì)答案編碼。
  • Answer-focused and Position-aware Neural Question Generation.EMNLP, 2018

  • Improving Neural Question Generation Using Answer Separation.AAAI, 2019.

  • Answer-driven Deep Question Generation based on Reinforcement Learning.COLING, 2020.


語(yǔ)言特征

將額外的語(yǔ)言特征與詞向量拼接作為輸入來提升 QG,例如 word case、POS 和 NER 標(biāo)簽等。

  • Automatic Question Generation using Relative Pronouns and Adverbs.ACL, 2018.

  • Learning to Generate Questions by Learning What not to Generate.WWW, 2019.


問題類型建模

通過對(duì)問題類型或疑問詞的顯式建模來改善生成問題疑問詞預(yù)測(cè)不準(zhǔn)確的問題。
  • Question Generation for Question Answering.EMNLP,2017.

  • Answer-focused and Position-aware Neural Question Generation.EMNLP, 2018.

  • Question-type Driven Question Generation.EMNLP, 2019.


段落級(jí)別上下文

利用輸入文本周圍的相關(guān)上下文增加輸入信息來提升問題生成效果。
  • Harvesting paragraph-level question-answer pairs from wikipedia.ACL, 2018.

  • Leveraging Context Information for Natural Question Generation.ACL, 2018.

  • Paragraph-level Neural Question Generation with Maxout Pointer and Gated Self-attention Networks.EMNLP, 2018.

  • Capturing Greater Context for Question Generation.AAAI, 2020.


內(nèi)容選擇

當(dāng)答案信息不提供給模型時(shí),給定輸入段落,QG 系統(tǒng)需自動(dòng)識(shí)別段落中值得提問的部分再生成問題。
  • Identifying Where to Focus in Reading Comprehension for Neural Question Generation.EMNLP, 2017.

  • Neural Models for Key Phrase Extraction and Question Generation.ACL Workshop, 2018.

  • A Multi-Agent Communication Framework for Question-Worthy Phrase Extraction and Question Generation.AAAI, 2019.


答案已知時(shí),識(shí)別與答案相關(guān)的內(nèi)容也有利于提升生成問題的效果。
  • Improving Question Generation With to the Point Context.EMNLP, 2019.


特定的訓(xùn)練目標(biāo)

通過優(yōu)化 ground truth 的對(duì)數(shù)似然來訓(xùn)練模型會(huì)對(duì)生成問題的多樣性造成影響,一些工作通過結(jié)合強(qiáng)化學(xué)習(xí)使特定的獎(jiǎng)勵(lì)最大化來改善模型訓(xùn)練。
  • Teaching Machines to Ask Questions.IJCAI, 2018.

  • Natural Question Generation with Reinforcement Learning Based Graph-to-Sequence Model.NeurIPS Workshop, 2019.

  • Addressing Semantic Drift in Question Generation for Semi-Supervised Question Answering.EMNLP, 2019.

  • Exploring Question-Specific Rewards for Generating Deep Questions.COLING, 2020.

  • Answer-driven Deep Question Generation based on Reinforcement Learning.COLING, 2020.


多任務(wù)學(xué)習(xí)

通過一些輔助任務(wù)來提升 QG 的能力,如通過語(yǔ)言建模來提升句子表示;通過復(fù)述生成增加表達(dá)的多樣性;通過語(yǔ)義匹配和答案位置預(yù)測(cè)來緩解生成的疑問詞不合適和 copy 不相關(guān)詞匯的問題。
  • Multi-Task Learning with Language Modeling for Question Generation.EMNLP, 2019.

  • How to Ask Good Questions? Try to Leverage Paraphrases.ACL, 2020.

  • Improving Question Generation with Sentence-level Semantic Matching and Answer Position Inferring.AAAI, 2020.


多樣性

對(duì)潛在空間(如 VAE)和生成空間(如隨機(jī)采樣)進(jìn)行控制來提升生成問題的多樣性。
  • Variational Attention for Sequence-to-Sequence Models. ICML, 2018.

  • Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs.ACL, 2020.

  • On the Importance of Diversity in Question Generation for QA.ACL, 2020.


預(yù)訓(xùn)練語(yǔ)言模型提出后,大多方法通過微調(diào)預(yù)訓(xùn)練模型實(shí)現(xiàn)問題生成,進(jìn)一步改善了生成效果,常用模型包括 UniLM、BART、T5 等。
  • Unified Language Model Pre-training for Natural Language Understanding and Generation.NeurIPS, 2019.

  • UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training.arXiv, 2020.

  • ERNIE-GEN: An Enhanced Multi-Flow Pre-training and Fine-tuning Framework for Natural Language Generation.IJCAI, 2020.(SOTA)


此后,相關(guān)研究工作大多聚焦于問題生成在其他任務(wù)上的應(yīng)用,不再通過修改模型提升生成效果,而是把問題生成作為整個(gè)系統(tǒng)的一部分直接使用。

數(shù)據(jù)增強(qiáng)

問題生成最直接的應(yīng)用就是為問答模型或檢索模型提供更多的訓(xùn)練數(shù)據(jù),降低人工標(biāo)注成本,提升模型的性能。
  • Addressing Semantic Drift in Question Generation for Semi-Supervised Question Answering.EMNLP, 2019.

  • Synthetic QA Corpora Generation with Roundtrip Consistency.ACL, 2019.

  • Template-Based Question Generation from Retrieved Sentences for Improved Unsupervised Question Answering.ACL, 2020.

  • Training Question Answering Models From Synthetic Data.EMNLP, 2020.

  • Embedding-based Zero-shot Retrieval through Query Generation.arXiv, 2020.

  • Towards Robust Neural Retrieval Models with Synthetic Pre-Training.arXiv, 2021.


領(lǐng)域遷移

在目標(biāo)領(lǐng)域生成問題/問答對(duì)來進(jìn)一步訓(xùn)練問答模型可以提升模型的領(lǐng)域適應(yīng)能力。由于問題生成模型學(xué)習(xí)到的是對(duì)知識(shí)點(diǎn)的提問方式,相比于問答模型擴(kuò)展能力更強(qiáng)(不依賴于特定領(lǐng)域),因此將在源領(lǐng)域訓(xùn)練好的問題生成模型用于目標(biāo)域生成問題的質(zhì)量不會(huì)下降太多。
  • End-to-End Synthetic Data Generation for Domain Adaptation of Question Answering Systems.EMNLP, 2020.

  • Improving Question Answering Model Robustness with Synthetic Adversarial Data Generation.ACL 2021.

  • Back-Training excels Self-Training at Unsupervised Domain Adaptation of Question Generation and Passage Retrieval.arXiv, 2021.


OpenQA

開放域問答系統(tǒng)(OpenQA)通常使用檢索-閱讀架構(gòu)實(shí)現(xiàn),雖在精度方面已取得較好的效果,但閱讀器的線上推理會(huì)非常耗時(shí)。利用問題生成模型將文檔轉(zhuǎn)換為常見問答對(duì)(FAQ)的形式,線上僅需通過問題間的匹配來實(shí)現(xiàn)問答,保證準(zhǔn)確率的同時(shí)大大提高了效率,提升了開放域問答模型的實(shí)用性。
  • Open-domain question answering with pre-constructed question spaces.NAACL, 2021.

  • Accelerating real-time question answering via question generation.AAAI, 2021.

  • PAQ: 65 Million Probably-Asked Questions and What You Can Do With Them.arXiv, 2021.


事實(shí)檢查

通過問答對(duì)生成來構(gòu)造一致性衡量指標(biāo)或聲明來進(jìn)行事實(shí)檢查。
  • Improving Factual Consistency of Abstractive Summarization via Question Answering.ACL, 2021.

  • Zero-shot Fact Verification by Claim Generation.ACL, 2021.


其他

近期還有一些其他的相關(guān)研究方向受到了廣泛關(guān)注,如控制生成問題的難度、在問答式對(duì)話中生成問題、生成更深層次的問題(如多跳推理問題)、闡明性問題生成(Clarification Question Generation)等。

目前問題生成仍存在一些尚未解決卻值得研究的問題

評(píng)估

目前大多數(shù)模型使用 BLEU、ROUGE、METETOR 等自動(dòng)評(píng)估指標(biāo)對(duì)生成的問題進(jìn)行評(píng)價(jià),這些指標(biāo)是對(duì)生成文本與參考文本重合程度的度量,最先用于機(jī)器翻譯、摘要生成等任務(wù),適用于相對(duì)確定的長(zhǎng)文本生成的質(zhì)量評(píng)估,對(duì)于問題這種多樣且短小的文本并不是太合適。但是人工評(píng)估又耗時(shí)耗力。

目前也有一些針對(duì)評(píng)估的研究工作,主要思路是將主觀的人工評(píng)估指標(biāo)數(shù)學(xué)化,比如可回答性、語(yǔ)義、詞匯多樣性等。
  • Towards a Better Metric for Evaluating Question Generation Systems.EMNLP, 2018.

  • On the Importance of Diversity in Question Generation for QA.ACL, 2020.

  • Evaluating for Diversity in Question Generation over Text.arXiv, 2020.


為問題生成模型設(shè)計(jì)合適的評(píng)估指標(biāo)可以進(jìn)一步促進(jìn)模型的性能提升。

一致性

模型生成的問答對(duì)不能保證抽取的答案可以作為生成問題的合適答案,存在事實(shí)錯(cuò)誤、內(nèi)容不相關(guān)等情況。目前做法是通過添加過濾模型(常用的為問答模型)過濾掉不一致的問答對(duì)。探索如何保證生成問答對(duì)的一致性是值得思考的問題。

多樣性

我們希望模型可以根據(jù)輸入文本從多個(gè)角度對(duì)不同的提問點(diǎn)進(jìn)行提問。目前工作對(duì)多樣性的研究主要針對(duì)問題的表達(dá)多樣性,即同樣語(yǔ)義的問題使用不同的問法。由于現(xiàn)有數(shù)據(jù)集標(biāo)注不充分,針對(duì)多個(gè)提問點(diǎn)的生成模型的訓(xùn)練、對(duì)生成問題覆蓋度和多樣性的評(píng)估均是難以解決的問題。

非事實(shí)問題生成

目前研究主要集中于事實(shí)性問題生成,問題對(duì)應(yīng)的答案通常為命名實(shí)體或簡(jiǎn)短的片段。然而在許多領(lǐng)域非事實(shí)問題或開放式問題占比很大,因此非事實(shí)問題生成十分值得研究。此類問題對(duì)應(yīng)的答案為多個(gè)句子或片段,因此生成問題需更好地把握答案與文章的整體含義,更具有挑戰(zhàn)性。


特別鳴謝

感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。

更多閱讀



#投 稿 通 道#

 讓你的文字被更多人看到 

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。 

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。

?? 稿件基本要求:

· 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注 

· 稿件建議以 markdown 格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題

· PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

?? 投稿通道:

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
如何讓人工智能學(xué)會(huì)用數(shù)據(jù)說話
帶你讀論文 | 數(shù)據(jù)到文本生成的近期優(yōu)質(zhì)論文,我們?yōu)槟闾暨x了這六篇
競(jìng)賽人必備的100篇NLP論文
干貨 | Sentence Vector 的一些進(jìn)展
五年12篇頂會(huì)論文綜述!一文讀懂深度學(xué)習(xí)文本分類方法
知識(shí)圖譜從哪里來:實(shí)體關(guān)系抽取的現(xiàn)狀與未來 |伯樂推薦
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服