孫媛,旦正錯,劉思思,趙小兵
1.中央民族大學(xué)信息工程學(xué)院,北京 100081
2.國家語言資源監(jiān)測與研究少數(shù)民族語言中心,北京 100081
機器閱讀理解是指機器根據(jù)給定的上下文回答相關(guān)問題。早期的機器閱讀理解主要根據(jù)詞匯和語義等信息,人工定制規(guī)則,從而計算材料中語句和問題的匹配度[1]。由于依賴人工制定的規(guī)則,其準(zhǔn)確率僅有30%-40%,性能非常差。隨著大規(guī)模數(shù)據(jù)集的應(yīng)用,基于深度學(xué)習(xí)的機器閱讀理解得以發(fā)展,其效果顯著優(yōu)于基于規(guī)則的機器閱讀理解,因此,面向機器閱讀理解任務(wù)數(shù)據(jù)集的創(chuàng)建也越來越受到業(yè)內(nèi)人士的關(guān)注。到目前為止,在中英文領(lǐng)域,已經(jīng)出現(xiàn)了很多大規(guī)模數(shù)據(jù)集。比如,文本開放域機器理解的挑戰(zhàn)數(shù)據(jù)集MCTest[2]、基于監(jiān)督學(xué)習(xí)的閱讀理解語料CNN/Daily Mail[3]、機器閱讀理解數(shù)據(jù)集SQuAD[4]、與MCTest同為選擇題形式的機器閱讀數(shù)據(jù)集RACE[5]、基于百度搜索和百度知道的大規(guī)模數(shù)據(jù)集DuReader[6]、基于識別不可回答的問題的數(shù)據(jù)集SQuADRUN[7]。隨著這些大規(guī)模數(shù)據(jù)集的創(chuàng)建與應(yīng)用,許多基于數(shù)據(jù)集的優(yōu)秀模型相繼被提出并在相關(guān)任務(wù)上取得不錯的效果。最近研發(fā)的機器閱讀理解系統(tǒng),在斯坦福問答數(shù)據(jù)集SQuAD上可以產(chǎn)生優(yōu)于人類理解水平的效果[7],這也代表著在優(yōu)秀數(shù)據(jù)集的幫助下,機器閱讀理解生成與人類理解水平相媲美的結(jié)果成為可能。
藏文作為一種低資源語言,相關(guān)公開的數(shù)據(jù)集非常少,在一定程度上阻礙了藏文信息處理的發(fā)展。大量實驗表明,大規(guī)模的高質(zhì)量數(shù)據(jù)集是推動數(shù)據(jù)驅(qū)動型任務(wù)的關(guān)鍵因素,因此,構(gòu)建用于機器閱讀理解的低資源語言數(shù)據(jù)集具有非常重要的價值。本文以云藏網(wǎng)的文本數(shù)據(jù)為基礎(chǔ),考慮問題類型、實際應(yīng)用場景、疑問詞使用方法等因素,結(jié)合藏文的語法特征、閱讀理解模型的處理形式,構(gòu)建了一個面向機器閱讀理解的藏文數(shù)據(jù)集TibetanQA。
本文的原始數(shù)據(jù)來源于云藏網(wǎng)(https://www.yongzin.com/),對獲取的原始數(shù)據(jù)進行降噪處理,去除圖片、表格等非文本數(shù)據(jù),最終獲得631篇文章。為了問題的多樣性和有效性,舍棄小于100個音節(jié)的段落并去除不相關(guān)、不準(zhǔn)確、殘缺的數(shù)據(jù)后進行分詞,最終得到903個段落作為問答對的文本數(shù)據(jù),數(shù)據(jù)共劃分為自然、文化、教育、地理、歷史、生活、社會、藝術(shù)、技術(shù)、人物、科學(xué)、體育12大類。
為了提高創(chuàng)建數(shù)據(jù)集的效率,我們開發(fā)了用于問題收集的web程序,如圖1所示。并請20位藏語專業(yè)人員創(chuàng)建問題。
為了保證問題的統(tǒng)一性,我們根據(jù)《實用藏文文法教程》[8]中疑問代詞的使用規(guī)則,總結(jié)了藏文與英文、中文在構(gòu)建問題時的不同點,統(tǒng)一了提問者對疑問代詞的使用習(xí)慣,從而進一步提高數(shù)據(jù)集的質(zhì)量。比如,一般藏文有 5 個單一形式的疑問詞(“??”(What)、“??”(How)、“?”(Who)、“??”(Which/Where)、“??”(When)),其用法、意義和在文中的占比如表1所示。在實際問題創(chuàng)建過程中,單一疑問代詞以與別的詞素組成復(fù)合形式的疑問代詞[8]出現(xiàn)。如表1所示,相對于英文,藏文中沒有明確的地點疑問代詞(Where)、指代疑問代詞(Which),因此對于二者,這里規(guī)定一律使用泛指疑問詞“??”(Which/Where)來完成問題集的創(chuàng)建。
表1 藏文疑問代詞及在數(shù)據(jù)集的分布Table 1 Tibetan interrogative pronouns and distribution in the dataset
最終,通過眾包的形式從903個段落中創(chuàng)建問答對,即提問者遵循疑問代詞的使用方法,通過閱讀給定的標(biāo)題、段落提出1-25個相關(guān)問題,并在對應(yīng)的段落中選擇連續(xù)的片段作為答案,組成問答對并提交到數(shù)據(jù)庫。為了保證數(shù)據(jù)集的質(zhì)量,我們對提出的問題進行三次校對,對內(nèi)容進行了嚴(yán)格的篩選和處理,最終獲得2,000對用于藏文機器閱讀理解的問答對數(shù)據(jù)集,平均每段有2個問題,每個問題包含10-20個音節(jié)。
本數(shù)據(jù)集包含一個命名為2000_TibetanQA的excel文件,在實際使用過程中,可以非常方便地將其轉(zhuǎn)換成json、txt等格式的文件,以滿足實驗的數(shù)據(jù)格式要求。Excel文件中第一列為當(dāng)前文章ID,第二列為文本標(biāo)題,第三列為段落,第四列為問題,第五列為問題對應(yīng)的答案。
數(shù)據(jù)集中,每一段文本均產(chǎn)生一對或一對以上的問答對,其中答案全部來自當(dāng)前文本,如圖2所示,用時間疑問代詞“??”(When)的復(fù)合形式“??????”(When)提出問題,這類問題占整個數(shù)據(jù)集的11.9%。
如圖3所示,用泛指疑問代詞“???”(Which/Where)提出問題,這類問題占整個數(shù)據(jù)集的10.5%。
如圖4所示,用指人疑問代詞“?”(Who)提出問題,這類問題占整個數(shù)據(jù)集的8.7%。
如圖 5 所示,用指物疑問代詞“???”(What)的復(fù)合形式“???????”(What)提出問題,這類問題占整個數(shù)據(jù)集的40.4%。
除了1.2節(jié)中提到的五個單一疑問代詞和相關(guān)常用的復(fù)合疑問代詞的用法之外,本次問題創(chuàng)建過程中,我們發(fā)現(xiàn)還有一部分常用的疑問代詞較為常見,分別為“?”(幾)“????????????????????”(嗎?)“?????”(多少),在本次數(shù)據(jù)集中占14.1%,使用頻率較高。其中,疑問助詞中的“??”(When)同時表示時間疑問代詞,與表1中的When相對應(yīng)。對疑問代詞的總結(jié)歸納會使得我們后期的研究更具有針對性和高效性。
如圖6所示,用疑問詞“?????”(多少)提出問題。
初始語料獲取的過程中,首先使用正則匹配算法對原始文本進行去噪處理,針對網(wǎng)頁文本雜亂無序、不規(guī)范等特點做進一步處理,將網(wǎng)頁中的一些冗余標(biāo)簽替換成空白符,并刪除網(wǎng)頁文本數(shù)據(jù)中的一些無用字符,得到純文本形式的原始文本。
同時,邀請了5位藏語專業(yè)人員對數(shù)據(jù)進行下一步篩選和審查,對于審核結(jié)果不達(dá)標(biāo)的數(shù)據(jù),進行重新編寫或者將它們從數(shù)據(jù)庫中刪除。
在語法校對上,我們根據(jù)《實用藏文文法教程》[8]中提供的助詞、格助詞、從格助詞等的使用規(guī)則,修改數(shù)據(jù)集的語法和拼寫錯誤。例如,拼寫錯誤有“???????”、“????”、“????”等,其正確寫法為“????????”(學(xué)習(xí))、“?????”(多少)、“?????”(哪些);語法錯誤有“??????”“?????”等,其正確寫法為“??????”(哪個)、“????”(誰的);不符合藏文語境的有“???????????”“????????????????”等,其正確寫法為“??????????????”(哪些職業(yè))、“????????????????”(從事什么工作)。
在代詞的使用上,我們將所有的代詞替換為當(dāng)前語句的主語。例如,“????????????????????????????????????????????”(他在幾歲時大學(xué)畢業(yè)?),根據(jù)當(dāng)前文本替換代詞之后得到“????????????????????????????????????????????????????????????????”(才讓太教授在幾歲時大學(xué)畢業(yè)?)。
最后,本文以藏文音節(jié)為單位統(tǒng)計了數(shù)據(jù)集中文章、段落、問題的平均長度和平均每段所包含的問題,如表2所示。
表2 數(shù)據(jù)集中文章和問題長度及平均每段的問題分布數(shù)Table 2 The length of articles and questions and the average number of questions in paragraphs
藏文作為我國重要的少數(shù)民族文字,在西藏、青海、四川等藏族聚居地區(qū)被廣泛使用。但是由于缺乏大規(guī)模公開的標(biāo)記語料庫,使得一些藏文信息處理任務(wù)還處于起步階段,例如,藏文機器閱讀理解任務(wù)[9]、藏文實體關(guān)系抽取[10]、藏文知識圖譜的構(gòu)建等任務(wù)。因此,本數(shù)據(jù)集的發(fā)布,對于促進藏文信息處理的發(fā)展具有重要的價值。本數(shù)據(jù)集可以用于評價機器理解自然語言的能力,也可用于訓(xùn)練藏文機器閱讀理解的模型,具有較高的科研價值和社會應(yīng)用價值。
致 謝
特別感謝參與本數(shù)據(jù)集工作的藏語專業(yè)人員。
數(shù)據(jù)作者分工職責(zé)
孫媛(1979—),女,山東省濱州市人,博士,教授,研究方向為自然語言處理。主要承擔(dān)工作:數(shù)據(jù)質(zhì)量控制與綜合管理、數(shù)據(jù)采集。
旦正錯(1998—),女,青海省海南州人,碩士研究生,研究方向為自然語言處理。主要承擔(dān)工作:數(shù)據(jù)集的預(yù)處理和整合、數(shù)據(jù)校對、論文撰寫。
劉思思(1998—),女,湖北隨州人,碩士研究生,研究方向為自然語言處理。主要承擔(dān)工作:數(shù)據(jù)采集、論文撰寫。
趙小兵(1967—),女,內(nèi)蒙古自治區(qū)呼和浩特市人,博士,教授,研究方向為自然語言處理。主要承擔(dān)工作:數(shù)據(jù)集質(zhì)量控制。