亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于表格檢索和機(jī)器學(xué)習(xí)二階段的文獻(xiàn)表格相關(guān)文本自動(dòng)識別*

        2022-12-15 07:36:04黃佳妮于豐暢
        數(shù)字圖書館論壇 2022年11期
        關(guān)鍵詞:圖表表格粒度

        黃佳妮 于豐暢

        基于表格檢索和機(jī)器學(xué)習(xí)二階段的文獻(xiàn)表格相關(guān)文本自動(dòng)識別*

        黃佳妮 于豐暢

        (武漢大學(xué)信息管理學(xué)院,武漢 430072)

        學(xué)術(shù)文獻(xiàn)中的表格以結(jié)構(gòu)化的形式高度凝練地展示了文獻(xiàn)中的核心知識。主流文獻(xiàn)檢索引擎中已逐步開始使用表格內(nèi)容作為文字摘要的補(bǔ)充,以幫助科研人員快速掌握研究工作核心,提升科研工作效率。但是在僅展示表格而不提供表格的相關(guān)信息(對表格進(jìn)行描述或解釋的文本)的情況下,讀者往往難以充分理解表格內(nèi)容,阻礙文獻(xiàn)閱讀效率的進(jìn)一步提升。本文提出一種基于表格檢索和機(jī)器學(xué)習(xí)二階段的表格相關(guān)文本識別方法,階段一運(yùn)用表格內(nèi)容進(jìn)行全文檢索,獲取潛在相關(guān)文本;階段二構(gòu)建機(jī)器學(xué)習(xí)模型,判斷表格與潛在相關(guān)文本間的相關(guān)性,從而實(shí)現(xiàn)文獻(xiàn)中表格相關(guān)文本的自動(dòng)識別。以Text Retrieval Conference會(huì)議論文數(shù)據(jù)集為例,驗(yàn)證本文所提出的方法的有效性,證明該方法能夠快速抽取文獻(xiàn)中與圖表相關(guān)的文本,為現(xiàn)有的論文圖表抽取式摘要相關(guān)研究提供借鑒,對提高科研人員文獻(xiàn)調(diào)研效率具有重要的現(xiàn)實(shí)意義。

        文獻(xiàn)表格;表格理解;機(jī)器學(xué)習(xí)

        近年來,通信、網(wǎng)絡(luò)技術(shù)的不斷進(jìn)步促進(jìn)了學(xué)術(shù)交流,加速了學(xué)術(shù)成果的產(chǎn)出,學(xué)術(shù)文獻(xiàn)數(shù)量也呈指數(shù)級增長。2015年,僅在醫(yī)學(xué)領(lǐng)域,平均每天就有約2?200篇新論文發(fā)表[1]。海量文獻(xiàn)對科研人員的文獻(xiàn)調(diào)研、閱讀學(xué)習(xí)等科研工作提出了挑戰(zhàn),如何在盡可能少的時(shí)間內(nèi),從文獻(xiàn)中獲取盡可能多的有效信息,成為亟待解決的問題。深度學(xué)習(xí)、自然語言處理等技術(shù)的興起,為海量學(xué)術(shù)文獻(xiàn)的自動(dòng)化處理、論文核心知識的自動(dòng)抽取提供了可能[2-4]。

        當(dāng)前的大多數(shù)研究主要關(guān)注學(xué)術(shù)文獻(xiàn)的正文,往往忽略對圖像、表格和其他半結(jié)構(gòu)化信息的分析和處理。圖像、表格是學(xué)術(shù)文獻(xiàn)的重要組成部分,它們集中體現(xiàn)了學(xué)術(shù)研究的主要研究內(nèi)容,圖表內(nèi)容也常用于支撐文獻(xiàn)核心觀點(diǎn)。多項(xiàng)研究表明,表格通常用于呈現(xiàn)實(shí)驗(yàn)的設(shè)置和結(jié)果,以及已有實(shí)驗(yàn)、背景或術(shù)語定義的相關(guān)信息[5-6]。Futrelle[7]以生物科學(xué)領(lǐng)域的文獻(xiàn)為例展開研究,發(fā)現(xiàn)學(xué)術(shù)文獻(xiàn)中的圖表及其相關(guān)文本描述占整篇論文的50%。相較于文字內(nèi)容,圖表內(nèi)容因其簡潔明了的視覺特性,在閱讀速度上有較大的優(yōu)勢。因此,以圖表內(nèi)容作為科技文獻(xiàn)摘要的補(bǔ)充信息,是一種輔助科研人員快速定位、理解文獻(xiàn)的可行手段。包括Springer、CNKI、Semantic Scholar在內(nèi)的多家科技文獻(xiàn)服務(wù)商也逐步將文獻(xiàn)中的圖表納入檢索范圍,提供文獻(xiàn)圖表檢索功能。

        然而,當(dāng)前此類服務(wù)尚不完善,其主要原因在于:學(xué)術(shù)文獻(xiàn)中的圖表,特別是表格,以結(jié)構(gòu)化的形式高度概括了文獻(xiàn)的實(shí)驗(yàn)流程、研究成果等關(guān)鍵知識,其表現(xiàn)形式具有一定的抽象性,要求讀者具備相關(guān)的領(lǐng)域知識。在缺乏表格相關(guān)上下文信息的情況下,讀者往往很難充分理解表格內(nèi)容[8]。Yu等[9]的實(shí)證研究表明,僅提供表標(biāo)題而不提供相關(guān)補(bǔ)充信息將顯著降低受試者對表格的理解程度。讀者無法通過圖表理解文獻(xiàn)的主要內(nèi)容時(shí),只能重新走上通篇閱讀文獻(xiàn)的老路,閱讀效率無法得到有效提高。因此,從學(xué)術(shù)文獻(xiàn)全文中識別出與圖表相關(guān)的信息,對幫助讀者充分理解表格的含義,節(jié)省文獻(xiàn)閱讀時(shí)間有重要的現(xiàn)實(shí)意義。

        為實(shí)現(xiàn)自動(dòng)識別學(xué)術(shù)文獻(xiàn)中與表格相關(guān)的信息、輔助科研人員快速理解表格內(nèi)容、提升學(xué)術(shù)調(diào)研工作效率,本文提出一種基于表格檢索和機(jī)器學(xué)習(xí)的二階段方法,階段一運(yùn)用表格內(nèi)容進(jìn)行全文檢索,將檢索結(jié)果作為與表格內(nèi)容潛在相關(guān)的文本;階段二在學(xué)習(xí)檢索特征和文本特征的基礎(chǔ)上,使用機(jī)器學(xué)習(xí)分類方法對潛在相關(guān)文本與具體表格的相關(guān)性進(jìn)行判斷。然后通過收集的Text Retrieval Conference會(huì)議論文數(shù)據(jù),對本文提出的方法進(jìn)行驗(yàn)證,得到了較好的結(jié)果。

        1 相關(guān)研究

        本研究基于表格檢索和機(jī)器學(xué)習(xí),實(shí)現(xiàn)表格相關(guān)文本的識別,主要涉及表格識別與定位以及表格相關(guān)文本抽取這兩個(gè)領(lǐng)域,其相關(guān)研究狀況如下。

        1.1 表格識別與定位

        國內(nèi)外學(xué)者對PDF文件中表格的識別、定位進(jìn)行了多方面、深入的研究。竇方坤等[10]以藥學(xué)文獻(xiàn)為主要研究對象,抽取文獻(xiàn)PDF中的所有文本元素,確定表標(biāo)題文本所在區(qū)域,將表標(biāo)題以下的區(qū)域看作表格所在區(qū)域。于豐暢等[11]運(yùn)用機(jī)器視覺技術(shù)和PDF解析技術(shù),從底層編碼分析和圖片理解兩種視角獲取圖表范圍的先驗(yàn)信息,通過對PDF中的幾何對象進(jìn)行聚類來確定圖表坐標(biāo)。田翠華等[12]基于pdfplumber,設(shè)計(jì)了一款基于Python平臺(tái)對PDF文檔中的表格進(jìn)行識別和提取的軟件。Siegel等[13]提出一種在大量科學(xué)文獻(xiàn)中為圖表形成高質(zhì)量標(biāo)簽的無監(jiān)督方法,并使用這個(gè)數(shù)據(jù)集訓(xùn)練了一個(gè)用于表格檢測的深度神經(jīng)網(wǎng)絡(luò)。近年來深度學(xué)習(xí)技術(shù)發(fā)展迅速,越來越多的研究人員使用深度學(xué)習(xí)方法實(shí)現(xiàn)PDF中的表格檢測。這些研究根據(jù)網(wǎng)絡(luò)類型,可以分為目標(biāo)檢測算法(Faster R-CNN[14]、Mask R-CNN[15]、YOLO[16]等)、卷積神經(jīng)網(wǎng)絡(luò)(CNN[17])和圖神經(jīng)網(wǎng)絡(luò)(GNN[18])等。

        1.2 表格相關(guān)文本抽取

        表格相關(guān)文本提取的相關(guān)研究主要圍繞為表格生成提取式摘要展開。1999年,F(xiàn)utrelle等[19]手工構(gòu)建了4個(gè)科技文獻(xiàn)中圖表摘要的例子,討論了自動(dòng)化圖表摘要生成的流程和相關(guān)算法。Jain等[20]提出了一種基于注意力機(jī)制的混合分層Encoder-Decoder模型,該模型能夠利用表內(nèi)容之外的結(jié)構(gòu),但其局限性在于只能對固定模式的表格進(jìn)行處理。Yu等[21]采用分層聚類技術(shù),基于詞匯相似性對學(xué)術(shù)文獻(xiàn)中的句子和圖表進(jìn)行聚類,根據(jù)聚類結(jié)果確定與圖表相關(guān)的文本。Agarwal等[22]構(gòu)建了自動(dòng)為生物醫(yī)學(xué)文獻(xiàn)中的圖表生成結(jié)構(gòu)化文本摘要系統(tǒng)FigSum,生成的結(jié)構(gòu)化摘要由4類句子生成,包括圖表的背景信息、實(shí)現(xiàn)圖表所示內(nèi)容的方法等。不過,F(xiàn)igSum的實(shí)驗(yàn)數(shù)據(jù)僅基于44個(gè)生物醫(yī)學(xué)領(lǐng)域論文中的圖表,因此模型的泛化能力有待進(jìn)一步研究。Bhatia等[23]找到文檔文本中引用圖表的句子,計(jì)算學(xué)術(shù)文獻(xiàn)中每個(gè)句子與引用句的相似度和接近度,從而確定與圖表相關(guān)的文本;此外,還研究了如何選擇最佳的圖表摘要大小,以在信息的完備度和生成的摘要長度間取得平衡。Takeshima等[24]提出一種權(quán)重傳播機(jī)制,在“單詞重要性估計(jì)”和“句子權(quán)重更新”等過程中確定與圖表相關(guān)度最高的句子。Park等[25]提出了一種基于本體的、從論文正文中提取圖表描述性文本的方法,為句子構(gòu)建知識表示,采用本體語義來輔助圖表相關(guān)信息的概念識別。Saini等[26]提出了一種新的無監(jiān)督方法(FigSum++),使用多目標(biāo)進(jìn)化算法對生物科學(xué)領(lǐng)域的文章自動(dòng)生成圖表摘要。也有學(xué)者對現(xiàn)有的自動(dòng)生成圖表摘要系統(tǒng)進(jìn)行了對比評估。如Polepalli等[27]通過從19種不同的期刊中選取94個(gè)帶注釋的圖表,對一系列FigSum+系統(tǒng)進(jìn)行評價(jià),并通過準(zhǔn)確性、召回率、F1和ROUGE分?jǐn)?shù)來評估測試結(jié)果,結(jié)果表明:最好的FigSum+系統(tǒng)是基于無監(jiān)督方法的系統(tǒng),F(xiàn)1得分為0.66,ROUGE-1得分為0.97。

        通過文獻(xiàn)調(diào)研發(fā)現(xiàn),現(xiàn)有相關(guān)研究仍存在可改進(jìn)之處。已有研究往往針對單一表結(jié)構(gòu)展開,且以學(xué)術(shù)文獻(xiàn)中的表格作為研究對象的較少,沒有充分利用表格標(biāo)題、注釋等表格相關(guān)文本。所使用的方法也較為局限,如基于文本相似度、基于本體、基于規(guī)則等,往往依賴大量人工處理,難以擴(kuò)展到大規(guī)模學(xué)術(shù)文獻(xiàn)數(shù)據(jù)集上。本研究所提出的方法不受表格結(jié)構(gòu)、格式的影響,可擴(kuò)展應(yīng)用于不同布局的表格。此外,本研究將表格標(biāo)題納入表格全文檢索的檢索字段中,輔助表格相關(guān)文本的識別。

        盡管本文所提出的方法旨在識別學(xué)術(shù)文獻(xiàn)原文中與表格相關(guān)的描述信息,不屬于文本生成任務(wù),但可為圖表摘要的自動(dòng)生成相關(guān)研究提供借鑒。此外,表格相關(guān)文本的自動(dòng)識別還能在輔助科研人員快速理解表格內(nèi)容、提升學(xué)術(shù)調(diào)研工作效率、增強(qiáng)圖表檢索效果等多方面發(fā)揮作用。

        2 基于表格檢索和機(jī)器學(xué)習(xí)二階段的文獻(xiàn)表格相關(guān)文本識別

        2.1 問題界定

        本文所提出的方法旨在自動(dòng)識別并抽取學(xué)術(shù)文獻(xiàn)PDF中的表格以及對表格進(jìn)行描述、解釋的表格相關(guān)文本。本研究將表格相關(guān)文本定義為一組對表格進(jìn)行描述或解釋的句子,如圖1所示,示例中陰影部分即為與表格Table 2相關(guān)的文本。該表格主要對模型在各個(gè)實(shí)驗(yàn)指標(biāo)上的效果進(jìn)行展示,表格相關(guān)文本的主要內(nèi)容是對不同模型以及指標(biāo)數(shù)值的闡述和對比分析。

        圖1 文獻(xiàn)表格相關(guān)文本識別任務(wù)示例

        2.2 研究思路

        在規(guī)范的學(xué)術(shù)文獻(xiàn)正文中,作者為了對實(shí)驗(yàn)指標(biāo)或?qū)嶒?yàn)配置進(jìn)行具體展示、描述或討論,會(huì)使用諸如“如表1所示,某指標(biāo)……”之類明確的關(guān)于表格中具體內(nèi)容的引用?;谶@種寫作規(guī)范,本文將表格內(nèi)容作為檢索詞,通過檢索的方式在正文中查找表格內(nèi)容可能相關(guān)的信息。需要指出的是,由于表格中文字內(nèi)容數(shù)量較少且專有名詞占比較大,檢索結(jié)果不可避免包含并非與具體表格存在直接關(guān)聯(lián)的內(nèi)容,如相關(guān)研究章節(jié)中對于其他研究中指標(biāo)性能的介紹。因此,仍需要從語義角度對檢索到的文本是否與具體表格相關(guān)進(jìn)行判斷。

        本文提出一種基于表格檢索和機(jī)器學(xué)習(xí)二階段的文獻(xiàn)表格相關(guān)文本識別方法,研究思路如下。

        階段一:基于表格檢索的潛在相關(guān)文本獲取。識別并抽取文獻(xiàn)中的表格數(shù)據(jù)內(nèi)容,在表格數(shù)據(jù)、表格標(biāo)題的基礎(chǔ)上構(gòu)建檢索詞,進(jìn)行全文檢索,獲取與表格內(nèi)容有潛在相關(guān)關(guān)系的文本。

        階段二:基于機(jī)器學(xué)習(xí)的相關(guān)性判斷。構(gòu)建檢索特征和文本語義特征融合的機(jī)器學(xué)習(xí)模型,學(xué)習(xí)文本檢索結(jié)果是否與表格內(nèi)容相關(guān),若相關(guān)則進(jìn)一步判斷具體與哪一個(gè)表格相關(guān)。將檢索特征和文本特征拼接作為機(jī)器學(xué)習(xí)模型的輸入,機(jī)器學(xué)習(xí)模型輸出輸入特征所表征的文本是否與文獻(xiàn)中的任一表格相關(guān)。若相關(guān),則根據(jù)階段一中表格的全文檢索結(jié)果進(jìn)一步確定其具體與哪一表格相關(guān)。整體研究流程如圖2所示。

        (1)表格定位與抽取。表格定位是指識別PDF文件中的表格,并獲取表格在PDF中的坐標(biāo)。本研究以于豐暢等[11]提出的基于機(jī)器視覺的PDF學(xué)術(shù)文獻(xiàn)結(jié)構(gòu)識別方法作為本任務(wù)的表格定位算法,獲取表格坐標(biāo)并存入結(jié)構(gòu)化數(shù)據(jù)庫。

        獲得表格坐標(biāo)后,需要根據(jù)坐標(biāo)抽取表格的數(shù)據(jù)內(nèi)容。本研究調(diào)用camelot第三方庫抽取特定坐標(biāo)的表格所對應(yīng)的數(shù)據(jù)內(nèi)容。

        (2)文本抽取與表格、表標(biāo)題匹配。利用PyMuPDF庫讀取PDF文件,獲取PDF全文文本及坐標(biāo),根據(jù)學(xué)術(shù)論文中表格標(biāo)題特征編寫正則表達(dá)式,對獲取的PDF全文文本按句匹配,得到表格標(biāo)題文本。計(jì)算表格標(biāo)題文本與表格的歐氏距離,實(shí)現(xiàn)表格標(biāo)題與表格的一一對應(yīng)。

        (3)候選檢索詞生成。針對表格數(shù)據(jù)內(nèi)容,若數(shù)據(jù)值為數(shù)字,則直接輸出為檢索詞;若數(shù)據(jù)值為文本,則去除停用詞、轉(zhuǎn)換為小寫后輸出為檢索詞。此外,對表格標(biāo)題進(jìn)行分詞、刪除“table”、去除停用詞等預(yù)處理,形成表格候選檢索詞。

        (4)潛在相關(guān)文本獲取與文本特征構(gòu)建。使用上一步獲得的檢索詞,運(yùn)用全文檢索技術(shù),對段落粒度、句子粒度的文本進(jìn)行檢索,并構(gòu)建×1維的檢索特征向量,其中n是文獻(xiàn)中段落/句子的數(shù)量。對于一篇學(xué)術(shù)文獻(xiàn)中的所有句子或段落,若其出現(xiàn)在該文獻(xiàn)中任一表格的檢索結(jié)果中,則檢索特征值為1;若其未出現(xiàn)在檢索結(jié)果中,則檢索特征值為0。經(jīng)過此步驟,可以確定與表格有潛在相關(guān)關(guān)系的文本。

        本文構(gòu)造了基于TF-IDF的語義特征向量,對學(xué)術(shù)文獻(xiàn)正文文本進(jìn)行特征提取,獲得學(xué)術(shù)文獻(xiàn)段落粒度文本、句子粒度文本的TF-IDF特征值。將檢索特征與文本特征拼接,得到融合特征,作為后續(xù)文本與表格的關(guān)聯(lián)性預(yù)測的輸入特征。

        (5)文本關(guān)聯(lián)性預(yù)測與表格關(guān)聯(lián)文本確定。文本關(guān)聯(lián)性預(yù)測是二分類文本任務(wù),即將與表格有潛在相關(guān)關(guān)系的文本分為“與文獻(xiàn)中的任一表格相關(guān)”或“與文獻(xiàn)中所有表格無關(guān)”兩類。本研究采用支持向量機(jī)(Support Vector Machines,SVM)算法完成分類任務(wù)。運(yùn)用Scikit-learn機(jī)器學(xué)習(xí)庫中提供的SVM模型,以“潛在相關(guān)文本獲取與文本特征構(gòu)建”步驟中構(gòu)建的融合特征作為輸入,實(shí)現(xiàn)文本關(guān)聯(lián)性預(yù)測。

        對預(yù)測結(jié)果為“與文獻(xiàn)中的任一表格相關(guān)”的文本t,結(jié)合表格全文檢索結(jié)果,若其被某一表格的檢索詞檢索到,則認(rèn)為文本t是該表格的關(guān)聯(lián)文本。

        3 實(shí)驗(yàn)與討論

        3.1 數(shù)據(jù)來源

        本研究數(shù)據(jù)來源為Text Retrieval Conference會(huì)議論文集,論文采集情況如表1所示。

        3.2 實(shí)驗(yàn)設(shè)置

        3.2.1 數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理步驟如下:①調(diào)用學(xué)術(shù)文獻(xiàn)解析工具Grobid[28]對學(xué)術(shù)文獻(xiàn)的正文進(jìn)行識別,對作者姓名與機(jī)構(gòu)、參考文獻(xiàn)等與實(shí)驗(yàn)無關(guān)的文本進(jìn)行過濾;②對從學(xué)術(shù)論文PDF中抽取的段落粒度的文本,運(yùn)用Nltk庫[29]進(jìn)行句子分割,形成句子粒度的文本數(shù)據(jù)集;③將文本中的換行符、制表符、單詞跨行連字符刪除,并統(tǒng)一轉(zhuǎn)換為小寫。

        3.2.2 數(shù)據(jù)標(biāo)注

        由于時(shí)間有限,且標(biāo)注全部數(shù)據(jù)的人力成本較高,實(shí)驗(yàn)按照表格布局、表格數(shù)據(jù)類型等特征對Text Retrieval Conference會(huì)議論文集進(jìn)行采樣,共選取263篇論文中的303個(gè)表格進(jìn)行標(biāo)注,標(biāo)注情況如表2所示。后續(xù)研究將進(jìn)一步擴(kuò)充數(shù)據(jù)集,增加標(biāo)注數(shù)據(jù)量。從人工標(biāo)注結(jié)果來看,在數(shù)據(jù)集中與表格無關(guān)的文本占比較大,存在明顯的數(shù)據(jù)不平衡問題,會(huì)對機(jī)器學(xué)習(xí)模型的分類性能造成影響。因此,設(shè)與表格相關(guān)的文本為正例,與表格無關(guān)的文本為負(fù)例,按照正例∶負(fù)例=3∶1的比例對負(fù)例進(jìn)行下采樣。

        標(biāo)注示例如圖3所示,標(biāo)注文件中保存段落/句子粒度的學(xué)術(shù)文本、所屬章節(jié)、文本是否與文獻(xiàn)中的某一表格相關(guān)。此標(biāo)注文件用于評價(jià)文獻(xiàn)表格有效信息關(guān)聯(lián)任務(wù)的最終效果。

        圖3 “相關(guān)文本-表格”標(biāo)注文件示例

        在標(biāo)注完成后,對每一文獻(xiàn)中的所有表格標(biāo)注文件進(jìn)行遍歷,對于文獻(xiàn)中的每一條文本記錄,只要與任一表格相關(guān),就標(biāo)記為表格相關(guān)文本,用于文本關(guān)聯(lián)性預(yù)測任務(wù)的評價(jià)。

        3.2.3 實(shí)驗(yàn)細(xì)節(jié)和參數(shù)設(shè)置

        實(shí)驗(yàn)各流程的相關(guān)細(xì)節(jié)和參數(shù)設(shè)置如表3所示。

        3.3 實(shí)驗(yàn)結(jié)果和分析

        3.3.1 消融實(shí)驗(yàn)

        實(shí)驗(yàn)包含兩個(gè)子階段,分別是表格相關(guān)文本預(yù)測和“相關(guān)文本-表格”關(guān)聯(lián)關(guān)系確定。為探究本文提出的基于表格檢索與機(jī)器學(xué)習(xí)二階段模型的有效性以及不同粒度文本對實(shí)驗(yàn)結(jié)果的影響,開展以下對比實(shí)驗(yàn):①以僅使用TF-IDF特征的SVM模型作為表格相關(guān)文本預(yù)測實(shí)驗(yàn)的baseline模型,與提出的二階段模型的實(shí)驗(yàn)結(jié)果對比,觀察結(jié)合檢索特征是否能提升相關(guān)文本預(yù)測的準(zhǔn)確率、召回率等指標(biāo)。②以僅通過表格檢索獲得潛在相關(guān)文本的模型作為“相關(guān)文本-表格”關(guān)聯(lián)關(guān)系確定實(shí)驗(yàn)的baseline,與提出的二階段模型的實(shí)驗(yàn)結(jié)果對比,觀察在潛在相關(guān)文本的基礎(chǔ)上進(jìn)一步進(jìn)行文本分類是否能提升文本、表格間一一對應(yīng)的效果。實(shí)驗(yàn)結(jié)果如表4、表5所示。其中,0代表文本與表格無關(guān),1代表文本與表格相關(guān)。

        從以上兩表可知,在文本相關(guān)性預(yù)測實(shí)驗(yàn)中,將表格檢索結(jié)果與文本特征結(jié)合的方法使得召回率、精確率、F1都有所提升。在“相關(guān)文本-表格”關(guān)聯(lián)實(shí)驗(yàn)中,將檢索得到的潛在相關(guān)文本直接作為最終表格相關(guān)文本的baseline模型,在確定文本、表格間的一一對應(yīng)關(guān)系上的效果較差,準(zhǔn)確率、召回率低于本文提出的二階段方法。

        3.3.2 結(jié)果分析

        (1)不同粒度效果。在表格相關(guān)文本預(yù)測實(shí)驗(yàn)中,段落粒度的實(shí)驗(yàn)結(jié)果優(yōu)于句子粒度,推測原因是與表格相關(guān)的段落,包含多個(gè)與表格關(guān)聯(lián)的句子,分類特征更為明顯。

        “相關(guān)文本-表格”關(guān)聯(lián)實(shí)驗(yàn)的結(jié)果則相反,在句子粒度上實(shí)驗(yàn)結(jié)果更佳。例如,“模型二+檢索”的實(shí)驗(yàn)精確率為0.74,高于“模型一+檢索”的0.68。可能的原因是段落容易受到多個(gè)句子信息融合的影響,而句子包含的關(guān)于特定表格的信息明確,因此更容易判斷和哪個(gè)表格有關(guān)聯(lián)。

        (2)表格相關(guān)文本預(yù)測效果。表4的實(shí)驗(yàn)結(jié)果表明,相較于基線模型,結(jié)合表格檢索結(jié)果的方法有顯著提升,F1提升了5%,由此推斷:將表格檢索的結(jié)果與文本特征拼接能夠改進(jìn)機(jī)器學(xué)習(xí)模型在表格相關(guān)文本預(yù)測實(shí)驗(yàn)中的效果。

        (3)“相關(guān)文本-表格”關(guān)聯(lián)效果。由表5可知,不通過表格相關(guān)文本預(yù)測實(shí)驗(yàn)篩選相關(guān)文本,直接根據(jù)檢索結(jié)果確定文本與表格之間的關(guān)聯(lián)關(guān)系的方法召回率、準(zhǔn)確率均較低。該方法是無監(jiān)督過程,可以使用全部的表格、文本數(shù)據(jù),而數(shù)據(jù)中負(fù)例占比較大,且準(zhǔn)確率、召回率高,因此整體的精確率數(shù)值較高。

        對比表5中段落粒度的兩個(gè)模型的實(shí)驗(yàn)效果,運(yùn)用SVM機(jī)器學(xué)習(xí)方法的模型在正例(結(jié)果類別為1)的精確率提升38%,召回率提升13%。在句子粒度上,SVM機(jī)器學(xué)習(xí)模型也優(yōu)于基線模型。SVM機(jī)器學(xué)習(xí)模型在段落粒度、句子粒度上均優(yōu)于基線模型,因此得出結(jié)論,在進(jìn)行“相關(guān)文本-表格”的關(guān)聯(lián)之前,先通過表格相關(guān)文本預(yù)測實(shí)驗(yàn)篩選相關(guān)文本可以提升模型效果。圖4為表格示例,圖5為表格相關(guān)文本示例,其中陰影部分為本文提出的方法所識別出的與表格相關(guān)的文本。

        圖4 表格示例

        圖5 表格相關(guān)文本示例

        (4)整體實(shí)驗(yàn)效果。綜合表格相關(guān)文本預(yù)測和“相關(guān)文本-表格”關(guān)聯(lián)關(guān)系確定兩個(gè)實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果可以看出,基于SVM和表格檢索模型的段落粒度實(shí)驗(yàn)效果最好,與基線實(shí)驗(yàn)相比,在各個(gè)指標(biāo)上的提升最明顯。在“相關(guān)文本-表格”關(guān)聯(lián)關(guān)系確定實(shí)驗(yàn)中,本研究僅使用表格檢索的結(jié)果,精確率仍有待提高。

        根據(jù)表4結(jié)果,段落粒度實(shí)驗(yàn)在各項(xiàng)指標(biāo)上優(yōu)于句子粒度實(shí)驗(yàn),F1提高了4%。對比表5中不同粒度模型的實(shí)驗(yàn)效果可以發(fā)現(xiàn),兩階段模型在正例分類上相較于baseline模型都有提升,段落粒度最為明顯,準(zhǔn)確率和召回率分別提升38%、13%,句子粒度為32%、12%。綜上,基于SVM和表格檢索模型的段落粒度實(shí)驗(yàn)效果最好,與基線實(shí)驗(yàn)相比,在各個(gè)指標(biāo)上的提升最明顯。此外,“相關(guān)文本-表格”關(guān)聯(lián)關(guān)系確定實(shí)驗(yàn)精確率尚有待提高,當(dāng)前實(shí)驗(yàn)的主要不足在于,對被預(yù)測為與任一表格關(guān)聯(lián)的文本和具體表格之間的匹配問題,僅使用表格檢索的結(jié)果,特征不足。后續(xù)研究將考慮增加后處理步驟或挖掘其他特征,實(shí)現(xiàn)更精確的“相關(guān)文本-表格”關(guān)聯(lián)關(guān)系確定。

        4 結(jié)論與局限性

        本文提出了一種基于表格檢索和機(jī)器學(xué)習(xí),在學(xué)術(shù)文獻(xiàn)全文中識別表格相關(guān)文本的方法,在Text Retrieval Conference數(shù)據(jù)集上從段落粒度、句子粒度對表格相關(guān)文本識別進(jìn)行了驗(yàn)證。由實(shí)驗(yàn)結(jié)果可知,本文提出的方法能夠?qū)ΜF(xiàn)有的圖表摘要進(jìn)行有效的補(bǔ)充,對提高文獻(xiàn)閱讀效率具有重要的現(xiàn)實(shí)意義。但本研究仍存在不足之處,例如本文使用的機(jī)器學(xué)習(xí)模型對于自然語言理解能力尚有欠缺,且實(shí)驗(yàn)效果受表格抽取工具精確度的影響。未來考慮在更加廣泛的多學(xué)科數(shù)據(jù)上,使用深度學(xué)習(xí)自然語言模型作進(jìn)一步的改進(jìn)研究。

        [1] MEDLINE/PubMed Resources[EB/OL].[2022-11-21]. http://www.nlm.nih.gov/bsd/stats/cit_added.html.

        [2] CARVAILLO J C,BAROUKI R,COUMOUL X,et al. Linking bisphenol S to adverse outcome pathways using a combined text mining and systems biology approach[J]. Environmental health perspectives,2019,127(4):047005.

        [3] KVELER K,STAROSVETSKY E,ZIV-KENET A,et al. Immune-centric network of cytokines and cells in disease context identified by computational mining of PubMed[J]. Nature Biotechnology,2018,36(7):651-659.

        [4] TCHOUA R B,CHARD K,AUDUS D,et al. A hybrid human-computer approach to the extraction of scientific facts from the literature[J]. Procedia Computer Science,2016,80:386-397.

        [5] YEPES A J,VERSPOOR K. Towards automatic large-scale curation of genomic variation:improving coverage based on supplementary material[J]. BioLINK SIG,2013,2013:39-43.

        [6] WONG W,MARTINEZ D,CAVEDON L. Extraction of named entities from tables in gene mutation literature[C]// Proceedings of the BioNLP 2009 Workshop. Stroudsburg:Association for Computational Linguistics,2009:46-54.

        [7] FUTRELLE R P. Handling figures in document summarization[C]//Text Summarization Branches Out. Association for Computational Linguistics,2004:61-65.

        [8] SANDUSKY R J,TENOPIR C. Finding and using journal‐article components:Impacts of disaggregation on teaching and research practice[J]. Journal of the American Society for Information Science and Technology,2008,59(6):970-982.

        [9] YU H,AGARWAL S,JOHNSTON M,et al. Are figure legends sufficient? Evaluating the contribution of associated text to biomedical figure comprehension[J]. Journal of Biomedical Discovery and Collaboration,2009,4(1):1-10.

        [10] 竇方坤,曹皓偉,徐建良. 基于文本元素的PDF表格區(qū)域識別方法研究[J]. 軟件導(dǎo)刊,2020,19(1):113-116.

        [11] 于豐暢,程齊凱,陸偉. 基于幾何對象聚類的學(xué)術(shù)文獻(xiàn)圖表定位研究[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn),2020,5(1):140-149.

        [12] 田翠華,張一平,胡志鋼,等. PDF文檔表格信息的識別與提?。跩]. 廈門理工學(xué)院學(xué)報(bào),2020,28(3):70-76.

        [13] SIEGEL N,LOURIE N,PORWER R,et al. Extracting scientific figures with distantly supervised neural networks[C]//Proceedings of the 18th ACM/IEEE on Joint Conference on Digital Libraries. New York:Association for Computing Machinery,2018:223-232.

        [14] SCHREIBER S,AGNE S,WOLF I,et al. Deepdesrt:Deep learning for detection and structure recognition of tables in document images[C]//2017 14th IAPR International Conference on Document Analysis and Recognition(ICDAR). IEEE,2017:1162-1167.

        [15] SAHA R,MONDAL A,JAWAHAR C V. Graphical object detection in document images[C]//2019 International Conference on Document Analysis and Recognition(ICDAR). Piscataway:IEEE,2019:51-58.

        [16] HUANG Y,YAN Q,LI Y,et al. A YOLO-based table detection method[C]//2019 International Conference on Document Analysis and Recognition(ICDAR). Piscataway:IEEE,2019:813-818.

        [17] KAVASIDIS I,PINO C,PALAZZO S,et al. A saliency-based convolutional neural network for table and chart detection in digitized documents[C]//International Conference on Image Analysis and Processing. Cham:Springer,2019:292-302.

        [18] RIBA P,DUTTA A,GOLDMANN L,et al. Table detection in invoice documents by graph neural networks[C]//2019 International Conference on Document Analysis and Recognition(ICDAR). Piscataway:IEEE,2019:122-127.

        [19] FUTRELLE R P. Summarization of diagrams in documents[J]. Advances in Automated Text Summarization,1999:403-421.

        [20] JAIN P,LAHA A,SANKARANARAYANAN K,et al. A mixed hierarchical attention based encoder-decoder approach for standard table summarization[J/OL]. arXiv preprint arXiv:1804.07790[2022-11-21]. DOI:10.18653/v1/N18-2098.

        [21] YU H. Towards answering biological questions with experimental evidence:automatically identifying text that summarize image content in full-text articles[C]//AMIA Annual Symposium Proceedings. Bethesda:American Medical Informatics Association,2006:834.

        [22] AGARWAL S,YU H. FigSum:automatically generating structured text summaries for figures in biomedical literature[C]//AMIA Annual Symposium Proceedings. Bethesda:American Medical Informatics Association,2009:6.

        [23] BHATIA S,MITRA P. Summarizing figures,tables,and algorithms in scientific publications to augment search results[J]. ACM Transactions on Information Systems,2012,30(1):1-24.

        [24] TAKESHIMA R,WATANBE T. The Extraction of Figure-Related Sentences to Effectively Understand Figures[M]//KACPRZYK J. Innovations in Intelligent Machines-2. Berlin:Springer Berlin Heidelberg,2012:19-31.

        [25] PARK G,RAYZ J T,POUCHARD L. Figure descriptive text extraction using ontological representation[C]//The Thirty-Third International Flairs Conference. Palo Alto:AAAI Press,2020.

        [26] SAINI N,SAHA S,BHATTACHARYYA P,et al. Textual entailment-based figure summarization for biomedical articles[J]. ACM Transactions on Multimedia Computing,Communications,and Applications,2020,16(1s):1-24.

        [27] POLEPALLI R B,SETHI R J,YU H. Figure-associated text summarization and evaluation[J]. PloS One,2015,10(2):e0115671.

        [28] LOPEZ P. GROBID:Combining automatic bibliographic data recognition and term extraction for scholarship publications[C]//International Conference on Theory and Practice of Digital Libraries. Berli,Springer,2009:473-474.

        [29] BIRD S,LOPER E. Nltk:The natural language toolkit[C]//Proceedings of the ACL 2004 on Interactive Poster and Demonstration Sessions. 2004:31.

        Automatic Recognition of Table-related Text in Literature Based on Table Retrieval and Machine Learning Two-stage Method

        HUANG JiaNi YU FengChang

        ( School of Information Management, Wuhan University, Wuhan 430072, P. R. China )

        The tables in academic literature concisely represent the core knowledge in the literature in a structured form. Numerous academic search engines have integrated tables into retrieval results, which may help researchers quickly grasp the core knowledge and improve the research efficiency. However, while solely displaying the table without offering related information about it, readers frequently fail to fully understand the table’s content, hindering further improvement of literature reading efficiency. We propose a two-stage table-related text recognition method based on machine learning and table retrieval. Stage 1 uses the table content to perform a full-text retrieval, and the retrieval results are regarded as the text potentially related to the table. Stage 2 builds a machine learning model to determine the correlation between the table and potentially relevant text, thereby realizing the automatic recognition of relevant text in the literature. This study utilizes the dataset from the Text Retrieval Conference as an example to verify the effectiveness of the method proposed in this paper. This method can easily extract text related to tables in the literature, which can provide a reference for the existing research on extractive summary of scientific tables and it is of great practical significance for improving the efficiency of literature research.

        Scientific Table; Table Understanding; Machine Learning

        (2022-11-06)

        TP391

        10.3772/j.issn.1673-2286.2022.11.009

        黃佳妮,于豐暢. 基于表格檢索和機(jī)器學(xué)習(xí)二階段的文獻(xiàn)表格相關(guān)文本自動(dòng)識別[J]. 數(shù)字圖書館論壇,2022(11):34-42.

        黃佳妮,女,1999年生,碩士研究生,研究方向:文本挖掘。

        于豐暢,男,1990年生,博士后,通信作者,研究方向:信息抽取、機(jī)器學(xué)習(xí),E-mail:yufc2002@whu.edu.cn。

        * 本研究得到2021年度湖北省博士后創(chuàng)新研究崗位項(xiàng)目“基于遷移學(xué)習(xí)的開放領(lǐng)域非格式化文檔理解”(編號:211000090)資助。

        猜你喜歡
        圖表表格粒度
        《現(xiàn)代臨床醫(yī)學(xué)》來稿表格要求
        粉末粒度對純Re坯顯微組織與力學(xué)性能的影響
        基于矩陣的多粒度粗糙集粒度約簡方法
        統(tǒng)計(jì)表格的要求
        統(tǒng)計(jì)表格的要求
        統(tǒng)計(jì)表格的要求
        基于粒度矩陣的程度多粒度粗糙集粒度約簡
        雙周圖表
        足球周刊(2016年14期)2016-11-02 10:54:56
        雙周圖表
        足球周刊(2016年15期)2016-11-02 10:54:16
        雙周圖表
        足球周刊(2016年10期)2016-10-08 18:30:55
        精品国产一区二区三区av免费 | 在线人成免费视频69国产| 国产成人综合久久精品推| 免费人成视频欧美| 亚洲国产国语对白在线观看 | 性色av闺蜜一区二区三区| 国内免费AV网站在线观看| 国产精品无码久久AⅤ人妖| 人妻精品一区二区三区蜜桃| 看久久久久久a级毛片| 国产色综合天天综合网| 无码免费午夜福利片在线| 在线观看的a站免费完整版| 日本久久久久亚洲中字幕| 亚洲精品一区二区三区大桥未久| 日本少妇被爽到高潮的免费| 亚洲综合伊人久久综合| 久久久精品中文字幕麻豆发布| 天堂中文在线资源| 波霸影院一区二区| 亚洲性av少妇中文字幕| 亚洲av国产av综合av卡| 中文字幕无线码中文字幕| 漂亮的小少妇诱惑内射系列| 国产tv不卡免费在线观看| 人妻aⅴ中文字幕| 欧美中文在线观看| 亚洲一区二区三区新视频| www夜插内射视频网站| 欲色天天网综合久久| 久久亚洲成a人片| 色婷婷久久综合中文蜜桃| 亚洲愉拍99热成人精品热久久 | 九九精品无码专区免费| 一区二区三区在线观看精品视频| 久久久久高潮综合影院| 中文字幕一区二区三区精彩视频| 亚洲va成无码人在线观看| 中文字幕一二三四五六七区| 粉嫩被粗大进进出出视频| 国产91色在线|亚洲|