亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多策略融合的俄語文本詞語提取方法研究

        2021-08-06 03:21:09唐菊香孫懌暉廖曉劉建國于娟
        中國科技術語 2021年3期

        唐菊香 孫懌暉 廖曉 劉建國 于娟

        摘 要:俄語是聯合國工作語言之一,是俄羅斯等多個國家的官方語言。隨著“一帶一路”倡議的推進和全球化進程的加快,俄語文本數據成為有關組織管理決策的重要信息來源,俄語文本挖掘也因而成為重要的管理決策支持方法。然而,俄語文本挖掘方法研究目前還遠未成熟,尤其是其關鍵基礎——俄語文本詞語提取的性能較低,阻礙著俄語文本建模的準確性。因此,文章提出一種多策略融合的俄語文本詞語提取方法,結合俄語詞性分析、語法規(guī)則和串頻統(tǒng)計等多種方法,自動提取包含單詞和短語在內的俄語詞語。在聯合國平行語料庫和Taiga Corpus語料庫上的實驗結果表明,文章提出的方法在保證高召回率的同時,達到了85%以上的高準確率,顯著優(yōu)于常用的ngram方法,能夠為俄語文本主題發(fā)現和文本分/聚類等文本挖掘應用提供有效的詞庫。

        關鍵詞:俄語文本挖掘;詞語提取;詞性標注;頻繁詞串

        中圖分類號:G623.35;H08 ?文獻標識碼:A ?DOI:10.12339/j.issn.1673-8578.2021.03.009

        Abstract:Russian is one of the working languages of the United Nations and the official language of many countries including Russia. With the advancement of the Belt and Road Initiative and the acceleration of globalization, Russian text data has become an important information resource for managerial decisionmaking of related organizations and Russian text mining has thus become a significant decisionmaking method. However, Russian text mining methods are still far away from being mature, especially the essential Russian text term extraction method, which affects the accuracy of Russian text modeling. This paper proposes a Russian text term extraction method, which combines multi strategies including Russian POS analysis, grammatical rules and string frequency statistics to automatically extract Russian words and multiword expressions. Experiments on the United Nations Parallel Corpus and the Taiga Corpus show that the proposed method achieves a high accuracy of approximate 85% which is much higher than normal recall rate, such as the ngram method. The proposed method can be used to create lexicons for Russian text mining applications such as text topic discovery, text classification, and text clustering.

        Keywords: Russian text mining; term extraction; POS tag; frequent wordstring

        收稿日期:2021-05-11

        基金項目:國家自然科學基金項目“基于本體學習與本體映射的組織異構數據融合方法研究”(71771054)

        引言

        隨著大數據時代的到來,數據尤其是文本數據呈現出爆炸式增長的態(tài)勢,各個領域和組織都積極利用數據挖掘方法對所積累的數據進行分析。與此同時,“一帶一路”倡議的推進和全球化進程的加快,使得單語言信息資源挖掘不能滿足管理決策的需求,多種語言信息資源的挖掘逐漸成為實現全球知識發(fā)現和共享的關鍵技術。因此,從多種語言的文本中發(fā)現有用信息和知識成為迫切需要。

        俄語是聯合國工作語言之一,是俄羅斯和哈薩克斯坦、吉爾吉斯斯坦等多個國家的官方語言,使用人數約占世界人口的5.7%。并且,俄羅斯作為我國鄰國,與我國的貿易合作日益密切,中俄經貿關系在兩國均占據著重要位置。俄語文本分析研究及相應的文本挖掘方法研發(fā)有助于為有關組織的業(yè)務分析和管理決策提供有力的支持,對中俄貿易合作起到推動作用。

        但目前國際上針對俄語文本挖掘的研究還不夠成熟,尤其是俄語文本詞語提取方法研究。俄語詞語提取是俄語文本挖掘的基礎和關鍵步驟,其結果顯著影響俄語文本分析和挖掘的效果。俄語詞語可以分為單詞和短語兩類。其中,單詞是指由空格隔開的俄語基本書寫單位,是組成俄語詞語的基本單元;短語是指由兩個或兩個以上的俄語單詞構成的,具有句法和語義單元特征,且其確切含義不能直接從其組件得出的單詞序列。在常用詞匯中,短語和單詞的出現頻率在同一數量級上[1]。相較于單詞,短語具有更豐富的內涵,自動提取的方法更為復雜。因此,俄語短語提取是俄語文本詞語提取方法研發(fā)的重點。

        雖然目前已有較多針對中文和英文詞語提取的相關研究[2-5],但針對俄語文本詞語提取的研究較少。因此,準確且高效的俄語文本詞語提取方法依然是俄語文本挖掘領域的一個難題[6]。為了彌補俄語文本詞語提取研究的不足,本文提出一種多策略融合的俄語文本詞語提取方法。該方法既可以提取俄語單詞,又可以提取不受長度限制的俄語短語,能夠為俄語文本挖掘工作提供完備的詞庫,進而更好地支持組織管理決策。

        本文第1節(jié)介紹俄語文本詞語提取的研究現狀,第2節(jié)介紹本文的方法框架,第3、4、5節(jié)詳細介紹本文方法的實現過程,第6節(jié)通過實驗分析本文方法的性能,第7節(jié)給出結論。本文的詞語提取方法是針對俄語文本的自動處理,若無特殊說明,后文中的“文本”均指“俄語文本”;“詞語”均指“俄語詞語”,包含俄語單詞和俄語短語。

        1 研究現狀

        在俄語單詞提取研究方面,俄語作為印歐語系語言,文本中的單詞以空格作為分隔符且單詞具有豐富的屈折變形形態(tài),因此,俄語單詞提取需要進行詞形還原(lemmatization)。詞形還原是指把一個任何形式的單詞還原為其一般形式,結果是一個能夠表達完整語義的單詞。國內外已有較多針對俄語詞形還原的研究[7-9],并基于詞典、規(guī)則、統(tǒng)計和多策略融合的方法開發(fā)出多個俄語詞形還原工具,如MyStem[10-11]、Pymorphy2[12-13]等。

        在俄語短語提取研究方面,相較于中文和英文短語的提取,俄語短語提取的研究較少,且多集中在雙詞短語提取的研究上[4,14]。已有的短語提取方法研究可以歸納為3類:基于規(guī)則的方法、基于統(tǒng)計的方法和多策略融合的方法。

        基于規(guī)則的方法,使用詞性及詞法模式等語言知識從語料中自動提取詞語。單純使用基于規(guī)則的方法進行俄語文本詞語提取的研究較少。代表性文獻對已有術語的構成進行歸納并擴展出73條術語構成規(guī)則,研發(fā)了FASTER系統(tǒng)實現醫(yī)藥領域的術語自動提取[15]?;谝?guī)則的方法能高效地提取低頻短語,具有較高的精度;但需要人工挖掘特定領域的構詞規(guī)則,耗時耗力,且不同領域的規(guī)則存在差異,因此規(guī)則的通用性不足。

        基于統(tǒng)計的方法,使用詞語在語料庫中的分布統(tǒng)計屬性提取詞語。常用的統(tǒng)計方法包括互信息[16]、對數似然比[17]等。文獻[18]使用統(tǒng)計方法從包含10億個單詞的大型新聞語料庫中總結出英文短語的特征。文獻[19]提出英文短語提取的LocalMaxs算法。文獻[20]提出一種基于詞序列頻率有向網的短語抽取算法,借鑒人類的認知心理模式識別中文短語。文獻[21]基于左右熵聯合增強互信息算法和SVM分類器,構建上下文和詞向量特征,用于提取中文短語?;诮y(tǒng)計的方法可以自動且高效地提取詞語,能有效節(jié)約人工成本,但該方法利用的是概率信息,要求語料庫足夠大,并且無法提取低頻詞。

        多策略融合的方法,結合使用基于規(guī)則和基于統(tǒng)計的兩種方法來提取詞語。多策略融合的短語提取方法研究較多,方法多樣化。文獻[22]提出Cvalue參數,減少英文短語提取中被嵌套詞語的提取,提高詞語提取的效果。文獻[23]結合重復串、左右鄰接熵、內部關聯度、多詞嵌套、停用詞等方法提取中文短語。文獻[24]使用BLSTMCRF模型抽取中文專利文本的短語。文獻[25]提出帶約束合并的代替FPGrowth算法生成中文短語。文獻[26]使用詞頻、文檔頻率、卡方分布和Tseng算法生成英文短語。文獻[27]結合改進的二叉樹技術和內聚性指數實現無監(jiān)督的關鍵短語提取。文獻[28]借助維基百科等外部資源,結合固定詞性搭配規(guī)則和MRR排名指標實現俄語雙詞術語的提取。多策略融合的方法能整合多種方法的優(yōu)勢,且一定程度地避免單一方法的不足。

        綜上可見,相較于中、英文詞語提取,專門針對俄語文本詞語提取的研究較少,已有的俄語文本詞語提取體現在術語提取、關鍵詞提取等研究的過程之中,如文獻[29-31]等,且詞語提取的效果不夠理想。從所提取詞語的長度上來看,已有俄語文本詞語提取的研究多集中在俄語單詞以及雙詞短語的提取上,對更長長度的詞語提取的研究較少。為此,本文提出一種融合多策略的俄語文本詞語提取方法,改善俄語文本提詞的效果,構建待分析的俄語文本和語料的詞庫,支持大規(guī)模俄語文本的自動分析。

        2 方法框架

        本文結合詞性分析、俄語規(guī)則和串頻統(tǒng)計等多種詞語提取方法,實現俄語文本詞語的自動提取,包括俄語單詞和俄語短語。本文方法主要包括文本預處理、停用詞刪除、候選詞語提取和人工判別四個模塊,流程如圖1所示。

        對圖1的說明:

        (1)文本預處理模塊的輸入是一個或多個俄語文檔,輸出是適用于詞語提取的標準化的文本。其中,俄語文檔是包含Web網頁、Word文檔、文本文檔等在內的俄語自然語言電子語料。該模塊的處理方法詳見本文第3節(jié)。

        (2)停用詞刪除模塊,刪除前一模塊輸出的標準化文本中的俄語停用單詞和停用詞性詞,得到刪除停用詞后的單詞串集合。其中,停用單詞和停用詞性規(guī)則是本文基于大量的文本詞語提取實驗總結得出。該模塊的處理方法詳見本文第4節(jié)。

        (3)候選詞語提取模塊,采用統(tǒng)計方法處理前一模塊輸出的單詞串集合,提取頻繁詞串,篩掉其中不成詞的詞串之后,將剩下的頻繁詞串輸出為候選詞語集合。該模塊的處理方法詳見本文第5節(jié)。

        (4)人工判別模塊,由俄語專業(yè)人士人工判定前一模塊輸出的候選詞語,選取最終的詞語集合用于后續(xù)的文本挖掘等應用。同時,人工判定不成詞的候選詞語被加入不成詞詞典,以提高后續(xù)的俄語文本詞語提取效果。該模塊的處理方法易于理解,后文不再贅述。

        3 文本預處理

        文本預處理模塊將輸入的俄語文檔處理為適用于詞語提取的標準化文本,包含語料清洗、詞性標注和詞形還原2個步驟。不同語言的文本預處理方法存在差異。

        3.1 文本清洗

        該步驟對輸入的俄語Web網頁、Word文檔、文本文檔等文本執(zhí)行清洗操作,即去除文本集中如導航欄、圖片、注釋等與文本分析無關的信息,將不同類型的文本處理為純文本,然后統(tǒng)一轉化為utf8編碼格式。圖2為一段俄語文本示例,其中,左側的俄語文本是一段隨機選取的介紹數據挖掘的百科文本,不具有特殊性;右側為與左側文本相對應的中文文本。

        3.2 詞性標注與詞形還原

        該步驟遍歷文本,采用現成工具標注每個單詞的POS(partofspeech)詞性并還原詞形。其中,詞性標注是指確定每個單詞的詞性為動詞、名詞、形容詞或其他詞性的過程。詞形還原將一個任何形式的單詞還原為其原形,例如,名詞алгоритмов(algorithms)原形為алгоритм(algorithm),動詞найденных(found)原Перед использованием алгоритмов добыча данных необходимо произвести подготовку набора анализируемых данных. Aнализируемые данные с одной стороны должны иметь достаточный объём, чтобы эти закономерности в них присутствовали, а с другой — быть достаточно компактными, чтобы анализ занял приемлемое время. Наблюдения делятся на две категории — обучающий набор и тестовый набор. Обучающий набор используется для ??обучения ? алгоритма добыча данных, а тестовый набор — для проверки найденных закономерностей.

        使用數據挖掘算法之前,需要先準備一組分析數據。分析數據一方面應足夠大,以確保這些模式出現在其中;另一方面應足夠緊湊,以使分析花費的時間可接受。觀察數據分為兩類:訓練集和測試集。訓練集用于“學習”數據挖掘算法,測試集用于驗證找到的模式。

        目前主流的俄語詞性標注和詞形還原工具包括Mystem[8]、Pymorphy[10]、TreeTagger[32]等,已有研究[31]表明,由著名俄語搜索引擎Yandex開發(fā)的Mystem無論是在俄語詞性標注還是詞形還原上效果皆為最佳,因此本文采用Mystem工具進行俄語詞性標注和詞形還原。圖3為圖2中的文本進行詞性標注與詞形還原的結果。為了便于結果展示,本文實驗結果使用“

        ”標記表示換行符。

        需要說明的是,Mystem對專有名詞的大小寫和單復數的詞形還原處理會導致專有名詞提取錯誤。例如,“Организации Объединенных Наций(聯合國)”因被Mystem還原為“организация объединять нация(組織團結國家)”而失去原義。因此,本文對非句首的首字母大寫單詞不執(zhí)行詞形還原操作。

        4 停用詞刪除

        停用詞是指廣泛使用的、無實際意義的或不具有區(qū)分性的詞,這些詞一般不參與構成短語。本文通過實驗總結了俄語停用詞性表和停用單詞表,據此刪除文本中的停用詞,輸出單詞串的集合。

        4.1 停用詞性刪除

        停用詞性是指一般不參與短詞構詞的詞性。本文基于大量詞語提取實驗的結果,結合俄語構詞與中文、英文構詞的異同,計算各個俄語詞性的構詞率,將構詞率低的詞性作為停用詞性。其中,構詞率是指包含該詞性單詞的詞串是短語的概率[2]。表1列舉了各俄語詞性的構詞率。

        表1中的副詞和介詞的構詞率計算僅考慮那些參與構詞的副詞和介詞。由于俄語的部分副詞和介詞也參與構詞,如副詞нетто(凈)、дешево(輕易地)、особенно(特殊地)、плотно(努力地)、долго(長時間地),介詞с(with/and/from/of)、об(about/of)、о(of/about/against)、из(from/of/in)等,本文將副詞和介詞設為停用詞性,但保留那些參與構詞的副詞和介詞。這樣可以保證所提取詞語的完整性以及詞語提取結果的召回率。

        4.2 停用單詞刪除

        本文參考NLTK[33]的俄語停用單詞表,并通過大量詞語提取實驗總結出俄語停用單詞表。圖4為對圖3中的文本刪除停用詞性詞和停用單詞后所形成的單詞串集合。

        5 候選詞語提取

        候選詞語提取模塊,統(tǒng)計頻繁共現的單詞串,并依據不成詞詞典和不成詞規(guī)則篩選頻繁詞串,輸出候選詞語集合。

        5.1 頻繁詞串提取

        該步驟以單詞為步長提取頻繁詞串。其中,頻繁詞串是指共現頻次超出閾值的單詞序列。由于一些頻繁詞串僅作為子串出現,沒有單獨成詞,所以本文在串頻統(tǒng)計的基礎上執(zhí)行子串刪除操作。頻繁詞串提取的基本思想是:頻繁共現的單詞串可能成詞;僅作為子串出現的頻繁詞串比其父串的成詞可能性小。頻繁詞串提取算法如圖5所示。

        對圖3中的文本,將頻繁詞串提取算法中的頻次閾值設為2,可以提取出6個頻繁詞串,如表2所示。其中,子串刪除操作刪除了9個詞串,包括:僅單獨出現1次的“данные(數據)”“набор(集合)”和僅作為子串出現的“алгоритм(算法)”“добыча(挖掘)”“анализировать(分析)”“обучать(訓練)”“тестовый(測試)”“алгоритм добыча(挖掘算法)”和“добыча данный(數據挖掘)”。

        輸入:俄語單詞串集合和頻次閾值

        輸出:頻繁詞串

        (1) 對俄語單詞串集合中的每一單詞串WS,切分得到WS的所有子串,長度優(yōu)先統(tǒng)計每一子串的出現頻次,將頻次大于閾值的詞串及其頻次加入Candidates;

        (2) 按所包含單詞的個數多少降序排列Candidates中的詞串;

        (3) 對Candidates的每一詞串CWS,從頭遍歷Candidates中CWS之前的每一詞串FWS,若FWS包含CWS,則更新CWS頻次=CWS頻次FWS頻次;//減去作為子串出現的頻次

        (4) 刪除Candidates中頻次小于閾值的詞串;//子串刪除

        (5) 按字母順序輸出Candidates。

        5.2 不成詞過濾

        該步驟通過不成詞規(guī)則和不成詞詞典兩種方式過濾頻繁詞串,得到候選詞語集合。所謂不成詞是指經俄語專業(yè)人士判定不是詞語。不成詞規(guī)則是本文總結的俄語頻繁詞串不成詞的規(guī)則。如本文4.1所述,為了保證召回率,本文在刪除停用詞時保留了部分介詞。這導致部分頻繁詞串以介詞開頭或結尾,如“об оценка(about evaluation)”“о мера(about measure)”“из число(from the number)”“от имя(of the name)”等,這些候選詞語顯然是不成詞的。因此,本文設置了2條不成詞過濾的規(guī)則,包括:

        (1)刪除以“об”(about/of)或“о”(of/about/against)開頭或結尾的頻繁詞串,增加去除開頭或結尾的“об”或 “о”之后的子串作為頻繁詞串;

        (2)刪除以“из”(from/of/in)或“от”(from/of/for)開頭的頻繁詞串,增加去除開頭的“из”或“от”的子串作為頻繁詞串。

        不成詞詞典是經俄語專業(yè)人士判定為不成詞的頻繁詞串,該詞典將隨著人工判定工作的積累而不斷擴充。隨著不成詞詞典的豐富,本文的俄語文本詞語提取方法的準確率將逐步提高。

        頻繁詞串經不成詞過濾之后即得到了候選詞語集合,可用作文本挖掘應用的文本建模階段的詞庫。若需要精準的詞語提取結果,則把候選詞語集合交由俄語專業(yè)人士進行人工判定,選取最終的詞語集合,并把人工判定不成詞的候選詞語加入不成詞詞典。

        6 實驗分析

        目前,俄語文本詞語提取方法研究還沒有標準的實驗分析語料或評價指標,為了說明本文方法的性能,采用兩個不同類型的語料庫對比本文方法與常用的ngram俄語文本詞語提取方法,分別計算兩種方法的成詞數目與準確率。

        6.1 實驗語料

        本文采用兩種題材不同的文本語料庫進行實驗:聯合國平行語料庫(The United Nations Parallel Corpus)[34]和Taiga Corpus語料庫[35]。對于聯合國平行語料庫,隨機選取2014年的俄語文本200篇,內容為涉及科技、經濟等多個主題的聯合國會議記錄。對于Taiga Corpus語料庫,本文選用20Nplus1語料中2016年12月到2017年1月的文本共280篇,內容為涉及科學、數學等主題的雜志文章。

        6.2 評價指標

        文本挖掘方法的常用評價指標是準確率和召回率。其中,衡量文本詞語提取方法的準確率是指候選詞語中經人工判定成詞的比例。召回率是指經人工判定成詞的候選詞語占文本中出現的全部詞語的比例。由于目前尚沒有經過人工精確標注的語料庫,無法確定語料中出現的全部詞語數量,因此,本文采用正確提取詞語的數目來代替召回率評價指標。

        為了提高人工判別的準確性,請兩名俄語專業(yè)人士分別獨立判別候選詞語是否成詞,然后對判別結果不同的候選詞語進行第二輪人工判別,直至消除異議。其中,第一輪人工判別階段出現異議的情況約為1.5%??梢?,在自動提取得到的候選詞語是否能夠成詞方面,俄語專業(yè)人士的共識度是很高的。

        6.3 實驗分析

        為了驗證本文方法的有效性,實驗采用本文方法和俄語文本詞語提取常用的ngram方法分別對兩個實驗語料做詞語提取的對比分析。由于俄語短語提取的性能決定著俄語文本詞語提取效果,因此本文實驗結果的準確率僅考慮俄語短語的提取。

        公平起見,兩種方法采用相同的文本預處理和停用詞刪除操作,且本文方法提取得到的候選詞語未經不成詞詞典的篩選。對于聯合國平行語料庫,頻繁詞串提取階段的頻次閾值設為3;對于Taiga Corpus語料,頻次閾值設為2。本文方法與ngram方法在兩個語料上的實驗結果如表3所示。

        對表3的說明:

        (1)表中“自動提詞數目”為自動提取所得到的候選詞語的數目,“成詞數目”為候選詞語中由俄語專業(yè)人士人工判斷為成詞的數目。

        (2)由于本文方法自動提取所得的候選詞語的最大長度為12(包含單詞的個數),因此,將ngram的n設為2至12。而已有研究中,因為n的不確定性,常把n設為2或3,大大減少了自動提詞的數目,因而召回率遠低于本文方法。

        (3)將n設為2至12時,ngram的提詞結果即為本文方法中未經子串刪除的頻繁詞串集合。這些僅作為子串出現的詞串,不僅成詞可能性比其父串小,而且可能影響后續(xù)的文本挖掘結果。如圖2,文本中的“добыча данный(數據挖掘)”僅作為“алгоритм добыча данный(數據挖掘算法)”的子串出現,前者不僅不成詞,還可能因出現頻次更高而比后者更易成為代表文本的特征詞(關鍵詞/主題詞),但顯然后者更適合作為文本的特征詞。因此在人工判別階段,將ngram提詞結果中僅作為子串出現的頻繁詞串皆判定為不成詞。

        (4)本文方法在Taiga Corpus語料上的準確率略低于聯合國平行語料,主要原因在于本文方法的性能受停用單詞表完善程度的影響。后續(xù)隨著停用單詞表的補充,本文方法的性能將進一步提高。

        由實驗可知,在俄語文本詞語提取方面,本文方法的準確率遠高于ngram方法,且本文方法克服了ngram方法需要人工指定n的缺陷,比ngram的自動化程度更高。本文方法較優(yōu)的主要原因是:①刪除僅作為子串出現的詞串;②根據俄語語法設置不成詞規(guī)則,刪除部分頻繁詞串。被刪除的這兩類詞串不是獨立出現,成詞率低,且不適宜作為文本的特征詞??梢?,本文方法不僅能夠提高俄語文本詞語提取的準確率,還將提高后續(xù)文本挖掘的效果。

        7 結論

        隨著“一帶一路”倡議的推進和全球化進程的加快,俄語文本數據挖掘成為有關組織管理決策的重要方法。俄語文本詞語提取是俄語文本挖掘的關鍵基礎,前者的結果直接影響后者的準確性。針對當前國際上專門的俄語文本詞語提取方法研究較少的現狀,本文研究了一種融合多策略的俄語文本詞語提取方法,用于自動提取待分析俄語文檔中的詞語集合,構建文本建模階段所需的詞庫,支持俄語文本主題發(fā)現和俄語文本分/聚類等文本挖掘應用。

        本文方法結合俄語詞性分析、語法規(guī)則和串頻統(tǒng)計等多種策略,實現俄語文本詞語的自動提取。該方法首先將輸入的俄語文檔預處理為適用于詞語提取的標準化文本,接著基于實驗總結的俄語停用詞性和停用單詞表將文本切分為俄語單詞串集合,然后結合串頻統(tǒng)計和子串刪除的統(tǒng)計方法提取頻繁詞串,并根據不成詞詞典和俄語語法的不成詞規(guī)則進一步過濾,所得到的候選詞語集合可直接用作文本挖掘應用的詞庫。

        對不同題材的語料庫進行詞語提取的實驗結果表明,本文提出的俄語文本詞語提取方法在保證召回率的同時,準確率遠高于ngram方法;克服了ngram方法需要人工指定n的缺陷;且本文方法提取得到的詞語集合更適用于文本挖掘應用。但是,本文方法的詞語提取結果受到停用單詞表完善程度的影響,因此,未來還需通過實驗進一步總結和豐富停用單詞表。

        參考文獻

        [1] JACKENDOFF R, CYNX J. The architecture of the language faculty[J]. Quarterly Review of Biology, 1997, 7(74): 1-8.

        [2] FIROOZEH N, NAZARENKO A, ALIZON F. Keyword extraction: Issues and methods [J]. Natural Language Engineering, 2020, 26(3):259-291.

        [3] VILLAVICENCIO A, IDIART M. Discovering multiword expressions[J]. Natural Language Engineering, 2019, 25(6): 715-733.

        [4] 于娟, 黨延忠. 結合詞性分析與串頻統(tǒng)計的詞語提取方法[J]. 系統(tǒng)工程理論與實踐, 2010, 30(1): 105-111.

        [5] HASAN K S, NG V. Automatic keyphrase extraction: A survey of the state of the art [C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics,ACL 2014. Baltimore, Maryland, USA:ACL Press, 2014: 1262-1273.

        [6] LOUKACHEVITCH N, PARKHOMENKO E, LOUKACHEVITCH N. Evaluating distributional features for multiword expression recognition [C]//21st International Conference on Text, Speech, and Dialogue, TSD 2018. Brno, Czech Republic: Springer, Cham, 2018: 126-134.

        [7] 李峰, 易綿竹. 面向俄文NLP的形態(tài)自動分析研究與實現[J]. 中文信息學報, 2011, 25(5): 68-75.

        [8] GOLDSMITH J. Unsupervised learning of the morphology of a natural language[J]. Computational linguistics, 2001, 27(2): 153-198.

        [9] ЛАПШИН С В, ЛЕБЕДЕВ И С. Метод полуавтоматического формирования словаря морфологических описаний слов[J]. Научнотехнический вестник информационных технологий, механики и оптики, 2012, 5(81): 104-107.

        [10] Yandex. MyStem [EB/OL]. [2021-01-07]. https://yandex.ru/dev/mystem.

        [11] SEGALOVICH I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a Web search engine[C]//International Conference on Machine Learning Models. DBLP, 2003. Las Vegas, Nevada: Springer, Cham, 2003:273-280.

        [12] KOROBOV M. pymorphy2 [EB/OL]. [2021-01-07]. https://pypi.org/project/pymorphy2.

        [13] KHACHAY M Y, KONSTANTINOVA N, PANCHENKO A, et al. Morphological analyzer and generator for Russian and Ukrainian languages [C]//International Conference on Analysis of Images, Social Networks and Texts. Yekaterinburg, Russia:Springer, Cham, 2015: 320-332.

        [14] ЛУКАШЕВИЧ Н В, ГЕРАСИМОВА А А. Определение устойчивых словосочетаний методом ассоциативного эксперимента [J]. Вестник Московского университета. Серия 9: Филология, 2018(1): 23-42.

        [15] JACQUEMIN C. Recycling terms into a partial parser [C]//Fourth Conference on Applied Natural Language Processing. Stuttgart, Germany: Association for Computational Linguistics, 1994: 113-118.

        [16] CHURCH K W, HANKS P. Word association norms, mutual information, and lexicography [J]. Computational linguistics, 1990, 16(1): 22-29.

        [17] DICE L R. Measures of the amount of ecologic association between species [J]. Ecology, 1945, 26(3): 297-302.

        [18] CHOUEKA Y. Looking for needles in a haystack or locating interesting collocational expressions in large textual databases[C]//Proceedings of the RIAO Conference on UserOriented ContentBased Text and Image Handling, 1988, Cambridge, Mass, 1988: 609-623.

        [19] SILVA J F D, LOPES G P, TORRE Q D, et al. A local maxima method and a fair dispersion normalization for extracting multiword units from corpora [C]//Sixth Meeting on Mathematics of Language. Orlando, USA, 1999: 369-381.

        [20] 陳建超, 鄭啟倫, 李慶陽, 等. 基于詞序列頻率有向網的中文組合詞提取算法[J]. 計算機應用研究, 2009, 26(10): 3746-3749.

        [21] 龔雙雙, 陳鈺楓, 徐金安, 等. 基于網絡文本的漢語多詞表達抽取方法[J]. 山東大學學報(理學版), 2018, 53(9): 40-48.

        [22] FRANTZI K,ANANIADOU S.Extracting nested collocations[C]//Proceedings of the 16th Conference on Computational Linguistics.Copenhagen,Denmark,1996:41-46.

        [23] 唐亮, 李倩, 許洪波, 等. 基于多策略過濾的漢日多詞短語抽取和對齊[J]. 山東大學學報(理學版), 2015, 50(9): 21-28.

        [24] 馬建紅, 姬帥, 劉碩. 面向專利的主題短語提取[J]. 計算機工程與設計, 2019, 40(5): 1365-1369.

        [25] 劉晨暉,張德生,胡鋼.基于Kert的中文主題關鍵短語提取算法[J].計算機應用,2019,39(1):245-249.

        [26] RAHAMAN M M, AMIN M R. Language independent statistical approach for extracting keywords[C]//2017 4th International Conference on Advances in Electrical Engineering (ICAEE). Dhaka, Bangladesh: IEEE Press, 2017: 205-210.

        [27] RABBY G,AZAD S,MAHMUD M,et al.TeKET:a TreeBased Unsupervised Keyphrase Extraction Technique[J].Cognitive Computation,2020,12(6):811-833.

        [28] DOBROV B V, LOUKACHEVITCH N V. Multiple evidence for term extraction in broad domains[C]//Recent Advances in Natural Language Processing, Hissar, Bulgaria, 2011: 710-715.

        [29] WESTLING A, BRYNIELSSON J, GUSTAVI T. Mining the web for sympathy: the pussy riot case[C]//2014 IEEE Joint Intelligence and Security Informatics Conference. The Hague, Netherlands: IEEE, 2014: 123-128.

        [30] LAGUTINA K, LARIONOV V, PETRYAKOV V, et al. Sentiment classification of russian texts using automatically generated thesaurus [C]//Proceedings of the 23rd Conference of Open Innovations Association FRUCT. Bologna, Italy: IEEE Press, 2018: 13-16.

        [31] ХРАМЦОВ Н С. Проблематика оценивания алгоритмов автоматического извлечения ключевых слов [J]. Новые информационные технологии в автоматизированных системах,2019(22):199-203.

        [32] SCHMID H.TreeTaggerunimuenchen.de[EB/OL].[2021-03-31].https://cental.uclouvain.be/treetagger.

        [33] BIRD S, KLEIN E, LOPER E. NLTK [EB/OL]. [2020-04-13]. http://www.nltk.org.

        [34] ZIEMSKI M, JUNCZYS M, POULIQUEN B. The United Nations parallel corpus [C]//Language Resources and Evaluation in Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC16), Portoro, Slovenia,2016.

        [35] SHAVRINA T, SHAPOVALOVA O.Taiga Corpus [EB/OL]. [2020-06-14]. https://github.com/TatianaShavrina/taiga_site.

        作者簡介:于娟(1981—),女,博士,福州大學經濟與管理學院教授,中國系統(tǒng)工程學會數據科學與知識系統(tǒng)工程專委會委員,主要研究領域為數據挖掘、信息與知識管理系統(tǒng),先后主持和完成多項國家自然科學基金和國家社會科學基金項目。通信方式:yujuan@fzu.edu.cn。

        唐菊香(1996—),女,福州大學經濟與管理學院碩士研究生,研究方向為數據挖掘與商務智能。通信方式:1767365964@qq.com。

        国产av精品一区二区三| 在线视频一区二区亚洲| 日韩一区二区中文字幕视频| 日本道免费一区二区三区日韩精品| 国产aⅴ无码专区亚洲av麻豆| 国产女人18毛片水真多| 亚洲AV永久无码精品表情包| 国产免费人成视频在线观看| 国产精品亚洲片在线观看不卡| 性动态图av无码专区| 中文无码日韩欧免费视频| 在线亚洲精品中文字幕美乳色| 体验区试看120秒啪啪免费| 无码人妻黑人中文字幕| 国产日本在线视频| 亚洲国产女同在线观看| 亚洲色偷偷偷综合网| 少妇被躁爽到高潮无码文| 久久亚洲国产欧洲精品一 | 自拍偷区亚洲综合第一页| 成人免费无码大片a毛片抽搐色欲| 亚洲粉嫩高潮的18p| 爆乳午夜福利视频精品| 一区二区三区中文字幕在线播放| 99精品国产丝袜在线拍国语| 四月婷婷丁香七月色综合高清国产裸聊在线| 国产经典免费视频在线观看| 久久精品亚洲熟女av麻豆| 国产日产综合| 天天综合久久| 狠狠久久av一区二区三区| 亚洲国产精品无码久久一线| 亚洲 暴爽 av人人爽日日碰| 国产精品女丝袜白丝袜 | 亚洲国产福利成人一区二区| av在线播放亚洲天堂| 人妻色综合网站| 国产美女在线精品亚洲二区| 青青草好吊色在线视频| 色狠狠色狠狠综合天天| 一卡二卡三卡视频|