亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文文本中兩詞語關聯(lián)規(guī)律分析

        2018-10-25 00:59:10李學文周子璇熊能陳瑜
        大學圖書館學報 2018年1期
        關鍵詞:規(guī)律

        李學文 周子璇 熊能 陳瑜

        摘要 分析文本中詞語關聯(lián)規(guī)律對于解決信息檢索與文本語義研究中許多問題具有重要的價值和意義。首先建立測試平臺,對詞對語義與構成詞對的兩詞在文本中語義的相符性進行人工判斷,然后依據(jù)兩詞語在文本中所處位置差異、文本類型、分句長度、詞頻等標準,對數(shù)據(jù)進行分組統(tǒng)計和聚類分析得出兩詞在文本中的關聯(lián)規(guī)律,最后指出不足及下一步研究的方向。

        關鍵詞 中文文本 詞語關聯(lián) 規(guī)律

        分類號 G354

        DOI 10.16603/j. issn1002 -1027. 2018. 01. 007

        l 引言

        研究詞語之間的語義關系對解決自然語言理解、人工智能以及機器翻譯等方面的問題,都具有重要的價值和意義。信息檢索與文本語義研究時,為了提高信息過濾、關聯(lián)度計算和語義索引建立等各項技術處理結果的完整性、準確性和可靠性都有必要對文本中詞語之間的語義關聯(lián)規(guī)律進行分析。信息過濾中,當輸入線索是多個檢索詞(或可轉化為多個檢索詞)時,字段檢索、關鍵詞索引檢索和全文檢索技術會通過布爾檢索連接這些詞語并判斷出所需信息,布爾檢索將文本中是否含有檢索詞作為信息命中與否的依據(jù),用戶檢索時不管這些檢索詞有多么生疏,只要在文本中出現(xiàn)了一次就可以檢索到。例如,對包含文字“寧夏枸杞、蘭州百合”的信息進行“蘭州and枸杞”的檢索時,這段信息將符合檢索條件,導致獲取錯誤檢索結果。排序技術將信息檢索結果按照與輸入線索的關聯(lián)度排列,關聯(lián)度主要是通過關鍵詞在文本中出現(xiàn)的位置和頻率進行計算。許多研究利用詞的關聯(lián)關系按照主題凝聚的原則提取出反映主題信息的關鍵詞詞典,從而發(fā)掘文章主題并進行文本內容分析。語義檢索提出增加對文本內容語意的理解,借助語義索引定位符合輸入線索的信息,語義索引就是在概念空間的基礎上構造具有網狀結構的索引,從文檔中抽取出概念,同一文檔可由具有相關語義的多個概念進行索引。

        信息檢索與文本語義研究領域有許多關于詞語關系的研究,楊梁彬探討了潛在語義索引解決文本檢索中存在的同義和多義問題;國內外有關詞語在文本中的語義角色標注的研究比較豐富,目前已有成熟的語義角色標注軟件;張建娥利用復雜網絡中節(jié)點的度與聚集特征表示詞語之間的關聯(lián)度;孫日昕等分析了文本中詞語的內聯(lián)關系和外聯(lián)關系并指出詞語間互信息表征兩個詞在同一篇文檔中的相關性大??;趙冬曉等從詞、句子和篇章粒度概括了現(xiàn)有文本語義挖掘方法、算法。這些研究可分為兩類:一是基于規(guī)則,主要利用語言的詞法、句法、詞性等知識以及上下文信息來識別詞語關系;一是基于統(tǒng)計,主要根據(jù)詞語在文本中出現(xiàn)的頻率、位置等信息,應用不同的統(tǒng)計參數(shù)分析詞語關系,本文采用第二類方法。

        2 測試數(shù)據(jù)獲取

        兩個詞語組合時將兩詞稱為詞對,這兩個詞會限制出比它們各自更具體的語義,稱之為詞對語義,本文中兩詞語關聯(lián)性是通過它們所組成的詞對語義與它們所在文本中的語義的相符性來體現(xiàn),語義相符表示這兩個詞在文本中關聯(lián),不相符則表示不關聯(lián)。

        2.1 約定條件

        為了便于分析,特做以下約定:

        (1)文本中兩詞關系設定為:同義詞、可搭配、不可搭配。此處不可搭配指兩詞在語義或語法上矛盾,不可能組合在一起或組合在一起不包含任何語義信息。當可搭配時,兩個詞所在文本中的語義與詞對語義關系分為相符和不相符兩種。本文約定:兩個詞所在文本中的語義與詞對語義都匹配時,表示兩詞在此文本中的語義與詞對語義相符;當其中有一個(或兩個)所在文本中的語義與詞對語義不匹配時,表示兩詞在此文本中的語義與詞對語義不相符,例如:文本“枸杞病蟲害可持續(xù)調控技術”中包含病蟲害調控的含義,但與枸杞調控無關,因此該文本中“病蟲害”“調控”兩詞組成的詞對與兩詞在文本中的語義相符,而“枸杞”“調控”兩詞組成的詞對與兩詞在文本中的語義不相符。本文主要通過分析語義相符詞對數(shù)與可搭配詞對數(shù)的比率特征來發(fā)現(xiàn)文本中兩詞語關聯(lián)性規(guī)律。

        (2)提取文本中的詞語,并以標點符號為分隔號標記它們所在段、句、分句,同時對段、句、分句按順序進行編號。其中段分隔號有:“回車符”“換行符”,測試中多段落文本取的是同一標題下相連的段落,且限制在三個自然段以內;句分隔號有:問號、驚嘆號、分號、句號;分句不包含任何標點符號,其分隔號有:逗號、頓號、冒號、破折號、引號、書名號、括號等。

        2.2 測試過程

        2.2.1 建立測試平臺并錄入信息

        首先根據(jù)需求建立測試平臺,然后選取與“枸杞”相關的網頁、期刊、圖書等目前常見類型的信息,錄入標題、摘要及正文文摘等文本,最后將文本按照段、句、分句等層次進行分割,自動加手動提取文本中的詞語,并標記它們所在段、句、分句及分句中的位置。

        測試選取的文本樣本共30個,其中網頁6個、論文10個、圖書13個、實體介紹1個,涉及摘要5個、標題11個、正文文摘14個,多段落文本2個。提取詞語共936種,稱每個文本中提取的詞語字數(shù)與該文本字數(shù)(不含標點)比率為詞語覆蓋率,本測試平均詞語覆蓋率為0.80,所有文本樣本中最大詞語覆蓋率為1.02,最小詞語覆蓋率為0.57。

        2.2.2 人工判斷詞對關系并獲取測試數(shù)據(jù)

        將每個文本中提取的詞語兩兩組合成詞對,并由人工確認詞對關系,可選擇關系有:默認、相符、不相符、不可搭配、同義詞,其中相符與不相符均為可搭配關系。為排除人為因素,本測試選擇不同專業(yè)不同職稱多個人員對詞對關系進行判斷,以此獲取測試數(shù)據(jù),共組合詞對26133組,其中可搭配詞對25872組。

        3 測試數(shù)據(jù)分析

        根據(jù)測試需求對人工確認的詞對關系以多種因素作為標準分組統(tǒng)計出相符數(shù)、不相符數(shù)并進行聚類分析,定義相符率為:相符數(shù)/(相符數(shù)十不相符數(shù))或相符數(shù)/可搭配數(shù),相符率可反映兩詞語在文本中的關聯(lián)概率。下面從以下幾個方面對兩詞語關聯(lián)規(guī)律進行分析。

        3.1 兩詞語在文本中所處位置差異

        根據(jù)詞語所在段、句、分句及分句中的位置可確定詞語在文本中的位置,稱文本中兩詞語中間所夾文本長度(分句數(shù))為詞間距(分句間距)。

        測試位于同一分句的兩詞組成的可搭配詞對樣本數(shù)5283組,相符率43.6%,表示同分句中的兩個詞語在文本中的語義有43.6%的可能與這兩個詞語組合成的詞對語義是相符的,即兩個詞出現(xiàn)在同分句中有43.6%的可能是關聯(lián)的,信息檢索或語義分析時如果同分句中出現(xiàn)需要檢索或分析的兩個詞,那么這條信息有43.6%的可能滿足或符合要求,43.6%這個值可用作相關度排序依據(jù)。所有文本樣本中最大相符率76.3%,最小相符率24%。圖1中實線是位于同一分句的兩詞組成的詞對相符率隨兩詞間距變化的折線圖,圖中僅取了詞間距對應可搭配詞對數(shù)不小于50的數(shù)據(jù)。

        當兩詞間互相包含(如:abcd、bc)或首末位有交集(如:abc、bcd)時兩詞間距會小于0,此種情況的樣本數(shù)252組,相符率26.2%,本文不做過多分析。由圖1可見,當兩詞間距大于等于0時,隨著兩詞間距增大相符率減小。通過SPSS軟件對該數(shù)據(jù)集進行非線行回歸分析,依據(jù)曲線圖型選擇適當函數(shù)進行擬合,表1是R方值最大的兩個函數(shù)回歸分析結果。

        圖1中虛線為函數(shù)y=0.554-0.319*LG (x+0.178)的分布曲線。更多函數(shù)回歸分析結果如下:

        冪函數(shù):d+a*(x+c)b,(a>=O;b<=0;c>=0)。參數(shù)值:a=3.724,b=-0. 040,c=0.225,d=-3.160,R方=0.933。

        雙曲線函數(shù):1/(a+b/(x+c))+d,(b<=0)。參數(shù)值:a=16.174,b=-373.031,c=25.226,d=0.052,R方=0.915。

        指數(shù)函數(shù):a*e(b*(x+c))+d,(a>=O.b<=0)。參數(shù)值:a=0.568,b=-0.333,c=0.206,d=0.208,R方=0.890。

        a*e(b/(x+c)+d,(a>=0;b>=0)。參數(shù)值:a=0.566,b=2.478,c=3.221,d=-0.452,R方=0.915。

        以上函數(shù)回歸分析R方均接近或大于0.9,說明這些擬合模型能解釋因變量90%左右的變異,擬合效果較好。

        位于同句不同分句的兩詞組成的可搭配詞對樣本數(shù)5441組,相符率20.3%。圖2是該情況下詞對相符率隨兩詞所在分句間距變化的折線圖,該圖只取了分句間距對應可搭配詞對數(shù)不小于100的數(shù)據(jù)。當兩詞位于同句不同分句時相符率在20%附近徘徊,最大24.9%,最小16.7%。

        位于同段不同句的可搭配詞對樣本13541組,相符率9.5%。

        位于同一文本不同段的可搭配詞對樣本1607組,相符率為1.9%。

        3.2 分句長度

        將位于同分句的詞對相符數(shù)據(jù)以所在分句長度(不含標點符號)進行分組,相符率隨分句長度變化如圖3所示,其中僅取了分句長度對應可搭配詞對數(shù)不小于48的數(shù)據(jù)。由圖可知,當分句長度小于等于25時曲線兩頭低中間高:小于8時相符率在33%附近;在8-20區(qū)間內相符率基本在40%到50%之間;大于20時平均相符率為35%。當分句長度大于25時相符率隨分句長度變化波動較大。

        3.3 文本類型

        表2、表3分別從文本出處(標題、摘要、正文文摘)和信息類型(圖書、網頁、論文)兩個方面對文本中位于同分句的兩詞語相符率進行分類統(tǒng)計。表2顯示來自標題、摘要、正文文摘等不同出處的詞對相符率差別較大,摘要比正文文摘文本中詞對相符率高出18.7%;表3顯示三種信息類型文本中詞對相符率相差不大。

        3.4 詞頻

        詞頻和位置對于分析詞語和文獻主題的關系有重要作用,那么詞語在文本中的詞頻對于它在該文本中與其他詞的關聯(lián)性是否有影響?對詞語在每個文本中的頻次分別統(tǒng)計,以詞頻進行分組分析,結果如圖4所示,其中相符率1是先對每個文本以詞頻分組計算相符率,再計算全部樣本中各詞頻相符率的平均值;相符率2是統(tǒng)計每個文本以詞頻分組后的相符數(shù)與不相符數(shù),再合計全部樣本中各詞頻的總相符數(shù)與總不相符數(shù),最后計算得出相符率,這兩組值有所不同,曲線變化卻基本吻合,相符率隨著詞頻的增加在33%與62%之間波動。

        詞頻隨文本長度增加而增加,對于某文本中的詞語,稱詞頻與文本字數(shù)之商為詞現(xiàn)率,即詞現(xiàn)率一詞頻/文本字數(shù),對相符率與詞現(xiàn)率關系統(tǒng)計分析,結果如圖5所示。其中相符率是先對每個文本以詞現(xiàn)率分組計算相符率,再計算全部樣本中各詞現(xiàn)率對應相符率的平均值,可見,相符率與詞現(xiàn)率沒有明顯函數(shù)關系。

        4 結論及下一步研究方向

        4.1 結論

        詞對所限制語義與構成詞對的兩詞在文本中語義的相符率反映了兩詞語在文本中的關聯(lián)概率。由以上測試數(shù)據(jù)可以得出如下結論:

        (1)同分句中兩個詞關聯(lián)概率為43.6%,當兩詞語相連(詞間距為0)時關聯(lián)概率為79.7%,關聯(lián)概率隨著詞間距的增加而減小,與對數(shù)函數(shù)y-0.554 -0.319*LG(x+0.178)及y=0.554 -0.139*LN(x+0.178)的擬合度較高。位于同句不同分句時兩詞語關聯(lián)概率降低為20.3%,不到同分句時的一半,沒有發(fā)現(xiàn)兩詞語關聯(lián)概率隨著它們所在分句間距的增加而減小或增大的趨勢,只是在20%附近上下波動。位于文本不同段或者不同句時兩詞語關聯(lián)概率低于10%,相對于前面的情況此時兩詞語關聯(lián)規(guī)律的研究意義相對較小。

        (2)位于同分句的兩詞語關聯(lián)概率隨分句長度變化而波動。分句長度在8-20時,兩詞關聯(lián)概率穩(wěn)定在45%附近,相對較高;分句長度小于8時關聯(lián)概率在33%附近,相對較低且穩(wěn)定;分句長度大于20時關聯(lián)概率有減小趨勢,平均關聯(lián)概率為35%;分句長度大于24時關聯(lián)概率波動較大。

        (3)標題、摘要和正文等詞語出處影響到詞語關聯(lián)概率,概括和總結性文本中詞語關聯(lián)概率較高。圖書、論文和網頁等不同信息類型文本中詞語關聯(lián)概率差別不大,都在平均值43.6%附近,即沒有發(fā)現(xiàn)信息類型對詞語關聯(lián)概率的明顯影響。

        (4)位于同分句的兩詞關聯(lián)概率隨詞語在文本中詞頻的增加而波動,但維持在40%附近,沒有發(fā)現(xiàn)關聯(lián)概率隨詞頻的增加而有減小或增大的趨勢。

        4.2 不足及下一步研究方向

        (1)測試樣本不足。因每一條樣本數(shù)據(jù)都來自人工標注,局限于樣本數(shù),本測試將文本樣本限制到單一領域,選擇了枸杞相關文本,分析結果可在該領域內應用,對于其他領域或更大領域內是否具有同樣的結論需要進一步研究。

        (2)只對中文詞語關聯(lián)規(guī)律進行分析,沒有對外文進行分析。從語義角度來看,無論什么語種詞語關聯(lián)規(guī)律都會存在,但在分詞技術及語法上中外文有所不同,因此外文詞語關聯(lián)規(guī)律也會表現(xiàn)出不同結果,尤其是英文用空格分割詞語,分詞更加準確,詞語關聯(lián)規(guī)律也將表現(xiàn)得更加明顯。

        (3)僅對標點符號進行了分類,沒有分析不同標點符號對詞語關聯(lián)的影響。本文結論中位于同句不同分句的兩詞關聯(lián)概率為20.3%,不到同分句時的一半,由于位于不同分句的兩詞語詞間距比同分句的大,且兩詞語關聯(lián)概率隨詞間距增加而減少,同時不同分句的兩詞由標點符號分割,各標點符號的作用和意義不同,因此針對標點符號對所分割的詞語關聯(lián)性是否有影響、影響大小等問題的分析具有實際意義,需進一步研究。

        (4)未考慮詞法、句法、詞性、專指度、與文本主題相關性等特性對詞語關聯(lián)概率的影響。表4是統(tǒng)計位于同分句的詞對中以詞進行分組且詞對樣本數(shù)不低于30的數(shù)據(jù)。其中“信息數(shù)”指包含該詞語的文本數(shù),為了避免單一文本對統(tǒng)計結果的影響,表4只取了信息數(shù)大于1的樣本,從中可以看出不同詞語相符率相差很大.這其中是否有規(guī)律可循尚需研究。

        (5)沒有對兩個詞以上的詞對關聯(lián)規(guī)律進行分析。檢索線索往往不只包含兩個詞語,多個詞語對語義范圍的限制更加具體,分析多詞語在文本中的關聯(lián)規(guī)律不但可以滿足用戶檢索需求而且可以提高信息檢索、語義分析等操作結果的準確性。

        5 結語

        本文結論不足以支撐文本中兩詞語是否關聯(lián)的確定,測試首先是通過人工確認兩詞語是否關聯(lián),然后以不同標準通過分組的形式對關聯(lián)與不關聯(lián)的數(shù)據(jù)進行聚類分析以發(fā)現(xiàn)其中存在的規(guī)律性,當將這些規(guī)律應用于詞語間關聯(lián)關系的計算時,計算結果與人工確認的關系能達到一定程度匹配(按照二八定律,須達到80%的匹配率)時,文本中詞語關聯(lián)規(guī)律才能支撐詞語關聯(lián)關系的確定。

        雖然已發(fā)現(xiàn)的詞語關聯(lián)規(guī)律不足以支撐文本中兩詞語關聯(lián)關系的確定,但其中計算文本中兩詞語關聯(lián)概率的結論可以用于許多領域。搜索系統(tǒng)利用倒排索引進行預搜索實現(xiàn)數(shù)據(jù)過濾,獲取盡量小的滿足用戶需求的結果集,其中索引技術是當前主流檢索系統(tǒng)的主要技術之一,記錄有關鍵詞在文本中出現(xiàn)的次數(shù)和位置,在現(xiàn)有索引技術的基礎上利用文本中兩詞語關聯(lián)規(guī)律可提升搜索系統(tǒng)的質量。結論應用于信息過濾可排除更多不符合需求的信息,提高數(shù)據(jù)過濾的準確性,為關鍵詞檢索、排序技術提供一種科學的信息相關度排序依據(jù),為文本內容、語義分析以及建立語義索引梳理出新的可行方法。

        猜你喜歡
        規(guī)律
        巧用規(guī)律析成像
        由簡入繁 尋找規(guī)律
        規(guī)律睡眠中醫(yī)有妙招
        發(fā)現(xiàn)規(guī)律
        找規(guī)律 畫一畫 填一填
        找排列規(guī)律
        觀察比較 尋找規(guī)律
        先找規(guī)律再解答
        找出規(guī)律
        巧解規(guī)律
        国产欧美日韩a片免费软件| 色综合久久中文综合网亚洲| 国产欧美一区二区精品久久久| 中文字幕一区二区三区精彩视频| 女的把腿张开男的猛戳出浆| 男女视频网站免费精品播放| 亚洲一区二区三区特色视频| 国产尤物av尤物在线观看| 亚洲人成7777影视在线观看| 97色人阁俺也去人人人人人| 亚洲一区二区三区偷拍女| 国精品午夜福利视频不卡| 亚洲网站地址一地址二| 国产午夜av一区二区三区| 日本视频在线观看一区二区| 波多野结衣爽到高潮大喷| 激情97综合亚洲色婷婷五| 中国免费一级毛片| 中美日韩在线一区黄色大片| 久久久国产乱子伦精品作者| 少妇三级欧美久久| 国产精品99久久不卡二区| 免费观看黄网站| 免费看国产精品久久久久| 亚州中文字幕乱码中文字幕| 精品国产偷窥一区二区| 女人夜夜春高潮爽a∨片传媒| 亚洲欧洲美洲无码精品va | 精品国产一区二区三区av性色| 精品久久久久久国产| 日韩成人精品一区二区三区| 男女主共患难日久生情的古言| 朝鲜女人大白屁股ass| av色综合网站| 亚州中文字幕乱码中文字幕| 亚洲av首页在线| 无码丰满少妇2在线观看| 中国少妇和黑人做爰视频| 综合国产婷婷精品久久99之一| 少妇人妻偷人精品免费视频| 国产精品久久久亚洲第一牛牛|