亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于中文維基百科的概念獲取方法研究

        2021-09-16 10:23:14蔡海博戴忠柱
        遼寧師專學報(自然科學版) 2021年3期
        關鍵詞:維基百科分詞顯性

        蔡海博,戴忠柱

        (營口理工學院基礎部,遼寧 營口 115004)

        0 引言

        隨著科技的進步和網(wǎng)絡技術的普及,人們學習知識的途徑趨于多樣化,越來越多的知識出現(xiàn)在網(wǎng)頁文本中.知識是由概念以及概念之間的關系組成的,如何快速自動地獲取知識,首先需要解決的是盡可能多的獲取準確的概念,現(xiàn)在新的概念在網(wǎng)絡中呈爆炸式增長,準確獲取這些概念對人工智能、信息檢索、自然語言問答等領域都起到至關重要的作用.

        文本中蘊含著豐富的語義知識,目前文本知識獲取的研究基礎是概念獲取,概念獲取的數(shù)量和質(zhì)量將決定后續(xù)語義關系的獲取.我們可以快速獲取文本已有的概念,但是如何根據(jù)已有概念獲取文本中暫時未出現(xiàn)的隱性概念則更有研究價值.從文本中獲取盡可能多的概念和語義關系可以幫助計算機構建知識結構,最大限度地理解文本內(nèi)容.由此可見,概念獲取在機器學習、人工智能等領域有廣闊的應用前景.

        維基百科(Wikipedia,簡稱Wiki)是世界上最大的在線百科全書,截至2021年,維基百科共有280種語言版本,包含了5 500多萬頁的定義和描述性信息.其中,中文維基百科共收錄條目120多萬條,涵蓋了生活中各個領域的知識.維基百科條目具有準確性高、半結構化等特點,廣泛應用于信息抽取、信息檢索、知識問答等領域的研究.

        1 相關工作

        概念獲取是知識獲取研究不可逾越的關鍵一步.目前概念獲取研究主要是面向Web語料或者特定領域文本.總的來說,概念獲取的方法可以大體上分為兩類:一種是基于統(tǒng)計的方法,另一種是基于文本語義的方法.

        基于統(tǒng)計的方法主要是利用概念出現(xiàn)的頻數(shù),借助互信息、信息熵、TF-IDF等方法抽取概念.姚建仁[1]提出了一種基于互信息和上下文模式匹配的方法獲取概念,首先對文本進行詞法分析,利用詞的上下文依賴特征實現(xiàn)概念獲取,并且建立了概念獲取和驗證相統(tǒng)一的系統(tǒng).劉磊[2]通過人工總結設定“是一個”上下位關系規(guī)則,借助《同義詞詞林》通過模式匹配的方法從文本中自動獲取下位概念,實驗表明該方法效果較好.

        基于概念語義的方法是通過詞法分析和聚類總結出概念的構詞規(guī)則,設定約束條件獲取概念.顏端武[3]在對航空發(fā)動機領域語料分詞的基礎上進行N元切分,利用基于統(tǒng)計的方法通過設定約束規(guī)則實現(xiàn)自動提取候選領域概念,該方法充分利用了文本語言學的特征,可以有效地獲取概念,但最后驗證概念準確性時需要人工判斷和篩選,有待改進.Gaoying Cui[4]提出利用維基百科的定義句和分類標簽抽取概念,并從70萬維基頁面中抽取出5萬概念,實驗證明該方法準確率達到78.5%.

        2 概念獲取

        本文首先介紹了隱性概念的合成算法,然后利用基于語言學的方法從維基百科中抽取顯性概念,再通過詞法分析和基于統(tǒng)計的方法建立前部構件庫、后部構件庫和候選概念詞構件庫,最后通過基于TF-IDF的改進算法、基于構建特征向量的方法和混合加權方法計算候選概念詞構件的相似度[5],人工設定閾值合成隱性概念擴充至已有概念庫.隱性概念合成算法的具體流程如圖1所示.

        2.1 顯性概念獲取

        概念是人們在學習認知過程中,用于表述某一類事物的特征的詞匯[6].顯性概念是指在文本中已經(jīng)出現(xiàn)并被認為可以描述事物本質(zhì)屬性的詞匯,一般為名詞、動名詞或者形容詞.

        2.1.1 語料庫的獲取及預處理

        由于本文研究的是中文的知識獲取,所以選取中文維基百科語料庫作為研究對象.首先從維基百科官網(wǎng)下載最新的中文維基百科語料庫,并對其進行預處理,步驟如下:

        (1)下載最新語料庫(https://dumps.wikimedia.org/zhwiki/)[7],獲取壓縮包,解壓后該文件為XML文檔(zhwiki-20210731-pages-articles.xml),文件大小為9.5 GB.

        (2)抽取文本.利用Python語言抽取XML文檔正文內(nèi)容[8].

        (3)繁簡轉(zhuǎn)換.使用OpenCC工具化繁為簡,便于后續(xù)詞法分析和概念獲取.

        2.1.2 顯性概念獲取及預處理

        為使后續(xù)隱性概念獲取的召回率和準確率足夠高,需盡可能多地獲取中文維基百科正文中的已有概念,并對其進行預處理,具體步驟如下:

        (1)抽取中文維基百科的所有標題.維基百科中的每一個標題對應一篇文本,這些文本都是經(jīng)過人工編寫并且反復推敲的,所以用其構建初始的顯性概念庫.

        (2)對正文內(nèi)容進行分詞和詞性標注[9],并抽取其中名詞詞匯補充至顯性概念庫.

        (3)對顯性概念庫中的已有概念進行去噪、去重處理.噪聲包括特殊符號、除中文以外的其他語種以及英文音譯的人名.

        經(jīng)過上述步驟后共得到3 076 842個概念,構成中文維基百科語料庫的顯性概念庫.

        2.2 隱性概念詞構件庫的構建

        對顯性概念庫中已有概念的知識挖掘是本文的研究重點,通過分詞和統(tǒng)計的方法,根據(jù)已有概念得到其前部構件庫、后部構件庫和隱性概念詞構件庫,具體步驟如下:

        (1)分詞.利用分詞系統(tǒng)ICTCLAS對已有概念進行分詞處理,選取具有實際意義的詞匯作為候選前部構件和候選后部構件.

        (2)統(tǒng)計.選取候選前部構件庫和候選后部構件庫中出現(xiàn)頻數(shù)≥100的多字詞和名詞詞性的單字構建前部構件庫和后部構件庫.

        (3)將已有概念去除前部構件和后部構件構建隱性概念詞構件庫.

        處理結果見表1.

        表1 前部構件庫和后部構件庫的處理結果 單位:個

        2.3 隱性概念合成

        本文通過3種方法計算隱性概念詞構件之間的相似度,并根據(jù)隱性概念詞構件和前部構件及后部構件的相關度,合成隱性概念,根據(jù)實驗結果選取最優(yōu)方法.

        2.3.1 基于TF-IDF的改進方法

        該方法本質(zhì)上屬于統(tǒng)計方法,若兩個隱性概念詞構件和同一個標題的相關度接近,則認為其相似.首先獲取兩個隱性概念詞構件和同一標題共現(xiàn)的所有語料,由于維基百科半結構化的特點,若隱性概念詞構件出現(xiàn)在定義句的位置,則認為其包含信息比其他位置更重要,故將其權重擴大為原來的3倍.算法具體步驟如下:

        輸入:隱性概念詞構件共現(xiàn)的語料集合

        其中,N為語料集合的總數(shù).

        隱性概念詞構件庫

        其中m為隱性概念詞構件的總數(shù).

        公式(1)用于計算隱性概念詞構件和語料的緊密程度.其中:f1(Ctf,w i)表示隱性概念詞構件w i在語料C t的定義句中出現(xiàn)的次數(shù);f2(Ct,w i)表示隱性概念詞構件w i在語料C t的其他位置中出現(xiàn)的次數(shù).

        公式(2)用于表示隱性概念詞構件的稀缺程度.

        公式(3)用于計算隱性概念詞構件w i和語料C t的相關度.

        公式(4)用于計算隱性概念詞構件之間的相似度.

        2.3.2 基于構建特征向量的方法

        該方法本質(zhì)上屬于基于文本語義的方法,若兩個隱性概念詞構件出現(xiàn)的上下文語境相似,則認為其相似.首先獲取隱性概念詞構件共現(xiàn)的所有語料,對其進行分詞、詞性標注和去重處理,然后利用統(tǒng)計方法選取特征詞構建空間向量模型,最后利用余弦相似度的方法,計算其相似度.具體步驟如下:

        (1)通過分詞、詞性標注和去重處理,篩選出名詞、形容詞和動名詞作為候選特征詞.

        (2)利用統(tǒng)計方法選擇特征詞,并利用《同義詞詞林》擴充特征詞庫.

        (3)構建空間向量模型,將隱性概念詞構件表示為由特征詞出現(xiàn)的頻數(shù)構成的向量.

        (4)計算向量余弦相似度表示隱性概念詞構件之間的相似度sim2.

        2.3.3 混合加權方法

        上述基于TF-IDF的改進方法僅考慮詞頻對結果的影響,而基于構建特征向量的方法僅考慮語境的影響.混合加權方法綜合考慮詞頻和語境,并設定相應的權重,計算隱性概念詞構件之間的相似度.

        公式(5)用于計算隱性概念詞構件之間的相似度.

        3 實驗與分析

        為驗證上述方法的有效性,選取人文、科學、藝術等不同領域的500個顯性概念進行驗證,考慮到實驗的運行效率,僅對前部構件進行處理.由于實驗合成的隱性概念數(shù)量較大,因此采用網(wǎng)絡驗證的方法驗證合成的隱性概念的準確性,即利用搜索引擎搜索合成的隱性概念,若該概念出現(xiàn)的頻數(shù)超過一定閾值,則認為該隱性概念是正確的.

        3.1 基于TF-IDF的改進方法

        根據(jù)上述2.3.1中的方法,計算隱性概念詞構件之間的相似度,并設定隱性概念詞構件相似度閾值為θ1,隱形概念詞構件和前部構件的相關度為θ2,超過閾值則可以合成隱性概念,僅考慮θ1取不同值時的實驗結果如圖2所示.

        由圖2可以看出,合成隱性概念的個數(shù)隨著θ1取值的增大不斷減少,經(jīng)網(wǎng)絡驗證,當θ1=0.75時,合成隱性概念的準確率相對較高,但是由于沒有考慮θ2的取值,準確率僅為37%.確定θ1的值后,由實驗結果可知,當θ2=0.5時準確率最高,可以達到54%.分析可得,僅僅考慮詞頻,效果不太理想.

        3.2 基于構建特征向量的方法

        由圖2可知,當θ1取值較大時,合成的隱性概念準確率較高,所以本次實驗選取θ1和θ2的值相對較大,實驗結果如表2所示.

        由表2可知,當θ1和θ2取值越大,合成的隱性概念個數(shù)越少,經(jīng)網(wǎng)絡驗證當θ1=0.75,θ2=0.5時,準確率最高,達到75%.可見概念的上下文語境要比詞頻的貢獻更大.

        表2 基于構建特征向量方法合成隱性概念結果表

        3.3 混合加權方法

        上述兩次實驗結果顯示,當θ1=0.75時,效果相對較好.根據(jù)上述2.3.3中的方法,當α和θ2取不同的值時,合成的隱性概念結果如表3所示.

        表3 基于混合加權方法合成隱性概念結果表

        經(jīng)網(wǎng)絡驗證,當α=0.4,θ1=0.75,θ2=0.5時準確率最高,達到82%,由此可見,綜合考慮概念的詞頻和上下文語義信息,合成的隱性概念效果更好.

        4 結語

        本文主要研究了隱性概念的合成問題,首先利用分詞和統(tǒng)計的方法獲取維基百科中的顯性概念,然后利用構詞特征構建前部構件庫、后部構件庫和隱性概念詞構件庫.經(jīng)過計算隱性概念詞構件之間的相似度及隱性概念詞構件和前后部構件的相關度,合成隱性概念,實驗結果顯示可以有效擴充已知概念庫[10],但仍有以下不足需要考慮:

        (1)由于本文使用分詞工具比較頻繁,因此分詞和詞性標注結果的準確性對實驗結果有一定的影響,可知實現(xiàn)更加準確的分詞方法也是以后待研究的工作.

        (2)網(wǎng)絡驗證的準確性會有誤差[11],本文判斷概念正確與否的標準是概念是否在搜索引擎中以超過一定的頻數(shù)出現(xiàn),但是有些概念可能暫時沒有在互聯(lián)網(wǎng)中出現(xiàn),經(jīng)過人工判斷后可能是正確的概念,比如“哈密頓望遠鏡”、“水利縣”、“爆炸系數(shù)”等.

        猜你喜歡
        維基百科分詞顯性
        維基百科影響司法
        英語世界(2023年10期)2023-11-17 09:18:46
        維基百科青年
        英語文摘(2021年8期)2021-11-02 07:17:46
        結巴分詞在詞云中的應用
        智富時代(2019年6期)2019-07-24 10:33:16
        顯性激勵與隱性激勵對管理績效的影響
        消費導刊(2017年24期)2018-01-31 01:29:31
        社會權顯性入憲之思考
        值得重視的分詞的特殊用法
        APP
        顯性的寫作,隱性的積累——淺談學生寫作動力的激發(fā)和培養(yǎng)
        中學語文(2015年27期)2015-03-01 03:53:28
        意識形態(tài)教育中的顯性灌輸與隱性滲透
        IBM的監(jiān)視
        意林(2014年2期)2014-02-11 11:09:17
        丰满大爆乳波霸奶| 大香蕉久久精品一区二区字幕| 国产福利一区二区三区在线观看| 人妻诱惑中文字幕在线视频| 久久精品国产久精国产| 亚洲美女影院| 青春草在线观看免费视频| 国产亚洲精品色婷婷97久久久| 我把护士日出水了视频90分钟 | 国产又黄又爽视频| 亚洲人妖女同在线播放| 在线观看日本一区二区三区四区| 国内精品视频在线播放不卡| 亚洲一区综合精品狠狠爱| 在线看片免费人成视久网不卡| 在线视频国产91自拍| 精品国产一区二区三区av片| 国产成人综合久久久久久| 亚洲国产精品成人一区二区三区| 日日碰狠狠添天天爽超碰97久久| 亚洲av永久无码精品国产精品| 日韩av二区三区一区| 中文字幕在线乱码日本| 一本一道人人妻人人妻αv| 狠狠爱无码一区二区三区| 青青草针对华人超碰在线| 91九色人妻精品一区二区三区| 国产精品ⅴ无码大片在线看| 在线精品无码一区二区三区| 少妇性l交大片免费1一少| 中文字幕在线观看| 欧美精品偷自拍另类在线观看| 精品丝袜一区二区三区性色| 白浆国产精品一区二区| 欧美大肥婆大肥bbbbb| 日本少妇被爽到高潮的免费| 黄片国产一区二区三区| 人妻体内射精一区二区三四| 欧美性猛交xxxx乱大交蜜桃| 东京热东京道日韩av| 亚洲国产精品成人久久|