亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        概念圖構(gòu)建中概念術(shù)語自動提取的研究與實現(xiàn)

        2012-07-25 11:06:40孫珠婷顧倩頤
        計算機工程與設(shè)計 2012年7期
        關(guān)鍵詞:概念特征文本

        孫珠婷,顧倩頤,2+

        (1.四川師范大學(xué) 計算機科學(xué)學(xué)院,四川 成都610101;2.可視化計算與虛擬現(xiàn)實四川省重點實驗室,四川 成都610068)

        0 引 言

        概念圖作為一種知識表示和知識組織的工具已經(jīng)應(yīng)用到商業(yè)、政府、國防等方面,并被引入到知識管理領(lǐng)域,用以支持知識提取、知識組織、知識評價等活動的完成[1-2]。概念圖的構(gòu)建主要包括領(lǐng)域概念術(shù)語的自動化提取、概念關(guān)系的自動抽取。因此,概念術(shù)語的自動提取是概念圖構(gòu)建的基礎(chǔ),并且該提取的準確率直接影響了概念關(guān)系的確定。目前,概念術(shù)語的提取往往是由領(lǐng)域?qū)<一蛳嚓P(guān)研究人員手工構(gòu)建完成,顯然這種通過人工提取概念術(shù)語的方式存在著一定的局限性:建立一個準確、完整的領(lǐng)域概念圖必須由該知識領(lǐng)域的教學(xué)專家們投入大量的時間和精力來完成概念的提取。

        當前,網(wǎng)絡(luò)資源因其豐富、實時及便捷的特性已使其成為人們獲取信息的主要來源。因此,如何降低概念圖構(gòu)建過程中的人力復(fù)雜度,從網(wǎng)絡(luò)資源中自動挖掘各領(lǐng)域概念術(shù)語,并提高其準確度已經(jīng)成為人們迫切需要解決的問題。

        1 相關(guān)研究

        目前國內(nèi)一些學(xué)者對于概念圖的構(gòu)建已提出各自的方法。并在一定程度上緩解概念圖的手工構(gòu)建問題。如Chen等運用文本挖掘技術(shù)從文獻中自動生成了電子學(xué)習(xí)領(lǐng)域的概念圖[3],其中概念來源于文獻的關(guān)鍵詞。該方法存在兩個問題,一是僅得到電子學(xué)習(xí)該領(lǐng)域的概念術(shù)語,不能用于獲取其它領(lǐng)域概念術(shù)語,導(dǎo)致概念圖的構(gòu)建存在領(lǐng)域固定化;二是由于文獻中的關(guān)鍵詞往往帶有作者的主觀性,并非都是概念術(shù)語。張會平等在構(gòu)建概念圖過程中概念術(shù)語來源于文獻數(shù)據(jù)庫中頻率最高的關(guān)鍵詞[4],由于該方法沒有過濾概念術(shù)語中的同義詞、多義詞,因而容易出現(xiàn)概念冗余現(xiàn)象。并且文獻數(shù)據(jù)庫是通過人工獲取。吳江寧等在提出基于主題地圖的多層次文獻組織模型 (TMDOM)的過程中,概念術(shù)語則需要手動給出[5]。

        根據(jù)筆者收集的文獻來看,領(lǐng)域概念術(shù)語的提取主要存在兩個問題:一是僅提取某領(lǐng)域概念術(shù)語,且大多來源于人工獲取的文獻數(shù)據(jù)庫;二是領(lǐng)域概念術(shù)語的提取過于粗糙導(dǎo)致存在冗余概念。容易導(dǎo)致概念關(guān)系確定時出現(xiàn)冗余及混亂的現(xiàn)象。基于此,本文利用網(wǎng)絡(luò)爬蟲技術(shù)爬取指定領(lǐng)域?qū)W科站點下的大量文本資源,提取特征項并運用潛在語義潛在語義分析(LSA)挖掘出特征項與文本之間的潛在語義結(jié)構(gòu),同時消除噪音和冗余數(shù)據(jù),并提高概念術(shù)語提取的準確率。

        2 概念術(shù)語提取方法

        結(jié)合網(wǎng)絡(luò)爬蟲技術(shù)和LSA的領(lǐng)域概念術(shù)語自動提取分為4個步驟:①利用網(wǎng)絡(luò)爬蟲技術(shù)獲取領(lǐng)域文本資源;②文本預(yù)處理;③特征項提??;④概念術(shù)語挖掘,利用LSA提取無冗余且更準確的概念術(shù)語。如圖1所示。

        圖1 概念術(shù)語提取流程

        2.1 領(lǐng)域文本資源獲取

        2.1.1 指定站點資源鏈接獲取

        通過調(diào)研的方式獲取某學(xué)科領(lǐng)域的專業(yè)網(wǎng)站網(wǎng)址,通過調(diào)用Jsoup包解析并實現(xiàn)爬取指定站點 (可多個站點)中指定深度的鏈接。

        2.1.2 解析所有獲取的鏈接當中的正文

        采用DOM[6]樹解析模式,利用超鏈接密度法為主要判斷依據(jù)的標記窗算法。具體步驟如下:

        步驟1 解析出符合HTML語法規(guī)則的字符串,使用其構(gòu)造一個w3c的Document對象,并利用該對象構(gòu)造一個文本抽取器。

        步驟2 運用該文本抽取器尋找對該網(wǎng)頁貢獻最大 (權(quán)重最大)的節(jié)點標簽。

        定義1tT為HTML全文的純文本長度,tA為超鏈接文字數(shù),tI為總信息節(jié)點個數(shù),t為該標簽節(jié)點包含有效文本長度,at為錨文本長度,i為信息節(jié)點個數(shù)。w為該標簽節(jié)點的權(quán)重,其權(quán)重計算公式可表示為式 (1),且表1為各個變量及函數(shù)的說明

        表1 各變量及函數(shù)說明

        步驟3 構(gòu)造一個段落分解器。

        定義2 段落是介于篇章和句子之間的文字塊,每個文字塊因為對文檔的貢獻不同而可以被賦予不同的值,稱之為權(quán)重。

        定義3 M為權(quán)重最大的標簽的半HTML文本,T為全文的半HTML文本。以M為中心,把T分成三段A、M及B,其基準分依次為0.1、0.3及0.1,通過分解T的每一行,并把殘存的視覺標簽轉(zhuǎn)化成得分,累加到主題的分里,合并權(quán)重相同的段落。最后選取權(quán)重大于一定閥值的段落合并形成該網(wǎng)頁的正文,閥值一般取0.2或0.3。用戶可根據(jù)不同網(wǎng)站選擇不同閥值,獲取相對準確的網(wǎng)頁正文。

        2.2 文本預(yù)處理及特征項提取

        本文采用中國科學(xué)院計算技術(shù)的漢語詞法分析系統(tǒng)ICTCLAS進行無詞典分詞。并把相鄰且共現(xiàn)頻率高的被切分的詞匯重新合并成新詞[7],詞性設(shè)為new。過濾并保留名詞、動詞及詞性為new的新詞。接著,采用TFIDF[8]算法進行特征項提取。

        2.3 概念術(shù)語提取

        以往的研究表明,粗糙地以特征項表示概念術(shù)語往往出現(xiàn)準確率不高和冗余概念等問題?;诖耍疚倪\用LSA方法對特征項進行去噪除雜,提取概念術(shù)語。LSA的基礎(chǔ)是向量空間模型,即LSA是VSM的一種擴展。

        2.3.1 向量空間模型 (VSM)[9]

        VSM是把文本內(nèi)容簡化為特征項及其權(quán)重的向量表示。

        定義4D為一領(lǐng)域文本集,則F(Di)= (Wi1,Wi1,…,Wim)稱為文本i中的特征向量,Wij表示第i個特征項在Dj中的權(quán)重值。

        定義5T為D的特征項集,若ti∈T(1≤i≤m),dj∈D(1≤j≤n),則VSM矩陣可表示為Vm×n=Wij。

        2.3.2 潛在語義分析 (LSA)

        LSA的基礎(chǔ)是Vm×n。將該矩陣進行奇異值分解,得到潛在語義結(jié)構(gòu)模型[10]。如圖2所示。

        圖2 三維-潛在語義分析空間示例[10]

        上圖可知LSA把特征項和文本以向量的形式處于同一空間用于計算它們之間的相關(guān)性。

        下面討論LSA進行奇異值分解過程:

        對于任何一個矩陣X,如特征項/文本矩陣,都可以分解為式 (2)

        T和S分別是X的奇異向量,而S是X的奇異值的對角矩陣,S=diag(λ1,λ2,λ3,......,λm)。r是X的秩。

        接著,LSA通過尋找X的k-秩近似矩陣,即k<<r,使得在保留特向量之間的潛在語義關(guān)系的同時能夠?qū)崿F(xiàn)降維,大大減少計算量。這里k的取值可描述為:由于LSA把詞向量和文本向量處于一個空間中,k的取值不斷變化導(dǎo)致向量在空間中不停的旋轉(zhuǎn),使得當旋轉(zhuǎn)角度達到某個值時向量之間的距離最理想、最合理,這時k的值即最優(yōu)值。因此,k不宜過大或過小。文獻 [10]利用矩陣空間的壓縮率來選取k值。通過計算

        然后選擇k使得≥θ,其中θ根據(jù)情況選擇,如65%,70%,85%等。

        確定k值后,得到X的k-秩近似矩陣X′,如式 (4)

        2.3.3 消除同義詞

        通過式 (3)計算特征項的貢獻值,構(gòu)建特征項關(guān)聯(lián)矩陣,并利用余弦距離公式尋找相似特征組并消除冗余特征項。下面對主要概念進行定義:

        定義6rij表示第ti在Dj中的關(guān)聯(lián)值,rij=X′ij,則貢獻值Ri=ri1+ri2+…+rin。

        定義7 設(shè)m為特征項數(shù)目,則特征項關(guān)聯(lián)矩陣為Um×m,Uij為ti和tj的余弦距離。

        定義8 -ti∈T,ta,tb,…,tm∈T,若滿足Uia,Uia,…,Uia>0.9,則gi=﹛ta,tb,…,tm﹜,稱gi為ti的相似特征組;若滿足Ri=Max﹛Ri,Ra,Rb,…,Rm﹜,則gi=﹛ti﹜。

        3 實驗測試與分析

        實驗測試過程由領(lǐng)域文本資源獲取、文本預(yù)處理及特征項提取及概念術(shù)語提取構(gòu)成。

        3.1 領(lǐng)域文本資源獲取

        筆者通過調(diào)研獲得6個領(lǐng)域的專業(yè)網(wǎng)址,爬取深度為1的鏈接,并從中提取網(wǎng)頁正文。為了驗證該方法的實際效果,這里通過與人工提取的正文內(nèi)容做比較分析。實驗結(jié)果見表2。

        表2 文本資源獲取實驗結(jié)果

        這里,起始站點更具體可能會提高文本資源獲取的有效率,同時爬取深度也可能影響獲取結(jié)果。

        3.2 文本預(yù)處理及特征項提取

        這里以教育技術(shù)領(lǐng)域為例。首先下載復(fù)旦大學(xué)公開的中文文本分類語料庫作為背景語料集,該庫包含20個領(lǐng)域,共9878篇文獻,以爬取得到的100篇教育技術(shù)領(lǐng)域的文獻作為領(lǐng)域文本集。以合并的新詞作為用戶詞典,采用中科院的ICTCLAS用戶詞典分詞方法進行分詞。采用中文停用詞表 (含1208個停用詞)過濾并保留名詞和詞性為new的新詞,運用TFIDF算法計算詞語權(quán)重,并選取前220個特征項。

        3.3 領(lǐng)域概念術(shù)語提取

        (1)構(gòu)建X矩陣,行為特征項 (220),列為文本(100),TFIDF值作為矩陣元素。

        (2)LSA對X進行奇異值分解,這里X的秩為99,k值取9,得到X的k-秩近似矩陣X′。

        (3)利用余弦距離 (取絕對值)公式構(gòu)建特征項關(guān)聯(lián)矩陣Um×m。矩陣元素表示特征項之間的相似度,部分矩陣實驗結(jié)果見表3。

        表3 部分LSA特征項關(guān)聯(lián)矩陣

        從表3的第一列可得,與 “網(wǎng)絡(luò)教學(xué)”的相似度大于0.9的特征項有 “遠程教育”、“網(wǎng)絡(luò)教育”及 “遠程教學(xué)”。這里把這4個特征項稱為一個相似特征組。

        下面以表3中的10個特征項 (近似權(quán)重值為3以上)作為測試集,實驗結(jié)果如圖3所示。

        圖3 測試特征項集的概念術(shù)語提取

        由圖3可得 “網(wǎng)絡(luò)教學(xué)”為表3相似特征組中貢獻值最大的特征項,這里,消除該組其它特征項。最后得出貢獻值為3以上的特征項形成該測試集的概念術(shù)語。從圖3可看出,LSA方法能夠消除相似特征項,去除冗余概念,同時可以過濾 “電子刊物”、“康復(fù)醫(yī)學(xué)”等非教育技術(shù)領(lǐng)域概念,提高概念術(shù)語提取的準確率。

        4 結(jié)束語

        結(jié)合網(wǎng)絡(luò)爬蟲技術(shù)和LSA方法進行領(lǐng)域概念術(shù)語自動提取。由實驗結(jié)果可看出,利用網(wǎng)絡(luò)爬蟲技術(shù)可以自動獲取有效領(lǐng)域文本資源,避免了文本資源來源的領(lǐng)域固定化、手工化等問題;采用LSA的方法可以提高領(lǐng)域概念術(shù)語提取的準確率并消除冗余概念。但是,領(lǐng)域文本集規(guī)模和測試集過小,可能會影響實驗結(jié)果。這里,筆者認為若能在特征項提取的過程中利用TFIDF結(jié)合其它特征提取算法,如互信息、相對熵及x2統(tǒng)計量等,并綜合考慮其它重要因素,相信結(jié)果會有更進一步的提高。

        [1]MA Fei-cheng,HAO Jin-xing.Applications of concept maps in knowledge representation and knowledge evaluation(I) [J].Journal of Library Science in China,2006,32 (3):5-9 (in Chinese).[馬費成,郝金星.概念地圖在知識表示和知識評價中的應(yīng)用 (I)——概念地圖的基本內(nèi)涵 [J].中國圖書館學(xué)報,2006,32 (3):5-9.]

        [2]ZHANG Hui-ping,ZHOU Ning,CHEN Yong-yue.Research on application of concept map in knowledge organization [J].Information Science,2007,25 (10):1570-1574 (in Chinese).[張會平,周寧,陳勇躍.概念圖在知識組織中的應(yīng)用研究 [J].情報科學(xué),2007,25 (10):1570-1574.]

        [3]Chen Nian-Shing,Kinshuk,Wei Chun-wang,et al.Mining e-learning domain concept map from academic articles [C].Proceedings of the Sixth IEEE International Conference on Advanced Learning Technologies,2006:694-698

        [4]ZHANG Hui-ping,ZHOU Ning.Research on the autoconstruction of the term co-occurrence-based concept map [J].Information Studies:Theory & Application,2008 (6):928-930(in Chinese).[張會平,周寧.基于詞共現(xiàn)的概念圖自動構(gòu)建研究 [J].情報理論與實踐,2008 (6):929-903.]

        [5] WU Jiang-ning,TIAN Hai-yan.Study of document organization method based on topic map [J].Journal of the China Society for Scientific and Technical Information,2007,26 (3):323-331 (in Chinese).[吳江寧,田海燕.基于主題地圖的文獻組織方法研究 [J].情報學(xué)報,2007,26 (3):323-331.]

        [6]ZHAO Xin-xin,SUO Hong-guang,LIU Yu-shu.Web content information extraction method based on tag window [J].Application Research of Computers,2007,24 (3):144-146 (in Chinese).[趙欣欣,索紅光,劉玉樹.基于標記窗的網(wǎng)頁正文信息提取方法[J].計算機應(yīng)用研究,2007,24 (3):144-146.]

        [7]LI Xiao-h(huán)ong.Feature extraction methods for Chinese text classification [J].Computer Engineering and Design,2009,30 (17):4127-4129(in Chinese).[李曉紅.中文文本分類中的特征詞抽取方法[J].計算機工程與設(shè)計,2009,30 (17):4127-4129.]

        [8]WANG Mei-fang,LIU Pei-yu,ZHU Zhen-fang.Feature selection method based on TFIDF [J].Computer Engineering and Design,2007,28 (23):5795-5799 (in Chinese). [王美方,劉培玉,朱振方.基于TFIDF的特征選擇方法 [J]計算機工程與設(shè)計,2007,28 (23):5795-5799.]

        [9]HU Xiao,WANG Li,PAN Shou-h(huán)ui.Web text classification approach based on improved VSM [J].Journal of Intelligence,2010,29(5):144-147 (in Chinese).[胡曉,王理,潘守慧.基于改進 VSM的 Web文本分類方法 [J].情報雜志,2010,29 (5):144-147.]

        [10]XU Wen-h(huán)ai.Model and mapping algorithm of transformation from text cell to knowledge cell[D].Shaanxi:Xidian University,2008:1-63(in Chinese).[徐文海.文本單元向知識單元轉(zhuǎn)化的模型與映射算法 [D].陜西:西安電子科技大學(xué),2008:1-63.]

        猜你喜歡
        概念特征文本
        Birdie Cup Coffee豐盛里概念店
        幾樣概念店
        如何表達“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        學(xué)習(xí)集合概念『四步走』
        聚焦集合的概念及應(yīng)用
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        久久精品国产亚洲av麻豆床戏| 久久精品国产亚洲不av麻豆| 3亚洲日韩在线精品区| 国产一区二区三区护士| 亚洲精品无码永久中文字幕| 国产麻豆md传媒视频| 亚洲AV毛片无码成人区httP | 极品美女尤物嫩模啪啪| 中文国产乱码在线人妻一区二区| 亚洲精品无码专区| 色综合无码av网站| 狠狠躁夜夜躁人人爽天天不卡| 国产精品亚洲综合久久| 中文字幕亚洲精品无码| 欧美午夜精品久久久久久浪潮| 精品系列无码一区二区三区| 九七青青草视频在线观看| 精品偷拍被偷拍在线观看| 女人被做到高潮免费视频| 久久综合一本中文字幕| 久久综合九色综合97婷婷| 亚洲精品www久久久| 久久天天爽夜夜摸| 中文字幕一区二区三区四区久久| 成人影院在线视频免费观看| 免费精品一区二区三区第35| 精品国偷自产在线不卡短视频 | 日本精品视频一视频高清| 亚洲av乱码国产精品观| 日本丰满熟妇videossex一| 亚洲一区爱区精品无码| 日本一区二区三区的免费视频观看 | 中国农村熟妇性视频| 妺妺窝人体色www聚色窝韩国| 最新国产精品国产三级国产av| 在线观看av片永久免费| 久草热8精品视频在线观看| 美腿丝袜一区二区三区| 亚洲色图三级在线观看| 夜先锋av资源网站| 浪荡少妇一区二区三区|