亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文學(xué)科術(shù)語相關(guān)語義關(guān)系獲取方法研究

        2017-06-05 09:35:35朱惠楊建林王昊
        圖書與情報 2017年2期
        關(guān)鍵詞:關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘

        朱惠+楊建林+王昊

        (1.南京大學(xué)信息管理學(xué)院 江蘇南京 210023)

        (2.江蘇省數(shù)據(jù)工程與知識服務(wù)重點實驗室 江蘇南京 210023)

        摘 要:文章對中文非結(jié)構(gòu)化文本中(半)自動獲取學(xué)科術(shù)語的相關(guān)語義關(guān)系進行了探討,以尋找行之有效的獲取方法。從CNKI獲取“數(shù)字圖書館”學(xué)科領(lǐng)域文獻,通過術(shù)語抽取、動詞抽取、向量空間模型構(gòu)建、雙重關(guān)聯(lián)規(guī)則分析和規(guī)則評價獲得了具有較強關(guān)聯(lián)的術(shù)語對以及作為關(guān)聯(lián)標簽的動詞,從而獲取了學(xué)科術(shù)語的相關(guān)語義關(guān)系。該獲取方法與其他方法相比,具有較高的可行性和有效性,并對術(shù)語的相關(guān)語義關(guān)系進行了有效性和實用性的評價,提高了獲取的準確率。但文章也存在一定的局限性,在對術(shù)語相關(guān)語義關(guān)系的有效性和實用性進行評價時,指標的選擇和閾值的確定存在人工干預(yù),具有一定的主觀性。

        關(guān)鍵詞:學(xué)科術(shù)語;相關(guān)語義關(guān)系;數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;規(guī)則評價

        中圖分類號: G202 文獻標識碼: A DOI:10.11968/tsyqb.1003-6938.2017041

        1 引言

        學(xué)科術(shù)語的語義關(guān)系總體上可分為兩大類:分類語義關(guān)系(層次語義關(guān)系)和非分類語義關(guān)系,本文將非分類語義關(guān)系稱為相關(guān)語義關(guān)系。層次語義關(guān)系和相關(guān)語義關(guān)系均是學(xué)科知識本體的重要組成部分,它們將學(xué)科術(shù)語按照語義關(guān)系進行組織,為學(xué)科知識的搜索、重用及進一步理解提供條件[1]。在文獻[1]中,作者對如何借助知識自動獲取方法和技術(shù)獲得領(lǐng)域術(shù)語的層次語義關(guān)系進行了研究,本文將探討如何從中文非結(jié)構(gòu)化文本中(半)自動獲得學(xué)科術(shù)語的相關(guān)語義關(guān)系。

        相較于層次語義關(guān)系,相關(guān)語義關(guān)系的獲取更為困難,目前國內(nèi)外對此的研究也較少,常用的獲取相關(guān)語義關(guān)系的方法之一是普通關(guān)聯(lián)規(guī)則分析。該方法能獲取術(shù)語的相關(guān)語義關(guān)系,但只能獲得具有相關(guān)語義關(guān)系的術(shù)語對,而不能獲得關(guān)系的標簽[2]。

        本文將術(shù)語的相關(guān)語義關(guān)系限定為<術(shù)語1-動詞-術(shù)語2>的三元組關(guān)系,試圖在建立句子-術(shù)語向量空間模型和句子-<術(shù)語,動詞>向量空間模型的基礎(chǔ)上,引入雙重關(guān)聯(lián)規(guī)則分析以及規(guī)則評價,由此形成一種從中文非結(jié)構(gòu)化文本獲取學(xué)科術(shù)語相關(guān)語義關(guān)系的具體方法。雙重關(guān)聯(lián)規(guī)則分析還沒被發(fā)現(xiàn)應(yīng)用在學(xué)科術(shù)語相關(guān)語義關(guān)系的獲取中,因此,本文嘗試引入該方法獲得術(shù)語的相關(guān)語義關(guān)系,并借助相關(guān)指標來評價規(guī)則的有效性和實用性。

        2 相關(guān)研究

        國內(nèi)外有學(xué)者對基于非結(jié)構(gòu)化文本獲取術(shù)語的相關(guān)語義關(guān)系進行了研究。如David等[3]提出了一個自動的、無監(jiān)督的獲取概念相關(guān)語義關(guān)系的方法,該方法從網(wǎng)絡(luò)文本提取術(shù)語的相關(guān)語義關(guān)系,并通過與Wordnet進行比較驗證方法的有效性;J. Villaverde等[4]對領(lǐng)域文本語料庫進行分析,抽取連接概念對的動詞,并將這一技術(shù)集成到了本體構(gòu)建的過程中;Albert等[5]通過集成類似DBpedia這樣的外部知識源到本體學(xué)習(xí)系統(tǒng)中獲得相關(guān)語義關(guān)系的標簽。該方法應(yīng)用了語義推理和驗證,使得獲取的相關(guān)語義關(guān)系質(zhì)量較高;Mei Kuan Wong等[6]提出基于一種多步驟相關(guān)研究框架從非結(jié)構(gòu)化文本中獲取術(shù)語的相關(guān)語義關(guān)系;Ivo Serra等[7]采用兩個過程對獲取概念相關(guān)語義關(guān)系的多種技術(shù)和方法進行了評價,并在生物學(xué)領(lǐng)域語料庫和法律領(lǐng)域語料庫中進行了驗證;Martin等使用擴展的關(guān)聯(lián)規(guī)則獲取術(shù)語的相關(guān)語義關(guān)系以及給出了關(guān)系的標簽,并且基于已有語義標注的語料庫對方法進行了評估[8]。

        董麗麗等[9]首先通過關(guān)聯(lián)規(guī)則抽取特定領(lǐng)域術(shù)語對,接著抽取術(shù)語對之間的高頻動詞,將它們作為候選相關(guān)語義關(guān)系標簽,然后運用VF×ICF度量方法確定相關(guān)語義關(guān)系的標簽;古凌嵐等[10]運用語義角色標注和依存語法分析獲取文本句子的語義依存結(jié)構(gòu),提取出具有語義依存關(guān)系的動詞框架,通過語義相似度計算發(fā)現(xiàn)動詞框架中術(shù)語間的相關(guān)語義關(guān)系和關(guān)系標簽;邱桃榮等[11]通過分析概念粒的上下文,構(gòu)建了基于不同領(lǐng)域概念粒度空間的概念粒交叉關(guān)系學(xué)習(xí)模型,有利于實現(xiàn)領(lǐng)域本體相關(guān)語義關(guān)系的獲?。煌跫t等[12]提出了基于NNV(名詞-名詞-動詞)的關(guān)聯(lián)規(guī)則獲取術(shù)語相關(guān)語義關(guān)系及其標簽的方法;張立國等[13]對語料進行詞性標注和語義分析,得到具有語義依存關(guān)系的動詞框架,然后再計算句子的相似度,抽取出術(shù)語的相關(guān)語義關(guān)系并給出關(guān)系的標簽;谷俊等[14]在關(guān)聯(lián)規(guī)則中加入謂語動詞進行相關(guān)計算,結(jié)合搜索引擎技術(shù)抽取候選相關(guān)語義關(guān)系,在此基礎(chǔ)上對置信度和支持度進行對比分析,抽取出最終的相關(guān)語義關(guān)系。

        綜上可知,國內(nèi)外學(xué)者嘗試通過關(guān)聯(lián)規(guī)則分析、語義依存分析等來獲取術(shù)語的相關(guān)語義關(guān)系,而關(guān)聯(lián)規(guī)則分析的應(yīng)用又較多。作為相關(guān)語義關(guān)系標簽的動詞的獲取還沒有形成有效統(tǒng)一的方法。此外,上述方法對于所獲規(guī)則的有效性和實用性并沒有進行評價。

        本文將構(gòu)建句子×術(shù)語向量空間模型、句子×<術(shù)語,動詞>向量空間模型,進行二重關(guān)聯(lián)規(guī)則分析以獲取具有相關(guān)語義關(guān)系的術(shù)語對以及語義關(guān)系的標簽。在進行關(guān)聯(lián)規(guī)則分析的過程中,引入一系列指標來控制規(guī)則的有效性和實用性,從而提高術(shù)語相關(guān)語義關(guān)系獲取的質(zhì)量。

        3 學(xué)科術(shù)語相關(guān)語義關(guān)系獲取方法

        本文重點探討基于雙重關(guān)聯(lián)規(guī)則分析和規(guī)則評價從非結(jié)構(gòu)化文本獲取術(shù)語相關(guān)語義關(guān)系的方法和過程,這里的非結(jié)構(gòu)化文本由學(xué)科期刊論文的標題、摘要和關(guān)鍵詞構(gòu)成,獲取思路和方法(見圖1)。

        3.1 術(shù)語抽取

        科研人員是學(xué)科術(shù)語動態(tài)變化過程的直接參與者和見證者,他們撰寫的科研文獻記載了學(xué)科的動態(tài)發(fā)展過程,文獻中的關(guān)鍵詞則是學(xué)科研究內(nèi)容的凝練,因此,可以從科研文獻的關(guān)鍵詞中抽取學(xué)科術(shù)語。

        但筆者給出的關(guān)鍵詞具有較大的隨意性、不一致性以及誤差性,因此,有必要首先對這些候選術(shù)語進行統(tǒng)一規(guī)范,以符合同一概念的術(shù)語唯一化。

        學(xué)科術(shù)語是專業(yè)詞匯,必須具有一定的學(xué)科認可度,因此,本文采用關(guān)鍵詞在所有文檔中出現(xiàn)的頻數(shù)Nk作為篩選條件,即若:

        Nk≥ C (1)

        則認為該關(guān)鍵詞被學(xué)科普遍認可,可作為該學(xué)科的術(shù)語,其中C為詞頻閾值[1]。

        3.2 相關(guān)語義關(guān)系術(shù)語對抽取

        以非結(jié)構(gòu)化文本中的摘要作為研究語料,將其切分成句子,進行詞性標注分詞,構(gòu)建句子×術(shù)語向量空間模型。運用關(guān)聯(lián)規(guī)則分析獲取具有相關(guān)語義關(guān)系的學(xué)科術(shù)語對。在獲取過程中,要注意規(guī)則的有效性和實用性,本文將借助規(guī)則置信度、規(guī)則支持度、規(guī)則提升度、置信率、正態(tài)卡方、信息差這些指標對獲得的規(guī)則進行有效性和實用性的評價[15]244-249。

        把所有句子看成是事務(wù)集,而每個句子中包含的術(shù)語則是該事務(wù)所包含的項目。如果術(shù)語1(X)與術(shù)語2(Y)在整個事務(wù)集中具有一定的共現(xiàn)次數(shù),且術(shù)語2在術(shù)語1出現(xiàn)的情況下出現(xiàn)了較多次,則認為這樣的兩個術(shù)語具有有效的關(guān)聯(lián)關(guān)系。這里引入評價關(guān)聯(lián)規(guī)則有效性的指標:規(guī)則置信度CX→Y和規(guī)則支持度SX→Y。

        進一步,針對具有有效關(guān)聯(lián)關(guān)系的術(shù)語1與術(shù)語2:

        (1)如果術(shù)語2在術(shù)語1中出現(xiàn)的密集程度比它在整個事務(wù)集中出現(xiàn)的密集程度還要大,則認為術(shù)語1與術(shù)語2間的關(guān)聯(lián)關(guān)系不僅有效,而且具有實際意義,即具備實用性。這里引入評價關(guān)聯(lián)規(guī)則實用性的指標:規(guī)則提升度(Lift)和置信率(R)。當(dāng)Lift大于1時,Lift越大,關(guān)聯(lián)越強。R越大,關(guān)聯(lián)越強。

        (2)構(gòu)建術(shù)語1和術(shù)語2的二維隨機變量(X,Y),從而計算X與Y之間的統(tǒng)計相關(guān)性,如果統(tǒng)計相關(guān)性高于某個數(shù)值,則認為術(shù)語1與術(shù)語2間的關(guān)聯(lián)關(guān)系不僅有效,而且具備實用性。這里引入評價關(guān)聯(lián)規(guī)則實用性的指標:正態(tài)卡方(N)。N越接近1,關(guān)聯(lián)越強,N越接近0,關(guān)聯(lián)越弱。

        (3)對于上述(2)中的二維隨機變量(X,Y),計算X與Y獨立情況下(X,Y)概率分布的信息熵Ent1、(X,Y)實際概率分布的信息熵Ent2,求差E = Ent1- Ent2,如果E大于某個數(shù)值,則認為術(shù)語1與術(shù)語2間的關(guān)聯(lián)關(guān)系不僅有效,而且具備實用性。這里引入評價關(guān)聯(lián)規(guī)則實用性的指標:信息差(E)。E越大,關(guān)聯(lián)越強。

        3.3 動詞抽取

        在自然語言處理領(lǐng)域,一般認為,動詞是句子中最能表達關(guān)系的信息?;谶@樣的認識,動詞可以用來作為標記同一句子中術(shù)語間相關(guān)語義關(guān)系的標簽,形成<術(shù)語1-動詞-術(shù)語2>這樣的三元組關(guān)系,如<數(shù)字圖書館-構(gòu)建-數(shù)字空間>、<專家系統(tǒng)-組織-知識>。利用NLPIR中文分詞工具對句子語料進行詞性標注分詞,抽取其中的動詞;然后對這些動詞進行停用詞處理、單字詞匯處理以及基于VF-ICF(Verb Frequency-Inverse Concept Frequency)指標的篩選,從而獲得學(xué)科動詞。

        VF-ICF是類似于TF-IDF的概念,它的作用也與TF-IDF類似[16]。TF-IDF主要用來度量詞匯在文檔集中的重要性。VF-ICF則主要用來度量動詞在概念對或術(shù)語對中的重要性,那些出現(xiàn)頻數(shù)高且與更多術(shù)語對共現(xiàn)的動詞,它的重要性被拉低;而那些出現(xiàn)頻數(shù)低但僅與少數(shù)動詞共現(xiàn)的動詞,它的重要性被抬高。

        假設(shè)vfj表示動詞vj在句子集中出現(xiàn)的頻數(shù),C表示句子集中術(shù)語對的總數(shù)目,cj表示在整個句子集中與動詞vj共現(xiàn)的術(shù)語對數(shù)目,則動詞vj的權(quán)重為:

        wj= (2)

        3.4 相關(guān)語義關(guān)系標簽分配

        以3.2中獲得的具有相關(guān)語義關(guān)系的學(xué)科術(shù)語以及3.3中獲得的學(xué)科動詞作為句子的特征項,構(gòu)建句子×<術(shù)語,動詞>向量空間模型,再次運用關(guān)聯(lián)規(guī)則分析,以術(shù)語對為規(guī)則的前項、動詞為規(guī)則的后項獲取術(shù)語對與動詞的關(guān)聯(lián)規(guī)則。為保證術(shù)語對內(nèi)部有較強關(guān)聯(lián),應(yīng)按以下規(guī)則篩選:剔除那些關(guān)聯(lián)規(guī)則,這些規(guī)則的術(shù)語對沒有出現(xiàn)在3.2的779術(shù)語對中。進一步借助規(guī)則置信度等相關(guān)指標對獲得的關(guān)聯(lián)規(guī)則的有效性和實用性進行評價,最終獲得這樣的一些關(guān)聯(lián)規(guī)則:術(shù)語對與學(xué)科動詞具有較強關(guān)聯(lián)關(guān)系,同時,術(shù)語對中的兩個術(shù)語也具有較強關(guān)聯(lián)關(guān)系。這樣便獲取了具有相關(guān)語義關(guān)系的術(shù)語對及其動詞標簽。

        4 實驗結(jié)果及分析

        本文以“數(shù)字圖書館”學(xué)科領(lǐng)域的期刊論文作為分析對象,基于<句子-術(shù)語>語義關(guān)聯(lián)以及<句子-術(shù)語,動詞>語義關(guān)聯(lián)進行雙重關(guān)聯(lián)規(guī)則分析,并在分析過程中引入相關(guān)指標來評價規(guī)則的有效性和實用性。

        4.1 數(shù)據(jù)預(yù)處理

        以“數(shù)字圖書館”為主題詞,在CNKI中國期刊全文數(shù)據(jù)庫的核心期刊范圍內(nèi)檢索1996至2011這15年間發(fā)表的論文,共計6446篇。抽取標題、摘要和關(guān)鍵詞構(gòu)成非結(jié)構(gòu)化文本。通過術(shù)語抽取最終獲得911個術(shù)語[1]。

        從6446篇非結(jié)構(gòu)化文檔中提取摘要部分,將其切分為28094個句子,剔除長度小于6的那些句子,共獲得27056個句子。以學(xué)科術(shù)語集為用戶詞典,對27056個句子利用NLPIR中文分詞工具進行分詞,共獲得61114個句子術(shù)語對。那些只含有1個術(shù)語的句子,不能從中抽取出相關(guān)語義關(guān)系,因此,剔除掉這些句子,共獲得16608個句子,涉及術(shù)語911個。

        以這911個學(xué)科術(shù)語為用戶詞典,利用NLPIR對16608個句子進行詞性標注分詞,共得到47060個動詞詞匯。這些動詞包括及物動詞v、名動詞vn、副動詞vd、趨向動詞vf、動詞性語素vg、不及物動詞vi、動詞性慣用語vl、是動詞vshi、有動詞vyou和形式動詞vx。

        由于用作相關(guān)語義關(guān)系標簽的動詞必須連接兩個術(shù)語,因此,本文選擇及物動詞v作為候選學(xué)科動詞,共1312個,對它們進行進一步篩選:

        (1)去除停用詞。1312個動詞詞匯去除停用詞后還剩下1249個詞匯。

        (2)去掉長度為1的單字動詞詞匯。筆者經(jīng)過對單字動詞詞匯的觀察,認為這樣的動詞并不能很好地表達術(shù)語間的相關(guān)語義關(guān)系,因此剔除掉這些詞匯,還剩下1059個詞匯。

        (3)選擇在整個句子集中出現(xiàn)一定頻數(shù)以上的那些動詞詞匯。在1059個詞匯中,有368個詞匯僅出現(xiàn)了1次,筆者認為這些低頻數(shù)出現(xiàn)詞匯的代表性較差,需要剔除,最終獲得了691個候選學(xué)科動詞。

        4.2 第一重關(guān)聯(lián)規(guī)則分析

        以16608個句子和911個術(shù)語構(gòu)建了16608行×911列的句子術(shù)語向量空間模型。采用數(shù)據(jù)挖掘工具Clementine,基于Apriori算法進行關(guān)聯(lián)規(guī)則分析。

        關(guān)聯(lián)規(guī)則分析是一種無監(jiān)督的學(xué)習(xí)方法,評價規(guī)則有效性和實用性的指標閾值的設(shè)置均要依靠領(lǐng)域?qū)<业膶I(yè)知識并結(jié)合所分析的實際問題來確定。筆者在進行關(guān)聯(lián)規(guī)則分析時,對各指標閾值的取值進行了相關(guān)的嘗試。

        4.2.1 有效規(guī)則篩選

        表1列出了不同規(guī)則置信度和不同規(guī)則支持度下的關(guān)聯(lián)分析結(jié)果,置信度和支持度交叉位置單元格內(nèi)的數(shù)值是在相應(yīng)條件下抽取到的關(guān)聯(lián)規(guī)則數(shù)目。

        經(jīng)過對不同規(guī)則置信度和規(guī)則支持度下結(jié)果的觀察,結(jié)合領(lǐng)域?qū)<业囊庖姡⒖紤]置信度和支持度的取值,筆者最終選定了規(guī)則置信度≥30%且規(guī)則支持度≥0.01%取值條件下的分析結(jié)果,共得到971條有效的關(guān)聯(lián)規(guī)則,這些規(guī)則共涉及術(shù)語658個。

        4.2.2 實用規(guī)則篩選

        (1)在獲得的971條有效關(guān)聯(lián)規(guī)則中,規(guī)則提升度的最小值是1.11,最大值是4152.00,平均值是125.53。最小值是1.11表明所有的規(guī)則提升度均大于1,說明后項在前項中出現(xiàn)的概率大于后項在整個事務(wù)集中出現(xiàn)的概率,這樣的規(guī)則有一定的實際意義(所有規(guī)則提升度取值情況見表2)。

        由表2數(shù)據(jù)可知,規(guī)則提升度的取值范圍很廣,說明規(guī)則置信度與后項支持度取值的差異性較大,這是由數(shù)據(jù)的稀疏性導(dǎo)致的。在本文的數(shù)據(jù)中,有些后項Y在整個事務(wù)集中覆蓋的范圍很窄,出現(xiàn)的頻數(shù)很低,這就導(dǎo)致了這些后項的支持度取值較低,進一步導(dǎo)致規(guī)則提升度很高。規(guī)則提升度取值范圍太大會給篩選規(guī)則帶來困擾,而且不同的樣本數(shù)據(jù)會有不同的取值范圍。為了克服這個問題,可以對規(guī)則提升度標準化:置信率把規(guī)則提升度壓縮在[0,1)區(qū)間內(nèi)。

        (2)置信率是由規(guī)則提升度轉(zhuǎn)變而來,它更適合于對稀疏樣本的分析。筆者對971條關(guān)聯(lián)規(guī)則的置信率進行了計算,最小值為0.0991,最大值為0.9998(971條有效關(guān)聯(lián)規(guī)則置信率取值的頻數(shù)分布見表3)。

        領(lǐng)域?qū)<以谠O(shè)置置信率閾值的時候,可以根據(jù)實際問題的具體情況確定,在本文的分析中,筆者將置信率的閾值設(shè)置為0.5,即選取置信率大于等于0.5的那些關(guān)聯(lián)規(guī)則。經(jīng)篩選后,共得到779條關(guān)聯(lián)規(guī)則,涉及術(shù)語568個。

        (3)對經(jīng)過置信率篩選后得到的779條關(guān)聯(lián)規(guī)則進行正態(tài)卡方的計算,其中最大值為1,最小值為0.0001。大部分的正態(tài)卡方取值較小(正態(tài)卡方取值的頻數(shù)分布情況見表4)。

        由表4可知,有8個關(guān)聯(lián)規(guī)則的正態(tài)卡方值為1,其中包括“社會閱讀”→“圖書館法治”(0.06%, 100.00%)和“圖書館法治”→“社會閱讀”(0.06%, 100.00%)。這兩條規(guī)則的置信度均為100.00%,取值相同。前條規(guī)則的100.00%置信度說明“社會閱讀”出現(xiàn)的時候必出現(xiàn)“圖書館法治”,同理,后條規(guī)則的100.00%置信度說明“圖書館法治”出現(xiàn)的時候也必出現(xiàn)“社會閱讀”,因此,這兩個術(shù)語在文檔中要么不出現(xiàn),要么一起出現(xiàn),它們具有最強的關(guān)聯(lián)關(guān)系。其他7條規(guī)則也是類似的情況。規(guī)則支持度為0.06%,說明術(shù)語 “社會閱讀”和“圖書館法治”在整個事務(wù)集(16608個事務(wù))中共現(xiàn)了10次。

        筆者也對所有規(guī)則的正態(tài)卡方與提升度、置信率間的關(guān)系進行了考察,結(jié)果表明,正態(tài)卡方與規(guī)則提升度和規(guī)則置信率并不沖突,可以依據(jù)其取值的排序來評價關(guān)聯(lián)規(guī)則關(guān)聯(lián)關(guān)系的強弱。

        (4)筆者計算了所有779條關(guān)聯(lián)規(guī)則的信息差,其中最大值為0.01283,最小值為0.00007(所有信息差取值的頻數(shù)分布見表5)。

        對信息差和正態(tài)卡方這兩個評價指標進行相關(guān)性分析,結(jié)果表明,這兩個指標具有統(tǒng)計學(xué)意義上的顯著相關(guān)性。因此,在評價關(guān)聯(lián)規(guī)則實用性的時候,可以綜合規(guī)則提升度、規(guī)則置信率、正態(tài)卡方和信息差這些指標對規(guī)則進行篩選。

        最終,筆者結(jié)合以上4個評價關(guān)聯(lián)規(guī)則實用性指標的取值以及對具體關(guān)聯(lián)規(guī)則的實際觀察,共抽取出了779個具有關(guān)聯(lián)關(guān)系的術(shù)語對,涉及術(shù)語568個(部分術(shù)語對見表6)。

        4.3 學(xué)科動詞篩選

        依據(jù)公式2可計算出所有候選學(xué)科動詞的權(quán)重,領(lǐng)域?qū)<铱梢愿鶕?jù)實際情況確定閾值W,選取wj大于等于W的那些動詞作為學(xué)科動詞。筆者根據(jù)公式2對691個候選動詞進行權(quán)重計算(部分計算結(jié)果見表7)。

        筆者根據(jù)實際情況選取W=20,剔除了128個動詞,最終獲得563個學(xué)科動詞。

        4.4 第二重關(guān)聯(lián)規(guī)則分析

        基于16608個句子、911個學(xué)科術(shù)語以及563個學(xué)科動詞建立了16608行×1474列的向量空間模型。運用Apriori算法進行關(guān)聯(lián)分析的時候,以術(shù)語對為前項,動詞為后項,規(guī)則置信度CX→Y閾值設(shè)定為10%,規(guī)則支持度SX→Y閾值設(shè)定為0.01%(保證術(shù)語對與動詞在整個句子集中至少共現(xiàn)2次),共獲得了43913個關(guān)聯(lián)規(guī)則。

        在這些關(guān)聯(lián)規(guī)則中,有些前項中的兩個術(shù)語之間并沒有較強的關(guān)聯(lián)關(guān)系,因此,須對這些關(guān)聯(lián)規(guī)則進行過濾:前項中的兩個術(shù)語必須是4.2中獲得的術(shù)語對。經(jīng)過濾后,共獲得779條關(guān)聯(lián)規(guī)則。

        再次利用規(guī)則提升度對關(guān)聯(lián)規(guī)則進行篩選:值大于等于2,經(jīng)篩選后,共獲得770條關(guān)聯(lián)規(guī)則。因此,這些關(guān)聯(lián)規(guī)則反映了術(shù)語的相關(guān)語義關(guān)系的術(shù)語對及其動詞標簽(部分結(jié)果見表8)。

        因為評價關(guān)聯(lián)規(guī)則有效性和實用性時對相關(guān)指標閾值的設(shè)定完全由領(lǐng)域?qū)<胰藶闆Q定,因此具有一定的主觀性。領(lǐng)域?qū)<覒?yīng)充分了解學(xué)科術(shù)語特點以及數(shù)據(jù)的特征,進行合理的設(shè)定。

        4.5 與其他方法及技術(shù)比較

        目前,從領(lǐng)域非結(jié)構(gòu)化文本中抽取領(lǐng)域術(shù)語相關(guān)語義關(guān)系的研究較少,采取的其他方法一般有:(1)基于詞匯-句法模式的方法;(2)基于句法分析的方法。第(1)種方法必須人工制定獲取模板,因此獲得的相關(guān)語義關(guān)系受制于模板的準確性和完備性;第(2)種方法要求對句法進行分析,由于中文語法句法的復(fù)雜性,實現(xiàn)較為困難。

        本文所采用的二重關(guān)聯(lián)規(guī)則分析結(jié)合規(guī)則評價的方法具有較高的可行性和有效性,不僅能從非結(jié)構(gòu)化文本中獲取學(xué)科術(shù)語的相關(guān)語義關(guān)系及其標簽,還能評價語義關(guān)系的有效性和實用性。

        5 結(jié)語

        本文提出了一種從學(xué)科非結(jié)構(gòu)化文本獲取學(xué)科術(shù)語相關(guān)語義關(guān)系的方法,該方法通過術(shù)語抽取、動詞抽取、向量空間模型構(gòu)建、二重關(guān)聯(lián)規(guī)則分析和規(guī)則評價獲取術(shù)語的相關(guān)語義關(guān)系及其標簽。該方法基于句子-<術(shù)語,動詞>向量空間模型運用關(guān)聯(lián)規(guī)則分析獲取相關(guān)語義關(guān)系的標簽,并借助規(guī)則支持度、規(guī)則置信度、置信率等指標對關(guān)聯(lián)規(guī)則的有效性和實用性進行控制。本文所采用的方法與其他方法相比具有以下明顯優(yōu)勢:能更行有效地獲得相關(guān)語義關(guān)系的標簽,并對相關(guān)語義關(guān)系的質(zhì)量進行控制。本文以“數(shù)字圖書館”學(xué)科領(lǐng)域為例論證了該方法的可行性和有效性,但也存在一些缺陷,評價指標的選擇和閾值的確定存在人工干預(yù),帶有一定的主觀性。 在今后的研究工作中,筆者將進一步嘗試運用不同的機器學(xué)習(xí)方法(半)自動獲取學(xué)科術(shù)語的相關(guān)語義關(guān)系,探討更有效可行的策略和方案。

        參考文獻:

        [1] 朱惠,楊建林,王昊.中文領(lǐng)域?qū)I(yè)術(shù)語層次關(guān)系構(gòu)建研究[J].現(xiàn)代圖書情報技術(shù),2016(1):73-80.

        [2] Maedche A,Staab S.Discovering Conceptual Relations from Text[A].Proc.of the 12th International Conference on Software and Knowledge Engineering[C].Berlin,Germany:[s.n.],2000:321-325.

        [3] David Sa′nchez,Antonio Moreno.Learning non-taxonomic relationships from web documents for domain ontology construction[J].Data & Knowledge Engineering,2008,64(3):600-623.

        [4] J.Villaverde,A.Persson,D.Godoy,etal.Supporting the discovery and labeling of non-taxonomic relationships in ontology learning[J].Expert Systems with Applications,2009,36(7):10288-10294.

        [5] Albert Weichselbraun,Gerhard Wohlgenannt,Arno Scharl.Refining non-taxonomic relation labels with external structured data to support ontology learning[J].Data & Knowledge Engineering,2010,69(8):763-778.

        [6] Mei Kuan Wong,Syed Sibte Raza Abidi,Ian D.Jonsen.A multi-phase correlation search framework for mining non-taxonomic relations from unstructured text[J].Knowledge and Information Systems,2014,38(3):641-667.

        [7] Ivo Serra,Rosario Girardi,Paulo Novais.Evaluating techniques for learning non-taxonomic relationships of ontologies from text[J].Experts Systems With Applications,2014,41(11):5201-5211.

        [8] Martin KAVALEC,Vojtech SVATEK.A Study on Automated Relation Labelling in Ontology Learning[EB/OL].[2016-10-15].http://nb.vse.cz/~svatek/olp05.pdf.

        [9] 董麗麗,胡云飛,張翔.一種領(lǐng)域概念非分類關(guān)系的獲取方法[J].計算機工程與應(yīng)用,2013,49(4):157-161.

        [10] 古凌嵐,孫素云.基于語義依存的中文本體非分類關(guān)系抽取方法[J].計算機工程與設(shè)計,2012,33(4):1676-1680.

        [11] 邱桃榮,黃海泉,段文影,等.非分類關(guān)系學(xué)習(xí)的粒計算模型研究[J].南昌大學(xué)學(xué)報(工科版),2012,34(3):273-278.

        [12] 王紅,高斯婷,潘振杰,等.基于NNV關(guān)聯(lián)規(guī)則的非分類關(guān)系提取方法及其應(yīng)用研究[J].計算機應(yīng)用研究,2012,29(10):3665-3668.

        [13] 張立國,陳荔.維基百科中基于語義依存的領(lǐng)域本體非分類關(guān)系獲取方法研究[J].情報科學(xué),2014,32(6):93-97.

        [14] 谷俊,嚴明,王昊.基于改進關(guān)聯(lián)規(guī)則的本體關(guān)系獲取研究[J].情報理論與實踐,2011,34(12):121-125.

        [15] 薛薇,陳歡歌.Clementine數(shù)據(jù)挖掘方法與應(yīng)用[M].北京:電子工業(yè)出版社,2010:244-249.

        [16] 舒萬里.中文領(lǐng)域本體學(xué)習(xí)中概念和關(guān)系抽取的研究[D].重慶:重慶大學(xué),2012.

        作者簡介:朱惠(1979-),女,南京大學(xué)信息管理學(xué)院講師,博士,研究方向:信息智能處理與檢索、知識本體構(gòu)建及應(yīng)用、數(shù)據(jù)挖掘;楊建林(1970-),男,南京大學(xué)信息管理學(xué)院教授,研究方向:信息智能處理與檢索、信息分析評價、數(shù)據(jù)挖掘;王昊(1981-),男,南京大學(xué)信息管理學(xué)院教授,研究方向: 信息智能處理與檢索、知識本體構(gòu)建及應(yīng)用、科學(xué)評價和引文分析。

        猜你喜歡
        關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于Apriori算法的高校學(xué)生成績數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析
        基于關(guān)聯(lián)規(guī)則和時間閾值算法的5G基站部署研究
        移動通信(2016年20期)2016-12-10 09:09:04
        關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
        數(shù)據(jù)挖掘在高校課堂教學(xué)質(zhì)量評價體系中的應(yīng)用
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進
        中國市場(2016年36期)2016-10-19 04:10:44
        基于關(guān)聯(lián)規(guī)則的計算機入侵檢測方法
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        精品日韩欧美一区二区三区在线播放| 性裸交a片一区二区三区 | 中文字幕乱码在线人妻| 男女高潮免费观看无遮挡| 欧美成人形色生活片| 亚洲红杏AV无码专区首页| 国产精品又湿又黄九九九久久嫩草 | 久久亚洲精品国产精品婷婷| 日本一二三区免费在线| 国产 麻豆 日韩 欧美 久久| 国产高潮刺激叫喊视频| 亚洲av偷拍一区二区三区| 国产成人高清在线观看视频| 中国少妇内射xxxx狠干| 国产特级全黄一级毛片不卡| 在线视频一区二区三区中文字幕| 国产一区二区三区激情视频| 少妇性饥渴无码a区免费| 色综合久久丁香婷婷| 丝袜美腿av免费在线观看| 日韩精品亚洲一区二区| 亚洲 精品 综合 精品 自拍| 久久99热精品免费观看欧美| 国产成人av三级三级三级在线| 色狠狠色狠狠综合天天| 精品国产精品久久一区免费式| 免費一级欧美精品| 国产女主播一区二区久久| 久久精品国产亚洲av高清热| 日韩精品区欧美在线一区| 亚洲成人免费久久av| 亚洲av无码乱码精品国产| 日韩电影一区二区三区| 亚洲av永久无码精品水牛影视| 亚洲精品98中文字幕| 边喂奶边中出的人妻| 欧美a在线播放| 精品久久精品久久精品| 色哟哟最新在线观看入口| 色欲麻豆国产福利精品| 国产偷闻隔壁人妻内裤av|