亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種從自然語言文本到本體模型的轉(zhuǎn)換方法

        2011-02-24 07:25:40
        電大理工 2011年2期
        關(guān)鍵詞:數(shù)據(jù)源本體語義

        彭 靜 羅 偉

        遼寧裝備制造職業(yè)技術(shù)學(xué)院(沈陽 110161)

        一種從自然語言文本到本體模型的轉(zhuǎn)換方法

        彭 靜 羅 偉

        遼寧裝備制造職業(yè)技術(shù)學(xué)院(沈陽 110161)

        如何利用本體將內(nèi)容所蘊涵的語義進(jìn)行形式化與規(guī)范化描述是一項艱巨的任務(wù)。本體通常用來描述內(nèi)容的語義,以實現(xiàn)基于語義的內(nèi)容共享和集成。然而,手工構(gòu)建本體通常耗費巨大,因此,有必要研究基于非結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)技術(shù)。提出了從自然語言文本中學(xué)習(xí)本體的方法,定義了自然語言數(shù)據(jù)源到本體的映射規(guī)則并與現(xiàn)有方法進(jìn)行了詳細(xì)的比較,同時給出了應(yīng)用實例及原型實現(xiàn)。分析表明,本文提出的方法在映射的完整性及正確性方面有較大提高。

        本體 自然語言

        本體學(xué)習(xí)(ontology learning)方法主要可以歸為三類:手工的、半自動化、全自動化的方法。目前存在的本體構(gòu)造方法多是手工的,需要領(lǐng)域?qū)<业膮⑴c,在面對海量的內(nèi)容時,手工方法費時、費力,而完全自動化的方法也不現(xiàn)實,因此,如何利用機器學(xué)習(xí)或統(tǒng)計等知識獲取技術(shù)自動半自動化的從已有的數(shù)據(jù)資源中獲取期望的本體,以降低本體構(gòu)建的開銷是一個迫切需要解決的問題。本文主要研究如何從非結(jié)構(gòu)化(主要指自然語言文本)數(shù)據(jù)源獲取期望的本體。

        1 概述

        自然語言文本是Web中大量存在的一類非結(jié)構(gòu)化數(shù)據(jù),因此,有必要從該類數(shù)據(jù)源中學(xué)習(xí)本體。依據(jù)文獻(xiàn),本體概念的獲取方法主要有3類:基于語言學(xué)方法,基于統(tǒng)計學(xué)方法和混合方法。對于概念關(guān)系的獲取,有基于模板的方法、基于概念聚類的方法、基于關(guān)聯(lián)規(guī)則的方法、基于詞典的方法和以上方法的混合。本文提出的方法是半自動化的,需要人工的參與。首先,借助于特定領(lǐng)域的核心本體與WordNet詞典,挖掘出文本中包含的與該本體概念在語義上相近的概念以及頻繁項集作為侯選概念,在人工參與下將侯選概念補充到核心本體中;然后挖掘與全部概念相關(guān)的關(guān)聯(lián)規(guī)則,利用該關(guān)聯(lián)規(guī)則形成概念間的侯選關(guān)系與實例,最終判定由用戶來決定。

        2 自然語言文本到本體模型的轉(zhuǎn)換

        借助特定領(lǐng)域的核心本體與WordNet,挖掘文本包含的與該本體概念在語義上相近的概念及頻繁項集作為侯選概念,在人工參與下將侯選概念補充到核心本體中,步驟如圖1所示。

        圖1 相關(guān)概念的獲取流程

        “拆詞”:從核心本體概念的標(biāo)識,獲取與概念相關(guān)的詞或詞組。

        “去頻繁項”:將頻繁出現(xiàn)并含有較少語義信息并的詞從“拆詞”獲得的詞集中去除。

        “切詞與標(biāo)詞”:獲得輸入詞的詞根及詞性。本文采用Porter Stemming 算法完成“切詞”步驟,采用QTAG算法完成“標(biāo)詞”步驟。

        “同義詞集”:借助WordNet,獲得單詞的同義詞集合,繼而獲得單詞的語義鏈(Semantic Chain),然后將語義鏈轉(zhuǎn)化為向量表示。

        “矢量化”:借助WordNet,用向量表示獲得輸入文本中單詞的語義鏈,將向量進(jìn)行標(biāo)準(zhǔn)化,即為每個分量計算權(quán)重。權(quán)重的計算采用TF*IDF規(guī)則產(chǎn)生,TF(term frequency)表示詞頻,IDF(inverse document frequency)表示逆文檔頻率,權(quán)重計算公式如下:

        wi,j表示詞ti在向量dj中的權(quán)重,fi,j為詞ti在向量dj中的詞頻,N為向量總數(shù),ni為包含詞ti的向量數(shù)目,分母為歸一化因子。

        “匹配”:利用VSM方法,通過向量間的夾角余弦衡量單詞的相似程度,計算公式如下:

        根據(jù)結(jié)果選出與核心本體中概念相關(guān)的單詞和句子。

        用戶從上述步驟得出的相關(guān)單詞和句子中選擇新的概念標(biāo)識充實到核心本體,得到與特定文本相關(guān)的本體。采用關(guān)聯(lián)規(guī)則挖掘算法,形成概念間的侯選關(guān)系與實例并添加到本體中。

        給出從文本數(shù)據(jù)源生成本體的例子。采用清華大學(xué)的travelontology.owl作為旅游領(lǐng)域的核心本體,導(dǎo)入一篇桂林旅游的自然語言文本。圖2顯示了導(dǎo)入系統(tǒng)后的本體,可以進(jìn)行概念及概念間關(guān)系、屬性、實例的編輯添加,以充實核心本體,生成與導(dǎo)入內(nèi)容相關(guān)的本體。

        3 本體編輯及一致性檢驗

        本文研發(fā)的管理系統(tǒng)支持由數(shù)據(jù)庫、XML內(nèi)容、自然語言文本到本體的轉(zhuǎn)換,及現(xiàn)有本體的導(dǎo)入,形成基于本體的知識庫。另外,內(nèi)容管理系統(tǒng)提供本體的編輯及一致性檢驗功能,以消解可能的語義沖突。

        圖2 自然語言文本到本體的導(dǎo)入

        4 結(jié)語

        討論了自然語言數(shù)據(jù)源到本體的轉(zhuǎn)換,并與現(xiàn)有工作進(jìn)行了詳細(xì)的比較,在此基礎(chǔ)之上開發(fā)了內(nèi)容管理系統(tǒng),實現(xiàn)了本體編輯和數(shù)據(jù)一致性檢驗,為實現(xiàn)面向語義的內(nèi)容搜索奠定了基礎(chǔ)。

        [1]杜小勇等.本體學(xué)習(xí)研究綜述.軟件學(xué)報,2006(9).

        [2]Lawrence S, Giles CL. Searching the World Wide Web. Science, 1998,280(5360):98?100.

        [3]Alexander Maedche, Steffen Staab.Mining Ontologies from Text. In:Proc. Of th EKAW2000,LNAI1937.pp:18 9-202.2000.

        [4]Felbaum.WordNet:an Electronic Lexical Database.MIT Press,Cambridge,Massachusetts,1998

        [5]張劍,李春平.基于Word Net概念向量空間模型的文本分類.計算機工程與應(yīng)用,2006(14).

        齊婷婷)

        猜你喜歡
        數(shù)據(jù)源本體語義
        Abstracts and Key Words
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        語言與語義
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
        認(rèn)知范疇模糊與語義模糊
        Care about the virtue moral education
        卷宗(2013年6期)2013-10-21 21:07:52
        中文字幕一区二三区麻豆| 欧美成年黄网站色视频| 人禽无码视频在线观看| 日本国产一区二区三区在线观看| 国产91九色视频在线播放| 国产精品一区二区韩国av| 久久天天躁夜夜躁狠狠85麻豆| 成年女人色毛片| 亚洲gv白嫩小受在线观看| 四虎无码精品a∨在线观看| 久久乐国产精品亚洲综合| 国产日韩欧美911在线观看| 亚洲视频在线视频在线视频| 91九色国产老熟女视频| 丰满大爆乳波霸奶| 黑人巨茎大战欧美白妇| 深夜福利小视频在线观看| 久久99国产亚洲高清| 精品一区二区三区不老少妇| 三上悠亚亚洲精品一区| 看久久久久久a级毛片| 水蜜桃亚洲一二三四在线| 亚洲色图综合免费视频| 人妖系列在线免费观看| 女同视频一区二区在线观看| 久久综合丝袜日本网| 久久久久无码国产精品不卡| 亚洲欧美v国产蜜芽tv| 91色综合久久熟女系列| 男女18禁啪啪无遮挡激烈网站 | 中国亚洲女人69内射少妇| 亚洲夫妻性生活视频网站| 国产成人亚洲系列毛片| 无码h黄肉3d动漫在线观看| 深夜福利小视频在线观看| 免费无码又爽又刺激又高潮的视频| 久久99免费精品国产| 亚洲国产婷婷香蕉久久久久久| 成人免费看片又大又黄| 亚洲免费一区二区三区视频| 亚洲一区二区三区在线激情|