亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        WordNet應(yīng)用問題研究

        2014-01-13 07:10:16周悅文
        關(guān)鍵詞:本體語義

        周悅文

        【摘 要】本文介紹WordNet的來源與發(fā)展,闡述以半自動方法設(shè)計WordNet,討論了意義排歧過程的復(fù)雜性,最后展望WordNet的發(fā)展趨勢與應(yīng)用。

        【關(guān)鍵詞】語義;本體;同義詞;排歧

        0.引言

        隨著信息技術(shù)的發(fā)展,對電子計算機依賴的群體越來越大,更多的人都希望自己編寫的自然語言能夠與計算機直接對話,而實際上要使計算機能夠接受這些自然語言或者偽代碼,必須讓計算機本身具備語法、語義、詞法、句法等語境,而詞匯語義的構(gòu)建就是基于WordNet的,WordNet一直是知識工程研究的重點,下面對它分別做一些分析和討論。

        1.WordNet的來源與發(fā)展

        WordNet[1]原本是由Princeton 大學(xué)的心理學(xué)家,語言學(xué)家和計算機工程師聯(lián)合設(shè)計的一種基于認知語言學(xué)的英語詞典。它不是把單詞以字母排列順序為原則,而是基于心理學(xué)和語言學(xué)的數(shù)據(jù)庫,組織形式是用戶在認知過程中所表現(xiàn)出的義類原則即詞以義聚,按照單詞的意義組成一個“單詞的網(wǎng)絡(luò)”。 它是一個覆蓋范圍寬廣的英語詞匯語義網(wǎng),以一種“網(wǎng)“的形式來描述詞語的意義,可以是利用語義成分表示語義[2],也可以是利用關(guān)系表示語義,比如:“碗”(bowl)和“餐具”(tableware)代表兩個節(jié)點(node),而這兩個節(jié)點之間有一個箭頭(dart)來表示這樣的命題:碗是一種餐具(a bowl is a kind of tableware),即“Is-A-KIND-OF”這樣的語義關(guān)系 , 名詞,動詞,形容詞和副詞各自被組織成一個同義詞的網(wǎng)絡(luò),每個同義詞集合都代表一個基本的語義概念,即在詞的形式和意義之間建立起映射關(guān)系(mapping)用于描述詞匯矩陣,并且這些集合之間也由各種關(guān)系連接。一個多義詞就有可能出現(xiàn)在它的每個意思的同義詞集合中,對于這樣一個復(fù)雜的詞庫該如何創(chuàng)建呢,是手工編制還是機器自動生成,選擇手工構(gòu)建詞典的優(yōu)點之一是便于創(chuàng)建更為豐富的詞條信息;其次是便于控制,下面我們將闡述以非手動的方式來設(shè)計WordNet。

        2.半自動方法設(shè)計WordNet

        人工編制顯然工程浩大,必然時間長,要花費大量的人力、物力、財力,而對于機器完全自動生成,就是讓機器本身獨立判斷一個個的概念,準確的定位各種關(guān)系,這樣產(chǎn)生的結(jié)果往往是準確性不高,在目前多方面受限制的前提下可以試著以本體半自動的設(shè)計方法。

        在設(shè)計方法前先講述“本體”和“關(guān)系”概念。

        本體:本體目前還沒有規(guī)范化的統(tǒng)一定義,它是一種概念模型的明確規(guī)范說明,而這個概念模型又是共享的,它主要表達了四個方面的含義:概念模型、明確、形式化、共享。概念模型指通過抽象出客觀世界中一些現(xiàn)象的相關(guān)概念而得到的模型;明確是指所使用的概念及使用這些概念的約束都有明確的定義;形式化指必須是計算機可讀的;共享指概念模型所體現(xiàn)的是共同認可的知識,反映的是相關(guān)領(lǐng)域中公認的概念集。

        關(guān)系:Hypernyms關(guān)系表達的是目標詞匯作為實體的隸屬關(guān)系,表示目標詞匯與上類詞匯是一種a kind of 關(guān)系。

        Holongms關(guān)系表達的是目標詞匯作為一部分所隸屬的上位關(guān)系,表示目標詞匯與上系詞匯是一種 a part of 關(guān)系。

        Meronyms關(guān)系表達的是目標詞匯作為一個實體的一個部分,表示下位詞與目標詞匯的是一種a part of 關(guān)系。

        Coordinate terms關(guān)系表達的是哪些與目標詞匯有相同上類詞的詞匯,表示的是同族關(guān)系;

        Troponyms關(guān)系表達的是目標詞匯的近義詞,表示的是近義關(guān)系。

        Antonyms關(guān)系表達的是與目標詞匯相反的關(guān)系。表示的是反義關(guān)系。

        2.1抽取核心子本體、擴展、編輯以達到完善本體的方法

        以領(lǐng)域數(shù)據(jù)字典為依據(jù),從wordnet中抽取一個子本體,從wordnet抽取world本體核心概念為示例,這個過程其實就是一個概念發(fā)現(xiàn)的過程,必須有本體雛形作為抽取子本體的基礎(chǔ),也就是通常所說的middle-out方法;在抽取出的子本體基礎(chǔ)上,對其進行擴展與分析,wordnet是一部同義詞典,其有jwordnet和JWNL API作為詞典的訪問函數(shù),wordnet只具有上下位等關(guān)系,沒有objectproperty這種關(guān)系,概念可以抽取出來,關(guān)系的獲取還有一定的困難,通過抽取出的種子概念的相關(guān)概念為候選概念,利用種子概念與候選概念出現(xiàn)的概率,運用語料庫推算兩種子緊密度,以此確認候選概念是否擴展到本體中,wordnet獲取本體其實已經(jīng)獲取了本體的關(guān)系,而無分類關(guān)系的可利用的方法是關(guān)聯(lián)規(guī)則挖掘法;最后用可視化工具protégé處理,這也是目前應(yīng)用最廣泛的本體編輯工具[3]。

        2.2其它方法簡述

        上述的方法是基于語義字典的生成本體的方法,其實生成本體的方法也可以基于文本甚至是基于知識庫的,如果是基于文本的話可以利用聚類算法把相關(guān)詞集合在一起,選擇使用頻率高的詞代表這個類,而基于知識庫的則是先構(gòu)建知識庫,運用知識庫已有的規(guī)則組合小型本體,運用的方法是自然語言處理、統(tǒng)計分析、數(shù)據(jù)挖掘等等。

        3.意義排歧過程的復(fù)雜性

        構(gòu)建的wordnet由于是作為語義知識創(chuàng)建的,幾乎沒有句法信息,它是用同義詞的集合體表達詞匯的概念,并描述詞匯的矩陣,即在詞性與意義上建立起了一一對應(yīng),在一篇文章中,取某一個多義詞的意義的排歧的過程卻是相當(dāng)?shù)膹?fù)雜,只有通過內(nèi)部結(jié)構(gòu)本身利用概念密度加以計算才能排歧,使用目標周圍的詞來確定本詞的意義,一般說來主要有三種方法可以實現(xiàn)[4、5]。

        方法一,通過選擇約束性規(guī)則來確定詞匯在文章的不同位置的詞義進行選擇,可以是選擇性限定規(guī)則(selectional restriction)、決策樹(decision trees)、決策表(decision lists)等,當(dāng)然這一定性的方法在理論上依賴語言學(xué)知識庫的,實際操作構(gòu)建這個知識庫并不是意見簡單的事。

        方法二,通過統(tǒng)計每個詞匯候選詞匯在文章出現(xiàn)的概率權(quán)值,這種基于定量的方法,是將最大概率權(quán)值的詞匯作為結(jié)果,可能是獨立于語言學(xué)的,局限性是統(tǒng)計數(shù)據(jù)稀梳是基于帶標語的人工構(gòu)造獲取知識。

        方法三,將方法一與方法二結(jié)合起來,主要依靠的是統(tǒng)計學(xué)算法處理文字的文本切分和詞性標注問題,可以是根據(jù)語言學(xué)對詞匯進行首次劃分,再應(yīng)用統(tǒng)計學(xué)的算法進行二次劃分,推算段落起點終點。

        4.WordNet的發(fā)展趨勢與應(yīng)用

        說到底,wordnet的構(gòu)建還是需要創(chuàng)建一個知識庫,包含無數(shù)的概念的,但在關(guān)系上很難順利進行直接推理,比如:在饑餓(hungry)與廚房(kitchen)之間存在一條路徑,因為這兩個詞在食物(food)這個節(jié)點上有碰撞,從而可以把饑餓(hungry)與廚房(kitchen)間接聯(lián)系在一起進行常識判斷。對于wordnet的更深層次的研究與應(yīng)用還是很有意義的,盡最大的可能去解決語意分類的全球化處理與眾多的詞義排歧,力求全局范圍內(nèi)準確的處理語言信息,在未來的發(fā)展上檢索方式正朝著越來越多的方向發(fā)展,對于模糊檢索、同義檢索更是方便用戶,真正做到以語義為本體,聚集與詞目在語義關(guān)聯(lián)的所有詞匯,實現(xiàn)以詞為中心的、發(fā)散式的、描述詞目所有基本語義關(guān)系的語義網(wǎng)絡(luò)集。 [科]

        【參考文獻】

        [1]梁健,吳丹.種子概念方法及其在基于文本的本體學(xué)習(xí)中的應(yīng)用[J].圖書情報工作,2006,50(9):l8-21.

        猜你喜歡
        本體語義
        Abstracts and Key Words
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        語言與語義
        “上”與“下”語義的不對稱性及其認知闡釋
        《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
        認知范疇模糊與語義模糊
        專題
        圖書與情報(2013年1期)2013-11-16 22:24:00
        Care about the virtue moral education
        卷宗(2013年6期)2013-10-21 21:07:52
        “深+N季”組配的認知語義分析
        語義分析與漢俄副名組合
        日韩在线第二页| 91精品啪在线观看国产色| 国产三区三区三区看三区| 日本久久精品福利视频| 国产主播一区二区三区蜜桃| 成人一区二区人妻少妇| 天天摸夜夜摸摸到高潮| 国产主播一区二区三区在线观看| 国产精品九九九无码喷水| 国产永久免费高清在线观看视频| 免费观看一区二区三区视频| 五月天激情电影| 亚洲国产成人久久一区| 宅男噜噜噜| 国产亚洲av手机在线观看| 中文字幕午夜精品久久久| 噜噜噜噜私人影院| 亚洲男人的天堂在线播放 | 手机在线播放成人av| 精品人妻一区二区三区四区在线| 中文字幕人妻中文| 野花社区www高清视频| 91精彩视频在线观看| 扒开非洲女人大荫蒂视频| 看女人毛茸茸下面视频| 国偷自产一区二区免费视频| 两个人看的www高清视频中文| AV永久天堂网| 免费国人成人自拍视频| 中文字幕色偷偷人妻久久一区| 中国少妇内射xxxx狠干| 欧美亚洲综合激情在线| 女同中文字幕在线观看| www夜插内射视频网站| 777精品久无码人妻蜜桃| 国产精品亚洲一区二区无码国产| 人妻熟女中文字幕在线视频| 巨爆中文字幕巨爆区爆乳| 日产国产精品亚洲系列| 无码国产日韩精品一区二区| 极品美女调教喷水网站|