亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析

        2016-02-22 11:41:39高璐趙小兵
        科技視界 2016年5期
        關(guān)鍵詞:知網(wǎng)自然語言處理

        高璐 趙小兵

        【摘 要】自HowNet誕生以來,作為一個(gè)中文常識(shí)性知識(shí)庫,HowNet為自然語言處理提供了一個(gè)新的研究資源。本文主要研究了HowNet利用其計(jì)算詞語相似度的優(yōu)勢在中文自然語言處理應(yīng)用中做出的突出貢獻(xiàn),深入剖析了HowNet的知識(shí)結(jié)構(gòu)以及相關(guān)技術(shù),并提出了HowNet在近年來應(yīng)用過程中遇到的技術(shù)難題及瓶頸。

        【關(guān)鍵詞】知網(wǎng);自然語言處理;HowNet;詞語相似度

        自然語言處理的最終目標(biāo)是讓計(jì)算機(jī)能夠與人類進(jìn)行有效的通信。國外的自然語言處理發(fā)展的相對成熟,大規(guī)模的真實(shí)語料庫的建立以及知識(shí)庫諸如WordNet、FrameNet的不斷完善推動(dòng)了自然語言的發(fā)展。盡管這樣,由于中文和英文的結(jié)構(gòu)句法不同,有自己獨(dú)特的特色,因此我們不能本著“拿來主義”,用國外已有的技術(shù)來處理中文的自然文本,必須有一套適合中文的處理模式。

        HowNet由董振東、董強(qiáng)先生于1999年在因特網(wǎng)上公布,作為一個(gè)雙語知識(shí)庫,它為中文自然語言處理提供了不可多得的語言資源。目前關(guān)于知網(wǎng)的研究還處于基礎(chǔ)階段,劉群、李素建等人深入研究了基于HowNet的詞語相似度計(jì)算,其他的研究人員也將HowNet應(yīng)用于信息檢索、MC評(píng)測集的建立等領(lǐng)域,取得了可喜的成績。

        本文深入研究了HowNet的相關(guān)結(jié)構(gòu),分析了HowNet的知識(shí)組成以及網(wǎng)狀關(guān)系,探討了Hownet在當(dāng)前領(lǐng)域的現(xiàn)狀并指出了其存在的問題,并分析了原因。

        1 HowNet簡介

        《知網(wǎng)》[3]是一個(gè)在線的語言外的知識(shí)系統(tǒng),其中概念的定義被描述為計(jì)算機(jī)很容易計(jì)算的機(jī)構(gòu)化標(biāo)記語言形式。它除了提供中文含義還提供了含義相等的英文詞匯。知網(wǎng)中的每個(gè)概念有多個(gè)義項(xiàng),而每個(gè)義項(xiàng)由多個(gè)義原按照KDML語法組織在一起。如知識(shí)庫中對“醫(yī)生”的描述為:{human|人:HostOf={Occupation|職位},domain={medical|醫(yī)},{doctor|醫(yī)治:agent={~}}},這里的“人”、“職位”、“醫(yī)”、“醫(yī)治”均是知網(wǎng)的義原,幾個(gè)義原的組合,共同描述概念“醫(yī)生”的真實(shí)語義。

        2 基于HowNet的詞語相似度計(jì)算

        HowNet通過上下位關(guān)系將義原組織成了一個(gè)義原分類體系。該分類體系主要包括事件、實(shí)體、屬性和屬性值4種,我們可以通過義原的層次清楚到看到義原的上下位關(guān)系,并簡單的計(jì)算義原之間的距離。HowNet把這些知識(shí)提供給計(jì)算機(jī),從而讓計(jì)算機(jī)可以對這些知識(shí)進(jìn)行操作。詞語相似度的計(jì)算就是挖掘義原之間的距離、深度、密度等信息,利用這些信息對義原進(jìn)行相關(guān)的計(jì)算,從而得到一個(gè)相似度值。相似度計(jì)算主要有以下方法:一種是基于機(jī)器的詞典的方式,比如HowNet;另一種是基于統(tǒng)計(jì)的方法。本節(jié)主要探討第一種方式。

        2.1 詞語相似度計(jì)算

        劉群、李素建[2]等人利用義原的距離信息提出了一種詞語相似度計(jì)算的算法。他們將每一個(gè)詞語分解成n個(gè)義項(xiàng),并定義最終的相似度應(yīng)該是所有義項(xiàng)的相似度的最大值。故對于兩個(gè)漢語詞語W1和 W2,如果W1有n個(gè)義項(xiàng)(概念):S11,S12,……,S1n,W2有m個(gè)義項(xiàng)(概念):S21,S22,……,S2m,則這兩個(gè)詞語的相似度應(yīng)該是W1的義項(xiàng)S11,S12,……,S1n和W2的義項(xiàng)S21,S22,……,S2m之間的最大相似度值。即:

        Sim(W1,W2)= ■Sim(S1i,S2j)(1)

        2.2 概念(義項(xiàng))相似度計(jì)算

        下一步就是求義項(xiàng)相似度,即DEF項(xiàng)。在HowNet中,DEF項(xiàng)主要通過義原的各種動(dòng)態(tài)角色組織起來。如對于“警察”這個(gè)概念,在知識(shí)庫中描述為:DEF={human|人:HostOf={Occupation|職位},domain={police|警}}。其中“human|人”是第一基本義原,“Occupation|職位”“police|警”是其他基本義原。有些復(fù)雜的DEF項(xiàng)還包括關(guān)系義原和符號(hào)義原。因此劉群等人將DEF的描述義原分為以上四種,并分別記它們的相似度為Sim1(S1,S2)、Sim2(S1,S2)、Sim3(S1,S2)、Sim4(S1,S2):因此,兩個(gè)DEF項(xiàng)的相似度公式為:

        Sim(S1,S2)=■?茁i■Simj(S1,S2)(2)

        知網(wǎng)中相似性的計(jì)算是基于概念的,它已被證明達(dá)到非常高的精度。而上面通過對“警察”這個(gè)概念的描述,我們能看出來DEF是通過KDML將義原和動(dòng)態(tài)角色組織起來來體現(xiàn)的。劉群等人采用做過一些簡單的實(shí)驗(yàn),它們僅僅利用了義原的距離信息,并取得較理想的效果。 2.4 義原相似度的改進(jìn)算法

        吳健和江敏等人在劉群的研究基礎(chǔ)上,又進(jìn)一步改進(jìn)了語義相似度計(jì)算公式,使得計(jì)算的結(jié)果更加精確。吳健等人不僅考慮了義原的距離,還將義原的深度信息以一定的比重加入進(jìn)來,當(dāng)義原所處的深度總和越大,所賦予的比重則越高。江敏則還考慮了義原之間的反義、對義和義原的定義,改進(jìn)了上面的計(jì)算公式。義原相似度算法的不斷的改進(jìn),為HowNet在自然語言處理方面的應(yīng)用提供了研究工具。目前基于HowNet的研究不斷的開展,諸如語義傾向性分析、詞義消歧、信息檢索、MC評(píng)測集的建立等。

        3 HowNet在自然語言處理領(lǐng)域的應(yīng)用

        3.1 語義傾向性分析

        朱嫣嵐等人在語義傾向性分析方面做了較深的研究。他們認(rèn)為一個(gè)詞語的褒貶性可以通過該詞與另一個(gè)已知褒貶性詞語的相似度來衡量。他們首先建立了一個(gè)基準(zhǔn)詞庫,并且人工挑選了一部分已知傾向性的種子詞對,并加入到詞庫當(dāng)中。這個(gè)可以通過HowNet直接獲取。假設(shè)基準(zhǔn)詞典里共有褒貶詞m對,褒義詞用bench_y來表示,貶義詞用bench_n表示,待判斷傾向詞匯為W。則語義傾向性分析的基本思想是:判斷W與bench_y和bench_n的相似度,若W與bench_y的相似度大于W與bench_n的相似度,則W為褒義,否則為貶義。

        3.2 詞義消歧

        一個(gè)知識(shí)庫質(zhì)量的好壞直接決定了基于知識(shí)詞典的詞義消歧的準(zhǔn)確率。彭琳等人經(jīng)過研究發(fā)現(xiàn):①如何確定單詞的詞義及其個(gè)數(shù);②如何從這些詞義中做出選擇,這兩個(gè)問題是解決知識(shí)庫消歧的關(guān)鍵問題。而解決第二個(gè)問題的方法就是,抽取句子中的關(guān)鍵字序列,將各關(guān)鍵字與歧義詞的各義項(xiàng)進(jìn)行相似度比對,選取相似度值最高的義項(xiàng)作為歧義詞應(yīng)取的義項(xiàng)。

        HowNet對每一個(gè)詞語的每一個(gè)義項(xiàng)均提供了實(shí)例,即(E_C)。提供這些實(shí)例的目的不僅僅是來解釋這個(gè)義項(xiàng),更是用來說明這個(gè)義項(xiàng)與其他義項(xiàng)的不同。而且隨著HowNet版本的不斷更新,所提供的實(shí)例庫也越來越完整。因此一些基本的詞匯通過實(shí)例庫就可以進(jìn)行簡單的消歧,從而消除了用統(tǒng)計(jì)的方法進(jìn)行詞義消歧產(chǎn)生的噪音,提高了詞義消歧的正確率。

        4 HowNet在實(shí)際應(yīng)用中的問題與總結(jié)

        目前HowNet不僅在文中所述的詞語相似性計(jì)算、情緒分析、信息檢索、詞義消歧、擴(kuò)展知識(shí)詞典等方面的研究有了很大的進(jìn)展,在命名實(shí)體、自動(dòng)文摘、語義場的構(gòu)建方面的研究也有長足的進(jìn)步,這些研究為自然語言的發(fā)展貢獻(xiàn)了力量。但同時(shí),HowNet在這十余年的發(fā)展中也面臨著一些問題:

        1)HowNet是一種珍貴的語言學(xué)資源,但由于缺乏多種相關(guān)技術(shù)的支持,如擴(kuò)展知識(shí)庫的方法和工具,為知識(shí)庫添加(下轉(zhuǎn)第75頁)(上接第39頁)實(shí)例的方法和工具,以及基于知識(shí)庫的推理的相關(guān)算法及工具。這些工具和研究方法的缺失使得HowNct無法短時(shí)間內(nèi)很好的推廣,距離實(shí)際應(yīng)用還有較大的距離。

        2)HowNet作為一種人工編纂的詞典,許多詞語的定義項(xiàng)DEF有不完整的地方,概念定義與實(shí)際有一定的偏差,需要對概念定義進(jìn)行補(bǔ)充。HowNet雖然收錄了近20萬多詞條,但依舊收錄有限。另外對于不斷出現(xiàn)的未登錄詞,比如“八榮八恥”等,會(huì)固定成為我們的日常用語,HowNet就顯得力不從心了。這就需要不斷的更新知識(shí)庫,另外HowNet也應(yīng)該建立一個(gè)在線的新詞發(fā)現(xiàn)機(jī)制,使得用戶能夠通過在線來更新自己的知識(shí)庫,這對未來的研究是很有幫助的。

        目前HowNet已經(jīng)取得長足的進(jìn)步,希望HowNet在已取得的成績的基礎(chǔ)上繼續(xù)發(fā)展,也希望更多的技術(shù)能夠融入進(jìn)來,推動(dòng)HowNet在實(shí)際領(lǐng)域的應(yīng)用和完善,為自然語言的發(fā)展加彩。

        【參考文獻(xiàn)】

        [1]董振東,董強(qiáng)(1999).“知網(wǎng)”,http://www.keenage.com[OL].

        [2]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度的計(jì)算[J].計(jì)算語言學(xué)及中文信息處理,2002,7:59-76

        [3]董振東.HowNet and Computation of Meaning[OL/R].第十三屆國際詞網(wǎng)研討會(huì).

        [4]董振東,董強(qiáng),郝長伶.知網(wǎng)的理論發(fā)現(xiàn)[J].中文信息學(xué)報(bào).2007(04).

        [責(zé)任編輯:王楠]

        猜你喜歡
        知網(wǎng)自然語言處理
        著作權(quán)使用聲明
        近三年維吾爾語言研究情況綜述
        基于知網(wǎng)的翻譯研究方向畢業(yè)論文寫作
        近三年維吾爾語言研究情況綜述
        基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
        面向機(jī)器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
        詞向量的語義學(xué)規(guī)范化
        漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
        基于.NET的維哈柯多語種網(wǎng)上數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        国产手机在线观看一区二区三区| 国内精品卡一卡二卡三| 尤物视频在线观看| 亚洲午夜精品久久久久久人妖| 白嫩少妇激情无码| 无码伊人久久大蕉中文无码 | 在线观看一区二区女同| 视频福利一区二区三区| 亚洲国产精品成人一区二区三区| 日本成年一区久久综合| 色综合久久无码五十路人妻| 私人vps一夜爽毛片免费| 亚洲第一av导航av尤物| 又色又爽又黄又硬的视频免费观看| 最新国产精品亚洲二区| 丝袜美腿一区二区在线观看| 人妻少妇中文字幕,久久精品| 性久久久久久| 国产成人综合亚洲看片| 成人做爰高潮尖叫声免费观看| 国产精品久久久久免费看| 亚洲一区域二区域三区域四| 偷拍一区二区视频播放器| 无码任你躁久久久久久久| 欧美国产亚洲精品成人a v| 亚洲高清美女久久av| 国产精品一区二区久久久av| 日日摸日日碰人妻无码 | 完整在线视频免费黄片| 日韩精品久久不卡中文字幕| 日本美女在线一区二区| 日韩精品真人荷官无码| 亚洲综合久久成人a片| 中文无码制服丝袜人妻AV| 永久免费观看的黄网站在线| 亚洲av永久无码精品古装片| 久久精品人人爽人人爽| 无码视频一区二区三区在线播放| 伊人婷婷综合缴情亚洲五月| 欧洲乱码伦视频免费| 老太脱裤子让老头玩xxxxx|