亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于條件隨機(jī)場(chǎng)的地名識(shí)別

        2018-02-22 12:32:00田婧李玉森
        無線互聯(lián)科技 2018年23期
        關(guān)鍵詞:語(yǔ)義文本實(shí)驗(yàn)

        田婧 李玉森

        摘 要:地名是自然語(yǔ)言文本中最基本的命名實(shí)體。地名作為文本中描述空間位置信息的重要組成部分,在空間關(guān)系描述、水利工程等領(lǐng)域具有廣泛應(yīng)用。地名語(yǔ)義解析通過利用自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等手段,實(shí)現(xiàn)文本中地名自動(dòng)識(shí)別及其空間位置語(yǔ)義的智能化判斷。文章在綜述國(guó)內(nèi)外相關(guān)研究進(jìn)展的基礎(chǔ)上,通過分析漢語(yǔ)中地名描述的語(yǔ)言特點(diǎn),探討了較為有效的地名識(shí)別、語(yǔ)義判斷及其可視化方法。

        關(guān)鍵詞:語(yǔ)義判斷;地名識(shí)別;可視化

        作為一種大眾化的信息載體,文本是最常用的一種自然語(yǔ)言,其中蘊(yùn)含著豐富的地名信息。從文本中獲取未分析的(non-analytical)、非顯示的(non-explicit)空間知識(shí)已成為當(dāng)前地理信息科學(xué)迫切需要解決的問題[1]。

        Rou[2]在1991年IEEE Conference on Artificial Intelligence Applications發(fā)表了第一篇關(guān)于命名實(shí)體識(shí)別的研究文章。該文采用啟發(fā)式和人工規(guī)則的方法從文本中識(shí)別公司名稱。從語(yǔ)言方面來看,大多數(shù)命名實(shí)體識(shí)別研究集中于英文,之后德語(yǔ)、法語(yǔ)、西班牙語(yǔ)、丹麥語(yǔ)、中文和阿拉伯語(yǔ)。從文本類型來看,目前只有極少部分研究針對(duì)特定領(lǐng)域的文本進(jìn)行信息抽取,比如EMAIL。從實(shí)體類型來看,早期的信息抽取主要針對(duì)人名、地名、組織機(jī)構(gòu)名稱,時(shí)間、金錢和百分比等數(shù)字型實(shí)體。近年來的研究開始關(guān)注生物信息的抽取,比如蛋白質(zhì)、DNA、RNA和細(xì)胞類型等,而且范圍越來越廣,包括產(chǎn)品、事件、動(dòng)物和宗教等[3]。

        目前,在中文命名實(shí)體識(shí)別已有的研究成果中,有很多是針對(duì)人名、地名、組織名等單項(xiàng)命名實(shí)體進(jìn)行識(shí)別的[4-6]。2004年舉行的863命名實(shí)體識(shí)別評(píng)測(cè),國(guó)內(nèi)共有8家單位參加。在對(duì)簡(jiǎn)體中文文本的測(cè)試中,命名實(shí)體識(shí)別系統(tǒng)的準(zhǔn)確率、召回率和F-值已經(jīng)達(dá)到81.10%,83.69%,82.38%,其中人名、地名、組織名各項(xiàng)的F-值最高分別為85.51%,82.51%,60.81%。

        本文首先通過調(diào)整訓(xùn)練語(yǔ)料顆粒度,實(shí)現(xiàn)基于層疊條件隨機(jī)場(chǎng)地名識(shí)別系統(tǒng),并在此基礎(chǔ)上增加地名語(yǔ)義判斷。通過實(shí)驗(yàn)驗(yàn)證增加語(yǔ)義判斷后,能大大提高地名實(shí)際應(yīng)用價(jià)值。

        1 基于層疊條件隨機(jī)場(chǎng)的地名識(shí)別

        近些年來,機(jī)器學(xué)習(xí)方法在地名識(shí)別領(lǐng)域的應(yīng)用研究受到了廣泛關(guān)注[7-8],特別是基于各種統(tǒng)計(jì)模型的地名識(shí)別研究更是熱點(diǎn)。本文采用層疊條件隨機(jī)場(chǎng)(CCRFS)完成地名解析。

        1.1 基于CCRFS的地名識(shí)別模型

        中文文本中地名主要以簡(jiǎn)單地名、復(fù)雜地名及簡(jiǎn)稱等形式存在。不同類型的地名有著不同的內(nèi)部構(gòu)成規(guī)律和上下文語(yǔ)言環(huán)境,因而應(yīng)分別對(duì)每一類地名構(gòu)造相應(yīng)的識(shí)別算法。相對(duì)于簡(jiǎn)單地名和復(fù)雜地名來說,地名簡(jiǎn)稱相對(duì)簡(jiǎn)單,文本中地名識(shí)別主要探討簡(jiǎn)單地名和復(fù)雜地名的識(shí)別方法,在地名簡(jiǎn)稱的處理上,采用簡(jiǎn)單地名的處理方式。

        本文借鑒層疊條件隨機(jī)場(chǎng)在機(jī)構(gòu)名識(shí)別研究過程中的應(yīng)用,按層疊加條件隨機(jī)場(chǎng)模型完成文本中地名的自動(dòng)識(shí)別任務(wù),如圖1所示。

        在CCRFS模型中,低層的條件隨機(jī)場(chǎng)模型僅以觀察值為條件,用于簡(jiǎn)單地名的識(shí)別,識(shí)別的結(jié)果再傳遞到高層模型,這樣高層模型的輸入變量將不僅包含觀察值,而且包含了來自低層模型的識(shí)別結(jié)果,從而為高層條件隨機(jī)場(chǎng)模型對(duì)復(fù)雜地名的識(shí)別提供了決策支持。采用按層疊加方式使內(nèi)嵌在復(fù)雜地名中的簡(jiǎn)單地名獲得了與非內(nèi)嵌地名一致的處理方式,有助于緩解由數(shù)據(jù)稀疏可能帶來的問題;而且這種方式可以利用復(fù)雜地名一般都包含簡(jiǎn)單地名這一事實(shí),在進(jìn)行復(fù)雜地名識(shí)別時(shí)利用簡(jiǎn)單地名的識(shí)別結(jié)果。

        1.2 語(yǔ)義判斷算法

        語(yǔ)義判斷算法的本質(zhì)就是從所有的候選地名中求得一個(gè)認(rèn)知顯著度最高的地名作為地名所指。我們可以利用公式在給定的語(yǔ)言單元中計(jì)算認(rèn)知顯著度。篇章要完成其作為語(yǔ)言交際基本單位的功能,“必須具備語(yǔ)篇特征,它所表達(dá)的是整體意義。語(yǔ)篇中各成分是連貫的,而不是彼此無關(guān)的。”在一個(gè)篇章中,地名之間必然存在某種聯(lián)系,且這種聯(lián)系是聯(lián)系篇章中其他內(nèi)容的主要紐帶之一。在處理過程中將語(yǔ)言單位分為句子級(jí)、段落級(jí)及篇章級(jí)3種。

        語(yǔ)義判斷算法描述如下:

        PROCEDURE REFERENCE-DISAMBIGUATION

        REFERENT-COUNT(A1_D,A2_D,A3_D,A4_D,D)

        For each paragraph P in D

        RERERENT-COUNT(A1_P,A2_P,A3_P,A4_P,P)

        For each sentence S in P

        RERERENT-COUNT(A1_S,A2_S,A3_S,A4_S,S)

        For each toponym T in S

        Obtain all potential referents R

        For each in R

        ←ComputeSalience(A1_S,A2_S,A3_S,A4_S, )

        If > 0

        store max( ) and move to the next toponym;

        Else

        ←ComputeSalience(A1_P,A2_P,A3_P,A4_P, )

        If >0

        store max( ) and move to the next toponym;

        Else

        ←ComputeSalience(A1_D,A2_D,A3_D,A4_D, )

        Store max( ) and move to the next toponym;

        END

        PROCEDURE REFERENT-COUNT

        For each toponym in Scope X

        Obtain referents R for , each of form ;

        Add to A1_X, to A2_X, to A3_X, and to A4_X;

        END

        其中A1_X,A2_X,A3_X,A4_X分別表示省、市、縣、鄉(xiāng)在篇章、段落以及句子中的頻率向量。

        2 實(shí)驗(yàn)評(píng)估與分析

        實(shí)驗(yàn)結(jié)果評(píng)估參考《2004年度命名實(shí)體識(shí)別評(píng)測(cè)大綱》中關(guān)于地名的評(píng)測(cè)規(guī)范。評(píng)測(cè)采用3個(gè)指標(biāo):正確率、召回率、F值。

        簡(jiǎn)單地名識(shí)別實(shí)驗(yàn)結(jié)果(見表1)。通過人工修正,在簡(jiǎn)單地名識(shí)別完全正確的情況下進(jìn)行復(fù)雜地名識(shí)別實(shí)驗(yàn)(見表2)。表3給出了簡(jiǎn)單地名和復(fù)雜地名復(fù)合后獲得的最終地名識(shí)別結(jié)果。

        簡(jiǎn)單地名識(shí)別階段,完成了兩個(gè)識(shí)別模型的訓(xùn)練任務(wù)。一個(gè)是以人民日?qǐng)?bào)1~5月份語(yǔ)料為訓(xùn)練數(shù)據(jù),另一個(gè)以微軟訓(xùn)練語(yǔ)料為訓(xùn)練數(shù)據(jù)。兩種語(yǔ)料規(guī)模比例大約為5∶1,其中微軟語(yǔ)料為6.74 M。由于兩種語(yǔ)料標(biāo)注方式以及語(yǔ)料規(guī)模的差異,從表1可以看出實(shí)驗(yàn)1、2可以取得很好的識(shí)別效果,但實(shí)驗(yàn)3、5、6的實(shí)驗(yàn)結(jié)果較差。實(shí)驗(yàn)4訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料規(guī)模比例為3∶1,可以認(rèn)為該實(shí)驗(yàn)結(jié)果能夠比較客觀地反映出簡(jiǎn)單地名識(shí)別系統(tǒng)的性能。

        3 結(jié)語(yǔ)

        本文基于層疊條件隨機(jī)場(chǎng)完成地名識(shí)別模型,并在地名語(yǔ)義判斷方面做了嘗試性研究,從而實(shí)現(xiàn)地名的可視化表達(dá)。實(shí)驗(yàn)過程中還發(fā)現(xiàn),條件隨機(jī)場(chǎng)模型在訓(xùn)練時(shí)間及識(shí)別效率方面較差,訓(xùn)練同等規(guī)模的語(yǔ)料,條件隨機(jī)場(chǎng)模型所需要的訓(xùn)練時(shí)間明顯高于隱馬爾科夫、支持向量機(jī)等模型??s短訓(xùn)練時(shí)間、提高識(shí)別效率及增量語(yǔ)料訓(xùn)練等方面將會(huì)是本文進(jìn)一步努力的方向。

        [參考文獻(xiàn)]

        [1]GOODCHILD M F. Citizens as sensors:the world of volunteered geography[J]. Geo Journal,2007(54):211-221.

        [2]RAU L F,JACOBS P S. Creating segmented databases from free text for text retrieval [C]. Chicago:ACM,1991:337-346.

        [3]NADEAU D,SEKINE S. A survey of named entity recognition and classification[J].Lingvisticae Investigationes,2007,30(1): 3-26.

        [4]鄭家恒,劉開瑛.漢語(yǔ)姓名自動(dòng)辨識(shí)初探[J].語(yǔ)言文字應(yīng)用,1994(2):65-68.

        [5]張躍,姚天順.基于結(jié)合性自動(dòng)識(shí)別中文姓名[J].小型微型計(jì)算機(jī)系統(tǒng),1997(10):43-48.

        [6]劉秉偉,黃萱箐,郭以昆. 基于統(tǒng)計(jì)方法的中文姓名識(shí)別[J].中文信息學(xué)報(bào),1999(3):16-24.

        [7]FREITAG D. Machine learning for information extraction in informal domains[D]. Pittsburgh:Carnegie Mellon University,1998.

        [8]MILLER S,CRYSTAL M,F(xiàn)OX H,et al. Algorithms that learn to extract information – BBN:Description of the SIFT system as used for MUC-7,1998[C]. Baltimore:In Proceedings of the Seventh Message Understanding Conference,1998.

        [9]KIMLER M. Geo-Coding: Recognition of geographical references in unstructured text,and their visualisation[D]. Hof:University of Applied Sciences Hof,2004.

        Abstract:Place names are the most basic named entities in natural language texts. As an important part of the description of spatial location information in the text, geographical names are widely used in the fields of spatial relationship description and hydraulic engineering. Semantic analysis of place names realizes the automatic identification of place names in texts and the intelligent judgment of spatial position semantics by means of natural language processing and machine learning. On the basis of reviewing the relevant research progress at home and abroad, this paper explores the more effective geographical name recognition, semantic judgment and visualization methods by analyzing the language characteristics of Chinese place names.

        Key words:semantic judgment; place name recognition; visualization

        猜你喜歡
        語(yǔ)義文本實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        語(yǔ)言與語(yǔ)義
        在808DA上文本顯示的改善
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語(yǔ)義模糊
        欧美精品中文字幕亚洲专区| 丰满熟妇人妻av无码区| 亚洲精品成人无码中文毛片| 中文字幕av在线一二三区| 完整在线视频免费黄片| 中文字幕亚洲高清视频| 国产精品无码av无码| 午夜精品久久久久久中宇| 日韩一二三四精品免费| 亚洲成在人线久久综合| 青青青草国产熟女大香蕉| 日产一区日产2区日产| 蜜臀性色av免费| 九九久久精品无码专区| 成人无码h真人在线网站| 国产99视频一区二区三区| 人妻少妇哀求别拔出来| 无码日韩精品一区二区三区免费| 亚洲AV一二三四区四色婷婷| 久久精品成人一区二区三区蜜臀| 久久亚洲精品中文字幕| 无码人妻精品一区二区三区下载| 中文字幕亚洲好看有码| 白白色免费视频一区二区在线| 国产大片黄在线观看| 亚洲深深色噜噜狠狠爱网站| 日本岛国大片不卡人妻| 美女被男人插得高潮的网站| 亚洲一区二区三区播放| 精品少妇大屁股白浆无码| 国产麻豆国精精品久久毛片| 美国少妇性xxxx另类| 精品熟女少妇av免费观看| 国产一区二区三区视频大全| 免费人成视频网站在在线| 亚洲日韩av无码中文字幕美国| 99精品久久久中文字幕| 日本一区二区三区高清视| 亚洲av无码乱码国产精品| 黄色毛片视频免费| 国内揄拍国内精品久久|