亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于角色標注的中文POI名稱語義分類方法

        2012-12-11 07:27:28張福浩劉紀平
        測繪通報 2012年1期
        關鍵詞:中心詞名稱短語

        羅 安,王 勇,張福浩,劉紀平

        (中國測繪科學研究院,北京100830)

        一、引 言

        當前,互聯(lián)網(wǎng)已成為發(fā)布、使用地理信息的重要途徑,據(jù)不完全統(tǒng)計,從事互聯(lián)網(wǎng)地理信息服務的網(wǎng)站超過500家,按照每個網(wǎng)站每天產(chǎn)生500~1000條地理興趣點標注,每月將產(chǎn)生近1000萬條標注,每年將產(chǎn)生1億多條標注信息。面對數(shù)量如此龐大的地理信息興趣點標注,如何有效快速地對它們進行自動分類,是目前地理信息產(chǎn)業(yè)化面臨的一個重要問題。

        POI標注的信息結構主要包括POI名稱、坐標位置及詳細描述信息三種信息。由于坐標位置信息不帶有文本描述屬性,不具有文本分類的作用,詳細描述信息作為POI屬性特征的詳細描述,具有一定的分類特征屬性,但由于其篇幅比較長,特征屬性偏少,使得整體噪聲比較多,因此,本文將POI名稱作為其主題分類的重要研究對象。

        從詞性的角度來看,POI標注的中文名稱一般是以專有名詞的形式出現(xiàn),主要以地名、地址、事物名稱、機構組織名稱等形式表現(xiàn),往往是特指或泛指某一事物的專用名稱。然而專有名詞是一個數(shù)量巨大、成分復雜、層出不窮的開放集,絕大多數(shù)無法收入普通的語文詞典。因此,這就使得POI名稱的識別和分類具有很大的難度。

        目前,英文POI分類方法比較成熟,而中文POI標注信息的分類還處于研究性階段。相比英文名稱,POI中文名稱的分類難點主要在于:①中文POI名稱是個開放的類,數(shù)量巨大,且具有不穩(wěn)定性,經(jīng)常會出現(xiàn)很多新的名稱或簡稱等;②名稱中的具有復雜的嵌套關系,對其識別和分析造成一定的困難;③中文文本中沒有空格等標注性詞,使得對于未登錄詞的分詞目前還沒有一種成熟的方法。

        現(xiàn)階段,對于中文POI名稱分類的方法還比較少,主要集中對POI名稱的匹配和機構名的識別等方面,劉曉娟提出一種基于Lucene的中文POI名稱的切分與匹配方法,能夠根據(jù)POI的切分單元的角色不同而模糊匹配[1]。張小衡通過分析中文機構名稱的結構而實現(xiàn)對中文機構名稱的自動識別[2]。李軍針對中文機構名中的未登錄詞,提出一種基于模板匹配的中文機構名稱識別方法[3]。俞鴻魁則提出一種基于角色標注的中文機構名稱識別方法[4]。對于中文POI分類一般只是將中文文本分類技術引用到對POI名稱分類中,主要通過對名稱的特征關鍵詞進行提取,并構建SVM特征向量,然后通過特征向量的相似度計算來進行分類。這種方法主要存在以下兩個不足:①沒有考慮名稱短語與長篇文本信息的區(qū)別,并沒有專門針對名稱短語的結構進行分類算法的設計;②只是簡單地通過關鍵詞進行劃分,沒有從語義的層次上對POI名稱進行理解和分類。對于中文地名地址研究已經(jīng)比較成熟,而對于事物名或機構名的研究還處于探索階段。

        本文根據(jù)中文POI名稱結構特征,通過對POI名稱的切分和不同角色的標注,并利用中文文本處理、語義相似度計算等方法,提出一種基于角色標注的中文名稱語義分類方法,提高POI分類效率和精度。

        二、POI名稱短語的結構分析

        從語言學的角度來看,POI名稱主要是各種地名、機構名等實體名稱,是具有許多特性的專有名詞,其構成有一定的規(guī)律可循。通常來說,在不考慮簡稱的情況下,POI名稱是一種偏正復合式名詞短語。形式上,中文POI名稱的構造是[修飾詞+]+[中心詞],其中修飾詞可以是復合型詞語,并且可以出現(xiàn)多個,中心詞則一般為名詞性的名稱特征詞。換句話說,POI名稱是由一個或多個修飾詞加上表示實體或機構等稱呼的中心名詞所組成的。POI名稱短語從宏觀上來看,屬于一種偏正式復合名詞,從其內(nèi)部結構上來看,又屬于一類特別的偏正式名詞短語。

        在POI名稱中,最常出現(xiàn),同時也是最難識別和分析的屬于中文機構名稱短語,目前對于中文機構名的組織規(guī)定分析已經(jīng)有一些成果。一般都認為,中文機構名稱的組織規(guī)律大體上是:[地名]+[前綴修飾成分]+[數(shù)詞]+[經(jīng)營內(nèi)容說明]+[專名]+[中心詞]。其中修飾語中的[地名]、[前綴修飾成分]、[數(shù)詞]、[專名]等專用名稱至少出現(xiàn)一個,其余的可以按需增加。例如:“北京聯(lián)想計算機集團公司”、“中國第一汽車制造廠”、“上海人民廣播電臺”、“北京信息工程學院”、“江蘇有色金屬合金制造廠”等。并且對于離中心詞越近的修飾語,其語義上關系就與整個名稱短語的關系性越大,這也正符合中文短語中的多項式定心短語的基本格式和要求,即含兩個或兩個以上定語的短語,其前面修飾語的格式主要可以分為迭加式、頓加式和列加式三種,其定語之間遵行越是反映事物固定的內(nèi)在本質的定語離中心詞越近的基本語序規(guī)則。

        三、基于角色標注的POI名稱語義分類方法

        本文提出的基于角色標注的POI名稱語義分類的主要步驟為(如圖1):首先利用文中分詞引擎,對POI名稱短語進行分詞處理,將其分為不可再分的詞語粒度單元;然后根據(jù)各個分詞單元的詞性特征,對其進行角色標注,確定其在整個名稱短語中的地位;再根據(jù)角色標注確定名稱短語中的中心詞,并利用基于中心詞的剪枝算法,去除不具有實際意義的詞語標注;最后根據(jù)賦權重的語義相似度算法,設置修飾特征詞與中心詞的語義權重,計算POI名稱與分類體系中各個類別的相似度,實現(xiàn)POI名稱的自動分類。

        圖1 POI名稱自動分類

        1.POI名稱的角色標注

        根據(jù)POI名稱結構的分析,能夠發(fā)現(xiàn)POI名稱中的各種詞處于不同的位置,而使得其在POI名稱中扮演的角色也不同,在名稱分類中的作用也不相同。因此,本文首先根據(jù)POI名稱中各種詞的不同詞性進行角色標注。

        在角色標注時,本文主要通過對POI名稱中的詞性進行標注。其方法主要是根據(jù)帶詞性的分詞詞典進行對中文POI名稱短語的分詞和詞性標引,而對于具有多種詞性的詞語的詞性選擇時,可以利用隱馬科夫(HMM)模型方式進行詞性組合的選擇和確定。其具體方法如下:對于一個給定的中文POI名稱短語W=w1w2w3…wm,首先通過帶有詞性標注的分詞詞典對詞串W進行相應的角色標注,記錄為T1=t11t12t13…t1m、T2=t21t22t23…t2m,…、Tn=tn1tn2tn3…tnm。然后根據(jù)計算T1,T2,…,Tn中哪種組合出現(xiàn)的概率最大,即求使得P(T|W)概率最大的那個角色標注串Ti

        根據(jù)貝葉斯公式,有P(T|W)=P(T)P(W|T)/P(W)。

        上述問題可以利用HMM模型進行求解,將POI名稱短語wi作為觀察值,角色標注系列ti作為狀態(tài)值,則W為觀察序列,T為狀態(tài)序列。從而對角色標注序列T的求解就迎刃而解。從而實現(xiàn)中文POI名稱的角色標注,如圖2所示。

        圖2 POI名稱角色標注

        2.基于中心詞的裁剪方法

        通過對POI名稱短語的角色標注,使得POI名稱中各詞的詞性都具有標注信息,說明其在名稱短語中的不同作用。從POI名稱結構中,可以發(fā)現(xiàn)作為偏正式的名詞短語,其中心詞往往為名稱的后部,為了簡單和方便,本文選取POI名稱角色標注中最后一個名詞作為其中心詞。例如:“華夏集團有限公司”其中心詞為“公司”,“雷達表專賣商店”中心詞為“商店”。然后根據(jù)POI名稱短語中其余部分的不同角色標注,進行枝葉裁剪。

        根據(jù)POI名稱中各構成詞的作用分析發(fā)現(xiàn),其名稱結構中的詞可以大致分為地名、專名、業(yè)務名、修飾詞、門類詞、數(shù)字和通用名,其中的地名、修飾詞、門類詞和數(shù)字對于POI名稱分類的作用不大,專名、業(yè)務名和通用名等相關名詞就可以對POI名稱進行分類。例如:“北京教育局”作為POI標注名稱,其中北京作為地名來修飾教育局的,而對于整個名稱短語的分類并沒有影響。同時又存在一些修飾詞并不是直接修飾中心詞,而是修飾中心詞的限定詞,這類詞對于POI名稱分類也沒有實際意義,如“上海大學嘉定校區(qū)”,上海是修飾大學的,而嘉定則是修飾校區(qū)的,這兩個地名名稱都不影響標注的分類,只有大學作為修飾校區(qū)的一個前綴修飾名詞,用來說明該校區(qū)是指大學的校區(qū),對分類是有一定的影響。

        因此,本文采用以中心詞為基礎的枝葉裁剪方法,通過選定POI名詞短語中的中心名詞,然后根據(jù)中心詞前面和后面不同位置進行不同方式的裁剪,其具體裁剪方法為:

        1)對于位于中心詞后面的部分,這部分內(nèi)容主要以一些方位詞出現(xiàn),可以是對POI名稱位置的說明,這類方位詞對于POI名稱的分類沒有任何作用,如“北京大學東邊”中“東邊”是個方位詞,其裁剪方法是直接去除。

        2)對于位于中心詞前面的部分,這部分內(nèi)容可以是多重復合型名詞定語,其中有些特征性名詞、專用名詞及表示作用的通用名詞都對POI名稱分類有很多作用,而對于非名詞性詞語、地名、人名、數(shù)字等對于POI名稱分類作用不大,因此,該部分的裁剪方法主要是對于非名詞性標注的詞和地名性的名詞可以直接去除,對于其他名詞可以根據(jù)其內(nèi)部語義關系進行選擇性去除。

        例如:北京海關駐順義區(qū)辦事處南面,通過上述裁剪方法如圖3所示,將中心詞“辦事處”后面部分去掉,并將前面部分的地名性名詞和動詞去掉,最后剩下“海關/nd辦事處/nc”。

        圖3 基于中心詞的裁剪算法

        3.POI語義分類方法

        通過對POI角色標注,根據(jù)POI名稱中不同角色的劃分進行語義相似度分類計算,其主要方法為:為中心詞賦上比較高的權重,然后根據(jù)離中心詞距離的遠近分配不同的權值逐一對不同角色標注信息進行賦值,再通過計算每個名詞角色之間的語義相似度,來實現(xiàn)整個POI名稱短語的相似度的計算,最后通過相似度的選擇實現(xiàn)POI的自動語義分類。

        POI名稱自動分類算法如下

        式中,PC(n)表示名稱為n的POI屬于分類C的概率;P(wcenter)表示POI名稱中中心詞屬于C的概率;PC(wi)表示第i個修飾詞屬于C的概率;λ、ai為[0,1]之間的參數(shù),并且∑(λ,a1,…,ai)=1。

        對于POI中每個詞語之間屬于某一分類的概率則直接通過其與分類詞語的語義相似度進行衡量。一般而言,兩個詞的語義距離是一個位于[0,∞)之間的實數(shù)。兩個互不相關的詞語之間的距離為+∞,兩個相同詞語或同義詞語之間的距離為0。詞語之間的語義相似度則跟其距離具有密切的關系。即:兩個詞語的距離越大,其相似度就越低;相反,兩個詞語的距離越小,其相似度就越大。二者之間可以建立一種簡單的映射關系。這種映射關系需要滿足以下幾個條件:

        1)兩個詞語距離為0時,其相似度為1;

        2)兩個詞語距離為+∞時,其相似度為0;

        3)兩個詞語的相似性與它們之間距離成反比。

        然而詞語的語義相似度,也并不是僅僅與其距離相關,還應該考慮其他一些相關因素,例如:詞語所處語義樹中的深度、區(qū)域密度等因素,因為如果某兩個詞語處于構建的語義樹的頂層,就算其距離很小,但是由于其節(jié)點之間分類跨度很大,其相似性相對就很小,而當某兩個詞語處于語義樹的底層,此時分類類型比較精細,使得其詞語距離相同的情況下,相似性相對比較大。

        因此,本文采用的詞語W1與W2相似度計算算法為

        式中,sim(w1,w2)為兩個詞語之間的相似度;α是用于控制詞語深度影響的可調節(jié)參數(shù);dw1、dw2表示W(wǎng)1與W2的各自的語義距離;h(w1,w2)為詞語W1與W2共同最小父類的深度值;dis(w1,w2)為W1與W2之間的詞語距離。

        四、試驗與分析

        為了對本文的POI名稱分類方法進行驗證,主要建立的分類包括軍事、公共設施、組織機構等在內(nèi)的15個一級類,33個二級分類以及72個三級分類,然后通過計算POI名稱與各類之間的相似度進行自動分類。例如:以POI名稱為“老式軍事雷達”的POI分類為例,其分類結果如圖4所示。

        圖4 試驗分類結果

        為了進行大量 POI名稱分類的測試,選取meet99網(wǎng)站的1萬條POI記錄進行測試,通過對這1萬條POI名稱的自動分類,能夠找到軍事類的167條,其中遺漏POI數(shù)量為12條,錯誤歸類的數(shù)量26條,說明了本文POI名稱自動分類的準確度為84.4%,召回率為92.1%,如表1 所示。

        表1 試驗結果分析表

        從上述的分類結果可以發(fā)現(xiàn),本文的中文POI名稱分類方法能夠在分類準確率和召回率上有所提升,尤其是在召回率上面比較高,其原因可能主要分為以下幾點:①一條POI根據(jù)其名稱可能被分到多個類別中,也可能不能歸類到任何類別,這就需要通過分類中相似度的閾值進行設置,在試驗中,設置的相似度閾值為0.3,能夠在確保一定分類準確率的基礎上,提高分類的召回率;②從語義的層次上進行深入挖掘POI名稱中的語義信息,使得其歸類的數(shù)量就相對多了些,相應地提高了分類算法中的召回率。

        五、結束語

        本文介紹了一種基于角色標注的中文POI名稱分類方法,首先對中文POI的組成結構進行了相關分析,然后針對其結構特征進行中文分詞和角色標注,然后通過以中心詞為依據(jù)進行名稱中各種詞性角色的裁剪,再通過對中心詞和前置修飾名詞的語義相似度計算,來實現(xiàn)POI名稱的分類,最后通過試驗進行驗證和結果的分析。

        從試驗的結果來看,本文的分類方法具有一定的效率,但由于中文POI短語角色標注的不成熟及語義詞典構建不完整等問題,使得POI自動分類還需要進一步的研究,這將是今后POI分類研究中需要重點解決的問題。

        [1]劉曉娟.基于Lucene的中文興趣點名稱的切分與匹配研究[J].電腦知識與技術,2011,21(7):1009-3044.

        [2]張小衡,王玲玲.中文機構名稱的識別與分析[J].中文信息學報,1997,4(11):21-32.

        [3]李軍,王丁,王鑫.基于模板匹配的中文機構名識別[J].信息技術,2008,6(25):97-99

        [4]俞鴻魁,張華平,劉群.基于角色標注的中文機構名識別[C]∥Proceedings of the 20th International Conference on Computer Processing of Oriental Languages.Shenyang:[s.n.],2003.

        [5]萬菁,姬東鴻,任函,等.漢語復合名詞短語特征結構的標注研究[M]∥中國計算語言學研究前沿進展.北京:清華大學出版社,2011:94-99.

        [6]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語義傾向計算[J].中文信息學報,2006,1(20):14-20.

        [7]張雪英,朱少楠,張春菊.中文文本的地理命名實體標注[J].測繪學報,2012,41(1):115-120.

        [8]張華平,劉群.基于角色標注的中國人名自動識別研究[J].計算機學報,2004,27(1):85-91.

        [9]楊德來.SVM和最大熵相結合的中文機構名自動識別[D].大連:大連理工大學,2006.

        [10]王紅玲.基于特征向量的中英文語義角色標注研究[D].蘇州:蘇州大學,2009.

        猜你喜歡
        中心詞名稱短語
        Why I ride
        滬港通一周成交概況
        滬港通一周成交概況
        滬港通一周成交概況
        滬港通一周成交概況
        同位語從句與中心詞的句法關系
        準確把握“中心詞”輕松突破高考英語閱讀理解題
        考試周刊(2013年89期)2013-04-29 00:44:03
        “中心詞+外化親屬稱謂語”的多維分析
        外語學刊(2011年3期)2011-01-22 03:42:14
        男女发生关系视频网站| 好大好深好猛好爽视频免费| 精品一区二区三区久久| 国产精品成人一区二区在线不卡| av免费在线观看在线观看| 最新日韩精品视频免费在线观看| 日韩久久av电影| 四虎国产精品成人影院| 日韩精品一区二区三区四区视频| 国产在线观看网址不卡一区| 免费无遮挡毛片中文字幕| 成美女黄网站18禁免费| 欧美v日韩v亚洲综合国产高清| 国产杨幂AV在线播放| 青春草在线观看免费视频| 在线观看中文字幕一区二区三区| 午夜婷婷国产麻豆精品| 又爽又猛又大又湿的视频| 亚洲综合一区二区三区久久| 日本人妻97中文字幕| 欧洲乱码伦视频免费| 欧美video性欧美熟妇| 无码人妻av一区二区三区蜜臀| 真人新婚之夜破苞第一次视频| 亚洲 自拍 另类小说综合图区 | 最新亚洲人AV日韩一区二区| 大地资源网更新免费播放视频| 亚洲成a人片在线网站 | 18禁无遮挡羞羞污污污污网站| www国产精品内射熟女| 暖暖免费 高清 日本社区在线观看| 欧美日韩激情在线一区二区| 99精品国产成人一区二区在线| 亚洲精品精品日本日本| 日韩亚洲一区二区三区在线| 亚洲专区路线一路线二网| 精品成人av人一区二区三区| 国产香蕉一区二区三区在线视频| 蜜桃传媒免费在线播放| 国产精品麻豆va在线播放| 午夜精品久久久久久99热|