亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于SVM和泛化模板協(xié)作的藏語人物屬性抽取

2015-06-09 23:45:58朱臻，孫媛

中文信息學(xué)報 2015年6期

關(guān)鍵詞：特征

朱臻，孫媛

(1. 中央民族大學(xué) 信息工程學(xué)院，北京 100081；2. 中央民族大學(xué) 國家語言資源監(jiān)測與研究中心少數(shù)民族語言分中心，北京 100081)

基于SVM和泛化模板協(xié)作的藏語人物屬性抽取

朱臻1,2，孫媛1,2

(1. 中央民族大學(xué) 信息工程學(xué)院，北京 100081；2. 中央民族大學(xué) 國家語言資源監(jiān)測與研究中心少數(shù)民族語言分中心，北京 100081)

該文提出了一種基于SVM和泛化模板協(xié)作的藏語人物屬性抽取方法。該方法首先構(gòu)建了基于藏語語言規(guī)則的模板系統(tǒng)，收集了包括格助詞、特殊動詞等具有明顯語義信息的特征建設(shè)模板并泛化。針對規(guī)則方法的局限性，該文在模板的基礎(chǔ)上，采用SVM機器學(xué)習(xí)方法，設(shè)計了一種處理多分類問題的層次分類器結(jié)構(gòu)，同時對多樣化的特征選取給予說明。最后，實驗結(jié)果表明，基于SVM和模板相結(jié)合的方式可以對人物屬性抽取的性能有較大提高。

人物屬性抽??；藏語語言處理；SVM；層次分類器

1 引言

隨著互聯(lián)網(wǎng)的快速普及，特別是發(fā)展中國家互聯(lián)網(wǎng)用戶的快速增加，網(wǎng)絡(luò)上非英語文本資源數(shù)量急速增長，其增長速度遠遠超過了十年前的速度，并且越來越多的網(wǎng)上信息以多語言的形式發(fā)布。

據(jù)中央民族大學(xué)國家語言資源監(jiān)測與研究中心少數(shù)民族語言分中心調(diào)查，截止到2013年12月底，大陸少數(shù)民族語言文字的網(wǎng)站總量在1 250個左右，其中維吾爾文網(wǎng)站840個、藏文網(wǎng)站146個、蒙古文網(wǎng)站136個?！芭c全國網(wǎng)民增長速度相比，少數(shù)民族網(wǎng)民的增速較為突出，例如，藏族網(wǎng)民增幅達86%，遠遠高于全國平均增長速度”[1]。

Web內(nèi)容的爆炸式增長，使得對Web的社會網(wǎng)絡(luò)研究已經(jīng)不再局限于對Web結(jié)構(gòu)的分析，而是轉(zhuǎn)向以Web內(nèi)容為研究對象的分析[2]，其中知識圖譜(Knowledge Graph)成為大數(shù)據(jù)時代自然語言處理領(lǐng)域的一個研究熱點。知識圖譜以結(jié)點代表實體或者概念，邊代表實體/概念之間的各種語義關(guān)系，其中實體知識的抽取是主要研究內(nèi)容之一。

知識圖譜以全面、完整的知識體系為信息檢索、問答系統(tǒng)、知識庫構(gòu)建等領(lǐng)域的研究提供了資源和支撐，而目前已有的Google(超過5.7億實體，18億關(guān)系)，DBpedia(超過1 900萬實體，1億關(guān)系)，Wiki-links(4 000萬排除歧義的關(guān)系)，Wolframalpha(10萬億關(guān)系)，Probase(超過265萬實體)，百度知心，搜狗知立方等知識圖譜只提供英、漢、法等語言的相關(guān)知識[3]，少數(shù)民族語言知識圖譜的構(gòu)建才剛剛起步。

因此，本文針對藏語語言的特點，提出了一種基于SVM和泛化模板協(xié)作的藏語人物屬性抽取方法。藏語人物屬性抽取的研究，是藏語知識圖譜構(gòu)建的基礎(chǔ)，為藏語知識問答、信息檢索、信息抽取等領(lǐng)域研究提供支撐，對提高少數(shù)民族地區(qū)的社會管理科學(xué)化水平、維護民族團結(jié)和國家統(tǒng)一、構(gòu)建和諧社會具有重要意義。

2 國內(nèi)外研究現(xiàn)狀及發(fā)展動態(tài)分析

人物屬性抽取是信息抽取領(lǐng)域的一個重要研究對象[4]，該概念在2009年的國際TAC KBP會議開始引入[5]。人物屬性抽取是指自動從無結(jié)構(gòu)或者半結(jié)構(gòu)的文本語料中抽取特定的人物屬性，其中包括人物性別、出生年月、出生地、所屬機構(gòu)等。但是人物屬性抽取一直面臨著兩大問題[6]，即人物屬性識別問題和人物屬性關(guān)系判別問題。人物屬性一般為命名實體，例如，人名、地名和組織機構(gòu)名。命名實體識別在自然語言處理領(lǐng)域仍是一件尚未完全解決的工作。因此，在人物屬性抽取工作前，需要準(zhǔn)備高準(zhǔn)確度命名實體標(biāo)注語料[7]。

為了實現(xiàn)大規(guī)模數(shù)據(jù)的信息抽取，很多機器學(xué)習(xí)算法被引入到信息抽取領(lǐng)域。Freitag采用HMM結(jié)構(gòu)進行信息抽取[8]，Laffery使用條件隨機場抽取數(shù)據(jù)[9]，Kambhatla把多種特征用于最大熵模型并取得了較好的抽取效果[10]。而應(yīng)用最廣的是支持向量機方法[11-12]。作為信息抽取領(lǐng)域的一個分支，把統(tǒng)計的方法運用于人物屬性抽取，通常采用基于特征向量的方式[13]。其中，經(jīng)典的基于特征向量的機器學(xué)習(xí)方法包括最大熵模型[14]和支持向量機[15]。另外，特征選取對于基于特征向量的方式至關(guān)重要。Miler構(gòu)建了一種語義解析樹，樹中整合了概念間關(guān)系的多種語義信息，包括詞性標(biāo)注，命名實體識別標(biāo)記和其他一些語言上的強特征，這些特征給分類器提供了很好的依據(jù)[16]。Culotta根據(jù)依存樹構(gòu)建了核函數(shù)，并將其用于機器學(xué)習(xí)算法[17]。Zelenko引入了一種樹核的方法[18]。

但是，目前針對藏語的實體知識抽取領(lǐng)域的研究較少，主要研究集中于藏語的命名實體識別方法[19-21]，而對于實體關(guān)系抽取特別是人物屬性抽取的研究尚未有成熟的成果。歸納原因，藏語任務(wù)屬性抽取存在的困難如下： (1)訓(xùn)練語料匱乏；(2)藏語在句子和篇章級的信息處理研究還處于起步階段，因此，英、漢實體關(guān)系抽取中的核函數(shù)方法無法被直接應(yīng)用于藏語實體關(guān)系抽取中。

因此，本文針對藏語的特點，構(gòu)建了一定規(guī)模的訓(xùn)練語料，提出一種基于SVM和泛化模板的藏語人物屬性關(guān)系抽取方法。其中，模板構(gòu)建重點選取包括藏語后置謂詞，相關(guān)的格信息等主要特征。此外，針對模板方式的局限性，本文采用SVM機器學(xué)習(xí)方法，設(shè)計了一種處理多分類問題的層次分類器進行屬性關(guān)系抽取。最后，本文分別采用模板、SVM以及模板和SVM結(jié)合的方法進行實驗，實驗結(jié)果表明，通過模板和SVM結(jié)合的方式有效提高了人物屬性抽取的正確性。

3 整體框架

通過可配置的爬蟲系統(tǒng)從多個藏文網(wǎng)站獲取語料，從中篩選出關(guān)于人物介紹的文章并對這些句子做預(yù)處理，包括分詞、詞性標(biāo)注和命名實體識別。首先，根據(jù)訓(xùn)練語料構(gòu)建模板系統(tǒng)。此外，為了應(yīng)對開放語料的多樣性問題，引入了SVM方法進行預(yù)測，而模板中的語言規(guī)則作為輔助工具。最終將處理完成的數(shù)據(jù)裝入人物-屬性庫中,具體過程如圖1所示。

4 模板構(gòu)建

一定量的訓(xùn)練語料標(biāo)注之后，可以進入模板系統(tǒng)建設(shè)階段，本節(jié)將分別介紹藏語特征選擇，模板建設(shè)和泛化過程。

圖1 基于SVM和泛化模板相結(jié)合的藏語人物屬性關(guān)系抽取方法

4.1 主要藏語特征選擇

不同于漢語和英語，藏語是謂語后置型語言，動詞是句子的核心。動詞附近的格標(biāo)記含有豐富的語義角色信息，格標(biāo)記在一定程度上反映出句子中謂詞與主體詞之間的關(guān)系，而且這些格標(biāo)記的出現(xiàn)存在一定的規(guī)律。因此，對格標(biāo)記做了整理，這些格標(biāo)記對藏文人物屬性抽取起到重要的作用，如表1所示。

表1 藏語格標(biāo)記的類型與作用

4.2 模板建設(shè)

與漢語和英語不同，模板建設(shè)中更加注重藏語特有的格標(biāo)記和周圍的動詞，在語料標(biāo)注的基礎(chǔ)上構(gòu)建特征模板，如例1-4。

詞性標(biāo)記采用“國家語言資源監(jiān)測與研究中心少數(shù)民族語言分中心”的《信息處理用現(xiàn)代藏語詞類標(biāo)記集規(guī)范》，其中，“/nh”表示人名、“/t”表示時間、“/ns”表示地名、“/k”表示格標(biāo)記、“/v”表示動詞。

4.3 泛化

在語料模板建設(shè)完成后，發(fā)現(xiàn)眾多模板具有相似性，我們整合、修改并泛化模板使其能應(yīng)用于更廣泛的語料。對于微小區(qū)別模板，例如，僅是動詞的差別，只需將不同的動詞添加的集合來合并模板。對于模板中不重要的修飾性成分，將其從模板中刪除，模板樣式如例5-8。

5 基于SVM的層次分類

雖然基于特征模板的方法在特定的測試語料中可以取得較高的準(zhǔn)確度，但是它需要很多人工的介入，并且對于模板系統(tǒng)尚未覆蓋的內(nèi)容無能為力。因此，對于不同的語料，準(zhǔn)確率和召回率差別很大，特別是對于模板系統(tǒng)比較生疏的語料，基于模板的抽取系統(tǒng)召回率非常低。因此，本文引入了基于特征向量的SVM方法，并設(shè)計了層次分類器。

5.1 特征選取

特征選擇至關(guān)重要。一定程度上，特征的質(zhì)量決定了分類效果。本文的特征向量主要選取關(guān)鍵詞特征、標(biāo)注組合特征、實體詞周圍標(biāo)記特征。

5.1.1 關(guān)鍵詞特征

5.1.2 基于多種標(biāo)記的組合特征

5.1.3 實體詞周圍標(biāo)記特征

實體詞周圍標(biāo)記特征是指在實體詞周圍的詞標(biāo)記構(gòu)成的特征，包括詞性標(biāo)記和命名實體標(biāo)記。本文認(rèn)為離實體詞越近的標(biāo)記越重要，而離實體詞距離越遠的標(biāo)記則較不重要。因此，選取實體詞向前兩個詞距和向后一個詞距內(nèi)的詞性標(biāo)注標(biāo)記和前后三個詞距內(nèi)的命名實體標(biāo)記。

5.2 構(gòu)造層次分類器

SVM目前是信息抽取領(lǐng)域應(yīng)用較為成功的分類器之一。SVM通過在高維空間上尋找最優(yōu)超平面，從而達到分類目的。對于非線性可分的樣本集，一般是通過升維實現(xiàn)樣本空間映射，從而轉(zhuǎn)變成線性可分的問題。為了使問題可計算，即避免出現(xiàn)維度災(zāi)難問題，引入了核函數(shù)的方法，從而達到把計算在低維空間完成的目的。對于人物屬性抽取問題，一個關(guān)鍵問題是構(gòu)建高性能的SVM分類器。SVM最初被設(shè)計用來解決二分類問題，但是屬性抽取往往都是復(fù)雜的多分類問題。例如，人物屬性可以分為出生年月，出生地，性別等多個類別。那么，如何組織這些分類器則是多分類問題必須解決的問題。

目前主流的分類器組織形式分為兩種：

(1) 一對多的方式。假如一共有k個屬性類別，那么需要構(gòu)建k個分類器，并且確實每個屬性平均需要進行k/2次預(yù)測，此方式分類效果欠佳。

(2) 一對一的方式。同樣如果存在k個屬性類別，那么需要構(gòu)建k(k-1)/2個分類器，然后通過k(k-1)/2次預(yù)測，再計算累加權(quán)重，獲得累加值最大的類別則為所屬類別。這種方式比前者好，但是分類器數(shù)量過多，對于屬性抽取等類別數(shù)量較多的問題適用性較差。

因此，本文引入了一種層次分類器的構(gòu)造方法。該方法結(jié)合兩種傳統(tǒng)方法的長處，同一層面采用一對一的方式，逐層向下。同時，利用模板系統(tǒng)中獲取的語言規(guī)律建設(shè)快速通道，從而進一步優(yōu)化層次分類器的分類效果和分類速度。具體構(gòu)造如圖2所示。

(1) 過濾器：在進入層次分類器系統(tǒng)之前需要對語料做篩選，將沒有任何屬性實體存在的部分干擾句直接剔除，可以一定程度上減少層次分類器工作負荷從而提高效率。

(2) 逐層向下：進入層次分類器系統(tǒng)后，標(biāo)準(zhǔn)的分類模式是從第一層分類器開始逐層向下直至類別葉節(jié)點，中間的分類器會將一些無關(guān)類別的數(shù)據(jù)剔除。這一步驟對于屬性抽取過程中大量負樣本的處理是非常重要的。

圖2 層次分類器的構(gòu)造

(4) 快速通道：本文設(shè)計了根據(jù)實體-屬性標(biāo)注構(gòu)造的快速通道，這些快速通道可以有效地提高層次分類器的分類效果和速度。因為在屬性抽取任務(wù)中，屬性實體本身往往帶有明顯的區(qū)分性。例如，當(dāng)出現(xiàn)時間為第二個實體詞時，只可能出現(xiàn)出生年月屬性而不會是父親或出生地的屬性。因此可以通過快速通道直接跳至關(guān)于出生年月類別和無關(guān)類別的分類決策器。

6 實驗結(jié)果與分析

6.1 語料來源

6.1.1 數(shù)據(jù)爬取及篩選

本文語料來源于七家藏語網(wǎng)站，如表2所示。我們研究關(guān)注的人物屬性主要包括：

人名-出生日期人名-出生地

人名-父親人名-母親

我們從大量網(wǎng)頁文本中選取2 400句包含人物屬性的句子。其中，1 975句是包含上述四種人物屬性關(guān)系的句子，剩余425句為其他人物屬性關(guān)系的句子。我們將1 600句作為訓(xùn)練語料，其余800句作為測試語料。

表2 語料來源

6.1.2 語料預(yù)處理

我們對選取的2 400句進行分詞、詞性、命名實體識別，并標(biāo)注了實體之間的關(guān)系。

人物-出生地(e1,e2)

人物-出生年月(e1,e2)

6.2 實驗分析與評價

首先使用基于模板的方法在1 600句訓(xùn)練語料集上做測試(共包含1 705個屬性)，實驗結(jié)果如表3所示。

表3 基于模板的藏語人物屬性抽取在封閉訓(xùn)練集上的結(jié)果

屬性類別數(shù)量/個百分比/%總數(shù)識別數(shù)正確數(shù)準(zhǔn)確率召回率F1值出生年月45243240393.2989.1691.18出生地 45844340791.8788.8690.34父親 36335933192.2091.1891.69母親 43242540194.3592.8293.58

但是，把這些模板應(yīng)用于800句測試語料集(共846個屬性)時，實驗結(jié)果如表4所示。

表4 基于模板的藏語人物屬性抽取在開放測試集上的結(jié)果

屬性類別數(shù)量/個百分比/%總數(shù)識別數(shù)正確數(shù)準(zhǔn)確率召回率F1值出生年月2191629156.1741.5547.77出生地 2231687846.4334.9839.90父親 1841447350.6939.6744.51母親 2201718750.8839.5544.50

上述實驗結(jié)果表明，基于模板的方法應(yīng)用在模板系統(tǒng)不熟悉的語料中性能下降明顯。主要原因在于，基于模板的方式缺少學(xué)習(xí)能力而必須通過一些人工參與構(gòu)建，雖然通過不停的泛化和修正，性能會逐漸提升，但是過多的人工介入和較大的工作量成為該方法的瓶頸。此外，不同藏語地區(qū)或不同風(fēng)格網(wǎng)站的語言會有一些區(qū)別，考慮語言的豐富性，難以通過基于模板的方式做到完備。

下面，我們采用基于SVM的層次分類器進行人物屬性抽取，本文采用層次分類器在分類速度上較之一對一的分類器有較大提升，而兩種方法的準(zhǔn)確性相差不大。此外，通過語言規(guī)則構(gòu)建的快速通道使分類性能更好。在實驗中，我們對比常見的核函數(shù)方法，最終選型為RBF(徑向基函數(shù))并設(shè)置參數(shù)γ=1/k，k為類別個數(shù)。同時考慮到語料普遍存在不均衡性，負樣本大大多于正樣本，因此，對正負樣本分別設(shè)置了不同的懲罰因子C+和C-。其中，C-為3，正樣本滿足C+=(Num-/Num+)×C-。Num-為負樣本數(shù)，Num+為正樣本數(shù)，我們通過增大正樣本的懲罰因子，從而減少因為數(shù)據(jù)傾斜造成的影響。實驗結(jié)果如表5所示。

表5 基于SVM的藏語人物屬性抽取在開放測試集上的結(jié)果

屬性類別數(shù)量/個百分比/%總數(shù)識別數(shù)正確數(shù)準(zhǔn)確率召回率F1值出生年月21920210350.9947.0348.93出生地 2232119444.5542.1543.32父親 1841768347.1645.1146.11母親 22020810148.5645.9147.20

實驗結(jié)果表明，相比于模板的方法，SVM方法提高了人物屬性抽取的召回率，但是準(zhǔn)確率并沒有提高。主要原因在于，SVM的結(jié)果在對于一些不明顯的分類，通過多樣化的特征向量反而可以取到較好的預(yù)測效果。但是對于一些非常明顯的分類問題卻判斷錯誤，我們認(rèn)為，部分原因在于訓(xùn)練語料不足和訓(xùn)練語料不均勻造成的。

最后，本文采用基于模板和SVM相結(jié)合的方式進行實驗。實驗結(jié)果如表6所示。

表6 基于SVM和泛化模板協(xié)作的藏語人物屬性抽取在開放測試集上的結(jié)果

屬性類別數(shù)量/個百分比/%總數(shù)識別數(shù)正確數(shù)準(zhǔn)確率召回率F1值出生年月21920113165.1759.8262.38出生地 22320913363.6459.6461.57父親 18416110867.0858.7062.61母親 22020112863.6858.1860.81

首先對前期建設(shè)的模板系統(tǒng)精心篩選，只保存在抽取實驗中準(zhǔn)確率接近100%的這部分模板。雖然這樣會使召回率在模板系統(tǒng)部分急劇下降，但是，隨后我們就將所有模板沒有抽取出屬性所剩下的所有句子數(shù)據(jù)化并交給SVM預(yù)測。這樣，對于那些模板并未抽取的屬性可以通過SVM預(yù)測出，保護了一些原本特征明顯的屬性句子不被SVM誤判。所以在整體上并未影響召回率，同時還提高了抽取的效果。

由圖3可以看出，采用模板和SVM相結(jié)合的方式比只采用SVM的方式，性能上有較大的提高。

6.3 實驗結(jié)果的展示

通過SVM和模板結(jié)合的人物屬性抽取后的結(jié)果如表7所示。通過人物屬性抽取，把屬性放入人物-屬性庫中，為藏語人物收集、藏語知識圖譜建設(shè)等應(yīng)用提供數(shù)據(jù)支撐。

圖3 基于SVM和泛化模板協(xié)作和基于模板的藏語人物屬性抽取比較

表7 關(guān)于人物(松贊干布)的屬性抽取結(jié)果

7 結(jié)論

通過對上述實驗結(jié)果的分析，我們發(fā)現(xiàn)對于人物屬性關(guān)系抽取的問題采用SVM和模板相結(jié)合的方式，比僅采用SVM或者僅采用模板的方式性能更好。部分原因在于彼此對于不同情況的分類問題具有各自的優(yōu)勢，通過整合兩者方法，讓它們協(xié)同工作，從而使實驗方法性能提高。通過該方法提取的屬性可以廣泛應(yīng)用于專門數(shù)據(jù)庫的建設(shè)、知識圖譜構(gòu)建和智能問答等領(lǐng)域。在將來的工作中，需要擴充語料庫并增加人物屬性的類別，從而提升成果的價值。

[1] 李光,鐘雅瓊.大陸研擬藏維文網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)監(jiān)控分裂風(fēng)險[N].鳳凰周刊, 2012(18).

[2] Bizer C，Heath T，Berners-Lee T. Linked data-the story so far [J].International Journal on Semantic Web and Information Systems (IJSWIS)，2009，5(3): 1-22.

[3] 張靜,唐杰.下一代搜索引擎的焦點：知識圖譜[J].中國計算機學(xué)會通訊, 2012,9(4):64-68.

[4] Kong Fang, Zhou Guodong, Zhu Qiaoming. Survey on Coreference Resolution [J]. Computer Engineering, 2010, 36(8): 33-36.

[5] Bikel D, Castelli V, Florian R. Entity linking and slot filling through statistical processing and inference rules[C]//Proceedings of the TAC 2009 Workshop 2009.

[6] Burman A, Jayapal A, Kannan S.Entity linking, slot filling and temporal bounding[C]//Proceedings of the KBP,2011.

[7] Axel Bernal, Koby Crammer, Artemis Hatzigeorgiou. Global discriminative learning for higher-accuracy computational gene prediction[J]Computational Biology, 2007, 3(3)：488-497.

[8] Freitag D, McCallum A. Information extraction with HMM structures learned by stochastic optimization[C]//Proceedings of the AAAI Press，2000: 584-589.

[9] Lafferty J, McCallum A, Pereira F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th International Conf. on Machine Learning，2001: 282-289.

[10] Kambhatla N. Combining lexical, syntactic and semantic features with Maximum Entropy models for extracting relations[C]//Proceedings of 42th Annual Meeting of the Association for Computational Linguistic，2004: 21-26.

[11] Zhou G, Su J, Zhang J, Zhang M. Combining Various Knowledge in Relation Extraction[C]//Proceedings of the 43th Annual Meeting of the Association for Computational Linguistics，2005.

[12] Zelenko D, Aone C, Richardella. Kernel methods for relation extraction[J]. Journal of Machine Learning Research, 2003： 1083-1106.

[13] Nadia Ghamrawi, Andrew McCallum. Collective multi-label classification[C]//Proceedings of the Conference on Information and Knowledge Management (CIKM), 2005.

[14] Nanda Kambhatla. Combining lexical, syntactic and semantic features with Maximum Entropy models for extracting relations[C]//Proceedings of ACL, 2004: 178-181.

[15] Zhao S B, Grishman R. Extracting relations with integrated information using kernel methods[C]//Proceedings of ACL，2005: 419-426.

[16] Miller S, Fox H, Ramshaw L, et al. A novel use of statistical parsing to extract information from text [C]//Proceedings of 6th Applied Natural Language Processing Conference，2000.

[17] Culotta A, Sorensen J.Dependency tree kernels for relation extraction[C]//Proceedings of 42th Annual Meeting of the Association for Computational Linguistics，2004: 21-26.

[18] Zelenko D, Aone C, Richardella. Kernel methods for relation extraction[J]. Journal of Machine Learning Research, 2003： 1083-1106.

[19] 加羊吉，李亞超，宗成慶，等.最大熵和條件隨機場模型相融合的藏文人名識別方法 [J].中文信息學(xué)報，2014：28(1)：107-112.

[20] 才智杰.藏文自動分詞系統(tǒng)中緊縮詞的識別 [J].中文信息學(xué)報，2009，23(1): 35-37.

[21] Sun Yuan, Zhao Xiaobing. Research on automatic recognition of Tibetan personal names based on multi-features[C]//Proceedings of International Conference on Natural Language Processing and Knowledge Engineering 2010.

Tibetan Person Attribute Extraction Based on SVM and Pattern

ZHU Zhen1,2, SUN Yuan1,2

(1. School of Information Engineering, Minzu University of China，Beijing 100081, China;2. Minority Languages Branch, National Language Resource and Monitoring Research Center, Minzu University of China, Beijing 100081, China)

This paper proposes an SVM and pattern based approach to Tibetan person attribute extraction. The pattern system is built with language rules on Tibetan language features with clear semantic information, such as case-auxiliary words, particular verb and etc. Then, a machine learning approach via SVM is introduced to build a a hierarchy classifier strategy. Experiment results indicate a significant improvement in person attributes extraction.

person attributes extraction; tibetan language processing; SVM; hierarchy classifier

朱臻(1988—),碩士研究生,主要研究領(lǐng)域為自然語言處理、信息檢索、數(shù)據(jù)挖掘。E-mail:18957736389@163.com孫媛(1979—),通信作者,副教授,主要研究領(lǐng)域為自然語言處理、信息抽取。E-mail:tracy.yuan.sun@gmail.com

1003-0077(2015)06-0220-08

2015-08-17 定稿日期： 2015-10-20

國家自然科學(xué)基金(61501529,61331013),北京青年英才資助計劃(YETP1291),國家語委項目(ZDI125-36，YB125-139),中央民族大學(xué)自主科研項目(2015MDQN11),中央民族大學(xué)國家語言資源監(jiān)測與研究中心少數(shù)民族語言分中心項目(CML15B02)

TP391