亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CRF和半監(jiān)督學習的中文時間信息抽取

        2015-12-23 01:01:40閆紫飛姬東鴻
        計算機工程與設計 2015年6期
        關(guān)鍵詞:規(guī)則特征信息

        閆紫飛,姬東鴻

        (武漢大學 計算機學院,湖北 武漢430072)

        0 引 言

        在自然語言中,時間是重要的組成部分,是完整理解文章語義不可或缺的要素,在信息抽取中是一個比較重要的領域。對此進行研究,可以提高信息抽取的自動化水平,對機器翻譯等人工智能領域的發(fā)展有很大促進作用。SemEval的評測中就包含時間信息的識別問題,SemEval-2013Task 1:TEMPEVAL-3 的任務中也有時間表達及時間關(guān)系的估計。目前時間信息抽取[1]的方法主要為基于規(guī)則的方法和基于機器學習的方法,一般認為,基本的時間短語都有著清晰的結(jié)構(gòu)和明顯的特征,通過構(gòu)建完備的規(guī)則也可以覆蓋到相當部分的時間信息,因此用基于規(guī)則的方法也能夠表現(xiàn)出比較良好的效果。然而,一般的規(guī)則在處理復雜的時間信息時,不同規(guī)則之間會有一定的沖突。此外,基于規(guī)則的方法[2]在跨語言的時候,需要做一些額外的工作,比較費時費力。近年來隨著標注語料庫和標注工具的完善,基于機器學習的方法由于自動化程度較高、人工干預較少、移植能力比較強,開始流行起來。時間信息有顯性和隱性兩種,用規(guī)則的方法對時間信息進行抽取時,隱性時間的識別效果比較差,而且此方法的可移植性也不好,針對此問題,本文用統(tǒng)計的方法,采用條件隨機場模型,利用半監(jiān)督的訓練,對時間信息進行識別研究,實驗結(jié)果較好。

        1 研究現(xiàn)狀

        時間表達的識別是開展相關(guān)時間關(guān)系推理、時間關(guān)聯(lián)信息獲取等應用的第一步,所以它是一種基礎性的工作。Zacks認為可以通過時間的序列結(jié)構(gòu)來理解事件,由此也凸顯了時間識別的重要性。

        在時間抽取的研究歷史中,它經(jīng)常作為命名實體抽取中的一部分來進行研究。在1998 年舉行的MUC 會議上,首次將時間評測的要求加入到了命名實體識別的任務中[3],開了時間信息抽取研究的先河。2004 年ACE 在其子項目TERN (time expression recognition and normalization)中詳細定義了時間表達式的識別評測,不僅要求識別出時間短語,而且還要對其語義進行處理,目標是以TIMEX2標注作為規(guī)范[4],分別對英文和漢語文本中的時間表達式進行識別,并進行解釋。從其評測任務[5]可以看出,時間信息的抽取仍然是一個重要的研究課題。文獻 [6]研究了命名實體的自動識別問題,分析了規(guī)則方法和基于統(tǒng)計模型識別方法的優(yōu)缺點,并定義了一個中文時間框架,并制定了一個規(guī)則集,開發(fā)了一個分析器CTEMP,用于抽取和歸一化中文時間短語。文獻 [7]分析語料的時間關(guān)系識別時用及的各語言特征,提出了基于最大熵的方法。文獻 [8]在時間識別問題中引入事件時間,通過復雜的語法分析和命名實體方法挖掘時間與事件的關(guān)系,但對包含多個事件的時間序列是不適用的。文獻 [9]在基于CRF (條件隨機場)的命名實體識別的實驗中,對中文文本進行了原子切分,選取上下文特征、詞性特征、詞表外部特征等作為特征集來進行實體識別,取得了不錯的結(jié)果。文獻 [10]加入語義角色特征構(gòu)建特征向量,然后采用CRF 進行識別。但是識別的效果不是太好。文獻 [11]比較了現(xiàn)在流行的各種方法,證實了CRF 在命名實體識別領域中的良好效果。

        2 分析模型

        2.1 時間信息的分類

        具體來講,時間信息可分為顯性時間信息和隱性時間信息。顯性時間信息就是那種人們一看到就有比較明確時間概念的信息,是由人類通過自然界周期變化總結(jié)出來的一系列時間概念,如世紀、年、月、日、分、秒等。最簡單的顯性信息就是這些概念加上一些量詞組成的,如:“2007年、4個月、36小時”等;然后這些簡單時間信息通過任意組合,并加上一些:“前”、“后”、“從…到…”等介詞或方位詞就構(gòu)成了復雜的時間信息,如:“2010年3月4日到7日”、“去年冬季前后”等。另外還有一些時間專有名詞也屬于顯性這一類,比如:“春運期間”、“圣誕節(jié)”等等??梢钥吹?,顯性信息中,時間概念的特征比較明顯,專有時間名詞的數(shù)量有限,所以通過構(gòu)建規(guī)則的方法和基于機器學習的方法都可以取得比較良好的效果。而隱性時間是諸如 “樹木發(fā)芽”、“直到他做完功課”等隱藏在語義之中的信息,用規(guī)則很難全面覆蓋,只能利用詞性、詞之間的關(guān)聯(lián)和上下文等信息并通過統(tǒng)計學習的方法來識別。

        2.2 工作準備

        作者在以前參與的一個項目中,基于ontology的工具,曾建立過完備的時間詞典庫,并構(gòu)建了一種基于迭代的規(guī)則方法,利用詞典庫,對時間短語進行抽取。在對結(jié)果進行的分析中,發(fā)現(xiàn)此方法對顯性的時間短語識別效果還不錯,即使是對開放語料的測試中,召回率和準確率都可達90%以上;而對隱性的時間的識別效果則比較差,召回率連80%都達不到??梢钥吹剑瑫r間信息特別是隱性時間信息的識別性能,還是有一定的提升空間的。所以,本文中利用統(tǒng)計學習的方法,基于CRF理論,通過對文本進行分詞和標注,進行特征的提取,并結(jié)合半監(jiān)督的訓練方法,分別對顯性時間、隱性時間和總體時間進行抽取,將結(jié)果與基于迭代規(guī)則的方法進行比較。

        3 基于統(tǒng)計的時間識別及半監(jiān)督學習

        3.1 CRF介紹

        如圖1所示:以X= {x1,x2,……,xn}表示觀測值序列,Y= {y1,y2,……,yn}以表示隱含的狀態(tài)序列,則xi取決于產(chǎn)生它們的狀態(tài)yi-1,yi,yi+1,圖中的y1,y2,……等狀態(tài)的序列還是一個馬爾科夫鏈。在這個圖中,頂點代表一個個隨機變量,頂點之間的弧代表它們相互的依賴關(guān)系,通常采用一種概率分布,比如p(x1,y1)來描述,且每個狀態(tài)的轉(zhuǎn)移概率只取決于相鄰的狀態(tài)。整個條件隨機場就是在給定觀察序列條件下,計算整個標注序列的聯(lián)合概率分布。在給定X 和Y 序列的條件下,線性鏈的CRF定義Y 的條件概率為

        其中

        式 (2)是歸一化因子,n 表示詞序列的長度,fj(yi-1,yi,X,i)是特征函數(shù),λj是第j 個特征函數(shù)的權(quán)重系數(shù)。

        圖1 一個普遍意義的條件隨機場

        時間信息識別問題可以轉(zhuǎn)化為序列標注問題,其要求是在給定觀察序列X 的條件下,估計產(chǎn)生標注序列y 的概率。而CRF模型可以輕易地將觀察序列中的任意特征加入到模型中,從而較好的解決這一問題。

        3.2 基于CRF的時間信息抽取

        基于CRF的時間抽取模型如圖2所示。

        圖2 基于CRF的時間抽取

        3.2.1 分詞和標注處理

        在時間信息的識別中,為了充分利用詞性和語義特征,分詞是必不可少的環(huán)節(jié)。由于具有比較好的效果,作者使用中科院的ictclas分詞工具對文本信息進行切詞和詞性標注[12]。文章使用B、I、O 標注方法來標記文本中的時間實體,句子中每個詞的類型都是B、I、O 標注中的一種。如果一個時間序列由幾個詞組成,則B 表示第一個時間詞,第二個以后的都用I表示,不是時間詞的都用O 表示。例如:“昨天下午4點28分,十堰到武昌的火車到站”,標注為:“昨天/B 下午/I4點/I28分/I,/O 十堰/O 到/O 武昌/O 的/O 火車/O 到站/O”。

        3.2.2 特征選擇

        CRF的訓練中,最重要的是特征的選擇,在此采用廖先桃等提出的特征模板,特征主要涉及詞級特征,包括詞、詞性、詞與其詞性的組合和詞的上下文特征等。

        對時間信息的識別要依賴于時間觸發(fā)詞、時間詞的前綴后綴和上下文關(guān)聯(lián)詞。根據(jù)語料的分詞結(jié)果,通過程序和人工結(jié)合建立時間觸發(fā)詞表 (如:立即,當前,馬上,等)、前綴詞表 (如:直到,在,從,等)和后綴詞表(如:左右,期間,之前,等)。除了這些詞表外,我們還考慮詞性、時間詞的前詞性特征、后詞性特征,以及短語的位置特征,即該詞是否在句首、是否在句尾等,這些特征見表1。我們將這些特征都抽取出來后,制作特征模板并用適當?shù)墓ぞ哂柧毶赡0逦募?/p>

        表1 選取的特征

        3.3 基于半監(jiān)督的訓練

        統(tǒng)計機器學習方法的優(yōu)點是智能化較高,人工干預較少,而相應的也面臨著一些困難,主要就是訓練數(shù)據(jù)不足,可用于命名實體研究的語料也比較缺乏,而且對于不同的領域,往往需要建立不同的語料庫,比較耗時耗力,而且在時間上也不夠效率。因此,本文采用了自訓練 (selftraining),一種半監(jiān)督的學習方法來有效利用大量的未作標注的未分類數(shù)據(jù),從而提高時間識別在真實文本上的泛化能力。自訓練的模式如圖3所示。

        圖3 自訓練模式

        采用的算法步驟如下:

        輸入:

        初始訓練數(shù)據(jù)集合Ds,未標注數(shù)據(jù)集合Dt,利用Ds訓練出一個初始學習器#0,令i=0;

        循環(huán)部分:用學習器#i對數(shù)據(jù)集合Dt進行預測,在預測結(jié)果中取置信度較高 (大于某一臨界值)的數(shù)據(jù)為集合Dt’,令Ds=Ds+Dt’,Dt=Dt-Dt’,i++直到Dt’為空這一條件滿足;

        輸出:

        n個學習器#0、#1、…、#k…

        每輪迭代可以得到學習器k 和新的標注數(shù)據(jù)集Ds,臨界值需要在實驗過程中根據(jù)預測結(jié)果的多少動態(tài)地計算求得,比如初始設定的臨界值為t0,在實驗過程中發(fā)現(xiàn)取得的數(shù)據(jù)集合Dt’過少,這樣循環(huán)的次數(shù)就會無限大,在此情況下t0的值就需要設置為一個較小的數(shù),反之則變大。這樣經(jīng)過n輪迭代后可以得到n 個學習器,對這n 個學習器進行組合形成最終的模型,在本次實驗中我們采用選取所有的學習器給予相同的權(quán)重的方式。

        4 實驗結(jié)果與分析

        4.1 工具及語料

        本實驗采用的語料來自2013年各個門戶網(wǎng)站關(guān)于輿情部分的新聞,是用武漢大學自然語言處理實驗室開發(fā)的專門處理輿情新聞的系統(tǒng)來抽取的。共選取了3000 篇語料,其中800篇進行了手工標注,標注結(jié)果見表2。在這800篇中,隨機選擇400篇作為最終的測試語料,其余400 篇和未標注的2200 篇總共2600 篇作為訓練語料。CRF 使用CRF++0.58,使用Perl腳本conlleval.pl作為評測工具。

        表2 語料標注結(jié)果

        4.2 實驗結(jié)果

        實驗結(jié)果采用計算精確率 (P)、召回率 (R)和Fmeasure(F1)值作為評測標準

        實驗分3組,分別對顯性時間、隱性時間和總體時間進行實驗。

        4.2.1 規(guī)則抽取的實驗結(jié)果

        基于迭代的規(guī)則和詞典相結(jié)合的方法,利用訓練語料進行訓練,使用其結(jié)果對規(guī)則和詞典進行補充,最終對測試語料的實驗結(jié)果見表3。

        表3 基于規(guī)則的實驗結(jié)果

        從結(jié)果我們可以看出,規(guī)則的方法對于顯性時間信息的抽取效果還不錯,可以達到94.67%的F1值,但對于隱性時間,F(xiàn)1值只有84.99%,特別是召回率,連80%都沒有達到,所以后續(xù)實驗中,我們將重點關(guān)注隱性時間提升的效果。

        4.2.2 半監(jiān)督方法對時間信息抽取的性能提升

        在2600篇訓練語料中,以400篇的標注數(shù)據(jù)作為初始訓練集,剩余2200篇為未標注數(shù)據(jù),動態(tài)地計算臨界值的辦法,經(jīng)過循環(huán)后,迭代退出得到7個學習器,分別對測試語料進行實驗,得到的效果如圖4~圖6所示。

        從圖4~圖6 可以看出,基于自訓練模式得到的學習器,基本上在到達第4輪或第5輪迭代時,模型的性能達到最高,然后就在一個小范圍的幅度內(nèi)穩(wěn)定地波動。同時也可以看到,性能的提升基本上只有1個百分點左右,是比較有限的,主要是因為CRF 特征選取的比較好的情況下,在對時間信息的抽取方面,原系統(tǒng)的性能已相當高,可提升的空間本來就有限。總體而言,半監(jiān)督的訓練對系統(tǒng)性能有一定的幫助。

        圖4 顯性時間抽取的自訓練

        圖5 隱性時間抽取的自訓練

        圖6 總體時間抽取的自訓練

        4.2.3 性能比較

        根據(jù)上一步得到的實驗結(jié)果,我們對所有的學習器采用相同權(quán)重進行組合,即對于學習器#0、#1、#2、#3、#4、#5、#6分別給予1/7的權(quán)重,再對測試語料進行實驗,最終得到的結(jié)果見表4。

        表4 自訓練的組合方式的抽取結(jié)果

        對比表3,我們發(fā)現(xiàn),在顯性時間的抽取方面,F(xiàn)1值略微有些提升;而對于隱性時間,F(xiàn)1值提升了將近4個百分點,效果還是很明顯的;總體時間的F1 值提升的也不多,是因為語料中隱性時間所占的比重比較小??傮w而言,自訓練方法還是取得了不錯的效果。

        5 結(jié)束語

        通過對中文時間信息的分類和時間信息抽取研究現(xiàn)狀的分析,挖掘時間短語在文本中的語言學特征,引出了時間信息抽取的研究思路,確定了用CRF 的方法,利用BIO標注模式將時間識別問題轉(zhuǎn)化為序列標注問題,并通過自學習這樣一種半監(jiān)督的方法對語料進行訓練,最終通過對測試語料的實驗,取得了較好的效果。對于顯性時間的識別,由于F1 值已經(jīng)達到了96.25%,所以提升余地比較??;而對于隱性時間的識別,還是有一定的提升空間的。下一步的工作主要為以下幾個方面:①要進一步挖掘隱性時間的各種有效特征,對其進行研究和探討,以最終提升總體時間的識別率;②改進半監(jiān)督的學習方法,優(yōu)化自訓練的算法,以得到更好效果的學習器,并最終提升系統(tǒng)性能;③將此種基于CRF 和半監(jiān)督訓練的方法應用到地名、人名和組織名等其它命名實體抽取的工作中。

        [1]Pawel Mazur,Robert Dale.A rule based approach to temporal expression tagging [C]//Proceeding of the International Multiconference on Computer Science and Information Technology,2007:293-303.

        [2]ZHOU Xiaojia,ZHOU Qingli.The research on the extraction of temporal information from Chinese medical narrative records[C]//Zhejiang Province Ninth Annual Conference Proceedings on Medical Engineering Branch of Medical Association,2011:300-305 (in Chinese).[周小甲,周慶利.中文病歷文本中時間信息自動標注 [C]//浙江省醫(yī)學會醫(yī)學工程學分會第九屆學術(shù)年會論文匯編,2011:300-305.]

        [3]Chinchor N,Brown E,F(xiàn)erro L,et al.1999 Named entity recognition task definition version1.4 [EB/OL]. [2011-08-05].ftp://jaguar.ncsl.nist.gov/ace/phase1/ne99_taskdef_v1_4.pdf.

        [4]Linguistic data consortium,ace(automatic content extraction)Chinese annotation guidelines for TIMEX2 [EB/OL]. [2009-12-08].http://www.ldc.upenn.edu/Projects/ACE.

        [5]Past TAC (text analysis conference)data [EB/OL]. [2011-08-05].http://www.nist.gov/tac/data.

        [6]JIANG Wenzhi,GU Jiaojiao,CONG Linhu.Research on CRF and rules based military named entity recognition [J].Command Control &Simulation,2011,33 (4):13-15 (in Chinese). [姜文志,顧佼佼,叢林虎.CRF與規(guī)則相結(jié)合的軍事命名實體識別研究[J].指揮控制與仿真,2011,33 (4):13-15.]

        [7]WANG Feng’e,TAN Hongye,QIAN Yili.Recognition of temporal relation in one sentence based on maximum entrooy[J].Computer Engineering,2012,38 (4):37-39 (in Chinese).[王風娥,譚紅葉,錢揖麗.基于最大熵的句內(nèi)時間關(guān)系識別 [J].計算機工程,2012,38 (4):37-39.]

        [8]Li Fenghuan,Zheng Dequan,Zhao Tiejun.Event recognition based on time series characteristics[C]//Proceedings of Conference on Fuzzy Systems and Knowledge Discovery,2011:1807-1811.

        [9]SHI Haifeng,YAO Jianmin.Study on CRF-based Chinese named entity recognition [D].Suzhou:Soochow University,2010 (in Chinese).[史海峰,姚建民.基于CRF的中文命名實體識別研究 [D].蘇州:蘇州大學,2010.]

        [10]LIU Li,HE Zhongshi,XING Xinlai,et al.Chinese time expression recognition based on semantic role [J].Application Research of Computers,2011,28 (7):2543-2545 (in Chinese).[劉莉,何中市,邢欣來,等.基于語義角色的中文時間表達式識別 [J].計算機應用研究,2011,28 (7):2543-2545.]

        [11]LIAO Xiantao.A study on Chinese named entity recognition[D].Harbin:Harbin Institute of Technology,2006 (in Chinese).[廖先桃.中文命名實體識別方法研究 [D].哈爾濱:哈爾濱工業(yè)大學,2006.]

        [12]WANG Feng’e.Recognition of temporal relation in Chinese texts[D].Taiyuan:Shanxi University,2012 (in Chinese).[王風娥.漢語文本中的時間關(guān)系識別技術(shù)研究 [D].太原:山西大學,2012.]

        猜你喜歡
        規(guī)則特征信息
        撐竿跳規(guī)則的制定
        數(shù)獨的規(guī)則和演變
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        TPP反腐敗規(guī)則對我國的啟示
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        線性代數(shù)的應用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        久久久久无码中文字幕| 真人作爱免费视频| 国产 国语对白 露脸| 日本不卡一区二区高清中文| 精品奇米国产一区二区三区| 国产内射一级一片内射视频| 亚洲av无码专区在线播放中文| 久久国产精品不只是精品 | 午夜一区二区三区福利视频| 日本强伦姧人妻一区二区| 久久99精品久久久久久秒播 | 国产成年无码aⅴ片在线观看| 亚洲熟女少妇精品久久| 国产无套中出学生姝| 免费特级毛片| 日韩精品网| 日韩黄色大片免费网站| 少妇被又大又粗又爽毛片久久黑人| 97伦伦午夜电影理伦片| 91精品国产免费青青碰在线观看 | 色丁香在线观看| 人妻少妇偷人精品久久人妻| 精品国产午夜肉伦伦影院| 国产精品老熟女露脸视频| 国产综合久久久久影院| 我想看久久久一级黄片| 国产a级三级三级三级| 久久久精品波多野结衣| 手机在线中文字幕国产| 人妻制服丝袜中文字幕| 成人网站免费看黄a站视频 | 中国免费一级毛片| 婷婷丁香开心五月综合| 中文字幕久久熟女蜜桃 | 免费看黄a级毛片| 亚洲日本va99在线| 中文字幕一区二区三区综合网| 无码人妻精品一区二区三区夜夜嗨 | 夜鲁很鲁在线视频| 亚洲精品乱码久久久久久麻豆不卡| 日韩精品久久伊人中文字幕|