仇培元,張恒才,余麗,陸鋒
(1. 中國(guó)科學(xué)院地理科學(xué)與資源研究所 資源與環(huán)境信息系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100101;2. 中國(guó)科學(xué)院大學(xué),北京 100101)
微博客蘊(yùn)含交通事件信息抽取的自動(dòng)標(biāo)注方法
仇培元1,2,張恒才1,余麗1,2,陸鋒1
(1. 中國(guó)科學(xué)院地理科學(xué)與資源研究所 資源與環(huán)境信息系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100101;2. 中國(guó)科學(xué)院大學(xué),北京 100101)
微博客文本蘊(yùn)含豐富的實(shí)時(shí)交通事件信息,能夠?yàn)楝F(xiàn)有交通信息采集手段提供補(bǔ)充。然而,當(dāng)前事件抽取方法缺少對(duì)地理實(shí)體關(guān)系的判斷過(guò)程,對(duì)涉及多個(gè)地理實(shí)體及關(guān)系表達(dá)的地理空間要素抽取效果不佳,難以準(zhǔn)確識(shí)別交通事件信息的位置描述。該文提出一種自動(dòng)標(biāo)注方法,將地理實(shí)體關(guān)系識(shí)別引入事件抽取過(guò)程來(lái)解決這一問(wèn)題。該方法利用條件隨機(jī)場(chǎng)模型實(shí)現(xiàn)交通事件角色標(biāo)注,利用支撐向量機(jī)模型實(shí)現(xiàn)角色關(guān)系與要素關(guān)系標(biāo)注,完成了交通事件信息空間要素識(shí)別。以新浪微博為數(shù)據(jù)源開(kāi)展的實(shí)驗(yàn)分析表明,該文所提出的微博客蘊(yùn)含交通事件抽取方法,正確率和召回率均達(dá)到90%,優(yōu)于現(xiàn)有的基于模式匹配的抽取方法。
微博客;信息抽取;交通事件;條件隨機(jī)場(chǎng);支撐向量機(jī)
基于固定傳感器或浮動(dòng)車的實(shí)時(shí)交通信息采集技術(shù)雖然可有效感知道路通行狀態(tài),但難以有效捕捉突發(fā)性交通事件、特定地點(diǎn)交通事件、臨時(shí)交通管制、新增交通限制及交通環(huán)境信息,在采集范圍、更新周期、成本代價(jià)、覆蓋度等方面仍存在一定的應(yīng)用局限[1]。當(dāng)前,以微博客為代表的社會(huì)化網(wǎng)絡(luò)媒體已經(jīng)成為公眾信息分享的重要渠道。在地理信息泛化背景下,利用文本挖掘技術(shù),采集社會(huì)化網(wǎng)絡(luò)媒體中蘊(yùn)含的實(shí)時(shí)交通信息,彌補(bǔ)現(xiàn)有的交通信息采集手段的不足,具有重要的現(xiàn)實(shí)意義。
事件抽取是將含有事件信息的文本以結(jié)構(gòu)化的形式呈現(xiàn)出來(lái)[2],主要有模式匹配和機(jī)器學(xué)習(xí)兩種方法。模式匹配方法通過(guò)匹配算法將待抽取事件與已知模式進(jìn)行比較,在匹配模式的指導(dǎo)下完成抽取任務(wù)。研究聚焦于抽取模式的自動(dòng)生成。如鄭家恒等基于聚類思想,提出從文本中自動(dòng)生成信息抽取模式的方法[3]。張春菊等則利用BootStrapping方法自動(dòng)迭代構(gòu)建模式庫(kù),從而實(shí)現(xiàn)文本中地理事件屬性信息的抽取[4]。機(jī)器學(xué)習(xí)則將事件抽取視為分類問(wèn)題,通過(guò)構(gòu)建分類器并選擇分類特征實(shí)現(xiàn)事件信息抽取。Chieu和Ng首次將最大熵分類器引入事件抽取,用于事件元素的識(shí)別[5]。Kordjamshidi等人則提出一種空間角色標(biāo)注方法,基于條件隨機(jī)場(chǎng)(conditional random fields, CRF)、支撐向量機(jī)—隱馬爾科夫模型(support vector machine-hidden markov model, SVM-HMM)等機(jī)器學(xué)習(xí)模型抽取文本中實(shí)體對(duì)象的空間關(guān)系三元組[6-7]。與模式匹配方法相比,機(jī)器學(xué)習(xí)方法不需要大量人工干預(yù)來(lái)制定抽取模式和解決模式?jīng)_突,目前已成為事件抽取方法的研究熱點(diǎn)。
在地理事件描述過(guò)程中,特別是在交通事件描述中,會(huì)借助多個(gè)地理實(shí)體及實(shí)體關(guān)系刻畫(huà)事件發(fā)生的空間位置,如線性參照方法。因此,與一般事件抽取任務(wù)不同,在地理事件抽取過(guò)程中需要充分考慮地理實(shí)體之間的關(guān)系,進(jìn)而獲得正確的抽取結(jié)果。然而,現(xiàn)有的地理事件信息文本抽取研究直接將文本中識(shí)別出的地理實(shí)體作為事件發(fā)生的空間位置[8-10],或直接利用文本附加的空間位置信息(經(jīng)緯度坐標(biāo)、用戶注冊(cè)城市、所在城市等)進(jìn)行定位[11-12]。部分研究在抽取過(guò)程中考慮了實(shí)體關(guān)系,但主要用于地名消歧,抽取結(jié)果仍由單一地理實(shí)體表達(dá)[13-14]。為此,本文探討了文本的自動(dòng)標(biāo)注方法,在地理事件角色標(biāo)注的基礎(chǔ)上,增加角色及要素關(guān)系標(biāo)注過(guò)程,提高對(duì)空間要素的識(shí)別和抽取能力,以輔助微博客文本中蘊(yùn)含交通事件的信息抽取過(guò)程。
交通事件由空間要素、時(shí)間要素和主題要素組成??臻g要素反映交通事件發(fā)生的位置。時(shí)間要素反映交通事件的起止時(shí)間,其時(shí)效性由事件類型差異決定。主題要素描述交通事件類型和狀態(tài)。本文側(cè)重于抽取交通事件的空間要素和主題要素。時(shí)間要素則通過(guò)正則匹配方式獲取。
本文方法的基本思路是: 首先利用角色標(biāo)注識(shí)別文本中的事件角色。之后,通過(guò)角色語(yǔ)義關(guān)系標(biāo)注及要素語(yǔ)義關(guān)系標(biāo)注得到與交通事件相關(guān)的空間要素和主題要素。技術(shù)流程如圖1所示。
圖1 微博客文本蘊(yùn)含交通事件抽取技術(shù)流程
2.1 交通事件角色標(biāo)注
交通事件角色標(biāo)注的目的是識(shí)別出句子各詞匯在交通事件表達(dá)過(guò)程中所對(duì)應(yīng)的事件角色,并給出對(duì)應(yīng)類型標(biāo)記。因此,交通事件角色標(biāo)注的輸入是網(wǎng)絡(luò)文本經(jīng)預(yù)處理后得到的詞序列,輸出是與各詞對(duì)應(yīng)的角色標(biāo)記序列,即每個(gè)詞成為一個(gè)交通事件角色實(shí)例。參考陳傳彬等人的研究成果[15],本文中給定交通事件角色類型如表1所示。圖2為事件角色標(biāo)注示意,其中,文字部分為文本經(jīng)中文分詞后的詞序列,各詞上方代碼為輸出的角色類型標(biāo)記代碼序列。
交通事件角色標(biāo)注可以視作序列標(biāo)注問(wèn)題,當(dāng)前用于序列標(biāo)注的常用機(jī)器學(xué)習(xí)模型有最大熵(maximum entropy, ME)、HMM、CRF等。其中,CRF模型沒(méi)有嚴(yán)格的獨(dú)立性假設(shè),可以利用任意的上下文信息,同時(shí)其計(jì)算結(jié)果為全局最優(yōu)解,克服了標(biāo)記偏置問(wèn)題[16-17],因此處理序列標(biāo)注任務(wù)的效果最佳。本研究采用CRF模型實(shí)現(xiàn)微博客文本蘊(yùn)含交通事件的角色標(biāo)注任務(wù)。
表1 交通事件角色類型
圖2 交通事件角色標(biāo)注示例(非交通事件角色標(biāo)記代碼記作“NaN”)
特征選擇對(duì)機(jī)器學(xué)習(xí)模型有重要影響。首先,道路名、道路結(jié)構(gòu)、方位詞等對(duì)事件角色類型具有很強(qiáng)的指示作用,因此結(jié)合已有工作總結(jié)的交通信息詞庫(kù),重新標(biāo)記道路名稱(ndsr)、道路附加結(jié)構(gòu)(ndrs)、方位詞(fd)、方向指示介詞(pd)、事件類型(ndte)、狀態(tài)描述(adrs)等相關(guān)詞匯的詞性。其次,由于城市道路數(shù)量眾多,為避免直接將道路名作為特征從而導(dǎo)致特征空間維度增加、特征值稀疏的問(wèn)題,在特征提取的過(guò)程中將詞性為“ndsr”(道路名稱)的詞統(tǒng)一替換為“道路”。表2為本文采用CRF模型所選特征,并以圖2文本中“龍華西路”作為示例的第i詞說(shuō)明特征的具體含義。
表2 交通事件角色標(biāo)注特征選擇及示例
續(xù)表
2.2 角色語(yǔ)義關(guān)系標(biāo)注
網(wǎng)絡(luò)文本蘊(yùn)含多個(gè)交通事件時(shí),其信息數(shù)量事先無(wú)法預(yù)知,且頻繁出現(xiàn)的省略描述方式造成不同事件混雜,不利于計(jì)算機(jī)自動(dòng)區(qū)分。為此,在交通事件角色標(biāo)注的基礎(chǔ)之上,借助機(jī)器學(xué)習(xí)算法標(biāo)注角色之間的語(yǔ)義關(guān)系,將具有語(yǔ)義聯(lián)系的角色實(shí)例構(gòu)建成實(shí)例關(guān)系網(wǎng),從中劃分出隸屬于不同交通事件的事件角色。
為實(shí)現(xiàn)空間要素提取,首先選取出屬于空間要素的角色實(shí)例,兩兩組合成候選二元角色對(duì),并過(guò)濾掉類型組合無(wú)意義的角色對(duì),如rs-rs(定位起點(diǎn)—定位起點(diǎn))等。保留的角色對(duì)類型如表3所示。
表3 角色對(duì)類型
續(xù)表
之后,標(biāo)注出上述候選角色對(duì)中兩個(gè)事件角色實(shí)例之間是否存在語(yǔ)義聯(lián)系,即判斷實(shí)例間給定的二元角色關(guān)系是否成立。因此,可以將角色關(guān)系標(biāo)注轉(zhuǎn)化為“是”與“否”的二元分類問(wèn)題。由于訓(xùn)練數(shù)據(jù)有限,特征選擇相對(duì)豐富,而SVM采用了結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則和函數(shù)思想,在小樣本、非線性及高維模式識(shí)別中具有優(yōu)勢(shì)[18-19],因此本文采用SVM模型構(gòu)建分類器。一個(gè)SVM模型僅能處理一種分類問(wèn)題,因此共建立18個(gè)SVM模型以滿足對(duì)上述角色關(guān)系類型的判斷。
表4為角色關(guān)系標(biāo)注過(guò)程使用的特征,并將圖2文本中能夠組成rm-rs類型候選角色對(duì)的“內(nèi)環(huán)高架路”和“徐家匯路”作為示例的第i詞和第j詞,說(shuō)明特征的具體內(nèi)容。
表4 角色關(guān)系標(biāo)注特征選擇及示例
續(xù)表
經(jīng)角色關(guān)系標(biāo)注后得到具有語(yǔ)義聯(lián)系的角色實(shí)例對(duì)集合,從而構(gòu)建角色實(shí)例網(wǎng)。以類型為“所在道路”或“定位起點(diǎn)”的事件角色作為起點(diǎn),從實(shí)例網(wǎng)中劃分出子網(wǎng),每個(gè)子網(wǎng)中的角色實(shí)例構(gòu)成某一事件的空間要素。由角色對(duì)集合生成空間要素過(guò)程如圖3所示。
圖3 空間要素抽取過(guò)程示意
2.3 要素語(yǔ)義關(guān)系標(biāo)注
在獲取空間要素集合后,需從文本中提取與各空間要素關(guān)聯(lián)的主題要素。首先,篩選出與主題要素描述相關(guān)的角色實(shí)例,通過(guò)交通事件詞典映射得到標(biāo)準(zhǔn)化的主題要素集合。之后,借助SVM從集合中標(biāo)注出具有語(yǔ)義聯(lián)系的空間要素和主題要素組合。
由于空間要素和主題要素均由多個(gè)事件角色實(shí)例組合而成,需將其映射為原文本中的文本塊,從而得到模型計(jì)算所需的上下文特征。對(duì)于空間要素,用各角色實(shí)例在文本中最先出現(xiàn)和最后出現(xiàn)的位置劃定出對(duì)應(yīng)文本塊。對(duì)于主題要素,將詞典映射前的角色實(shí)例作為對(duì)應(yīng)文本塊。
表5為要素關(guān)系標(biāo)注使用的特征,以圖2文本為例解釋說(shuō)明特征選擇的具體內(nèi)容。其中,定位信息“內(nèi)環(huán)高架路 南浦大橋 漕溪立交入口”對(duì)應(yīng)的文本塊為“內(nèi)環(huán)高架路……漕溪立交入口”,類別信息對(duì)應(yīng)的文本塊為“封道養(yǎng)護(hù)”。
表5 要素關(guān)系標(biāo)注特征選擇及示例
續(xù)表
2.4 事件時(shí)間要素抽取
交通事件的時(shí)間要素采用正則表達(dá)式匹配方法抽取。根據(jù)交通事件信息中時(shí)間的不同表達(dá)形式,如“2013-7-17 9:15”、“7月17日晚24:00至次日5:00”、“2013年07月23日09時(shí)10分”等,建立正則表達(dá)式集合。通過(guò)正則表達(dá)式匹配從微博客消息文本中識(shí)別出交通事件的起始和終止時(shí)間,并利用文本元數(shù)據(jù)填補(bǔ)可能缺失的時(shí)間要素。對(duì)于終止時(shí)間缺失的信息,根據(jù)事件類型設(shè)置離散或連續(xù)的效應(yīng)衰減函數(shù),賦予交通事件信息時(shí)效性。
3.1 實(shí)驗(yàn)環(huán)境
本文以新浪微博為數(shù)據(jù)源,通過(guò)定向抓取專業(yè)賬號(hào)和個(gè)人用戶賬號(hào)采集交通事件信息相關(guān)的微博文本。從中隨機(jī)選取2013年7月15日至2013年12月31日之間涉及上海市交通狀況的2 500條消息文本,對(duì)其中的交通事件角色、角色語(yǔ)義關(guān)系和要素語(yǔ)義關(guān)系經(jīng)人工標(biāo)注后作為實(shí)驗(yàn)語(yǔ)料。圖4為實(shí)驗(yàn)選取的部分微博客消息文本示例。
圖4 實(shí)驗(yàn)微博客消息示意
為對(duì)比本文方法與模式匹配方法的效果,本文參照已有成果[15,20-22]構(gòu)建了基于模式匹配的交通事件抽取方法。其中,每一個(gè)抽取模式對(duì)應(yīng)一個(gè)交通事件,信息中缺失的事件角色利用前一信息或后一信息中對(duì)應(yīng)類型的事件角色進(jìn)行填充。
采用準(zhǔn)確率(P)、召回率(R)和F-值[23]對(duì)方法性能進(jìn)行評(píng)價(jià)。三個(gè)指標(biāo)計(jì)算公式如式(1)、式(2)、式(3)所示。
(1)
(2)
(3)
3.2 實(shí)驗(yàn)結(jié)果
首先,為單獨(dú)評(píng)價(jià)三個(gè)標(biāo)注模型的效果,根據(jù)模型所需的輸入數(shù)據(jù),從實(shí)驗(yàn)語(yǔ)料中為各模型按4∶1比例分別隨機(jī)劃分出相應(yīng)的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。對(duì)不同特征選擇的模型各進(jìn)行三次重復(fù)實(shí)驗(yàn),事件角色標(biāo)注模型、角色關(guān)系標(biāo)注模型和要素關(guān)系標(biāo)注模型的實(shí)驗(yàn)結(jié)果如表6、表7和表8所示。
表6 基于CRF的交通事件角色標(biāo)注實(shí)驗(yàn)結(jié)果
表7 基于SVM的交通事件角色關(guān)系標(biāo)注實(shí)驗(yàn)結(jié)果
續(xù)表
表8 基于SVM的交通事件要素關(guān)系標(biāo)注實(shí)驗(yàn)結(jié)果
從實(shí)驗(yàn)結(jié)果可以看出,三個(gè)模型平均識(shí)別和判斷效果較好,均超過(guò)90%。其中,角色關(guān)系標(biāo)注模型對(duì)rm-rm(所在道路-所在道路)類型的角色對(duì)識(shí)別效果不佳,召回率低于50%,該關(guān)系類型主要識(shí)別兩個(gè)“所在道路”角色嵌套的描述,如“五洲大道【翔殷路隧道】”。其判斷錯(cuò)誤的原因在于,多個(gè)rm-rm角色對(duì)連續(xù)多次出現(xiàn)時(shí),如“S20內(nèi)圈滬渝立交,外環(huán)隧道;外圈外環(huán)隧道”,現(xiàn)有特征選擇導(dǎo)致關(guān)系成立與關(guān)系不成立的角色對(duì)的特征向量沒(méi)有明顯差異,使得模型無(wú)法對(duì)該類型角色對(duì)關(guān)系進(jìn)行正確判斷,進(jìn)而影響角色實(shí)例網(wǎng)生成與分割的效果。
其次,為評(píng)價(jià)三個(gè)模型級(jí)聯(lián)后在實(shí)際交通事件抽取中的效果,將標(biāo)注語(yǔ)料按4∶1的比例分割為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),即500條微博消息文本作為測(cè)試數(shù)據(jù),共包含1 214條交通事件。與模式匹配方法比較的實(shí)驗(yàn)結(jié)果如表9所示,圖5為抽取的以結(jié)構(gòu)化形式保存的道路交通事件示例。
3.3 討論
由實(shí)驗(yàn)結(jié)果可以看出,相比于模式匹配方法,本文所提出的信息抽取方法準(zhǔn)確率較高,召回率相似。究其原因,蘊(yùn)含交通信息的微博客文本對(duì)位置的描述方式大多具有一定規(guī)律性,有利于模式匹配過(guò)程。然而,對(duì)于位置描述較為隨意的文本,特別是無(wú)關(guān)詞較多的文本,其中的一條信息可能被多個(gè)模式匹配,進(jìn)而抽取出多個(gè)錯(cuò)誤信息,影響準(zhǔn)確率。本文方法以交通事件角色為基礎(chǔ),通過(guò)角色關(guān)系構(gòu)建生成交通事件,因而受無(wú)關(guān)詞影響小,提高了抽取結(jié)果準(zhǔn)確率。
表9 交通事件抽取實(shí)驗(yàn)結(jié)果
圖5 交通信息提取結(jié)果示例
現(xiàn)有研究中,無(wú)監(jiān)督和弱監(jiān)督的機(jī)器學(xué)習(xí)方法因所需的人工標(biāo)注語(yǔ)料較少而受到廣泛關(guān)注。然而,交通事件信息中道路實(shí)體間的關(guān)系往往未通過(guò)關(guān)系詞顯式表達(dá)在文本中,不利于基于聚類或迭代思想的無(wú)監(jiān)督和弱監(jiān)督學(xué)習(xí)方法的實(shí)現(xiàn)。因此,為保證抽取精度,本研究采用監(jiān)督學(xué)習(xí)方法完成交通事件信息抽取工作。
本方法根據(jù)自動(dòng)標(biāo)注得到的角色、角色語(yǔ)義關(guān)系和要素語(yǔ)義關(guān)系動(dòng)態(tài)生成結(jié)構(gòu)化的交通事件信息,不需要對(duì)待抽取信息的數(shù)量事先進(jìn)行假設(shè),具有從微博客文本中抽取任意數(shù)量交通事件信息的能力。
需要注意的是,本文提出的三個(gè)標(biāo)注模型通過(guò)級(jí)聯(lián)形式實(shí)現(xiàn)微博客文本蘊(yùn)含交通事件信息抽取,因此各個(gè)標(biāo)注過(guò)程產(chǎn)生的誤差會(huì)傳遞積累,對(duì)最終的抽取結(jié)果產(chǎn)生影響。對(duì)實(shí)驗(yàn)結(jié)果的分析也表明,角色語(yǔ)義關(guān)系標(biāo)注階段對(duì)部分角色的識(shí)別效果不佳,影響了后續(xù)的要素語(yǔ)義關(guān)系識(shí)別,是導(dǎo)致交通事件信息抽取錯(cuò)誤發(fā)生的主要原因。因此,改善各標(biāo)注階段的標(biāo)注質(zhì)量是提高本文方法抽取精度的關(guān)鍵,也是后續(xù)的研究?jī)?nèi)容。
為保證采集效率,本文通過(guò)定向抓取指定賬號(hào)的方式獲取交通事件微博。其中,專業(yè)賬號(hào)發(fā)布的微博客文本中含有大量道路通行狀態(tài)信息,這些信息多源于已經(jīng)相對(duì)成熟的基于固定傳感器或浮動(dòng)車的信息采集技術(shù)。因此,對(duì)于交通信息平臺(tái)的構(gòu)建,若可獲得固定傳感器和浮動(dòng)車系統(tǒng)采集數(shù)據(jù),則源于微博客文本的道路通行狀態(tài)信息多為冗余信息。而微博客賬戶發(fā)布的交通管制和限制信息、交通事故信息、交通環(huán)境信息等多源于用戶現(xiàn)場(chǎng)體驗(yàn)、實(shí)地感知、視頻監(jiān)控、交通廣播等,均為固定傳感器和浮動(dòng)車系統(tǒng)很難獲取的信息類型,是固定傳感器和浮動(dòng)車系統(tǒng)的有益補(bǔ)充。同時(shí),即使對(duì)于道路通行狀態(tài)信息而言,由于固定傳感器和浮動(dòng)車系統(tǒng)空間覆蓋和時(shí)間覆蓋的局限性,也可能存在微博客賬戶發(fā)布消息與固定傳感器和浮動(dòng)車系統(tǒng)不符的情況,對(duì)于這種情況,我們嘗試?yán)肈-S證據(jù)理論方法增強(qiáng)模型學(xué)習(xí)特征,實(shí)現(xiàn)交通事件信息的甄別與融合[24]。
需要注意的是,微博客是一種主觀性的文本,發(fā)布者書(shū)寫(xiě)的隨意性很大,大量存在描述不規(guī)范的情況,容易對(duì)抽取效果產(chǎn)生影響。對(duì)于用詞不規(guī)范現(xiàn)象,可以嘗試?yán)猛獠恐R(shí)庫(kù)(維基百科、百度百科)提供的語(yǔ)義信息來(lái)識(shí)別不規(guī)范用詞的語(yǔ)義。對(duì)于句式結(jié)構(gòu)不規(guī)范現(xiàn)象,可以在語(yǔ)義增強(qiáng)的基礎(chǔ)上,通過(guò)進(jìn)一步挖掘角色間和要素間的隱含關(guān)系生成交通事件信息,以避免和減少因句式結(jié)構(gòu)變化造成的抽取錯(cuò)誤。
本文提出了一種基于自動(dòng)標(biāo)注的微博客蘊(yùn)含交通事件信息抽取方法,利用條件隨機(jī)場(chǎng)模型實(shí)現(xiàn)交通事件角色標(biāo)注,利用支撐向量機(jī)模型實(shí)現(xiàn)角色語(yǔ)義關(guān)系與要素語(yǔ)義關(guān)系標(biāo)注,得到交通事件的空間要素和主題要素,通過(guò)將地理實(shí)體關(guān)系識(shí)別引入事件抽取過(guò)程,實(shí)現(xiàn)了交通事件信息空間要素的準(zhǔn)確識(shí)別。以新浪微博為數(shù)據(jù)源開(kāi)展的實(shí)驗(yàn)分析表明,本文所提出的微博客蘊(yùn)含交通事件信息抽取方法,正確率和召回率均達(dá)到90%,優(yōu)于現(xiàn)有的基于模式匹配的抽取方法。
在未來(lái)工作中,將嘗試對(duì)機(jī)器學(xué)習(xí)模型參數(shù)及特征進(jìn)行改進(jìn),分別對(duì)不同類型的角色關(guān)系標(biāo)注模型展開(kāi)優(yōu)化,改善角色語(yǔ)義關(guān)系識(shí)別效果,進(jìn)一步提高微博客文本蘊(yùn)含交通事件信息抽取的準(zhǔn)確性。
[1] 陸鋒, 鄭年波, 段瀅瀅等. 出行信息服務(wù)關(guān)鍵技術(shù)研究進(jìn)展與問(wèn)題探討[J]. 中國(guó)圖象圖形學(xué)報(bào), 2009, 14(07): 1219-1229.
[2] 趙妍妍, 秦兵, 車萬(wàn)翔等. 中文事件抽取技術(shù)研究[J]. 中文信息學(xué)報(bào), 2008, 22(01): 3-8.
[3] 鄭家恒, 王興義, 李飛. 信息抽取模式自動(dòng)生成方法的研究[J]. 中文信息學(xué)報(bào), 2004, 18(01): 48-54.
[4] 張春菊. 中文文本中事件時(shí)空與屬性信息解析方法研究[D]. 南京師范大學(xué)博士學(xué)位論文, 2013.
[5] Chieu H L, Ng H T. A Maximum Entropy Approach to Information Extraction from Semi-structured and Free Text[C]//Proceedings of the 18th National Conference on Artificial Intelligence. Menlo Park, CA, USA, 2002: 786-791.
[6] Kordjamshidi P, Van Otterlo M, Moens M-F. Spatial Role Labeling: Towards Extraction of Spatial Relations from Natural Language[J]. ACM Transactions on Speech and Language Processing, 2011, 8(3): 4:1-4:36.
[7] Kordjamshidi P, Frasconi P, Otterlo M V, et al. Relational Learning for Spatial Relation Extraction from Natural Language[G]//Muggleton S H, Tamaddoni-Nezhad A, Lisi F A. Inductive Logic Programming. Springer Berlin Heidelberg, 2012: 204-220.
[8] Sankaranarayanan J, Samet H, Teitler B E, et al. TwitterStand: news in tweets[C]//Proceedings of the 17th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems (GIS’09). Seattle, Washington, 2009: 42-51.
[9] Str?tgen J, Gertz M, Popov P. Extraction and Exploration of Spatio-temporal Information in Documents[C]//Proceedings of the 6th Workshop on Geographic Information Retrieval. Zurich, Switzerland, 2010: 16:1-16:8.
[10] Lingad J, Karimi S, Yin J. Location extraction from disaster-related microblogs[C]//Proceedings of the 22nd international conference on World Wide Web companion (WWW ’13 Companion). Rio de Janeiro, Brazil: 2013: 1017-1020.
[11] Sakaki T, Okazaki M, Matsuo Y. Earthquake shakes Twitter users: real-time event detection by social sensors[C]//Proceedings of the 19th international conference on World wide web (WWW’10). Raleigh, North Carolina, USA, 2010: 851-860.
[12] Schulz A, Hadjakos A, Paulheim H, et al. A Multi-Indicator Approach for Geolocalization of Tweets[C]//Proceedings of the 7th International AAAI Conference on Weblogs and Social Media (ICWSM 2013). Boston, USA: 2013: 573-582.
[13] Rauch E, Bukatin M, Baker K. A Confidence-based Framework for Disambiguating Geographic Terms[C]//Proceedings of the HLT-NAACL 2003 Workshop on Analysis of Geographic References - Volume 1. Edmonton, Canada, 2003: 50-54.
[14] Pouliquen B, Kimler M, Steinberger R, et al. Geocoding multilingual texts: Recognition, disambiguation and visualisation[C]//Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC-2006). Genoa, Italy, 2006: 53-58.
[15] 陳傳彬, 陸鋒, 勵(lì)惠國(guó)等. 自然語(yǔ)言表達(dá)實(shí)時(shí)路況信息的路網(wǎng)匹配融合技術(shù)[J]. 中國(guó)圖象圖形學(xué)報(bào), 2009, 14(8): 1669-1676.
[16] Lafferty J D, McCallum A, Pereira F C N. Conditional Random Fields: Probabilistic Models for Segmenting andLabeling Sequence Data[C]//Proceedings of the 18th International Conference on Machine Learning (ICML ’01). Williamstown, MA, USA, 2001: 282-289.
[17] Peng F, McCallum A. Information extraction from research papers using conditional random fields[J]. Information Processing and Management, 2006, 42(4): 963-979.
[18] Cortes C, Vapnik V. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273-297.
[19] Fernández-Delgado M, Cernadas E, Barro S, et al. Do We Need Hundreds of Classifiers to Solve Real World Classification Problems?[J]. Journal of Machine Learning Research, 2014, 15(1): 3133-3181.
[20] Kosala R, Adi E, Steven. Harvesting Real Time Traffic Information from Twitter[J]. Procedia Engineering, 2012, 50: 1-11.
[21] Wanichayapong N, Pruthipunyaskul W, Pattara-Atikom W, et al. Social-based traffic information extraction and classification[C]//Proceedings of the 11th International Conference on ITS Telecommunications (ITST 2011). St. Petersburg, Russia, 2011: 107-112.
[22] Endarnoto S K, Pradipta S, Nugroho A S, et al. Traffic Condition Information Extraction & Visualization from Social Media Twitter for Android Mobile Application[C]//Proceedings of the 2011 International Conference on Electrical Engineering and Informatics (ICEEI 2011). Bandung, Indonesia, 2011: 1-4.
[23] 程顯毅, 朱倩. 文本挖掘原理[M]. 北京: 科學(xué)出版社, 2010.
[24] 張恒才, 陸鋒, 仇培元. 基于D-S證據(jù)理論的微博客蘊(yùn)含交通信息提取方法[J]. 中文信息學(xué)報(bào), 2015,29(2): 170-178.
Automatic Event Labeling for Traffic InformationExtraction from Microblogs
QIU Peiyuan1,2, ZHANG Hengcai1, YU Li1,2, LU Feng1
(1. State Key Lab of Resources and Environmental Information System,IGSNRR, CAS, Beijing 100101, China;2. University of Chinese Academy of Sciences, Beijing 100101, China)
Microblog messages usually contain a great amount of real-time traffic information which can complement the sensor based traffic information collecting technologies. In this paper, we propose an automatic event labeling method to extract traffic information from microblog messages. Specifically, we apply the spatial relation identification between geographic entities in event extraction to determine the spatial elements in traffic event messages. Firstly, a conditional random field model is used to label the event role in the message texts. Secondly, the relations between the roles and the relations between the elements are tagged by SVM models. The experiment on Sina microblogs shows the precision and recall of the proposed approach are both over 90%, which is superior to the well-known pattern matching method.
microblog; information extraction; traffic event; conditional random fields; support vector machine
仇培元(1986—),博士后,主要研究領(lǐng)域?yàn)榛ヂ?lián)網(wǎng)空間信息搜索。E?mail:qiupy@lreis.a(chǎn)c.cn張恒才(1985—),博士,助理研究員,主要研究領(lǐng)域?yàn)榛ヂ?lián)網(wǎng)空間信息搜索、軌跡數(shù)據(jù)管理與數(shù)據(jù)挖掘。E?mail:zhanghc@lreis.a(chǎn)c.cn余麗(1986—),博士研究生,主要研究領(lǐng)域?yàn)榛ヂ?lián)網(wǎng)空間信息搜索。E?mail:yul@lreis.a(chǎn)c.cn
2015-03-17 定稿日期: 2015-08-07
國(guó)家自然科學(xué)基金(41631177); 國(guó)家自然科學(xué)基金(41401460)
1003-0077(2017)02-0107-10
TP391
A