黃念娥,黃 河,王儒敬
(1.中國科學(xué)院 合肥智能機械研究所,合肥 230031; 2.中國科學(xué)技術(shù)大學(xué) 合肥物質(zhì)研究院,合肥 230027)
(*通信作者電子郵箱hhuang@iim.ac.cn)
本體與條件隨機場結(jié)合的涉農(nóng)商品名稱抽取與類別標注
黃念娥1,2,黃 河1*,王儒敬1
(1.中國科學(xué)院 合肥智能機械研究所,合肥 230031; 2.中國科學(xué)技術(shù)大學(xué) 合肥物質(zhì)研究院,合肥 230027)
(*通信作者電子郵箱hhuang@iim.ac.cn)
傳統(tǒng)的基于條件隨機場(CRF)的信息抽取方法在進行涉農(nóng)商品名稱抽取與類別標注時,需要大量的訓(xùn)練語料,標注工作量大,且抽取精度不高。為解決該問題,提出了一種基于農(nóng)業(yè)本體與CRF相結(jié)合的涉農(nóng)商品名稱抽取與類別標注方法,將涉農(nóng)商品名稱的自動抽取與分類看作序列標注的任務(wù)。首先是原始數(shù)據(jù)的分詞處理和詞、詞性、地理屬性、本體概念特征選擇;然后,采用改進的擬牛頓算法訓(xùn)練CRF模型參數(shù),用維特比算法實現(xiàn)解碼,共完成4組對比實驗,識別出7種類別,并將CRF和隱馬爾可夫模型(HMM)、最大熵馬爾可夫模型(MEMM)通過實驗進行比較;最后,將CRF應(yīng)用于農(nóng)產(chǎn)品供求趨勢分析。結(jié)合合適的特征模板,本體概念的加入使CRF開放測試的總體準確率提高10.20%,召回率提高59.78%,F(xiàn)值提高37.17%,證明了本體與CRF結(jié)合方法在涉農(nóng)商品名稱和類別抽取中的可行性和有效性,可以促進農(nóng)產(chǎn)品供求對接。
條件隨機場;農(nóng)業(yè)本體;涉農(nóng)商品名稱;供求趨勢;序列標注
隨著互聯(lián)網(wǎng)的快速發(fā)展,目前已有超過30 000家的涉農(nóng)電商平臺[1],如阿里巴巴農(nóng)業(yè)頻道、中國惠農(nóng)網(wǎng)、順豐優(yōu)選等,這些網(wǎng)站每天會發(fā)布大量種植業(yè)、林木花卉、農(nóng)機、農(nóng)具等各類涉農(nóng)商品信息。通過對這些供求信息的分析,有助于預(yù)測農(nóng)產(chǎn)品市場趨勢、及時發(fā)現(xiàn)買難賣難、促進供求自動對接。然而,對這些涉農(nóng)供求信息分析之前首先需要對涉農(nóng)商品名稱與類別進行抽取。如“廠家直銷 兩行玉米播種機 免剝皮玉米脫粒機”這條供求信息中,需要抽取出“玉米播種機”和“玉米脫粒機”這兩個涉農(nóng)商品名稱,同時類別標注為農(nóng)業(yè)機械類。這樣,就可以對一段時間內(nèi)、不同地域的農(nóng)業(yè)機械類的供求情況進行趨勢分析。
涉農(nóng)商品名稱自動抽取與類別標注主要涉及農(nóng)業(yè)領(lǐng)域術(shù)語自動抽取,包括基于規(guī)則與基于統(tǒng)計兩種方法?;谝?guī)則方法依賴于語言和領(lǐng)域規(guī)則模板的建立[2],需要人工編制大量規(guī)則和有經(jīng)驗的領(lǐng)域?qū)<遥到y(tǒng)可移植性差。基于統(tǒng)計的方法分為經(jīng)典的統(tǒng)計方法和統(tǒng)計機器學(xué)習(xí)方法。經(jīng)典的統(tǒng)計方法主要基于詞頻、互信息以及信息熵等。Guan等[3]利用關(guān)聯(lián)規(guī)則、C-value和詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency,TF-IDF)混合算法提取中國戲曲領(lǐng)域的專業(yè)術(shù)語。該方法克服了基于規(guī)則的缺點,但低頻術(shù)語通常不能被有效提取。統(tǒng)計機器學(xué)習(xí)方法中,最具代表性的為條件隨機場(Conditional Random Field, CRF)[4-7],利用序列標注的思想,融合上下文多特征提取領(lǐng)域術(shù)語。由于其條件獨立性,只需考慮當前已經(jīng)出現(xiàn)的觀測狀態(tài)特性,對于整個序列內(nèi)部的信息和外部觀測信息均可有效利用,避免了標記偏置問題,被廣泛應(yīng)用。孟洪宇[8]通過CRF融合字符本身、詞性、詞邊界等多特征提取中醫(yī)術(shù)語,F(xiàn)值達到75.56%。Zhan等[9]利用兩層CRF提取簡單和復(fù)雜的術(shù)語,并通過領(lǐng)域相關(guān)性和一致性提取最終領(lǐng)域術(shù)語,F(xiàn)值為82.01%。
傳統(tǒng)CRF需要大規(guī)模的訓(xùn)練語料[10-12]。針對涉農(nóng)商品名稱抽取與類別標注,由于涉農(nóng)商品名稱繁多,人工標注工作量大。如“玉米收割機”進行了標注,但當遇到“小麥收割機”時,如果樣本沒有標注,依然不能正確抽取,影響了抽取的精確率。而事實上,如果將“玉米”“小麥”的父類概念“糧油作物”作為CRF的一項特征,可實現(xiàn)由“玉米收割機”抽取出新詞“小麥收割機”。因此為實現(xiàn)對屬于同一概念的大量新詞(指未在樣本中標注的詞)進行有效抽取,文中將農(nóng)業(yè)本體與CRF相結(jié)合,引入詞所對應(yīng)的本體概念作為CRF的特征,賦予涉農(nóng)商品名稱以語義知識,同時結(jié)合詞、詞性、地理位置特征進行CRF訓(xùn)練,最終實現(xiàn)涉農(nóng)商品名稱的抽取與類別標注。通過學(xué)習(xí)樣本,CRF模型表現(xiàn)出一定的“推理”能力,如將概念為糧油作物和收獲機械的相鄰實例詞作為一個涉農(nóng)商品名稱抽取,類別識別為農(nóng)業(yè)機械類,概念為生鮮水果和農(nóng)作物種子種苗的相鄰實例詞抽取為種植業(yè)類的涉農(nóng)商品名稱等;并將CRF與隱馬爾可夫模型(Hidden Markov Model, HMM)、最大熵馬爾可夫模型(Maximum Entropy Markov Model, MEMM)進行比較,同時用于農(nóng)產(chǎn)品供求趨勢的分析。表明農(nóng)業(yè)本體與CRF相結(jié)合進行涉農(nóng)商品名稱抽取與類別標注方法的有效性。
1.1 農(nóng)業(yè)本體
本體是關(guān)于概念體系的明確的、形式化的規(guī)范說明[13],農(nóng)業(yè)本體是專業(yè)性的本體,表示的知識都是針對農(nóng)業(yè)學(xué)科領(lǐng)域,提供了關(guān)于該領(lǐng)域中概念的詞表以及概念之間的關(guān)系[14-15]。
概念層次是本體的骨架,主要反映概念之間的父類子類關(guān)系。文中使用阿里巴巴農(nóng)業(yè)(https://www.1688.com/)概念層次體系,結(jié)構(gòu)如圖1所示,該分類體系有4個層次,包括218個葉子節(jié)點,目前已有超過170萬個農(nóng)業(yè)供求信息映射到該分類體系中,因此基本可以涵蓋各種農(nóng)產(chǎn)品供求類型,具有很強的覆蓋性。利用本體中的父子類概念知識表示詞所對應(yīng)的概念,賦予詞以語義。生鮮水果作為蘋果、草莓的父類概念,可用生鮮水果描述蘋果、草莓;種植業(yè)作為生鮮水果、農(nóng)作物種子種苗的父類概念,使用種植業(yè)來描述生鮮水果、農(nóng)作物種子種苗,也可使用種植業(yè)來描述蘋果、草莓、蔬菜種子種苗等,進一步增強知識泛化能力。
圖1 農(nóng)業(yè)本體概念層次樹
1.2 條件隨機場
CRF是用來標注和劃分序列結(jié)構(gòu)數(shù)據(jù)的概率化的無向圖模型[4],具有表達元素長距離依賴性和交疊性特征的能力,在模型中可包含眾多領(lǐng)域知識[16]。
1.2.1 CRF模型
對于給定的輸出標記序列y=(y1,y2,…,yn)和輸入觀察序列x=(x1,x2,…,xn),CRF通過定義條件概念p(y|x,λ)來描述模型。圖2表示CRF鏈式結(jié)構(gòu)。
圖2 CRF鏈式結(jié)構(gòu)
CRF定義的條件概率公式為:
(1)
其中:x為觀察序列;y為標記序列;λ=(λ1,λ2,…,λn)為權(quán)重向量;λj為特征函數(shù)的權(quán)重;fj(yi-1,yi,x,i)為對應(yīng)整個觀察序列x,標記位于i和i-1的特征函數(shù);分母Z(x)為歸一化因子(保證所有可能的狀態(tài)序列概率之和為1),公式如下:
(2)
1.2.2 參數(shù)訓(xùn)練
對λj求導(dǎo):
分別表示經(jīng)驗分布和模型分布中特征的期望值;令式(4)等于0,求λ。
由于改進的擬牛頓算法(LimitedBroyden-Fletcher-Goldfarb-Shanno,L-BFGS)只保存并利用近幾次迭代(迭代次數(shù)由使用者控制)的曲率信息來構(gòu)造海森矩陣的近似矩陣,每次迭代的開銷小,執(zhí)行速度快,能保證近似矩陣的正定,算法的魯棒性強[19]。本文選取L-BFGS算法估計似然參數(shù)λ。
1.2.3 解碼問題
對于x來說,CRF要做的就是搜索概率最大的y*,即求解式(5):
(5)
該式可通過維特比動態(tài)規(guī)劃算法[4]進行計算,對狀態(tài)序列作出最優(yōu)估計。
模型的具體實現(xiàn)中,使用了Taku開發(fā)的CRF++-0.58工具包[20],該工具包支持自定義特征集,可輸出所有候選的邊際概率值,含訓(xùn)練參數(shù)時的L-BFGS算法以及解碼時的維特比算法,可被應(yīng)用到各種各樣的自然語言處理任務(wù)中。實驗在64位Windows7下,裝有Java、C++編譯環(huán)境進行,其他配置為IntelPentiumP6200,2.13GHz,2.00GBRAM。
2.1 數(shù)據(jù)集
數(shù)據(jù)集選自構(gòu)建農(nóng)業(yè)本體時使用的阿里巴巴網(wǎng),從中抽取標題數(shù)據(jù),包括七大類:種植業(yè)、園林業(yè)、養(yǎng)殖業(yè)、化肥、農(nóng)業(yè)用具、農(nóng)業(yè)機械及鮮活水產(chǎn)品加工制品,覆蓋了該網(wǎng)站中近90%的農(nóng)產(chǎn)品信息,每類500條。
在轉(zhuǎn)換原始語料格式,構(gòu)造標準的數(shù)據(jù)集時,利用基于開源HanLp自然語言處理包[21]的CRF分詞。分詞得到詞和詞性,并去除停用詞,如“阿里巴巴”“淘寶”“順豐”“包郵”等。如“大量供應(yīng)優(yōu)質(zhì)紅小麥”CRF分詞后為“大量/m, 供應(yīng)/vn, 優(yōu)質(zhì)/b, 紅小麥/nz”,首先利用Java程序經(jīng)過“,”分隔,得到每個詞的詞和詞性組合,再經(jīng)由“/”分隔,即可轉(zhuǎn)換為符合CRF++-0.58工具包的輸入格式。因涉農(nóng)商品名稱很多由三個及以上詞組成,選取5詞位標注法,以詞為單位進行序列標注,標注符號集為(B,M,E,S,O),為實現(xiàn)類別標注,添加符號集(Z,L,YZ,H,Y,J,X)作為序列標注符號的后綴,各個符號含義如表1所示。如涉農(nóng)商品名稱為“玉米小麥播種機”農(nóng)業(yè)機械類中,標注為玉米(B-J)小麥(M-J)播種機(E-J)。
2.2 特征選擇
CRF標注算法中,特征選擇以及特征函數(shù)的定義至關(guān)重要,直接關(guān)系到模型的性能。CRF模型的特征一般分為三類[22]:原子特征、復(fù)合特征以及全局變量特征,針對不同語料,選取的特征不同。選取詞Word、詞性(Part-Of-Speech,POS)、地理屬性和農(nóng)業(yè)本體概念作為特征。構(gòu)建特征模板時,使用了對應(yīng)的原子特征和復(fù)合特征,上下文特征窗口為5。
表1 序列標注符號含義
2.2.1 詞
由于涉農(nóng)商品名稱具有領(lǐng)域性,有些詞只在本領(lǐng)域流通,故詞本身包含了最有效的信息,可作為特征。如“拖拉機”“玉米渣”“葉面肥”可作為農(nóng)業(yè)領(lǐng)域的商品名稱。
2.2.2 詞性
詞性特征指當前字符的詞性,是涉農(nóng)商品名稱的一個重要特征,一般而言涉農(nóng)商品名稱為名詞,復(fù)合名詞,還包括部分動詞。如“麥麩/n”“狼/n青犬/nz”“麥稈/n撿拾/v打捆機/n”可作為涉農(nóng)商品名稱。
2.2.3 地理屬性
涉農(nóng)商品名稱中有些涉及到地理屬性,如“山東開溝機”“河南特產(chǎn)玉米”“黑龍江大豆”。對于這類數(shù)據(jù),應(yīng)將其地理屬性抽取出來,分詞后詞性標注為“ns”的表示地名,因此可很方便地將地理屬性作為特征加入到CRF中。
2.2.4 農(nóng)業(yè)本體概念
選取詞在農(nóng)業(yè)本體中所對應(yīng)的概念作為CRF的一項特征,將詞進行泛化,利用概念知識表示實例詞,使詞具有語義。共使用2種本體概念,一種是實例詞在農(nóng)業(yè)本體概念層次樹中對應(yīng)的葉子節(jié)點概念,特征表示為F0;另一種是實例詞在本體中對應(yīng)的上層概念,在此指去除葉子節(jié)點和根節(jié)點后所對應(yīng)的概念,特征用F1表示。文中使用的農(nóng)業(yè)本體概念如表2所示。如“菠蘿莓”對應(yīng)的葉子節(jié)點概念為“草莓”,對應(yīng)的上層概念為“生鮮水果”和“種植業(yè)”。
表2 詞所對應(yīng)的本體概念關(guān)系
詞所對應(yīng)的農(nóng)業(yè)本體概念通過維護領(lǐng)域詞典實現(xiàn)。而中國搜農(nóng)網(wǎng)供求搜索欄目(http://www.sounong.net/)共搜集全國1萬多個農(nóng)業(yè)網(wǎng)站,擁有超過3萬條農(nóng)產(chǎn)品信息,實現(xiàn)了農(nóng)產(chǎn)品到類別的映射,將該知識與阿里巴巴分類體系建立聯(lián)系,實現(xiàn)涉農(nóng)商品名稱到概念的映射,降低人工維護領(lǐng)域詞典的代價,提高自動化程度。圖3表示詞所對應(yīng)的本體概念標注實現(xiàn)流程。
圖3 詞所對應(yīng)的本體概念標注流程
3.1 實驗評價指標
涉農(nóng)商品名稱抽取與類別標注的結(jié)果評價使用3個指標:準確率P、召回率R和F-值[23],公式表示如下:
(6)
(7)
(8)
3.2 基于CRF涉農(nóng)商品名稱抽取與類別標注
選取數(shù)據(jù)集中70%為訓(xùn)練數(shù)據(jù),30%為測試數(shù)據(jù),實現(xiàn)開放測試。實驗分為4組,每組包括7大類,即種植業(yè)、園林業(yè)、養(yǎng)殖業(yè)、化肥、農(nóng)業(yè)用具、農(nóng)業(yè)機械和鮮活水產(chǎn)品加工制品。第1組選取詞Word、詞性POS、地理屬性作為特征;第2組在前組的基礎(chǔ)上,加入詞在農(nóng)業(yè)本體概念層次樹中對應(yīng)的葉子節(jié)點概念特征F0;第3組基于第一組實驗的特征,直接加入詞在農(nóng)業(yè)本體中對應(yīng)的上層概念特征F1;第4組在第3組實驗特征基礎(chǔ)上,添加特征F0。實驗總體流程如圖4所示。
圖4 實驗總體流程
實驗結(jié)果如表3所示,在第1組特征基礎(chǔ)上,加入本體中對應(yīng)的葉子節(jié)點特征F0,總的準確率P和召回率R上升;加入本體中上層概念特征F1,總體召回率大幅度地上升;同時使用F0和F1特征,準確率P高的同時也保證了召回率R高,總體F值達到92.32%,其中類別標記為化肥類的F值最高96.00%,園林業(yè)類的F值最低87.50%,表明基于本體與CRF相結(jié)合進行涉農(nóng)商品名稱的抽取與類別標注的方法是有效的。
表3 基于CRF實驗結(jié)果 %
第1組實驗錯誤主要有:名詞組合“廣西/ns產(chǎn)地亞/nz熱帶/n”“天山/ns牌/n”“上海/ns強力/n”“荷蘭/ns 十五/nz”等提取為術(shù)語;“花卉/n”“磷肥/n”“滴灌管/n”“鮑魚汁/nz”等未被正確識別;“玉米/nf./nz小麥/n”“現(xiàn)貨/n鴕鳥蛋/nf”“爆款/nz低價/n香蕉/nf”“高產(chǎn)量/nz玉米/nf收割機/n”等作為一個整體抽取出來;養(yǎng)殖業(yè)、農(nóng)業(yè)機械類的涉農(nóng)商品名稱如“比利時野兔”“山東開溝機”等錯誤抽取為種植業(yè)類。在大量新的涉農(nóng)商品名稱未被有效抽取與分類的前提下,保證準確率高,但召回率低,總體F值為68.30%。
第2組實驗中,加入詞在農(nóng)業(yè)本體概念層次樹中對應(yīng)的葉子節(jié)點概念特征F0,減少了錯誤分類的概率,可將第1組實驗中錯誤分類的部分名稱正確抽取分類;同時削弱詞Word、詞性POS特征的權(quán)重,降低了將非涉農(nóng)商品名稱的名詞組合錯誤識別為涉農(nóng)商品名稱的比率,但泛化能力較弱,對于新的涉農(nóng)商品名稱抽取與分類能力很差,準確率和召回率得到提升,總體F值為72.71%。
第3組直接使用農(nóng)業(yè)本體中的上層概念特征F1,賦予詞以概念知識,大大增強泛化程度,抽取出“菠蘿”“澆花噴壺”“芝麻香油機”“魷魚干”等新詞。通過學(xué)習(xí)樣本,CRF模型表現(xiàn)出一定的“推理”能力,如將概念為生鮮水果的單獨實例詞抽取為種植業(yè)類的涉農(nóng)商品名稱,概念為糧油作物和種植機械的相鄰實例詞抽取為農(nóng)業(yè)機械類的涉農(nóng)商品名稱等。最終召回率大幅度提升,總體F值達到90.64%。
第4組綜合第2,3組實驗的特征,使用更詳細的特征和特征模板,準確率和召回率有所提升,總體F值為92.32%。其中園林業(yè)、養(yǎng)殖業(yè)類的F值與其他5類相比較低,主要是由于分詞錯誤影響較大以及地理屬性未被有效抽取,如將“樟子松木”分詞為“樟子/n松木/n”,“河北小豬”抽取出“小豬”。表4列出了抽取的部分涉農(nóng)商品名稱以及標注的類別。
3.3 CRF與HMM、MEMM算法的比較
利用相同的數(shù)據(jù)集,選取上述第1組實驗中詞、詞性、地理屬性作為特征,分別利用CRF和HMM、MEMM完成開放測試,其中后兩種算法采用機器學(xué)習(xí)語言工具包(MAchine Learning for LanguagE Toolkit, MALLET)[24]實現(xiàn),MALLET是用于文本分類、主題建模和序列標注等的Java工具包,實驗結(jié)果如表5。
表4 抽取的部分涉農(nóng)商品名稱及類別標注
表5 CRF與HMM、MEMM(詞+詞性+地理特征)的比較 %
Tab.5 Comparative results of CRF, HMM and MEMM based on word, part of speech and geographical attributes %
類別HMMPRFMEMMPRFCRFPRF種植業(yè)類48.5349.8249.1770.3264.9567.5378.4471.8575.00園林業(yè)類56.6525.3034.9887.5332.8747.7992.3636.5252.34養(yǎng)殖業(yè)類71.4120.7932.2088.2230.8445.7094.7434.5050.58化肥類78.5643.4256.0792.7047.2162.5696.1252.6668.04農(nóng)業(yè)用具類64.5853.1258.2976.1160.5867.4683.6870.3776.45農(nóng)業(yè)機械類44.0531.6036.8069.4542.7952.9583.3768.6575.30鮮活水產(chǎn)品加工制品類72.3631.2343.6381.5737.9451.7986.9646.5160.61總體值62.3032.5942.7979.4143.0155.8084.4057.3668.30
實驗顯示,CRF的性能優(yōu)于HMM、MEMM。主要由于HMM為產(chǎn)生式模型,具有嚴格的輸出獨立性假設(shè),不能充分利用上下文多特征信息,對于由3個及以上的詞組成的涉農(nóng)商品名稱抽取效率差,如將“玉米小麥收割機”抽取為兩個涉農(nóng)商品名稱“玉米”“小麥收割機”,容易出現(xiàn)類別識別錯誤;MEMM克服了HMM的缺點,但使用每一個狀態(tài)的指數(shù)模型來計算給定前一個狀態(tài)下當前狀態(tài)的條件概率,容易陷入局部最優(yōu),存在標注偏置的問題;而CRF在所有特征上進行全局歸一化,能得到全局最優(yōu)解,避免了MEMM缺點。因此文中選取CRF抽取涉農(nóng)商品名稱與類別標注是有效的。
3.4 基于本體與CRF的農(nóng)產(chǎn)品供求趨勢分析
涉農(nóng)商品名稱及類別標注的有效抽取,不僅有助于促進農(nóng)業(yè)供求交易的智能對接,而且可用于農(nóng)業(yè)供求趨勢分析,了解市場動態(tài)。利用中國搜農(nóng)網(wǎng)供求搜索欄目抓取的網(wǎng)站數(shù)據(jù)作為原始數(shù)據(jù),通過第4組實驗的方法,抽取涉農(nóng)商品名稱及分類,圖5(a)~5(d)表示2016年5月3日到6月6日連續(xù)5周內(nèi)的供應(yīng)求購趨勢。由圖5可知,四川省種植業(yè)類的商品求購量高于湖北省,兩省在第5周都有大幅度的上升;河北省農(nóng)業(yè)機械類的農(nóng)產(chǎn)品周供應(yīng)量較為平穩(wěn),而山東省在第5周時上升幅度大,達到591;山東省養(yǎng)殖業(yè)類的供應(yīng)量遠高于江蘇省,而園林業(yè)的供應(yīng)量則低于江蘇省,反映出各地區(qū)農(nóng)產(chǎn)品供應(yīng)的差異性。根據(jù)這些供應(yīng)求購趨勢信息,買賣雙方可依據(jù)地理位置,來選擇適合的產(chǎn)品,更好地促成實時交易,如山東省的客戶想購買玉米剝殼機,通過供應(yīng)趨勢圖,則可就近選擇較好的相關(guān)產(chǎn)品,給購買者提供方便。
圖5 各類供應(yīng)求購趨勢
本文基于農(nóng)業(yè)本體與條件隨機場CRF相結(jié)合抽取涉農(nóng)商品名稱實現(xiàn)類別標記,在詞、詞性和地理屬性特征基礎(chǔ)上,自動添加詞所對應(yīng)的農(nóng)業(yè)本體概念特征,對實例名稱進行不同程度的泛化,賦予詞以語義和概念知識。通過實驗,在一定范圍內(nèi),泛化程度越高,CRF模型表現(xiàn)出的“推理”能力越強,可有效地抽取測試語料中首次出現(xiàn)的涉農(nóng)商品名稱并分類,在準確率高的前提下,也保證了召回率,大量減少訓(xùn)練語料,降低人工工作量,與HMM、MEMM比較,體現(xiàn)出CRF的性能更優(yōu),并將此方法用于農(nóng)產(chǎn)品供求趨勢分析,可了解市場動態(tài)。原始語料以及分詞工具的選取直接關(guān)系到CRF模型的性能,在今后的研究工作中,一方面將進行分詞方法改進,選取不同的訓(xùn)練語料,進行CRF涉農(nóng)商品名稱抽取研究,進一步提升準確率和召回率,另一方面嘗試從降低算法的復(fù)雜度入手,提高效率。
References)
[1] 于連軍.基于互聯(lián)網(wǎng)+的農(nóng)業(yè)電子商務(wù)發(fā)展模式的研究[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2015(11):19-21.(YU L J.Research on the development model of agricultural E-commerce based on Internet+ [J].Agriculture Network Information, 2015(11): 19-21.)
[2] LI L S, DAND Y Z, ZHANG J, et al.Domain term extraction based on conditional random fields combined with active learning strategy [J].Journal of Information & Computational Science, 2012, 9(7): 1931-1940.
[3] GUAN A Q, WANG Y B, YANG L F.Automatic term extraction for Chinese opera domain ontology [C]// Proceedings of the 12th International Conference on Fuzzy Systems and Knowledge Discovery.Piscataway, NJ: IEEE, 2015: 1372-1376.
[4] 宗成慶.統(tǒng)計自然語言處理[M].2版.北京:清華大學(xué)出版社,2013:110-128.(ZONG C Q.Statistical Natural Language Processing [M].2nd ed.Beijing: Tsinghua University Press, 2013: 110-128.)
[5] WALLACH H M.Conditional random fields: an introduction, technical report MS-CIS-04-21 [R].Philadelphia, PA: University of Pennsylvania, 2004: 262-272.
[6] FU W J, LI L.A method and application of automatic term extraction using conditional random fields [C]// Proceedings of the 2009 International Conference on Natural Language Processing and Knowledge Engineering.Piscataway, NJ: IEEE, 2009: 1-5.
[7] ZHANG C Z, WANG H L, LIU Y, et al.Automatic keyword extraction from documents using conditional random fields [J].Journal of Computational Information System, 2008, 4(3): 1169-1180.
[8] 孟洪宇.基于條件隨機場的《傷寒論》中醫(yī)術(shù)語自動識別[D].北京:北京中醫(yī)藥大學(xué),2014:41-48.(MENG H Y.Automatic identification of TCM terminology in Shanghan Lun based on conditional random field [D].Beijing: Beijing University of Chinese Medicine, 2014:41-48.)
[9] ZHAN Q, WANG C H.A Hybrid strategy for Chinese domain-specific terminology extraction [C]// Proceedings of the 11th International Conference on Semantics, Knowledge and Grids.Piscataway, NJ: IEEE, 2015: 217-221.
[10] 王春雨.基于CRF的農(nóng)業(yè)命名實體識別研究[D].保定:河北農(nóng)業(yè)大學(xué),2014:19-23.(WANG C Y.Study on recognition of Chinese agricultural named entity with CRF [D].Baoding: Agricultural University of Hebei, 2014: 19-23.)
[11] CAO Y S, WANG J, LI L.Word-level information extraction from science and technology announcements corpus based on CRF [C]// Proceedings of the 2nd IEEE International Conference on Cloud Computing and Intelligence Systems.Piscataway, NJ: IEEE, 2012: 1529-1533.
[12] IZUMI M, MIURA T, SHIOYA I.Estimating the date of blog authors by CRF [C]// Proceedings of the 2007 IEEE Pacific Rim Conference on Communications, Computers and Signal Processing.Piscataway, NJ: IEEE, 2007: 249-252.
[13] GRUBER T R.A translation approach to portable ontology specifications [J].Knowledge Acquisition, 1993, 5(2): 199-220.
[14] 李傳席.基于本體的自適應(yīng)Web信息抽取方法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2012:15-17.(LI C X.Adaptive Web information extraction method research based on ontology [D].Hefei: University of Science and Technology of China, 2012: 15-17.)
[15] LIU X G, DUAN X H, ZHANG H Y.Application of ontology in classification of agricultural information [C]// Proceedings of the 2012 IEEE Symposium on Robotics and Applications.Piscataway, NJ: IEEE, 2012: 451-454.
[16] 周晶,吳軍華,陳佳,等.基于條件隨機域CRF模型的文本信息抽取[J].計算機工程與設(shè)計,2008,29(23):6094-6097.(ZHOU J, WU J H, CHEN J, et al.Using conditional random fields model for text information extraction [J].Computer Engineering and Design, 2008, 29(23):6094-6097.)
[17] LAFFERTY J, MCCALLUM A, PEREIRA F.Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]// Proceedings of the 18th International Conference on Machine Learning.San Francisco, CA: Morgan Kaufmann, 2001: 282-289.
[18] Sunfox66.條件隨機場詳解[EB/OL].(2015-10-25)[2016-01-17].http://wenku.baidu.com/view/bbd57f82fc4ffe473268ab59.html.(Sunfox66.Conditional random field introduction [EB/OL].(2015-10-25)[2016-01-17].http://wenku.baidu.com/view/bbd57f82fc4ffe473268ab59.html.)
[19] LIU D, NOCEDAL J.On the limited memory BFGS method for large scale optimization [J].Mathematical Programming, 1989, 45(45): 503-528.
[20] TAKU K.CRF++ toolkit [EB/OL].(2014-10-15)[2016-01-15].http://download.csdn.net/detail/linson3344/8039087.
[21] HANKCS.Han language processing [EB/OL].(2015-03-27)[2016-01-28].http://www.hankcs.com/nlp/hanlp.html.
[22] 施水才,王鍇,韓艷鏵,等.基于條件隨機場的領(lǐng)域術(shù)語識別研究[J].計算機工程與應(yīng)用,2013,49(10):147-149.(SHI S C, WANG K, HAN Y H, et al.Terminology recognition based on conditional random fields [J].Computer Engineering and Applications, 2013, 49(10): 147-149.)
[23] 賈美英,楊炳儒,鄭德權(quán),等.采用CRF技術(shù)的軍事情報術(shù)語自動抽取研究[J].計算機工程與應(yīng)用,2009,45(32):126-129.(JIA M Y, YANG B R, ZHENG D Q, et al.Research on automatic military intelligence term extraction using CRF model [J].Computer Engineering and Applications, 2009, 45(32): 126-129.)
[24] MCCALLUM A K.MALLET: a machine learning for language toolkit [EB/OL].(2002-02-28)[2016-02-25].http://mallet.cs.umass.edu.
This work is partially supported by the National Science and Technology Support Program (2013BAD15B03), Chinese Academy of Sciences Key Deployment Project (Y622A21291), the Scientific and Technological Project of Anhui Province (1401032010).
HUANG Nian’e, born in 1991, M.S.candidate.Her research interests include information extraction, vertical search engine.
HUANG He, born in 1980, Ph.D., associate professor.His research interests include agriculture big data, agricultural intelligent system.
WANG Rujing, born in 1964, Ph.D., professor.His research interests include knowledge representation and visualization, knowledge acquisition.
Agriculture-related product name extraction and category labeling based on ontology and conditional random field
HUANG Nian’e1,2, HUANG He1*, WANG Rujing1
(1.InstituteofIntelligentMachines,ChineseAcademyofSciences,HefeiAnhui230031,China;2.HefeiInstituteofPhysicalScience,UniversityofScienceandTechnologyofChina,HefeiAnhui230027,China)
Traditional information extraction method based on Conditional Random Field (CRF) requires large-scale labeled corpus, it is expensive to label corpus manually and the extraction precision is low in processing agriculture-related product name extraction and category labeling.In order to solve this problem, a method of agriculture-related product name extraction and category labeling based on agricultural ontology and CRF was proposed, automatic extraction and classification of agriculture-related product names was regarded as sequence labeling.Firstly, original data was processed, word, part of speech, geographical attributes and ontology concept features were selected.Then, parameters of the CRF model were trained by the improved quasi-Newton algorithm and decoding was implemented by Viterbi algorithm.A total of four groups of comparative experiments were completed and seven categories were identified.CRF, Hidden Markov Model (HMM) and Maximum Entropy Markov Model (MEMM) were compared through experiments.Finally, the supply and demand trend analysis of agriculture produce was accomplished.The experimental results show that the overall precision, recall andF-score of the open test were increased by 10.20%, 59.78% and 37.17% respectively by adding ontology concepts with appropriate CRF features; it also proves the feasibility, effectiveness and practical significance of the method in promoting automatic supply and demand docking of agricultural products.
Conditional Random Field (CRF); agricultural ontology; agriculture-related product name; supply and demand trend;sequence labeling
2016-08-02;
2016-09-19。
國家科技支撐計劃項目(2013BAD15B03);中國科學(xué)院重點部署項目(Y622A21291);安徽省科技攻關(guān)項目(1401032010)。
黃念娥(1991—),女,安徽安慶人,碩士研究生,主要研究方向:信息抽取、垂直搜索引擎; 黃河(1980—),男,安徽合肥人,副研究員,博士,主要研究方向:農(nóng)業(yè)大數(shù)據(jù)、農(nóng)業(yè)智能系統(tǒng); 王儒敬(1964—),男,安徽亳州人,研究員,博士,主要研究方向:知識表示與可視化、知識獲取。
1001-9081(2017)01-0233-06
10.11772/j.issn.1001-9081.2017.01.0233
TP391.1; TP18
A