呂學強,仵永栩,,周 強,劉 殷,
(1. 北京信息科技大學 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室,北京 100101;2. 清華信息科學與技術(shù)國家實驗室(籌),清華大學信息技術(shù)研究院語音與語言技術(shù)中心, 北京 100084)
異源語料融合研究
呂學強1,仵永栩1,2,周 強2,劉 殷1,2
(1. 北京信息科技大學 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室,北京 100101;
2. 清華信息科學與技術(shù)國家實驗室(籌),清華大學信息技術(shù)研究院語音與語言技術(shù)中心, 北京 100084)
語料資源與自然語言處理領(lǐng)域的各項研究息息相關(guān),具有很大的應(yīng)用價值。由于不同的研究機構(gòu)對于語料標注的規(guī)則和標記的類型不盡相同,使得不同的語料庫很難組合為一個更大的語料庫來進行使用。針對該問題,該文從不同標注庫及詞類映射層面考慮,對其產(chǎn)生的詞性歧義問題進行了研究,提出了一種將異源語料融合到一種體系下的方法,對詞類信息進行映射和消歧,并進行了實驗驗證,融合后的詞性信息準確率可達87%,實驗結(jié)果表明該方法具有一定的有效性和可擴展性。
語料建設(shè);語料融合;詞類映射;詞性消歧;
自然語言處理領(lǐng)域的分析技術(shù)可以分為兩個方面,一個是淺層分析,如詞法分析;另一個是深層分析,如句法分析。目前針對詞法分析的語料庫已有很多高質(zhì)量的、大規(guī)模的語料庫存在,在基于語料庫語言學的研究方面,已發(fā)揮了比較好的效用。而針對一個漢語句子進行深層次的、全局的分析與處理的語料庫還很少,且標準不統(tǒng)一、規(guī)模不大,這也制約了句法分析研究應(yīng)用的發(fā)展。
由于漢語句子不像英語語句那樣有天然的空格分割,需要對漢語句子進行詞法層面的分析,對其進行詞語切分和詞性標注。對于同一個自然語言處理任務(wù),往往存在多個不同風格的人工標注語料庫[1]。不同風格的標注庫在資源層面存在標注不一致的問題,在語料標注中沒有一個統(tǒng)一的標準,不能保證在詞性標注以及人工標注的一致性。在構(gòu)建大規(guī)模的漢語樹庫的過程中,需要有比較大規(guī)模的已分詞和標注完善的基礎(chǔ)語料庫,再對這些基礎(chǔ)語料庫進行自動分析和人工標注,最終形成漢語樹庫。由于現(xiàn)有的語料庫的規(guī)模并不是很大,而且不同研究機構(gòu)對于詞性的標注規(guī)范不同,不能直接組合為一個大規(guī)?;A(chǔ)語料庫。這也限制了語料的多領(lǐng)域適應(yīng)性,限制了語料庫發(fā)展的規(guī)模,阻礙了基于語料庫語言學的發(fā)展。因此,需要采用一定的方式,將語料的標注標準進行統(tǒng)一化,使得異源的語料庫可以融合起來利用,發(fā)揮多語料綜合利用的效用。
在語料融合方面,國內(nèi)也已有相關(guān)研究,Meng 等[2]提出了一種異種語料的自動融合策略。將源語料的分詞和詞性標注標準進行轉(zhuǎn)化,使其與目標語料一致,再將轉(zhuǎn)化后的語料與目標語料融合,訓練一個新詞法分析器,利用這個新的詞法分析器進行解碼。Jiang 等[3]實現(xiàn)了一種轉(zhuǎn)換分類器,以原標注信息作為指導、目標標注作為學習目標來自動地構(gòu)建一個有噪聲的平行標注語料,并用此分類器處理另一個語料庫。但是以上方法在測試集大于訓練集的情況下,在轉(zhuǎn)化過程中會因訓練數(shù)據(jù)限制而出現(xiàn)分類錯誤。
針對以上方法的不完備性以及異源語料標注信息不一致問題,本文提出了一種異種語料自動融合方法,將不同體系的語料融合到一個體系下,以此來擴展語料庫的規(guī)模,統(tǒng)一標注標準。經(jīng)過多語料的融合,擴充了語料資源建設(shè)過程中的語料規(guī)模,擴大漢語樹庫建設(shè)過程中用到的基礎(chǔ)語料庫規(guī)模,提高后續(xù)基于語料庫語言學的研究分析的準確性。本方法的思想是: ①手工建立一套映射標準,將不同來源、不同領(lǐng)域的語料的詞性標記進行映射,使其與目標語料一致; ②將轉(zhuǎn)化后的語料的標記進行錯誤糾正。在最大程度地保留原詞性信息的基礎(chǔ)上,將不同的標記進行歸一化處理; ③將詞性標記信息結(jié)果還原到原語料中,生成融合后的語料。
針對上述問題,將屬于同一個類別、標注不同的標記建立一個映射表,再將同詞類的詞性標記映射到同一個標準下,并對其映射結(jié)果進行置信度評定,確定屬于同一個類別、標記不同的詞語的預測標記。具有多詞性標記的詞語,要利用上下文信息確定該詞語在句子中的詞性類別,將推測結(jié)果屬于不同類別的概率值進行擬合,選取與當前上下文最相關(guān)的詞性標記作為初步的預測標記,然后對預測標記進行置信度評定,確定該詞的最終預測標記結(jié)果,最后根據(jù)映射規(guī)則,將結(jié)果映射到同一個標準下。
本文在第二部分提出了語料自動融合的方法;第三部分是實驗結(jié)果與分析,詳細闡述了語料融合過程中所做的工作以及對融合后的效果進行評定;第四部分是總結(jié)與展望。
2.1 語料體系
將需要融合的語料稱為源體系,融合生成的語料稱為目標體系[2]。實驗中采用的語料體系包括: TCT體系、PKU體系和XD973體系。其中,TCT語料體系是從大規(guī)模的經(jīng)過基本信息標注的漢語平衡語料庫中提取出100萬漢字規(guī)模的文本為語料,經(jīng)過自動句法分析和人工校對,形成高質(zhì)量的漢語句法樹庫語料;PKU語料是北京大學對人民日報語料進行詞語切分和詞性標注形成的語料體系;XD973語料是山西大學按照其制定的漢語文本語料庫分詞、詞性標注加工規(guī)范進行加工形成的語料體系。在語料融合之前,需要將源體系的標注進行歸一化處理,形成歸一化詞類映射表UNP,UNP是根據(jù)不同詞類體系對應(yīng)表: TCT、PKU、YWGB、XD等,在盡可能保留功能類詞性的基礎(chǔ)上,共保留了58個歸一化詞類標記,UNP中的部分標記如表1所示。
表1 UNP映射詞表
2.2 融合思想解析
在語料的融合過程中,需要解決兩個問題: 一、轉(zhuǎn)化前的標注問題。對于原語料標注不符合當前要融合的體系的語料,要對其標記進行修正; 二、轉(zhuǎn)化后的問題。在融合的過程中,由于體系的差異,某些詞在不同庫中的標記有所不同,使得在融合過程中,詞性產(chǎn)生歧義。在每個庫中,都存在單類詞和多類詞情況。融合后出現(xiàn)的新問題是: 某些詞在各個體系中是單類詞,但融合后變成了多類詞,其形成原因是不同庫中對詞類標記分布特定的不同界定標準。研究的重點是為這些融合多類詞選擇確定一個合適的單詞類標記。
例如,詞“黨支部”、“北邊”、“門邊”和“夜半”,在不同的體系下的標注信息不同。如表2所示。
表2 不同體系的詞類標記
在PKU體系以及XD體系中,黨支部標記為名詞n,在TCT體系中,標記為機構(gòu)團體詞nO;在PKU體系以及XD體系中,北邊標記為方位詞f,在TCT體系中,標記為處所詞s;“夜半”在PKU和TCT體系中,標記為時間詞t,在XD體系中,標記為時間名詞nT。這在幾個例子中,可以看到,同一個詞在不同的標記體系下的詞性標記有所不同,這些差異會導致語料融合過程中的詞性標記的不一致。
又例如,在某體系下,有句子序列“貫徹/v 江澤民/nr 同志/n “/wkz 三/m 個/qN 代表/v ”/wky 重要/a 思想/n”,根據(jù)映射表的內(nèi)容,需要將人名的nr標記修正為nP,將左引號wkz標記修正為wLB,將右引號wky標記修正為wRB。經(jīng)過映射表,可以將其中的一些專屬標記規(guī)范化,融合后不會產(chǎn)生無關(guān)標記。
映射示意圖如圖1所示。
在某體系下,有句子序列“為/p 奪取/v 現(xiàn)代化/vN 建設(shè)/vN 的/uJDE 勝利/vN”、“以/p 經(jīng)濟/n 建設(shè)/vN 為/v 中心/n”。句子描述如圖2所示。
圖1 UNP映射實例
圖2 UNP映射實例
在這兩個句子序列中,詞語“為”呈現(xiàn)出不同的詞性,在句子序列1中是動詞詞性,在小句中作謂語成分。在句子序列2中是介詞詞性,介詞修飾的部分做后續(xù)成分的狀語。
對于該問題,實際上要做的就是確定在語料融合的過程中產(chǎn)生歧義的詞的詞性。詞的詞性是由一個詞在一句話中所起的作用決定的,與它所在的上下文相關(guān)。實驗中,由詞性標記聯(lián)系到詞在上下文中的詞義,再由詞義聯(lián)系到該詞的概念。一個詞所能體現(xiàn)的不同詞義也是由其本身所擁有的不同概念決定的。利用知網(wǎng)[4]中的詞語的概念定義,對語料體系中詞的詞義進行評判,進而確定詞的詞性標記。對于不同的語料體系,將其中需要進行詞性排歧的詞抽取出來。首先,明確幾個定義。
2.3 語料組織形式
語料在融合的過程中,主要就是對這些多類詞和單類詞進行處理。在融合的過程中要考慮的主要問題就是詞性的歧義[5-6]。確定一個詞的詞性標記,屬于分類問題,基于一種遷移學習的思想,一般認為一個詞的詞性與其上下文窗口有關(guān)聯(lián),可以將部分詞及其上下文信息作為特征,訓練出一個模板,來對其他的詞進行分類。
語料形式如下示:
1) 開創(chuàng)/v 思想/n 政治/n 工作/vN 的/uJDE 新/a 局面/n
2) 今天/t 是/v 中國/nS 共產(chǎn)黨/n 成立/v 79/m 周年/qT 紀念日/nT 。/wE
3) 企業(yè)/n 轉(zhuǎn)賬/v 結(jié)算/v 中/f 的/uJDE 大部分/m 支出/n
語料的標注規(guī)范是不同的語料體系經(jīng)過詞性映射之后的標注規(guī)范。在本實驗使用機器學習模型進行分類時,采用的特征模板是當前詞在知網(wǎng)中的概念的義原,及其左右四個詞的詞條及其詞性作為特征。特征輸入模板如表3所示。
表3 特征輸入模板
其中,n表示某個詞的概念中的義原總數(shù)。根據(jù)上述輸入模板,上述3)語料句子中的詞“結(jié)算/v”在知網(wǎng)中的概念為“V calculate|計算, commercial|商”,對應(yīng)的特征輸入為:
1) calculate|計算 企業(yè) n 轉(zhuǎn)賬 v 結(jié)算 中 f 的 uJDE
2) commercial|商 企業(yè) n 轉(zhuǎn)賬 v 結(jié)算 中 f 的 uJDE
使用該特征模板對目標詞匯集合中的單類詞進行訓練,然后用該模板對多類詞進行預測,預測的結(jié)果輸出為概率分布。對輸出的概率值的分布曲線進行擬合,選擇合適數(shù)量義原組合為一個概念。
2.4 曲線擬合
詞的概念是由不同的義原構(gòu)成,代表了該詞所具有的某些屬性,也標示出詞可以承擔的詞類屬性,將模型預測的義原結(jié)果,通過曲線擬合的方式,選取合適的義原項作為該詞的屬性,從而確定該詞的概念和充當?shù)脑~類屬性。曲線擬合[7]的過程描述為: 根據(jù)義原的概率比值,對于不同的比值,選取不同的義原組合為一個概念作為對該詞的初步預測概念。擬合值的公式描述為式(1)。
(1)
式(1)中,Tf表示輸出的概率分布中的最大概率值,Ts表示輸出的概率分布中次最大概率值。對取值的描述如下述式(2)。
(2)
通過程序統(tǒng)計,當數(shù)值大小排序在第一的概率值與排序在第二的概率值的比值在區(qū)間[1,1.5]時選取三個義原,比值落在區(qū)間(1.5,2)時選取兩個義原,當比值大于2時選取一個義原時,可以獲得較好的實驗效果。
2.5 置信度
由以上描述所得,對于一個預測的結(jié)果,首先根據(jù)曲線擬合生成的閾值空間,選取不同數(shù)目的義原組合為一個概念,然后將組合形成的概念與該詞在知網(wǎng)下的各個概念進行相似度比較,選擇知網(wǎng)中相似度最大的概念作為當前多類詞的推薦結(jié)果,并使用推薦結(jié)果的詞性標記作為該多類詞的推薦標記。在得出預測的結(jié)果之后,需要對預測的結(jié)果進行置信度評價,以此來提高預測結(jié)果的準確性。
置信度概念定義如下:
定義3 置信度 針對知網(wǎng)對于某個詞的推薦詞性,在結(jié)果評定時,認為其為正確的可靠度。
對于一個詞w標注為c的置信度得分需要考慮如下幾個方面的因素:
(1) 該標注詞本身標記因素Pmark
Pmark表示在以往的標記中,該詞被標注為c的數(shù)量與該詞的所有數(shù)目的一個比值。
(2) 該詞的上下文環(huán)境因素Fcontext
Fcontext=(1+CL)×(1+CR)
(3)
習近平強調(diào):“人類只有遵循自然規(guī)律才能有效防止在開發(fā)利用自然上走彎路,人類對大自然的傷害最終會傷及人類自身,這是無法抗拒的規(guī)律[1]”。伴隨社會經(jīng)濟的發(fā)展,生態(tài)環(huán)境對于人類發(fā)展的重要性日益凸顯。馬克思的眾多著作中閃爍著生態(tài)思想的光芒,相關(guān)生態(tài)思想對生態(tài)旅游建設(shè)有著重要的現(xiàn)實啟示。馬克思的生態(tài)實踐理論是解決當前生態(tài)問題和遵循現(xiàn)代實踐方法論的當代轉(zhuǎn)向,是在保證生態(tài)系統(tǒng)整體性的前提下對人的行為的內(nèi)在制約,是強調(diào)人與自然和諧發(fā)展的物質(zhì)性實踐思想。馬克思的生態(tài)實踐理論對當前如何正確處理人與自然的關(guān)系以及如何在“美麗中國”新時代背景下促進中俄界江生態(tài)旅游價值的實現(xiàn)具有重要的指引意義。
對經(jīng)過置信度評價后獲得的結(jié)果,選取特定的幾個詞類進行正確性驗證,例如,助詞、系動詞、動詞、介詞等。對標注后的詞及詞性信息還原到原始語料中,此時的各個體系下的語料庫即可直接融合為一個更大規(guī)模的語料庫。
上述語料融合方法的流程圖描述如圖3所示。
圖3 實驗過程流程圖
3.1 實驗語料
實驗中,使用到的三個不同的體系下的語料分別是山西大學XD973語料標注體系、北京大學PKU語料標注體系以及清華大學TCT語料標注體系。經(jīng)統(tǒng)計所得,除去只在一個體系下出現(xiàn)的詞后,剩余的詞在這三個體系下的需要處理的單類詞和多類詞總數(shù),即目標詞匯集合為19 110。目標詞匯集合中的單類詞數(shù)目為9 604,多類詞的數(shù)目為3 774。利用建立的UNP映射表,可以確定單類詞的詞性。
將單類詞的概念中的各個義原作為這個詞的特征,并取該詞在所在的上下文信息作為模板來訓練出一個模型,充分利用單類詞的上下文信息對多類詞的上下文進行分類。訓練以及測試模塊的步驟如下。
1) 根據(jù)第四部分介紹的模板,從三個語料體系中,抽取出9 604個單類詞的上下文窗口作為訓練語料,一共有4 230 439條訓練輸入,記為train_simple。
2) 從三個語料體系中,抽取出3 774個多類詞的上下文窗口,一共有4 599 546條測試輸入,記為test_multi。
3) 使用最大熵工具進行分類,對train_simple訓練后得到模型文件train_simple.model,使用這個模型對test_multi進行預測,預測結(jié)果輸出為所有義原及其預測概率值,將該文件記為multi_rate。
3.2 概率擬合
對測試結(jié)果multi_rate進行分析,該文件的每一行是某個多類詞的所有義原及其對應(yīng)的預測概率值,試驗中抽取前十個預測概率最大的義原進行分析,將其中的概率分布進行統(tǒng)計得出如圖4的分布狀況。
圖4中表示的是概率最大的前兩個義原的分布曲線。由圖4可知,在絕大多數(shù)結(jié)果中,第一概率與第二概率的間距比較大,可通過第三部分介紹的曲線擬合方法,將輸出的概率進行擬合,選取合適數(shù)目的義原組合為一個概念作為對多類詞的初步預測結(jié)果。
得到對多類詞的初步預測結(jié)果后,將預測的概念與多類詞在知網(wǎng)中的所有概念進行相似度比較,選取相似度比最大的概念作為對多類詞的最終預測結(jié)果,并選取最終概念的詞性標記作為多類詞的預測標記。
相似度[13]是被定義為一個0到1之間的實數(shù)。將預測的概念與該詞的所有概念進行相似度值計算,得到一個在0到1的相似度數(shù)值,根據(jù)該數(shù)值選取相似度最大的概念作為最終概念。實驗中使用的是知網(wǎng)中的語義相似度計算工具WordSimilarity來對數(shù)據(jù)進行相似度計算。
3.3 實驗結(jié)果與分析
根據(jù)詞類信息在語料標注過程中對標注結(jié)構(gòu)和標注層次的影響程度,對經(jīng)過試驗處理后的結(jié)果進行分 析,試 驗 中 抽 取 動 詞v、系動詞vM、助詞u、以及介詞p這四個對標注工作影響因子較大的詞類來進行評價。評價的標準采用的是實際正確率,實際正確率的概念定義如下。
圖4 義原概率分布圖
定義4 實際正確率 正確條目Rc與結(jié)果總數(shù)Rall的比值Rc/Rall,用來反映實驗結(jié)果的準確度表示為式(5)。
(5)
在標注結(jié)果中,各類詞性所含的詞的規(guī)模如表4所示。
表4 采用的數(shù)據(jù)
經(jīng)過統(tǒng)計,未加入置信度概念評定的標注結(jié)果的實際正確率如圖5所示。
由圖5可知,對于最大熵預測的概念,在經(jīng)過選取與知網(wǎng)中相似度最大的概念的步驟后,對多類詞的消歧效果平均值可達到77%。這樣的準確度在語料建設(shè)中還是不夠的,需要采取一定的策略對消歧效果進行提升。
抽取部分實驗結(jié)果數(shù)據(jù)進行觀察,結(jié)果如表5所示。
圖5 未加入置信度概念的實際正確率分布
詞 類預測結(jié)果原標記當前詞助詞auJDE的duJDE的介詞vp對cp與助動詞avM難dvM能動詞av如uv禁止
由表6可知,在助詞的預測標記中,將屬于助詞uJDE的標記預測為a或d,這是由于在選取的窗口中,存在相同或相似的上下文環(huán)境,而在該上下文中,有多種不同的標記,造成預測標記不準確。在系動詞的預測標記中可以看出,將屬于系動詞vM的詞標記預測為v,出現(xiàn)這種狀況是由于系動詞緊鄰動詞做狀語,在類似的窗口下,預測為動詞標簽。動詞的情況與助詞基本類似。而在介詞的預測結(jié)果中,“對”和“與”在語料中分別擁有動詞v以及連詞c的屬性,導致分類結(jié)果不夠準確。
實驗引入置信度的概念對結(jié)果進行評定,先對置信度劃分為十個區(qū)間,然后統(tǒng)計每個區(qū)間的詞的數(shù)目。實驗選取223 833條輸出結(jié)果并對其置信度值進行統(tǒng)計,結(jié)果如圖6所示。
圖6 置信度值數(shù)據(jù)統(tǒng)計結(jié)果
統(tǒng)計得出所有的詞的在置信度值均落在區(qū)間[0,0.1]和[0.3,0.4],對于落在區(qū)間[0.3,0.4]的標記結(jié)果進行觀測,評判落在該區(qū)間的詞的詞性標記的正確性,得出在該區(qū)間的標記結(jié)果具有較好的正確性,而對于落在區(qū)間[0,0.1]的標記結(jié)果進行統(tǒng)計分析時發(fā)現(xiàn),當采用原標記時,會得到較好的標注結(jié)果。對經(jīng)過置信度評定后的結(jié)果進行統(tǒng)計,選取實驗結(jié)果中的幾個詞類進行正確性評測,得出的實際正確率如圖7所示。
從實驗結(jié)果來看,經(jīng)過置信度評定后,選取的四個詞性類別的實際正確率均有提升,對初步的標記結(jié)果進行了錯誤排查,降低了模型預測結(jié)果的錯誤率,同時也說明了置信度評定設(shè)計的合理性。對加入置信度評定的實驗結(jié)果數(shù)據(jù)結(jié)果抽樣,數(shù)據(jù)結(jié)果如表6所示。
表6 加入置信度后的結(jié)果及其置信度DC值
由表6可知,對預測的結(jié)果加入置信度值評定后,可以將那些置信度值比較低的預測結(jié)果進行過濾,置信度低表明該預測標記的正確性就略低,對過濾掉的預測條目選取原標記作為其輸出結(jié)果。
實驗最后對所有的單類詞和多類詞的所有類別詞類的平均標記正確率進行統(tǒng)計,得到如圖8的實驗結(jié)果。
圖8 單類詞與多類詞最終正確率的對比
從結(jié)果可知,通過本實驗的語料融合的方法,先對詞法分析階段的標注進行歸一化,并根據(jù)詞的概念及其在上下文中所體現(xiàn)的語義進行來推測具有歧義性的詞語的標記,可以獲得較好的實驗結(jié)果,在一定程度上解決了語料庫標注規(guī)范不統(tǒng)一的問題,擴展了語料庫的規(guī)模,使得多領(lǐng)域的語料可以融合到一個標準下來使用。
語料庫資源的建設(shè)在自然語言處理領(lǐng)域是非常重要的,大規(guī)模、高質(zhì)量的語料庫資源的稀少,也使得語料融合的工作變得非常有意義。本文提出了一種異源語料庫的融合方法,初步解決了語料庫規(guī)范不同、標注不同的問題。在一定程度上擴充了語料庫的規(guī)模,為后期語料庫資源的建設(shè)做好準備工作。最終實驗結(jié)果表明,該方法在一定程度上解決了語料庫建設(shè)中標注規(guī)范不同的問題,最終的標注正確率可以達到87%以上,獲得了較好的效果。在本文研究的基礎(chǔ)上,可以借助知網(wǎng)對詞語語義的描述,對詞在句子中的語義進行具體評判,提升初步標注結(jié)果的實際準確率,使得語料融合的方法變得更準確、高效、通用,來更好地解決建設(shè)語料庫中遇到的問題,為以后基于語料庫的研究工作打好基礎(chǔ)。
[1] 宗成慶. 統(tǒng)計自然語言處理[M]. 清華大學出版社, 2008.
[2] 孟凡東, 徐金安, 姜文斌, 等. 異種語料融合方法: 基于統(tǒng)計的中文詞法分析應(yīng)用[J]. 中文信息學報, 2012, 26(2): 3-7.
[3] Jiang W, Huang L, Liu Q. Automatic adaptation of annotation standards: Chinese word segmentation and POS tagging: a case study[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP,2009: 522-530.
[4] 劉群, 李素建. 基于《知網(wǎng)》 的詞匯語義相似度計算[C].第三屆漢語詞匯語義學研討會, 2002.
[5] 盧志茂, 劉挺, 李生. 統(tǒng)計詞義消歧的研究進展[J]. 電子學報, 2006, 34(2): 333-343.
[6] 何徑舟, 王厚峰. 基于特征選擇和最大熵模型的漢語詞義消歧[J]. 軟件學報, 2010, 21(6): 1287-1295.
[7] 喬立山, 王玉蘭, 曾錦光. 實驗數(shù)據(jù)處理中曲線擬合方法探討[J]. 成都理工大學學報: 自然科學版, 2004, 31(1): 91-95.
[8] 劉群. 漢語詞法分析和句法分析技術(shù)綜述[J]. 第一屆學生計算語言學研討會 (SWCL2002) 專題講座, 2002.
[9] 周強. 漢語基本塊描述體系[J]. 中文信息學報, 2007, 21(3): 21-27.
[10] 周強,漢語語篇標注庫的初始語料準備[R].清華大學信息技術(shù)研究院語音和語言技術(shù)中心,技術(shù)報告 TH-RIIT-CSLT-TR-20131205.
[11] 馬金山. 基于統(tǒng)計方法的漢語依存句法分析研究[D]. 哈爾濱工業(yè)大學博士畢業(yè)論文, 2007.
[12] 葛斌, 李芳芳, 郭絲路, 等. 基于知網(wǎng)的詞匯語義相似度計算方法研究[J]. 計算機應(yīng)用研究, 2010 (9): 3329-3333.
[13] 李峰, 李芳. 中文詞語語義相似度計算——基于《知網(wǎng)》 2000[J]. 中文信息學報, 2007, 21(3): 99-105.
[14] 吳瑞紅, 呂學強. 基于互聯(lián)網(wǎng)的術(shù)語定義辨析[J]. 北京大學學報,自然科學版, 2014, 50(1): 33-40.
[15] 錢揖麗, 鄭家恒. 漢語語料詞性標注自動校對方法的研究[J]. 中文信息學報, 2004, 18(2): 30-35.
A Research on the Fusion of Heterologous Corpus
LV Xueqiang1,WU Yongxu1,2, ZHOU Qiang2,LIU Yin1,2
(1. Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100101, China; 2. Tsinghua National Laboratory for Information Science and Technology(TNList) Center for Speech and Language Technologies, Research Institute of Information Technology, Tsinghua University, Beijing 100084, China)
Corpus resources are closely related to Natural Language Processing. However, different research institutions have different rules and tags when constructing the copus, which prevents a unified big corpus. This paper investigates the different annotation scheme and presents a method for heterogeneous corpus integration. The experiments on part-of -speech mapping and and disambiguation indicate anaccuracy of 87% after the integration, showing the validness of this method.
corpus construction; data fusion; word mapping; POS disambiguation;
呂學強(1970—),博士,教授,主要研究領(lǐng)域為中文與多媒體信息處理。E?mail:lvxueqiang@aliyun.com仵永栩(1989—),碩士研究生,主要研究領(lǐng)域為自然語言處理。E?mail:372281543@qq.com周強(1967—),博士,研究員,主要研究領(lǐng)域為自然語言理解。E?mail:zq?lxd@mail.tsinghua.edu.cn
1003-0077(2016)05-0160-09
2015-10-08 定稿日期: 2016-05-25
國家自然科學基金(61271304,61671070);北京成像技術(shù)高精尖創(chuàng)新中心項目(BAICIT-2016003);國家社會科學基金(14@ZH036)
TP391
A