丁長林,白 宇,蔡東風
(沈陽航空航天大學 知識工程研究中心 計算機學院,遼寧 沈陽 110136)
?
基于有監(jiān)督學習的醫(yī)古文敘述性術語語義標注
丁長林,白 宇,蔡東風
(沈陽航空航天大學 知識工程研究中心 計算機學院,遼寧 沈陽 110136)
對自由文本形式的中醫(yī)古籍文獻(醫(yī)古文)進行標注,是對其進行深入分析的前提,語義標注技術是實現(xiàn)該目的的方法之一。該文將中醫(yī)古籍文獻中包含的術語分為名稱性術語以及敘述性術語。在分析敘述性術語特點的基礎上,將對其語義標注轉(zhuǎn)化為基于有監(jiān)督學習的短句序列標注或分類問題,并提出了名詞性術語規(guī)約操作以及基于知網(wǎng)的替換操作兩種預處理方法。最后該文通過實驗對比了三種學習模型及四種特征選擇算法,并證明了問題轉(zhuǎn)化的可行性以及兩種預處理方法的有效性。
語義標注;敘述性術語;有監(jiān)督學習;中醫(yī)古籍文獻
語義標注技術作為自然語言處理領域中的基礎技術,其結果廣泛應用于知識發(fā)現(xiàn)等各種深層研究與應用中。同時,中醫(yī)古籍文獻(下稱醫(yī)古文)作為我國中醫(yī)文化精華的載體,針對其分析和處理也引起了越來越多學者的關注。如果缺少醫(yī)古文中的類別信息,對其研究只能建立在大量的人為干預或僅停留在簡單的統(tǒng)計層面,語義標注(Semantic Annotation,SA)正是獲取自由文本類別信息的方法之一。
SA是一個特殊的元數(shù)據(jù)生成和使用的模型,這一模型的目標是能夠吸收新的信息,并擴展原有信息[1]。根據(jù)SA所使用的方法,可將其分為人工標注、自動標注兩種。而后者又可分為基于模板、有監(jiān)督以及無監(jiān)督的學習三種[2]。例如,KIM[1]是采用基于規(guī)則的方法,利用模板進行標注的;MnM[3]以標注完成的語料為基礎,采用有監(jiān)督的機器學習方法進行標注;而文獻[4]介紹了一種面向特定領域的、基于Bootstrapping算法的無監(jiān)督學習方法。基于規(guī)則的SA往往需要利用大規(guī)模的語料來彌補規(guī)則不足帶來的低覆蓋率;而無監(jiān)督方法很難保證識別的準確率。雖然有監(jiān)督的學習方法需要大規(guī)模的標注語料,但其更能保證標注結果的可用性。同時,目前的SA算法及平臺多基于大規(guī)模語料(如Web)并面向通用領域。
目前針對醫(yī)古文的研究主要集中在基于人工標注或簡單統(tǒng)計基礎上的關聯(lián)規(guī)則挖掘[5]。為了提高關聯(lián)規(guī)則挖掘等研究的效率和準確率,必須對醫(yī)古文中包含的多種術語進行自動標注。這些術語中,一部分是描述特定事物名稱,如中藥名稱、方劑名稱等;另一部分是描述特定事物屬性,如癥狀、病機、病因等。這些術語正是醫(yī)古文語義標注的對象。本文將前者定義為名稱性術語。對于名稱性術語的識別[6]可借鑒于命名實體識別的方法[7]。而后者,本文將其定義為敘述性術語。
本文通過分析敘述性術語的特點,發(fā)現(xiàn)該類內(nèi)容多以整句中的分句形式出現(xiàn),也就是說,只要獲取的短句與敘述性術語能夠擬合,短句的標注結果就可以被視為敘述性術語的標注結果。因此本文提出將敘述性術語的標注問題轉(zhuǎn)化為短句的分類或序列標注問題。針對古文缺乏特征的標注難點,以減少數(shù)據(jù)稀疏為主要目的,本文提出了兩種預處理方法。最終利用實驗對比了不同轉(zhuǎn)化方法、參數(shù)設置對標注的影響,證明了兩種預處理方法的有效性。
根據(jù)領域?qū)<姨峁┑男g語類別,本文將醫(yī)古文中的敘述性術語定義為描述特定事物屬性或具體過程的內(nèi)容,具體包括癥狀、病因、病機、針灸、體質(zhì)、治則、治法、調(diào)護等八類。由于現(xiàn)有語料的限制,本文利用癥狀(ZZ)、病因(BY)、病機(BJ)三類作為敘述性術語識別的范例。而以上三類中醫(yī)術語均是表述疾病的某方面屬性。分析可知,同一疾病的同一屬性未必相同,例如,不同人在傷風時的癥狀不同。同時,同一屬性也有可能對應多種疾病,例如,咳嗽的癥狀可出現(xiàn)在多種疾病中。而在描述屬性時,即使某些用詞是固定的,由于寫作習慣的不同,具體的表述形式也因人而異。因此疾病與其屬性形成了多對多的關系,并且敘述性術語的表達方式較為靈活,可見對其識別的難度。同時將不屬于以上三類的內(nèi)容標注為其他類(OT),如下例所示,其中粗體為癥狀、斜體為病因、下劃線部分為病機、無變化的內(nèi)容屬于其他類。
一男子年近五十,久病痰嗽,忽一日感風寒,食酒肉,遂厥氣走喉,病暴喑。與灸足陽明別豐隆二穴各三壯,足少陰照海穴各一壯,其聲立出。
2.1 敘述性術語的特點
分析現(xiàn)有語料中的敘述性術語后發(fā)現(xiàn),該類術語具有以下特點。
(1) 內(nèi)容無明顯邊界。在敘述性術語中,除了部分中醫(yī)用語外,相當大部分的內(nèi)容與口語相近,其表達方式也較為靈活。例如,癥狀: “膿水淋漓,發(fā)熱吐痰”。這種接近口語的表達方式致使敘述性術語的前后并沒有明顯的邊界,其內(nèi)容已經(jīng)融入了整個無結構的文本中,因此利用標記邊界的方法對其進行標注是不可行的。
(2) 內(nèi)容不連續(xù)出現(xiàn)。在理想情況下,一個獨立單元中,屬于同一類的敘述性術語應該連續(xù)出現(xiàn),例如在一篇醫(yī)案中,描述癥狀的句子為1~3句,描述病機的為第5句,描述病因的為8~9句。但是如上例所示,在真實文本中,由于其寫作的口語化和隨意性,幾類術語經(jīng)常交叉出現(xiàn),并無特定規(guī)律。因此利用文本分割方法標注敘述性術語也是不可行的。
(3) 內(nèi)容相對獨立。敘述性術語所描述的是一個完整的事件,比如某疾病的癥狀。如果在將篇章劃分為待標注單元時,保證了切分的合理性,使待標注單元與具有獨立意義的敘述性術語重合,就可以利用對人工切分單元的標注獲得對應單元的標注。
(4) 內(nèi)容上下文相關。雖然敘述性術語在表述過程中沒有明顯的順序性,但是篇章或整句作為一個整體,每個分割后形成短句的標注是上下文相關的。
2.2 樣本粒度
利用標點對自由文本進行切分是最可行、最有效的方法?,F(xiàn)有語料中共包含句子(以句號、感嘆號以及問號結束)3 878個,字數(shù)為93 858,那么平均每句包含24字。古文中一般單字成詞,每個字都表示豐富的含義。所以在將敘述性術語的標注轉(zhuǎn)化為短句標注時,以24字的長句作為單位顯然不合理。經(jīng)分析,除上述三個表示句子結束的標點符號外,本文還選擇了逗號、冒號以及分號作為切分標點以獲得短句,原因如下。
逗號(,): 逗號在整句中頻繁出現(xiàn),其在數(shù)量上非常適合做分割標點,并能很好地避免不同的標記內(nèi)容出現(xiàn)在同一短句中。
冒號(:): 冒號多起引出下文的作用,如在古文中“因悟曰: 諸脈皆屬于目”。其中冒號后屬于病機類。利用冒號分隔后,冒號之前(包含冒號)的內(nèi)容明顯屬于其他類(OT)。
分號(;): 分號一般表示兩部分內(nèi)容的并列,但是并列的內(nèi)容未必同屬一類,因此也將分號作為分隔標點。
以上三種標點的總數(shù)為10 374個,則每個短句的平均字數(shù)約為6~7個字。在長度上較為合理,下面將證明人工切分單元與敘述性術語的契合性。
經(jīng)分析發(fā)現(xiàn),敘述性術語多以短句的形式出現(xiàn),本文將此類短句稱為規(guī)則化敘述性短句實例(簡稱規(guī)則化短句),除此之外,其他包含敘述性術語的短句同時包含以下幾類內(nèi)容。
(1) 古文虛詞: 如病機“此腎經(jīng)虛火”。 虛詞多在敘述性術語與其他內(nèi)容承接或敘述性術語相互承接時出現(xiàn)。由于虛詞多無實際意義,所以將該類短句同稱為規(guī)則化短句。
(2) 人物代詞: 如癥狀“一老婦兩臂不遂”。該類情況多出現(xiàn)在敘述性術語的開始,用來明確該段內(nèi)容的指向者。
(3) 包含其他內(nèi)容: 如病因“時冬忽有風氣暴至”,該類情況多在敘述性與其他內(nèi)容承接或一段敘述性短句相互承接時出現(xiàn),以起到連接或補充說明的作用。
統(tǒng)計現(xiàn)有語料得出表1,該表顯示了包含人物代詞與包含其他內(nèi)容的兩種非規(guī)則短句在所有短句中所占比重。
表1 不規(guī)則短句在各標注類別中所占比例/%
由表1可知,以上兩種非規(guī)則短句只占很小的一部分,這使將敘述性術語的標注問題轉(zhuǎn)化為短句的分類或序列標注問題成為可能。而在切分過程中,由于病因類的不規(guī)則性最強,致使病因類對問題轉(zhuǎn)化的適應性相對較差。
2.3 語料偏置
利用2.2節(jié)的分割粒度對現(xiàn)有語料進行分割后發(fā)現(xiàn)語料中存在嚴重的偏置,如表2所示。
由表2可知,所要標注的三類的總量與其他類數(shù)量持平,同時病因類實例過少。嚴重的語料偏置會使學習器在訓練過程中,為了提高擬合率而偏向于實例較多的類別。這一點在實驗中也得到了驗證。
表2 各類短句在語料中的所占比例/%
3.1 短句切詞的粒度 據(jù)統(tǒng)計,除專有名詞外,古文中80%以上為單音詞。所謂單音詞是指一個字就是一個事物概念,可以單獨作為一個語義單元,如古文中“妻子”表示現(xiàn)代文“妻子”和“子女”的意思。因此,在古文中,可以直接利用字作為切分單位。也就是說,對于古文的處理,在學習器的訓練過程中,以短句中的字作為特征是有效、可行的。
3.2 學習算法的選擇
如2.1節(jié)所述,短句是上下文相關的,能夠利用動態(tài)標注結果的模型即序列標注模型更適合于解決該問題。在自然語言處理的多數(shù)領域中,條件隨機場(Conditional Random Fields,CRF)的效果要優(yōu)于其他的序列標注模型[8]。同時,也可將短句的標注問題轉(zhuǎn)化為短句的分類問題,在分類模型中最大熵(Maximum Entropy,ME)、支持向量機(Support Vector Machine,SVM)較為常用。以上提到算法為代表的兩種轉(zhuǎn)換方法的對比如表3所示。
表3 兩種短句標注任務轉(zhuǎn)換方法對比
其中,是否有篇章概念是指,在學習器的訓練過程中,能否在段落或篇章內(nèi)考慮待標注單元的標注結果。在本文中體現(xiàn)為在醫(yī)案的篇章范圍內(nèi)考慮每個短句的標注結果。
3.3 名稱性術語的處理
在進行短句分類時,名詞性術語既可以被視為一個整體,又可以將其視為字的序列。為了降低語料的稀疏程度,可將同類名詞性術語用同一符號代替。本文將對名詞性術語的該類操作稱為名詞性術語的規(guī)約(規(guī)約操作)。具體如下例所示(例中對方劑、中藥類術語進行了規(guī)約,并分別用“F”、“Z”替換了語料中出現(xiàn)的方、藥名稱)。
規(guī)約操作前: OT 朝用補中益氣加黃柏、知母、麥門、五味,
規(guī)約操作后: OT 朝用F加Z、Z、Z、Z,
規(guī)約操作的主要作用如下:
(1) 排除名詞性術語對短句標注的影響,降低語料的稀疏度。如下例所示。
規(guī)約操作前規(guī)約操作后再用加味歸脾湯加麥冬、五味,再用F加Z、Z,遂用六君加炮姜、肉果,遂用F加Z、Z,
(2) 通過規(guī)約操作突出名詞性術語對敘述性術語標注的區(qū)分性,具體數(shù)據(jù)見表4。
表4 兩類名詞性術語在各類待標注短句中的出現(xiàn)比例
但是在該操作的具體過程中,難免會存在以下影響:
(1) 規(guī)約不徹底帶來的混亂
對于每類名詞性術語,其對應的術語詞典都不能窮盡語料中所有屬于該類的術語。這就造成了同類術語的類內(nèi)部分規(guī)約,該現(xiàn)象必將導致對未規(guī)約短句識別能力的減弱。其次,在中醫(yī)語料中還包含了多類通用領域術語,如人名、地名等。要獲得全部的類別的術語詞典顯然很困難。本文把該種情況稱為類間部分規(guī)約。
(2) 規(guī)約操作中的歧義
該情況多出現(xiàn)在較短(1~2字)的術語中。如下例所示。
久服知(中藥知母)、柏之類, ||殊不知(清楚、曉得)腎臟風,
若要屏蔽掉對該類詞語的規(guī)約會造成類內(nèi)部分規(guī)約,如果在規(guī)約時進行消歧,不只會增加處理時間,同時消歧結果有待修正。因此本文僅規(guī)約了人為挑選出的無歧義術語。
3.4 基于知網(wǎng)的特征擴充
古文中句子短小,同時也缺乏現(xiàn)代文處理中的詞法、句法特征。擴展短句特征的可行方法之一就是利用領域詞典中對切分單元的解釋代替該單元。但是,目前尚無可直接使用、計算的數(shù)字化古文詞典,而針對中醫(yī)領域的上述詞典更是難以獲得。同時,在查詞典時,必然要涉及到詞義消歧的相關工作,而在缺乏特征情況下的消歧,結果很難保證。
因此,對于詞典的缺乏問題,本文利用現(xiàn)代文的面向通用領域的知網(wǎng)[9]來代替本文需要的中醫(yī)領域古文詞典。在知網(wǎng)中,對詞的解釋以DEF的形式出現(xiàn),如下例所示。
癰 DEF={disease|疾病}
口DEF={Age|年齡:host={livestock|牲畜}}
DEF={NounUnit|名量:host={physical|物質(zhì)}}……
本文提出以下假設: DEF越多的切分單元,歧義越嚴重,該單元詞義消歧越困難,而在不計語義的情況下,該單元在語料中出現(xiàn)次數(shù)較多,則該單元的數(shù)據(jù)稀疏程度也較輕。
根據(jù)如上假設,本文利用知網(wǎng)替換了語料中DEF唯一的切分單元,即利用切分單元對應的DEF中的詞語替換該單元。本文將該操作稱為替換操作。而除了DEF唯一的切分單元外,語料中還存在DEF不唯一或知網(wǎng)沒有收錄的切分單元。具體比例如表5所示。
表5 根據(jù)對應DEF數(shù)量對字切分單元的分類結果
由于標點會對短句標注起重要作用,因此并未對其進行規(guī)約。可見利用知網(wǎng),在語料中可替換的有將近30%的字切分單元。具體過程如下(以字切詞為例)。
替換操作的主要作用在于以下幾點。
(1) 豐富短句特征。一個切分單元對應的DEF中通常包含多個詞語,如此就起到了擴充特征的作用。
(2) 降低稀疏程度。首先,有多個詞語對應同一DEF的情況,對該類詞語的替換與前文介紹的名詞性術語替換的作用相似。同時經(jīng)過特征選擇操作后,可屏蔽掉不同切分單元對應DEF中的某些詞語,而使剩下的詞語一致,同樣可以降低稀疏程度。
由于在替換的過程中,沒有詞義消歧的相關操作,必然會導致該過程中的如下弊端。
(1) 替換不徹底。如表5所示,除少部分知網(wǎng)未收錄的詞語外,有盡60%的切分單元有多個DEF,也就不能進行替換操作。
(2) 替換錯誤。即使僅僅替換DEF唯一的切分單元,也會出現(xiàn)替換錯誤。該類錯誤對于單個詞是沒有影響的,因為一詞若被替換則在整個語料范圍內(nèi)都會被替換。但是會引起特征錯誤的泛化,經(jīng)過特征選擇后,這種錯誤泛化還將擴大。導致替換錯誤的主要原因如下。
? 作為面向現(xiàn)代文的針對通用領域的知網(wǎng),并不包含古文的中醫(yī)領域解釋;
? 對中醫(yī)術語外的通用領域術語替換不當,如通用術語中的人名、地名等。
本文實驗中所用的語料出自《名醫(yī)類案》以及《續(xù)名醫(yī)類案》,共包含519篇醫(yī)案。本文共設置了三組實驗,并利用十則交叉驗證的準確率、召回率以及F值來評價實驗結果。
實驗一: 選擇合適的任務轉(zhuǎn)化方法、學習算法以及短句切詞方法。
實驗二: 選擇標注效果最優(yōu)的特征選擇算法。
實驗三: 分析規(guī)約操作以及替換操作的效果。
4.1 實驗一
如上文所述,對于短句的標注任務有兩種轉(zhuǎn)化方法。一是將其轉(zhuǎn)換為短句分類問題;二是將其轉(zhuǎn)換為短句序列標注問題。實驗一中利用ME、 SVM和CRF分別作為兩種轉(zhuǎn)化方式的學習器。同時,如上文所述古文多單字成詞,為證明以字為切詞單元更符合對古文的處理,本實驗對比了二元切詞與字切詞的實驗效果。由于二元切詞會導致特征急速上升,因此在字切詞的實驗中,特征維數(shù)由200到 2 000階梯增長,但是在二元切詞時,特征維數(shù)由500到5 000階梯增長。同樣由于二元切詞后特征數(shù)的激增,而CRF對特征維數(shù)有嚴格限制,因此本實驗利用SVM、ME對比了兩種切詞方法,實驗結果如圖1所示。
分析圖1可知,CRF分類器的效果要明顯好于其他兩種分類器,其主要原因是在短句標注過程中上下文信息起到了重要作用。ME比SVM的效果更優(yōu),主要原因是,SVM較擅長于解決二分類問題。結果說明將短句標注問題轉(zhuǎn)化為短句分類或短句序列標注問題都是可行的,不過序列標注模型更適合于短句標注任務。同時圖1表明,無論使用SVM還是ME二元切詞的標注效果劣于字切詞的效果,這也證明了以字為單位處理古文是合理的。
圖1 三種模型標注短句的平均F值
4.2 實驗二
常用的特征選擇算法有DF、IG、MI、CHI、WLLR、BNS[10]。DF易于實現(xiàn),但權值難以設定,而BNS計算過于復雜。因此本文實現(xiàn)了其余四種方法,采用CRF、字切詞方法以及100到1 000的特征維數(shù)增長,以對比四種特征選擇算法優(yōu)劣。實驗結果如圖2所示。
圖2 四種特征選擇算法標注短句的平均F值
分析圖2可知,MI方法的效果較差,其他三種方法的效果非常接近。本文選擇了特征為900維時F值達到最高值(80.48%)的WLLR作為實驗三的特征選擇方法。
4.3 實驗三
利用之前實驗中得到的最優(yōu)參數(shù)組合,即以字切詞方式切分短句,WLLR的特征選擇方法,并利用CRF完成本實驗。同時為了避免替換操作時,對名詞性術語的錯誤替換,替換操作是建立在規(guī)約操作基礎上的,實驗結果如圖3~7所示。
圖3說明在特征為600維時,三種方法均取得較好識別效果,表6中為三種方法在該維數(shù)對于各類的識別效果。
圖3 三種標注方法標注各類的平均F值
圖4 三種標注方法對標注OT類的F值
圖5 三種標注方法對標注ZZ類的F值
圖6 三種標注方法對標注BJ類的F值
圖7 三種標注方法對標注BY類的F值
類別組別準確率/%召回率/%F值/%類別組別準確率/%召回率/%F值/%179.5284.2181.42178.2477.6077.48OT280.2484.1081.83BJ277.6078.9277.99379.5483.9081.39377.3376.4376.65176.5968.9271.74148.5714.1821.69ZZ276.8969.6672.53BY259.1915.2223.39377.5170.5873.28354.4423.2431.67
分析實驗結果可知,雖然識別的最優(yōu)效果依然由無預處理操作的第一組獲得,但是該組較不穩(wěn)定。這說明規(guī)約操作以及替換操作增強了識別的穩(wěn)定性。而BY類的識別結果最不理想,該狀況主要由于語料偏置,以及上文指出的,BY類較其他類別短句對問題轉(zhuǎn)化的不適應性。
對比規(guī)約操作前后(第1、2組)的實驗結果可知,除個別特征維數(shù)外,規(guī)約后四類的F值均有提高。取得該結果的原因是前文介紹的名詞性術語在各個待標注類別中的分布差異。可見,規(guī)約操作對于短句的識別是有效的。若想進一步提高,必須深入解決上文中規(guī)約操作的類內(nèi)部分規(guī)約以及類間部分規(guī)約問題。
對比替換操作前后(第2、3組)的實驗結果可知,替換操作對ZZ和BY類的短句是有效的,特別對于BY類來說,適當緩解了語料偏置問題。而對于OT和BJ類來說,替換操作后,一些如“腎、腎水”等BJ類的特征詞被泛化了,削弱了BJ類的自身特點。造成BJ類和OT類的混淆,從而導致兩類的識別效果均有下降。不可否認的是,本文使用的替換操作中的部分替換問題以及替換錯誤較為嚴重,但是替換操作帶來的特征擴充,對于實例較少的類別是有利的。替換操作完善后,必將進一步提高標注效果。
4.4 錯誤實例分析
除上文分析的規(guī)約、替換操作帶來的錯誤,在整個識別過程中共性錯誤包括以下幾類。
(1) 短句本身特征不明顯,或包含過多虛詞,致使學習器將其分入實例較多的OT類。例如,“而所患自若也”。
(2) 兩個類別間部分內(nèi)容相近,造成其用詞與表達方式較為相近。類似的情況就會造成學習器的錯誤標注。如描述服藥之后狀況的句子(OT)與描述疾病癥狀的句子(ZZ)。
(3) 短句本身缺乏特征,根據(jù)上下文信息得出錯誤標注。此種情況多導致連續(xù)的錯誤。
上述多數(shù)錯誤均與短句本身特征不足有關。統(tǒng)計三組實驗均取得較好效果的以600為特征維數(shù)的實驗結果發(fā)現(xiàn),短句長度與其在語料中所占比例及識別正確比例的關系如表7所示。
表7 識別正確與錯誤百分比與短句長度的關系
續(xù)表
其中,短句長度為2的句子主要包括“曰: ”,以及每篇醫(yī)案的第一句,特征明顯,方便識別。除短句字數(shù)為2時,正確識別的短句約占97%,其他其他均在80%左右,甚至更低,并且該類短句在語料中占很大比例。
由短句長度問題帶來的識別錯誤可有兩種解決方案: 一是對切分粒度進行改進,使其能夠避免標點切分產(chǎn)生的句子碎片;二是尋找更多的特征以支持標注過程。
本文通過對中醫(yī)古籍文獻中敘述性術語特點的深入分析,將敘述性術語的標注問題轉(zhuǎn)化為了利用有監(jiān)督學習方法對短句進行序列標注或分類的問題,并解決了轉(zhuǎn)化過程中出現(xiàn)的問題,同時提出了針對名詞性術語的規(guī)約操作以及基于知網(wǎng)的替換操作兩種預處理方法。通過實驗首先證明了上述的問題轉(zhuǎn)化方法的可行性,選擇了效果最好的CRF序列標注模型以及適用于古文的字切詞方法;其次選擇了合適的特征選擇方法;最終證明了兩種預處理操作的可用性。進一步的研究將集中于該方法在其他敘述類別上的應用,以及規(guī)約操作、替換操作的完善,并尋找其他可擴充短句特征,降低稀疏程度的方法。
[1] Popov b, Kiryakov a, Kirilov a, et al. KIM-Semantic Annotation Platform[C]//Proceedings of the 2nd International Semantic Web Conference (ISWC2003). Berlin: Springer, 2003: 484-499.
[2] Uren v s, Cimiano p, Iria j, et al. Semantic Annotation for Knowledge Management: Requirements and a Survey of the State of the Art [J]. Journal of Web Semantics, 2006,4:14-28.
[3] Vargas-vera m, Motta e, Domingue j, et al. MnM: A Tool for Automatic Support on Semantic Markup, KMI Technical Report, TR Number133, 2003.
[4] Huang rh, Riloff e. Inducing Domain-specific Semantic Class Taggers from (Almost) Nothing[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL 2010), USA: Association for Computational Linguistics, 2010: 275-285.
[5] 麥喬智.數(shù)據(jù)挖掘模型的創(chuàng)建及其在中醫(yī)藥文獻中的應用研究[D]南京:南京中醫(yī)藥大學,2009.
[6] 范巖.基于條件隨機場模型的中醫(yī)文獻知識發(fā)現(xiàn)方法研究[D]北京:北京交通大學,2009.
[7] Nadeau d, Sekine s. A Survey of Name Entity Recognition and Classification [J]. Lingvisticae Investigationes, 2003, 30: 1-20.
[8] Zhao j, Liu k, Wang g. Adding Redundant Features for CRFs-based Sentence Sentiment Classification[C]//Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing. Honolulu, USA: Association for Computational Linguistics, 2008: 117-126.
[9] 董振東, 董強, 郝長伶. 知網(wǎng)的理論發(fā)現(xiàn)[J]. 中文信息學報, 2007,21(4): 4-9.
[10] Li s, Xia r, Zong cq, et al. A Framework of Feature Selection Methods for Text Categorization[C]//Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP. Singapore: ACL and AFNLP, 2009: 692-700.
丁長林(1987—),碩士研究生,主要研究領域為信息檢索。E?mail:dcl19871208@126.com白宇(1982—),博士研究生,講師,主要研究領域為信息檢索。E?mail:baiyu@sau.edu.cn蔡東風(1958—),博士,教授,主要研究領域為自然語言處理,人工智能。E?mail:caidf@vip.163.com
第四屆全國社會媒體處理大會(SMP2015)
第四屆全國社會媒體處理大會(SMP2015)由中國中文信息學會社會媒體處理專委會主辦,華南理工大學軟件學院和華南理工大學南校區(qū)大學城管委會承辦。該系列會議每年舉辦一次,現(xiàn)已成為社會媒體處理的重要學術活動。社會媒體處理大會專注于以社會媒體處理為主題的科學研究與工程開發(fā),為傳播社會媒體處理最新的學術研究與技術展示提供廣泛的交流平臺,旨在構建社會媒體處理領域的產(chǎn)學研生態(tài)圈,成為中國乃至世界社會媒體處理的風向標,會議將以社交網(wǎng)絡的形式顛覆傳統(tǒng)的學術會議交流體驗。
SMP 2015征集各類與社會媒體相關方面的原創(chuàng)研究和應用論文。論文包括但不限于以下內(nèi)容:
? 面向社會媒體的自然語言處理
? 社會網(wǎng)絡分析與復雜系統(tǒng)
? 社會媒體處理與社會科學
? 社會媒體挖掘、預測與推薦
? 社會多媒體分析與可視化
? 社會媒體輿情分析與精準營銷
? 社會媒體安全、隱私保護與計算支撐平臺
? 社會化媒體營銷與整合品牌傳播
? 大數(shù)據(jù)營銷與品牌的網(wǎng)絡形象研究
重要日期:
投稿截止日期:2015年6月30日
錄用通知日期:2015年8月10日
會議召開日期:2015年11月16-17日
投稿要求:
1. SMP 2015同時接受中文和英文投稿。
2. 論文必須沒有公開發(fā)表過,字數(shù)要求在8頁內(nèi),內(nèi)容充實的論文要求最多不超過12頁。
3. 論文盲審,提交的時候不用帶作者信息,錄用后再補充。
4. 英文格式要求參照Springer的論文模板;中文格式要求參照《中文信息學報》:
http://www.cipsc.org.cn/jsip/tougao.php。
5. 投稿系統(tǒng)將在4月20日開通。
論文出版:
錄用的稿件分為兩類:口頭報告(Oral)和海報張貼(Poster)。被錄用的英文文章擬由Springer結集出版(EI檢索),被錄用的中文稿件將被推薦至《中國科學》和《中文信息學報》,經(jīng)《中國科學》和《中文信息學報》編輯部再審通過后發(fā)表。優(yōu)秀英文文章將被推薦至IEEE Transactions on Big Data,經(jīng)該期刊編輯部再審通過后發(fā)表。
Supervised Learning Based Semantic Annotation of Descriptive Terms in Chinese Medical Literatures
DING Changlin, BAI Yu, CAI Dongfeng
(Research Center for Knowledge Engineering, Shenyang Aerospace University, Shenyang, Liaoning 110136, China)
The semantic annotation is a promising solution to process the free texts of Ancient Chinese Medical Literature (ACML). Terms in such textx are further divided into Named Terms (NTs) and Descriptive Terms (DTs) in this paper. By analyzing the DT, this paper treat the annotating DTs as the problem of sequence labeling or classifying short sentences based on supervised learning. Two pre-processing methods named NT reduction and Hownet-based substitution are proposed. The experiments compare three learning models and four feature selecting methods, demonstrating the feasibility the proposed method.
semantic annotation; descriptive terms; supervised learning; ancient Chinese medical literatures
1003-0077(2015)02-0049-09
2012-09-27 定稿日期: 2013-01-15
國家基礎科研973計劃(2010CB530401)
TP391
A