,, ,
新異檢測的主要目的在于建立二分類器,已在眾多領域實現應用,如電子安全監(jiān)測系統(tǒng)、健康信息及醫(yī)學診斷檢測、復雜商業(yè)系統(tǒng)監(jiān)測及系統(tǒng)錯誤檢測、圖像處理及視頻監(jiān)測、無線傳感器網絡監(jiān)測,以及文本挖掘領域。由于新異檢測的應用領域廣泛,不同領域的數據特點不同(包括維度、格式、連續(xù)性),因此新異檢測缺少統(tǒng)一的方法。在各個領域中開展的新異檢測中,產生的各種計算方法按照假設理論的不同,可以劃分為5類:概率分析方法。通常對正常數據進行密度值估算,假設訓練數據中低密度值區(qū)域包含正常數據概率低?;谀P偷姆椒?如神經網絡算法)。利用訓練數據構建回歸模型,當異常數據映射到回歸模型中,得到的回歸值與真實值差距是一個較高的探測值。基于領域的方法。試圖通過訓練數據劃定正常數據的邊界,建立一個包含的正常數據的領域?;诰嚯x的計算方法。假設異常數據距離正常數據較遠,有最近鄰計算方法以及聚類分析方法。信息計算技術(譬如墑計算,Kolmogorov計算方法)。計算訓練數據中的信息含量,假設異常數據顯著的改變信息含量。其中,前3種方法需要充足的訓練數據,但實際檢驗階段較為迅速。
文本挖掘領域的新異檢測是從給定的文獻集或新聞文獻中探測新主題或新事件[1]。2002-2004年連續(xù)舉辦的文本檢索領域權威的國際性評測會議TREC會議(Text Retrieval Conference,TREC)[2-4]進行了語句級別的文本內容新穎性探測賽事(Novelty Track),其中清華大學、中國科學院均使用了詞重疊法,表現優(yōu)異。國內文獻關于主題新穎性探測較為經典的是楊建林[5]的關于文獻主題新穎度計算。本文通過實證研究,證實其算法的計算結果與同行評價相一致。
本文涉及3個文本挖掘領域新異探測概念。
一是新穎性文獻。一定主題下,一篇文獻的主題內容,對比其時間序列中排名在其之前的文獻,對于讀者而言未曾見過,則這篇文獻為新穎性文獻,否則認為其不具備新穎性,其概念內涵不包括文獻創(chuàng)造力評估。
二是新穎度。新穎度用來衡量當前待探測文獻與之前出現的文獻相比,包含了多少新穎性的具體量化指標。本文給定一個新穎度閾值,如果待探測文獻的新穎度大于該閾值,則認為該文獻為新穎性文獻。新穎度實質是相對值,如文獻A比文獻B新穎度大,表示文獻A比文獻B與之前文獻內容重復的地方少。
三是文獻主題新穎性探測。文獻主題新穎性探測用于自動識別主題新穎的文獻。在生物醫(yī)學科技文獻中,按時間排序,以文獻為單位進行新穎性探測,找出帶有新穎性的文獻集合的探測過程。
在基礎醫(yī)學與臨床醫(yī)學的分類基礎上,選取近2年的查新課題,通過檢索獲得較為精確的、相關的檢索結果,交予專家組,保證評估時專家對文獻的掌握能力、評估結果的可信程度、分析過程的效率。選取生物醫(yī)學領域的8個研究主題(表1),利用PubMed數據庫,檢索出相關文獻。文獻標題能夠反映該文獻的主要研究內容及結論,故選擇保留檢索得到的相關文獻標題作為實驗文獻集合,詳見表1。
表1 實驗主題及文獻數量列表
*學科領域按照中國國務院學位委員會和教育部《學位授予和人才培養(yǎng)學科目錄(2011)》(SCADC)[6]的醫(yī)學學科進行分類
數據預處理的主要任務是將自然語言轉換為規(guī)范統(tǒng)一的生物醫(yī)學詞匯。因為敘詞能夠有效規(guī)范統(tǒng)一同一醫(yī)學概念的不同自然語言表達,避免新穎度計算誤差。本文使用美國國立醫(yī)學圖書館開發(fā)的一體化醫(yī)學語言系統(tǒng)[7](Unified Medical Language System,UMLS)的超級敘詞表,運用MetaMap[8]在線概念抽取軟件,選擇知識來源2017版本。將各個主題下的自然語言映射到超級敘詞表中的概念詞,運用MetaMap概念抽取軟件[9]統(tǒng)計概念詞,并導入MySQL數據庫。在MySQL數據庫中提取標題部分的語句數據,刪除停用詞[10]。
詞重疊法(簡稱重疊法)一直用于語句級別的新穎性探測。基于共詞的逆文檔頻率量化法(簡稱量化法)用于文獻主題新穎性探測,首次出現用于雜志評估。本文擬以文獻自然語言構建數據集,從同一主題按時間排序的文獻中,運用重疊法和量化法探測出新穎文獻。對比專家調查得出的新異結果,對新異探測方法進行可行性評估及算法對比分析。
2.3.1 詞重疊法
設文獻j先于文獻i出現,兩篇文獻的向量表示為:
Si=(W1(Si),W2(Si),…,WN(Si))
Sj=(W1(Sj),W2(Sj),…,WN(Sj))
其中,N為所有待探測語句經自然語言處理得到的不同概念詞的總數。
語句新穎度[11]計算公式為:
OverlapNov(Si)=1-max(0 公式(1) 計算過程是先計算當前語句與之前所有語句的詞重疊度,選擇重疊度最大的結果作為當前語句與之前所有語句的重疊度,通過減法運算計算出當前語句的新穎度。 2.3.2 基于共詞的逆文檔頻率量化法 國內學者楊建林基于文檔發(fā)表先后、關鍵詞對共現等原則提出了詞對逆文檔頻率(Inverse Document Frequercy of keyword Pair,KPIDF)的主題新穎度度量方法[5]。 文檔D中所有以其自身為參照的概念詞對逆語句頻率的平均值,稱為該文檔的新穎度,記為NOV(D),計算公式為: 公式(2) 其中ti、tj為文檔D的第i和第j個概念詞。若ti、tj為文檔D中共同出現的2個概念詞,在文檔D之前的所有文檔中同時包含概念詞ti、tj的文檔數記為N,則稱N+1為以文檔D為參照的概念詞對ti、tj的文檔頻率,稱N+1的倒數為以文檔D為參照的概念詞對ti、tj的時間逆文檔頻率,記為WPIDF(D,ti,tj),n為文檔D包含的概念詞的總個數。 2.4.1 參考答案 參考答案用于新異探測結果評價。通過調查問卷的形式,將每個主題的文獻發(fā)送至4組共計36位相關專家(表2),按照給定的順序閱讀文獻,找出新穎性文獻,標識為1。其判斷標準同新穎性文獻標準,即一定主題下,一篇文獻的主題內容,對比其時間序列中排名在其之前的文獻,對于評論專家而言具有未曾見過的信息。若每篇文獻有5位及以上專家標識為新穎的文獻,則記為新穎文獻,標記為1,否則為0。將本實驗算法得出的新穎度列為一列,專家評分列為一列,利用Ruby語言進行結果分析。 2.4.2 評估方法 ROC曲線[12](Receiver Operating Characteristics curve)于20世紀50年代在統(tǒng)計決策理論中被提出,用來說明分類器命中率和誤報警率的關系。Spackman[13]將ROC算法引入到機器學習研究領域中,并說明了ROC曲線評估算法細則,ROC被廣泛用來評估分類模型性能[14]。 通過使用AUC(area under the curve)來量化ROC曲線,并通過比較AUC值大小來評判分類模型性能。AUC的值越大,說明分類模型的性能越好。最理想的分類模型AUC值等于1,random分類模型AUC值為0.5。AUC在 0.5-0.7時的準確性較低,在0.7-0.9時的準確性一般,在0.9以上時的準確性較高。 本文利用ROC曲線及AUC值評估2種新穎性探測方法,調用R語言library(pROC)[15]程序實現證實新穎性探測方法對文獻主題新穎性判定的能力。選擇最佳閾值,即ROC曲線上假陽性和假陰性的總數最少的點,對2種方法的性能進行綜合對比分析。 表2 不同主題評估專家情況列表 主題1文獻的新穎度計算結果見表3(部分數據)。表3為主題1,即細胞自噬相關基因的調控作用,以新穎度計算結果。首先,我們對主題1超級敘詞的映射情況進行分析,400篇文章映射出超級敘詞的數量從1到15不等,主要取決于標題包含的信息。Metamap提取較為完全,如序號25的文獻提取出anabolism,autophagosome,autophagy,autophagy-related,rotein 8 family,function,mechanism,molecular,plants,social role等超級敘詞。如果提出序號348的文獻標題為“TRPML3.”,其映射的超級敘詞為“mcoln3 gene”。2種算法的新穎度值均為1,說明之前347篇文章中均未出現該詞。 8個主題文獻新穎度均不服從正態(tài)分布。用中位數、四分位間距描述計算結果分布狀態(tài)見表4。 *No為metmap從文獻中抽取的詞數量,#參考答案判定為新穎性文獻標識為1,否則為0 表4 8個主題語句計算結果統(tǒng)計學描述列表 觀察8個主題下新穎度計算結果的數據描述,中位數均值較小的是重疊法為0.8077,量化法為0.9358。兩種算法的均值較高,探測的新穎值均值大有以下原因:第一,因為本文為保證參考答案獲取的正確性選取數據量偏少(132-571條之間),數據量少重復性可能降低,勢必造成新穎值大;第二,期刊刊發(fā)前會進行查重、同行評議等,一定程度降低了文獻的重復程度;第三,量化法的均值較高,該方法將1篇文獻中的超級敘詞兩兩組配后,與前文對比取逆文檔頻率后求和,逆文檔頻率增加了新穎度值,即使與之前重復3次,亦有1/4的新穎度增值,而詞重疊法直接重疊便不計值。 四分位間距數均值較大的是詞重疊法為0.1890,逆文檔頻率量化法為0.1488。四分位間距越大,樣本數據分布越離散。結合中位數和四分位間距,認為詞重疊法的新穎度計算結果波動幅度較大,即詞重疊度算法的公式更加敏感,能夠將更好地將語句內容間差異表現在數據上。 本文將8個主題文獻的新穎度計算結果集合入1個文檔(共計2 153篇),對2種算法進行相關性分析,得出相關系數為0.7144,表示2種算法中度相關。 本文利用R語言對8個主題的兩種算法繪制ROC曲線(圖1),其中橫坐標為假正率(特異度specificity),縱坐標為真正率(敏感度sensitivity)。 圖1 主題1的2種算法的ROC曲線 圖1為主題1文獻集2種方法的ROC曲線,其最佳界閾值方法2為0.712(0.521,0.854),方法3為0.862(0.397,0.882)。R語言計算得出5個主題2種方法的AUC值見表5。 表5 8個主題2種方法的AUC值列表 若以學科領域區(qū)分,4個臨床醫(yī)學的重疊法AUC值均值為0.727,量化法AUC值均值為0.678;4個基礎醫(yī)學的重疊法值均值為0.753,量化法的均值為0.675,說明重疊法在基礎醫(yī)學數據的表現優(yōu)于臨床學科,量化法在2個學科的數據表現相差不大(僅0.03)。2種方法8個主題的AUC值數據均符合正態(tài)分布。采用最大值、最小值、均值和標準差描述評估結果數值分布狀態(tài)見表6。 表6 三種方法AUC指標統(tǒng)計描述 表6顯示,詞重疊法的AUC值均值較高,為0.7401,逆文檔頻率量化法AUC值均值為0.6766。 使用R語言對2種算法的AUC值進行樣本均值t-檢驗,P=0.2158(<0.05),表示2種算法AUC值均值差異具有統(tǒng)計學意義。綜合表5的統(tǒng)計結果,詞重疊法AUC值除主題2以外均在0.7-0.9之間,說明該方法對于判斷新穎文獻具有一定的準確性;逆文檔頻率量化法只有主題4和主題8處于0.7-0.9之間,其余均在0.5-0.7之間,說明該方法對于判斷新穎文獻準確性較低。因此,詞重疊法的評估結果優(yōu)于逆文檔頻率量化法。 本文證實了生物醫(yī)學領域文獻主題新穎性探測的可行性,可為文獻推薦、文獻評價、專題前沿分析、期刊評價和作者評價提供一定的參考。本文證實詞重疊法能夠更好地將語句內容間差異表現在數據上,詞重疊法對判斷新穎文獻具有一定準確性,評估結果優(yōu)于逆文檔頻率量化法,差異具有統(tǒng)計學意義。本研究還有以下不足。 第一,文獻主題新穎性探測的特點之一在于其時間原則,即早出現的新穎性好,數據結果與實際經驗相符;之二在于實驗數據和測試數據的劃分,測試數據的新穎性之間是相互影響的。本文使用的2種方法均未區(qū)分實驗數據和測試數據,在后續(xù)研究中嘗試使用背景數據等評估當前文獻的新穎性。 第二,自然語言的使用降低了對關鍵詞或者主題詞的依賴。關鍵詞和主題詞的信息存在無法獲取、標引滯后的問題。本文數據存在標題長短提取詞數量差異較大的情況,對數據計算結果有一定的影響。本文向專家發(fā)放的評估資料均要求以標題的新穎程度為主要評估對象,符合本文的實驗數據。在后續(xù)研究中,會權衡受控詞和自然語詞之間的權重,提供更加穩(wěn)定的抽取詞數量。 第三,本文的8個主題按照《學位授予和人才培養(yǎng)學科目錄(2011)》(SCADC)的醫(yī)學學科進行分類,有臨床醫(yī)學4個、基礎醫(yī)學4個。實驗結果顯示,重疊法在基礎醫(yī)學AUC值的表現優(yōu)于臨床學科,該研究結果值得進一步探討。2.4 算法評價方法
3 結果與結論
3.1 主題新穎度計算結果
3.2 兩種算法的評價結果
4 討論