張利萍 邢 凱, 周 慧 芮偉康 丁 玲
1(中國科學(xué)技術(shù)大學(xué)蘇州研究院 江蘇 蘇州 215123)2(中國科學(xué)技術(shù)大學(xué)計算機學(xué)院 安徽 合肥 230022)3(蘇州工業(yè)園區(qū)疾病防治中心 江蘇 蘇州 215021)
醫(yī)療診斷在大數(shù)據(jù)驅(qū)動下朝著智能化方向發(fā)展。人工智能可以通過對醫(yī)療數(shù)據(jù)智能化的推理和表示輔助診斷和治療。因醫(yī)療文本是醫(yī)療數(shù)據(jù)中應(yīng)用最廣泛的一種形式,很多人工智能醫(yī)療輔助診斷研究基于醫(yī)療文本。如Apixio的iris[1]主要利用醫(yī)生診斷記錄和筆記了解病人情況。IBM Watson[2]主要依據(jù)醫(yī)學(xué)文獻關(guān)聯(lián)癥狀和診斷結(jié)果。Babylon人工智能健康咨詢系統(tǒng)[3]根據(jù)用戶與在線人工智能系統(tǒng)對話列舉的癥狀給出初步診斷結(jié)果。隨著人們對健康的關(guān)注,國內(nèi)使用搜索引擎和瀏覽健康網(wǎng)站了解健康問題的網(wǎng)民分別是69.3%和75.6%[4]。統(tǒng)計“好大夫在線”網(wǎng)絡(luò)咨詢的數(shù)據(jù),每天有3萬多病情描述產(chǎn)生,一年有近千萬的數(shù)據(jù)。病情自述是患者對自身疾病癥狀或健康情況的描述,包含了潛在的疾病知識。這樣規(guī)模的不規(guī)范數(shù)據(jù)僅靠人工來判讀效率低、代價高昂。利用機器學(xué)習(xí)的手段進行疾病知識發(fā)現(xiàn)、特征構(gòu)建和智能輔助判別是未來的趨勢。
知識發(fā)現(xiàn)實質(zhì)上是一系列任務(wù),包括內(nèi)容分析[5],查詢與推薦[6],文本分類[7]和文本聚類[8]。雖然典型的LDA[9]主題模型可以用于從海量文本中發(fā)現(xiàn)結(jié)構(gòu)化知識,但在短文本上效果不好。在文本知識挖掘中,出現(xiàn)很多研究開始將圖論、統(tǒng)計和圖模型[10]等結(jié)合。其中知識圖譜在醫(yī)療文本挖掘和輔助推理中受到關(guān)注和研究。微軟Azure是一款人工智能醫(yī)療輔助服務(wù),通過健康搜索數(shù)據(jù)建立用戶搜索意圖知識庫,將醫(yī)療知識庫和用戶搜索意圖知識庫結(jié)合完成知識圖譜構(gòu)建,讓機器理解問題進行語義計算,提供輔助問診和自動問答。Hyland等[11]使用概率生成模型將無結(jié)構(gòu)化的文本統(tǒng)一到結(jié)構(gòu)化的知識圖譜,推理醫(yī)療實體間概率關(guān)系。Salid等[12]則使用Wiki臨床醫(yī)療相關(guān)頁面內(nèi)容構(gòu)建有向知識圖譜,每個節(jié)點是與疾病和醫(yī)療狀況相關(guān)的一些癥狀,利用知識驅(qū)動和深度學(xué)習(xí)結(jié)合的方法提供診斷、治療等相關(guān)的方案。 Shi等[13]提出一種模型對異構(gòu)醫(yī)學(xué)文本組織融合形成概念圖譜,基于語義推理從知識圖譜上自動獲取知識實現(xiàn)了很好的推理結(jié)果。智能診斷需要醫(yī)療知識支持和對用戶語義的理解,所以對病情自述的挖掘具有研究意義。
病情自述是用戶對疾病的描述,體現(xiàn)用戶認知的最佳個性化數(shù)據(jù)。病情自述包含了疾病引起的特征(癥狀、病因等)和描述疾病時的文本特征。通過同一疾病的病情自述的研究,可以發(fā)現(xiàn)該疾病的疾病知識和描述特征。而每個有效的描述都是幾個特征以團的形式的組合。頻繁出現(xiàn)的特征團可以作為判別疾病類型的知識依據(jù)?;谔卣鲌F的語義關(guān)聯(lián),我們提出為各類疾病構(gòu)建知識圖譜。從知識圖譜上抽取疾病的結(jié)構(gòu)化特征,使用它對病情自述進行文本表示,并進行病情自述的疾病類型分類。最后實驗構(gòu)建了6種疾病的知識圖譜,并對其進行分類識別研究。分類結(jié)果微平均和宏平均都在80%,可以用于疾病輔助診斷。知識圖譜構(gòu)建過程是無監(jiān)督的,適合影評和商品評論等文本的特征結(jié)構(gòu)化分析和用戶語義挖掘?;谥R圖譜進行的病情自述分類可以用于初步診斷病情自述的疾病,從而服務(wù)于疾病知識推薦。
一般的文本語義網(wǎng)絡(luò)是根據(jù)特征共現(xiàn)構(gòu)建,而同一類型的文本,如病情自述,特征還具有一定的概率關(guān)聯(lián)關(guān)系。每種疾病的病情自述包含了其特有的癥狀和特征。描述疾病時,特征之間存在概率和語義的關(guān)聯(lián)。為了挖掘特征出現(xiàn)的模式,基于同一疾病的病情自述文本,為其構(gòu)建特征關(guān)聯(lián)網(wǎng)絡(luò),具體的過程如下。
選擇同一疾病的病情自述文本集。為了提取疾病相關(guān)的所有可能特征關(guān)鍵詞,首先對文本數(shù)據(jù)進行清洗,剔除重復(fù)和無效的病情自述文本。然后使用中科院的NLPIR漢語分詞系統(tǒng)分詞和詞性標注。為保證疾病詞和癥狀詞能正確分詞,導(dǎo)入準備的疾病和癥狀詞典,然后去除停用詞和無意義的單字,得到初步的特征關(guān)鍵詞集合。在該疾病病情自述文本集合中,計算關(guān)鍵詞集中每個詞的TF-IDF值。發(fā)現(xiàn)大量詞TF-IDF高,但是與疾病是沒有關(guān)系的。根據(jù)標注的詞性分析,與疾病相關(guān)的詞性主要有名詞n、形容詞a/an、動詞v以及發(fā)現(xiàn)的新詞。通過詞性過濾詞集,對符合詞性的詞TF-IDF排序,如圖1所示,頸椎病病情自述集合中提取的關(guān)鍵詞的TF-IDF折線圖,其中(“脖子”,0.055 3),(“麻木”,0.046 0)。根據(jù)詞性過濾后的特征關(guān)鍵詞,TF-IDF越高,與疾病特征相關(guān)度越大。在這個過程中,我們得到了一個疾病描述時所有相關(guān)特征詞。這些特征詞總結(jié)了疾病的相關(guān)癥狀和潛在特征詞。
圖1 通過詞性過濾后的關(guān)鍵詞TF-IDF值
特征或者癥狀的出現(xiàn)是疾病輔助診斷的關(guān)鍵信息。對于不同疾病病情自述,特征詞不同,特征出現(xiàn)的模式也不同。對于同一疾病的病情自述文本,在得到特征關(guān)鍵詞之后,為了挖掘該疾病描述的特征關(guān)鍵詞之間的模式,我們從概率關(guān)聯(lián)和語義關(guān)聯(lián)建立疾病特征關(guān)聯(lián)網(wǎng)絡(luò)。若一個疾病的特征關(guān)鍵詞集是W,關(guān)鍵詞wi∈W,wj∈W,那么wi出現(xiàn)時wj出現(xiàn)的概率p(wj|wi)如公式所示:
(1)
式中:p(wj|wi)是wi到wj的有向的概率關(guān)聯(lián)度;c(wi,wj)是wi和wj關(guān)鍵詞對共現(xiàn)次數(shù),c(wi)是詞wi的詞頻。比如“頸椎”與“麻木”共同出現(xiàn)的短文本數(shù)是47,“頸椎”詞頻為443,“麻木”詞頻為148。p(頸椎|麻木)=47/148,而p(麻木|頸椎)=47/443。
根據(jù)概率中值過濾低概率關(guān)聯(lián)的特征詞對。如果特征詞對之間相互的有向關(guān)聯(lián)都被過濾掉,那么他們之間的概率關(guān)聯(lián)度不高,去除關(guān)聯(lián)。如果兩個關(guān)鍵詞總是一起共現(xiàn),共現(xiàn)次數(shù)少,詞頻都相對低,那么對疾病描述屬于弱語義,就是與疾病不相干的詞?;诟怕赎P(guān)聯(lián)構(gòu)建特征關(guān)聯(lián)網(wǎng)絡(luò)FG=(W,E,K)。圖的節(jié)點是特征詞,W是節(jié)點集,E是邊集,邊代表特征詞對存在共現(xiàn)關(guān)系且滿足概率關(guān)聯(lián)。對于存在概率關(guān)聯(lián)的關(guān)鍵詞wi和wj,三元組
圖2 頸椎病病情自述的特征關(guān)聯(lián)網(wǎng)絡(luò)
不同疾病類型的病情自述文本對應(yīng)的特征關(guān)聯(lián)網(wǎng)絡(luò)是其疾病特征和特征關(guān)系的表現(xiàn)?;谔卣麝P(guān)聯(lián)網(wǎng)絡(luò),可以發(fā)現(xiàn)描述一個疾病時所用特征和特征出現(xiàn)的團模式。每個團可以作為一個疾病判別知識,團之間存在一定的語義關(guān)聯(lián)?;诖藶槊款惒∏樽允鼋⒖梢暬募膊≈R圖譜。從而利用知識圖譜進行知識發(fā)現(xiàn)和推理。
圖論中,一個clique是無向圖G中的完全子圖。如果一個clique不被其他clique包含,就稱為圖G的極大團。頂點最多的極大團是圖G的最大團。術(shù)語clique來自文獻[14],在社交網(wǎng)絡(luò)中使用完全子圖來模擬社交團體,團體內(nèi)的人彼此認識。在文本數(shù)據(jù)挖掘方面,我們曾提出使用clique在人物關(guān)系的關(guān)鍵詞網(wǎng)絡(luò)[15]中找出核心的人物關(guān)系詞。這里使用clique找出病人對同一疾病描述時所用特征的團模式。
在特征關(guān)聯(lián)網(wǎng)絡(luò)中,首先找到頻繁特征詞團。頻繁特征詞團是特征關(guān)聯(lián)網(wǎng)絡(luò)的一個完全子圖,團內(nèi)的特征詞共同出現(xiàn)描述病情。每個特征詞團呈現(xiàn)了描述疾病時使用的特征詞之間的關(guān)聯(lián)性和語義關(guān)系。在特征關(guān)聯(lián)網(wǎng)絡(luò)FG中,使用python提供的network包的find_cliques找出節(jié)點數(shù)在3以上的極大clique,且clique中所有特征詞在文本中共現(xiàn)。這是因為一個有效的疾病描述文本要包含3個以上的特征詞。如頸椎病病例自述文本的幾個特征詞團:3-clique[′頸椎′,′電腦′,′脖子′];4-clique[′棉花′,′無力′,′麻木′,′上肢′];6-clique[′頸椎′,′響聲′,′低頭′,′轉(zhuǎn)頭′,′聲音′,′僵硬′]等。特征詞團的詞常被一起使用來描述疾病的詞組,可以作為疾病類型推理判別時的知識。
特征詞團是病情自述文本所使用特征的多樣性模式。團之間可能存在多個相同特征詞,當(dāng)兩個團之間相同特征詞數(shù)相對每個特征詞團中特征詞數(shù)占權(quán)值較大時,團之間存在語義關(guān)系。根據(jù)團之間的這種語義建立知識圖譜KG=(C,E,W)。每個節(jié)點是一個特征詞團,C是特征團的集合。每個有向邊是兩個團之間相對語義關(guān)聯(lián),有向邊集為E。關(guān)鍵詞團ci∈C,cj∈C,如果ci與cj相同特征個數(shù)不等0,那么三元組
(2)
這種方法建立了特征詞團的有向知識圖譜。疾病特征團數(shù)節(jié)點數(shù)Size(cliques),過濾入度小于Size(cliques)/10的節(jié)點。根據(jù)W求中值,過濾小于中值的有向邊,當(dāng)特征詞間兩條有向邊都存在,兩條有向邊轉(zhuǎn)成一條無向邊。最終完成知識圖譜構(gòu)建,如圖3,給出了頸椎病的部分知識圖譜展示。疾病知識圖譜構(gòu)建過程是無監(jiān)督的,適用于所有疾病類型的病情自述文本。同時可以用于同類文本,如同一電影影評,同一商品評論的特征結(jié)構(gòu)化。
圖3 知識圖譜形式
通過知識圖譜的構(gòu)建得到了一類疾病常用的特征和描述該疾病時常用特征模式間的關(guān)系。分析疾病知識圖譜可以發(fā)現(xiàn),特征團因過濾了低語義關(guān)聯(lián)的邊在知識圖譜上出現(xiàn)了小世界現(xiàn)象,一些特征團通過相同的特征詞關(guān)聯(lián)相互連通,而與其他團分離,以一個獨立的子圖出現(xiàn)。根據(jù)連通子圖,分解知識圖譜合并特征團內(nèi)的特征,能夠完成結(jié)構(gòu)化特征抽取。得到的結(jié)構(gòu)化的特征類似于話題形式,每個結(jié)構(gòu)化特征記作topic,最終抽取的疾病的結(jié)構(gòu)化特征記作topics。從每個疾病的知識圖譜上進行結(jié)構(gòu)化特征抽取的算法過程如下:
算法基于知識圖譜抽取疾病結(jié)構(gòu)化
Input:疾病知識圖譜KG
Begin:
repeat
1)從KG中劃分連通子圖,節(jié)點數(shù)在1和30之間,摘除子圖g;
2)合并g中所有特征詞團的關(guān)鍵詞得到話題topic,加入topics;
3)處理DG中因摘除子圖出現(xiàn)的孤立節(jié)點;
until DG為空
End.
Output:topics
通過知識圖譜中連通圖的劃分和特征團的合并,得到了結(jié)構(gòu)化的特征知識。每個結(jié)構(gòu)化特征內(nèi)部的所有特征詞存在語義的關(guān)聯(lián)維度低,可以用作病情自述文本的表示。
經(jīng)典的文本表示法是向量空間模型。因為病情自述的疾病特征太多,特征稀疏,分類效果不好。這里我們提出使用知識圖譜得到所有疾病的結(jié)構(gòu)化特征去完成病情自述的結(jié)構(gòu)化表示。計算每個結(jié)構(gòu)化特征與病情自述的Jacarrd相似系數(shù)。設(shè)病情自述文本d,疾病相關(guān)的特征詞有m個,d可以表示成d=(w1,w2,…,wm),其中特征詞是無序的。計算d與第j個topic的Jaccard相似度J(d,topicj),如式(3):
(3)
式中:J(d,topicj)記作Jj。分子是d和第j個topic共同的特征詞數(shù),分母是兩者包含的所有特征詞。假設(shè)有K個結(jié)構(gòu)化特征,病情自述文本表示為d= (J1,J2,…,Jj,…,JK)。
病情自述文本輔助診斷是根據(jù)病情自述文本包含的特征判斷其可能的疾病類型。基于確診的病情自述訓(xùn)練分類器,能用于對新的樣本進行疾病輔助判別。無論對一個疾病的識別,還是多個疾病的識別,實質(zhì)是文本的分類問題。所研究的類為正樣本,其他類為負樣本,設(shè)TP:正確分類的正樣本數(shù);TN:正確分類的負樣本數(shù);FP:負樣本誤分類為正樣本數(shù);FN:正樣本誤分類為負樣本數(shù)。對該類識別的評估參數(shù)有準確度Accuracy、精確度Precision、召回率Recall和F1值四個方面,計算如下:
(a)Accuracy=(TP+TN)/(TP+FP+TN+FN)
(b)Recall=TP/(TP+FN)
(c)Precision=TP/(TP+FP)
(d)F1=(2×Precision×Recall)/(Precision+Recall)
對于二分類的評估,不能單獨考慮分類準確率,要基于以上四個標準參數(shù)。對多分類結(jié)果的評估,單從準確率評估也是不合理的。要從整體的分類正確率和每個類的分類評估進行。引入兩個參數(shù):微平均Micro-average和宏平均Macro-average[16]。微平均也就是整個分類的準確率,是正確識別的樣本數(shù)與整體測試樣本數(shù)的百分比。宏平均根據(jù)每個類的F1求算術(shù)平均得到。
抓取“好大夫”網(wǎng)站中網(wǎng)絡(luò)咨詢服務(wù)中已經(jīng)確診的6種疾病的病情自述文本:頸椎病1 878例、高血壓1 826例、冠心病1 919例、老年性白內(nèi)障1 320例、新生兒黃疸1 849例、腰椎間盤突出1 936例。每類文本選擇1 000例分別構(gòu)建知識圖譜?;谥R圖譜抽取結(jié)構(gòu)化特征,每個疾病因為特征和特征模式不同,得到的結(jié)構(gòu)化特征個數(shù)也不同,分別是頸椎病7個、高血壓9個、冠心病11個、老年性白內(nèi)障2個、新生兒黃疸11個、腰椎間盤突出9個。如頸椎病的特征形式見表1。6種疾病得到49個結(jié)構(gòu)化特征。將其余病情自述的樣本進行成結(jié)構(gòu)化表示,每個結(jié)構(gòu)化特征是一個feature,形成49維的數(shù)據(jù),作為疾病判別的實驗樣本。
實驗1,對一個疾病的識別。一類疾病為正樣本,其他幾類疾病隨機抽樣為負樣本,使用SVM訓(xùn)練分類器。對比實驗設(shè)置三種,一組使用LDA生成結(jié)構(gòu)化知識,即話題,每個疾病的話題個數(shù)設(shè)置與我們提取的該疾病的結(jié)構(gòu)化特征數(shù)一樣,然后使用相同方法結(jié)構(gòu)化表示病情自述,使用SVM分類。另外兩組用空間向量模型表示文本,分別使用SVM和KNN分類。
實驗2,對多個疾病的分類識別。利用SVM分類6種病情自述文本。
表1 頸椎病病情自述文本的結(jié)構(gòu)化特征
5.2.1實驗1結(jié)果和分析
對實驗樣本隨機劃分訓(xùn)練集和測試集。從訓(xùn)練樣本中選擇頸椎病為正樣本,其他5個疾病抽樣的總數(shù)與正樣本相同,為負樣本。采用幾種分類方法,分類結(jié)果對比見表2。結(jié)果表明,基于知識圖譜提取的結(jié)構(gòu)化特征表示病情自述進行的分類結(jié)果比基于向量空間模型表示的分類結(jié)果好。基于LDA提取的話題表示病情自述文本的分類結(jié)果最差。說明提出的無監(jiān)督知識圖譜得到的結(jié)構(gòu)化特征表示病情自述在疾病識別任務(wù)中具有優(yōu)勢。為了保證實驗的魯棒性,進行了多個疾病的多次相同實驗,我們的方法其實驗結(jié)果穩(wěn)定,每個疾病識別率都在80%以上。
表2 不同分類方法比較 %
5.2.2實驗2結(jié)果和分析
實驗樣本隨機2:1劃分訓(xùn)練樣本和測試樣本,使用訓(xùn)練樣本,訓(xùn)練SVM多分類器。首先使用libsvm庫提供的方法得到cost和gamma最優(yōu)參數(shù)設(shè)置cost=100,gamma=0.01。然后對6種病情自述文本的測試樣本分類,結(jié)果如表3,預(yù)測類型對應(yīng)行,行和是預(yù)測為該類的樣本數(shù)。實際類型對應(yīng)列,列和是該類實際測試樣本數(shù)。
根據(jù)表3,計算多分類的微平均和宏平均對分類進行評估。整個的分類正確率,即微平均值是83.4%。對每個類計算其召回率Recall,精確度Precision和F1,結(jié)果見表4。對所有類的F1求算術(shù)均值得到多分類的宏平均值84%。多次實驗結(jié)果穩(wěn)定。
表4 6種疾病判別結(jié)果評估
對分類后的樣本進行人工審核,經(jīng)過專業(yè)分析,整體分類結(jié)果可以或能被接受應(yīng)用于病情自述文本疾病類型的輔助診斷。根據(jù)進一步分析發(fā)現(xiàn),一類誤診樣本中,多被判為四類,四類誤診樣本中多被判成一類,而兩種疾病,頸椎病和腰椎間盤突出具有醫(yī)療聯(lián)系。同樣,在三類和六類中也有這種現(xiàn)象,而冠心病和高血壓醫(yī)療中屬于一種常見的并發(fā)性疾病。對于整體的疾病分類率來說,識別效果可以用于輔助診斷,而且在這樣的研究中,可以發(fā)現(xiàn)疾病和疾病間的關(guān)系。因此根據(jù)病人病情描述狀況,可以提供病人可能相關(guān)的疾病診斷信息,進行個性化疾病知識推薦。
隨著人們對健康的關(guān)注,很多網(wǎng)民會通過網(wǎng)絡(luò)咨詢疾病問題,產(chǎn)生了海量的病情描述文本。針對病情自述文本的多樣性,本文提出了基于一種為確診同一疾病的病情自述文本創(chuàng)建疾病知識圖譜的方法,該過程是無監(jiān)督的。知識圖譜是根據(jù)病情描述時的特征團模式進行的知識關(guān)聯(lián),能夠表現(xiàn)疾病的特征和描述疾病的常用模式關(guān)系。然后,基于知識圖譜提取結(jié)構(gòu)化特征完成病情自述文本結(jié)構(gòu)化文本表示。實驗疾病判別的結(jié)果取得了預(yù)期的效果。基于知識圖譜完成的結(jié)構(gòu)化表示,是一種新的結(jié)構(gòu)化知識提取方法,不僅可以用于病情自述結(jié)構(gòu)化知識提取,也可用于同類或同樣電影的影評、同類或同一商品的評論的特征分析和結(jié)構(gòu)化特征抽取。從疾病判別多分類結(jié)果看,整體的準確率和識別率符合疾病診斷特點,可用于識別病情自述文本,進行初步診斷。本文是對病情自述的智能診斷研究,其中知識圖譜構(gòu)建和結(jié)構(gòu)化特征抽取的方法具有一般性,適合同類文本的知識挖掘研究。
[1] Hodson H.Google knows your ills[J].New Scientist,2016,230(3072):22-23.
[2] Neti C,Ebadollahi S,Kohn M,et al.IBM Watson+Data analytics:a big data analytics approach for a learning healthcare system[Z].Newsletter,2016.
[3] Middleton K,Butt M,Hammerla N,et al.Sorting out symptoms: design and evaluation of the Babylon check’automated triage system[J].arXiv preprint arXiv:1606.02041,2016.
[4] 蘇春艷.當(dāng)“患者”成為“行動者”:新媒體時代的醫(yī)患互動研究[J].國際新聞界,2015,37(11):48-63.
[5] Jiang D,Leung K W T,Ng W.Fast topic discovery from web search streams[C]//Proceedings of the 23rd international conference on World wide web.ACM,2014:949-960.
[6] Zhou T C,Lyu M R T,King I,et al.Learning to suggest questions in social media[J].Knowledge and Information Systems,2015,43(2):389-416.
[7] Chen M,Shen D,Shen D.Short text classification improved by learning multi-granularity topics[C]//International Joint Conference on Artificial Intelligence.AAAI Press,2011:1776-1781.
[8] Jin O,Liu N N,Zhao K,et al.Transferring topical knowledge from auxiliary long texts for short text clustering[C]//Proceedings of the 20th ACM international conference on Information and knowledge management.ACM,2011:775-784.
[9] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of machine Learning research,2003,3(1):993-1022.
[10] Lu Y,Zhai C.Opinion integration through semi-supervised topic modeling[C]//Proceedings of the 17th international conference on World Wide Web.ACM,2008:121-130.
[11] Hyland S L,Karaletsos T,R?tsch G.Knowledge Transfer with Medical Language Embeddings[J].arXiv preprint arXiv:1602.03551,2016.
[12] Hasan S A,Zhao S,Datla V,et al.Clinical question answering using key-value memory networks and knowledge graph[Z].TREC,2016.
[13] Shi L,Li S,Yang X,et al.Semantic Health Knowledge Graph:Semantic Integration of Heterogeneous Medical Knowledge and Services[Z].BioMed Research International,2017.
[14] Luce R D,Perry A D.A method of matrix analysis of group structure[J].Psychometrika,1949,14(2):95-116.
[15] 劉錦文,邢凱,芮偉康,等.基于信息關(guān)聯(lián)拓撲的互聯(lián)網(wǎng)社交關(guān)系挖掘[J].計算機應(yīng)用,2016,36(7):1875-1880.
[16] Calvo R A,Lee J M.Coping with the news:the machine learning way[C]//Proceedings of Ausweb 2003 Conference,Gold Coast.2003.