高明霞 陳福榮
摘要:針對中文微博信息的特點及這些特點的可測量性和實際任務,系統(tǒng)地梳理了中文微博信息可信度測量指標,并將其進行了譜系化分析,提出一個基于信息融合的中文微博可信度評估框架CCM-IF。首先,為本質不同的三個異構特征:文本內容、信息作者與信息傳播使用了不同的度量方式;其次,基于決策層可信度的模糊認知特點,采用了多維證據(jù)理論進行特征融合;最后,收集了新浪微博兩個真實數(shù)據(jù)集進行了一系列實驗。實驗結果表明,與傳統(tǒng)信息檢索排序方法平滑語言模型(LMJM)相比,CCM-IF符合用戶需求的信息占比提高了10%~20%。因此,作為一個靜態(tài)質量評估指標,CCM-IF可直接用于微博檢索排序、垃圾微博過濾等實際任務。
關鍵詞:中文微博;可信度;信息融合;四象限法則; 證據(jù)理論
中圖分類號:TP391
文獻標志碼:A
0引言
最近幾年,社會媒體得到迅猛發(fā)展,特別是微博、微信等社交軟件,已發(fā)展成為互聯(lián)網上的巨擘。中國互聯(lián)網絡信息中心(China Internet Network Information Center, CNNIC)于2014年7月發(fā)布的《第34次中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》顯示,截至2014年6月,我國微博用戶規(guī)模為2.75億,網民使用率為43.6%,微博已進入平穩(wěn)成熟期。但是微博固有的草根特性帶來的問題依然存在,也即用戶對微博內容的真實性和價值依然難以判斷。因此,針對微博在信息書寫、信息傳播、社會網絡分析等方面的固有特點,分析、評估微博內容、用戶,并將其應用于微博信息綜合或垂直搜索、垃圾微博過濾等領域的研究,已經成為微博研究領域的重要內容之一[1]。
由于時間因素,目前對微博質量研究的實例大多集中于Twitter分析,例如文獻[2-4]。這些研究可以分為兩類,一類是利用傳統(tǒng)分類技術的定性分析,這類研究需要大量樣本,獲取的是二值或多值的邏輯值;另一類是針對不同性能指標的定量算法,這些質量評估算法多數(shù)只關注信息本身或某一側面,缺少系統(tǒng)、全面的分析和評估,更沒有從模糊認知的角度進行度量。目前針對中文微博質量分析的研究多數(shù)集中于內容分析以及特定用戶或主題提取,缺少專門針對質量進行定量評估的系統(tǒng)方法,例如高承實等[5]構建的三維空間就是針對微博輿情評估的指標。
本文從中文微博信息的特點入手,兼顧了這些特點的可測量性和實際任務,系統(tǒng)地梳理了中文微博信息可信度測量指標,并將其進行了譜系化分析,最終抽取出文本信息、信息作者與信息傳播三個高層異構特征??紤]到可信度的模糊性本質,提出一個基于信息融合的中文微博可信度評估框架(Credibility of Chinese Microblog based on Information Fusion,CCM-IF),并依據(jù)中文微博特點以及信息融合技術實現(xiàn)了用于計算并融合三個高層異構特征的具體方法。最后,收集了新浪微博兩個真實數(shù)據(jù)集進行了一系列實驗。實驗結果表明,本文提出的微博可信度評估方式作為一個靜態(tài)質量評估指標可直接用于微博檢索排序、垃圾微博過濾等實際任務;而且和傳統(tǒng)信息檢索排序方法平滑語言模型相比,該框架和計算方式在準確性方面有明顯優(yōu)勢。
1相關工作
從社會媒體角度看,“可信度是主觀認知的可信度,是指傳播過程中,信息受播人對傳播媒體的信賴度的主觀評量”。微博是一種典型的社會媒體,對其可信度的研究屬于質量評測的一種。下面從微博質量評估角度來討論現(xiàn)有工作。
中文微博發(fā)展時間短,目前對微博質量研究的實例大多集中于Twitter分析。Castillo等[2]利用典型的分類算法對Twitter上的新聞類信息和其他類信息進行了可信和不可信的自動分類學習,其中對Twitter信息的特征從四個側面(msg.,user,topic,prop.)進行了歸類。自動分類方法需要大量人工標注的樣本,并且得到的是一個二值邏輯結果。Ravikumar等[3]將微博看作一個包含用戶、文本內容和網頁的三層圖結構,并建立了圖中存在的各種鏈接,據(jù)此達到通過信任和傳播為Twitter中文本內容排隊的目的。Nagmoti等[4]描述了一個微博實時搜索中排序的新策略。該策略除微博屬性外,還考慮了微博作者的社會網絡屬性并將其用于Twitter實時搜索的二次排序中,得到了較好的結果;但該方法涉及到的微博和作者屬性太少,計算方式也相對簡單。
目前針對中文微博質量分析的研究多數(shù)集中于內容分析和特定用戶比較方面。高承實等[5]在研究了微博信息傳播機制的基礎上,結合信息空間模型構建了微博輿情的三維空間,并運用層次分析法建立了微博輿情監(jiān)測指標體系。該體系中重要的監(jiān)測和影響因素就是微博質量評估分析。焦德武等[6]探討了微博在輿情生產中具有的作用與特征,并從微博內容維度和傳播時間維度兩個方面對微博輿情價值進行判斷。郭秋艷等[7]基于新浪微博中用戶數(shù)據(jù),對名人效應進行了定量研究。Wang等[8] 通過比較新浪微博中認證和非認證用戶的統(tǒng)計信息,提出了認證用戶中只有很少部分有較大影響,是一些團體的核心成員。
從以上的分析可見,目前對微博質量研究的實例大多集中于Twitter分析,現(xiàn)有的針對中文微博質量的研究只關注信息本身或某一側面,缺少系統(tǒng)、全面的分析和量化評估,更沒有從“可信度”這一模糊認知角度進行定量分析。這正是本文要解決的問題。
2基于信息融合的可信度評估框架
微博,即微博客(Microblog)的簡稱,是一個基于用戶關系的信息分享、傳播以及獲取平臺,用戶可通過Web、即時通信、電子郵件和手機等方式,以140字左右的文字更新信息并實現(xiàn)即時分享。從這個角度說,微博是一種典型的社會媒體,其可信度定義完全符合社會媒體可信度概念。
社會媒體可信度(social media credibility)這個詞最早出現(xiàn)于19世紀中期,由Hovland等[9]提出。其確切定義經歷了從信息客觀屬性到受眾主觀認知的本質轉變。目前,OKeffe[10]的定義“可信度是主觀認知的可信度,是指傳播過程中,信息受播人對傳播媒體的信賴度的主觀評量”已被大多數(shù)人所接受。既然可信度是受眾對媒體信息的主觀認知和評估,那從受眾角度出發(fā)、以多維視角和方法來定義和測量信息可信度,已成為此領域學術研究的基本準則。
為了對多個來源的觀測信息進行統(tǒng)一分析、綜合評估,信息融合技術逐漸興起。本文的基本思想就是將微博可信度評估看作是一個信息融合問題進行具體分析。首先,參考文獻[2,11]中涉及到的兩種社會媒體信息可信度評估指標,并結合中文微博的特點,基于分層斷代思想對微博信息可量化指標以及高層特征維度進行系統(tǒng)梳理與歸屬劃分,獲得了如圖1所示的中文微博可信度影響因子譜系;然后參考信息融合Dasarathy模型及各層的融合技術,形式化數(shù)據(jù)層和特征層的具體評估方法,提出了基于信息融合的中文微博可信度評估框架(CCM-IF),并在該框架下實現(xiàn)了三個異構特征的評估方式以及最終的融合方法。文本信息影響因素多,各因素的激勵作用不同,采用了相對簡單的統(tǒng)計和度量;信息來源即用戶可信度影響因素少,而且?guī)в忻黠@的模糊本質,參考著名的四象限法則提出了媒體用戶四象限劃分度量;考慮到媒體信息傳播的共性,傳播度量借鑒了文獻[11]中博客的傳播計算形式;考慮到可信度的模糊認知,最終的異構特征融合采用了具有模糊屬性的多維證據(jù)理論。
3基于信息融合的可信度評估方法
3.1文本信息可信度測量
信息本身的可信度可以從客觀和主觀兩個方面入手考察??陀^方面不涉及社會性,單純考慮信息本身的可信度,也即通常所說的文本質量。通常情況下,我們會假定:質量好的文本比質量差的文本更可信,在某種程度上,這正是用戶對微博信息第一印象的直觀反映。另一方面是用戶對文本的主觀印象,目前可直接測量的主觀因素有轉貼數(shù)(Sreposts)和評論數(shù)(Scomments),這兩個影響因素都是正向激勵因子,因為其可取值差別很大,所以使用了lg()形式的計算方式,如表1所示。文本質量的考察包括句法、語法、語氣和語義四個層面。前兩個層面體現(xiàn)作者的寫作模式與寫作習慣。一個可信的文本至少應該做到句法和語法正確,例如:一個拼寫錯誤百出的文本很難被認定為是可信的。句法和語法方面,本文主要考慮了正向激勵文本長度(Slength)和負向激勵拼寫錯誤(Sspelling)兩個指標,具體計算方式如表1所示。文本的語氣通常體現(xiàn)個人情緒和感情傾向。一個可信的文本語氣應該客觀,也即盡量少地涉及到表達情緒的因素,做到感情上客觀公正。中文微博信息中和個人情緒相關的因素包括圖標(Semoticons)、重復標點(Spunc)以及正/負性詞(Sposi/neg)三個指標,重復標點只統(tǒng)計和情緒相關的問號、感嘆號和省略號,這些因素的具體計算方式如表1所示。語義是文本質量更高層次的要求,與具體任務和領域相關,對其評價時需要有對應的參考量,一個可信的文本應該是與參考量語義相關的。由于不同的任務參考量可能不同,例如查詢任務中的查詢需求或信息聚類中的主題集合等,因此語義因素是一個依賴主題的指標,用于在具體任務中發(fā)揮作用進行文本預處理或最后步驟的領域識別。文本信息影響因素多,各因素的激勵作用不同,采用了相對簡單的統(tǒng)計和度量,如式(1):
3.2信息來源可信度測量
從本質上看,任何社會媒體信息最初都是由人產生的,因此信息來源(簡稱信源)可信度就是信息作者的可信度。社會媒體中的用戶可信度通常又是由他的客觀日常行為和主觀外部評估累積形成。常見的可測量客觀日常行為包括是否做過實名認證(Scertify)、發(fā)布的文本信息總數(shù)(Sposts);而常見的可測量外部評估通常包括粉絲數(shù)目(Sfellows)。這些指標中,影響較大的是實名認證。實名認證可看作是虛擬環(huán)境和現(xiàn)實世界的橋梁。因為做過認證的作者有為自己的言論負責的主觀意愿,客觀上也更容易被監(jiān)督和審查,因此這個指標可以單獨作為激勵因子(>1)影響最終用戶的可信度。粉絲數(shù)和信息總數(shù)這兩個客觀和主觀因素配合可以粗略地區(qū)分不同類型的用戶。借鑒著名的四象限法則,圖2是一個主客觀因素決定的媒體用戶四象限分類圖。
圖2中,位于第四象限的用戶是粉絲和發(fā)貼數(shù)目都高的優(yōu)質用戶,其可信度相對最高。位于第二象限的是兩者都低的網絡過客,這類用戶對各種媒體信息的參與度最低,可信度也相對最低。位于第一和第三象限的用戶一類是發(fā)貼多、粉絲少的自我用戶或廣告客戶,這類用戶的帖子關注度太低,價值也相對較低,接近網絡過客;另一類是發(fā)貼少、粉絲多的稀奇用戶,這類用戶盡管發(fā)貼很少,但是粉絲眾多,其帖子的關注度很高,因此可信度接近優(yōu)質用戶。通過上述分析用戶的可信度大小關系符合:優(yōu)質用戶>稀奇用戶自我用戶>網絡過客。區(qū)分用戶的具體劃分值和數(shù)據(jù)集分布密切相關,每類用戶的實際取值和數(shù)據(jù)集性質以及實際任務相關。粉絲數(shù)和信息數(shù)這兩個指標可取值范圍差別太大,為了最終表現(xiàn)形式仍使用了lg()取值進行了縮減??紤]到認證的激勵作用,用戶的最終可信度值可以通過式(2)獲?。?/p>
3.3信息傳播可信度測量
和普通網頁相比,社會媒體信息的傳播能力更強。而影響媒體信息可信度傳播的因素一般包括兩項:一是時效,二是傳播媒介。時效對新聞和熱點事件是個不可忽視的影響因素,它的計算需要依賴于同一主題的媒體集合,可應用于具體任務,在此不討論。傳播媒介通常指信息從誕生到測量時經歷的媒體用戶,通??梢员磉_成如圖3所示的樹形結構,其中根A是原始作者,B、C、D則是從作者處進行了第一輪轉發(fā)的社會媒體用戶,同樣E、F和G到I分別是從C、D處進行第二輪轉發(fā)的用戶。
傳播媒介對文本信息可信度測量影響很大,這種影響方式主要通過兩種情況遞增媒體信息可信度。一種方式是傳播媒介中包含可信度高的名人。例如:由于“李開復”在計算機領域的影響力,一個默默無聞的作者撰寫的與計算機相關的信息被李開復轉發(fā)后,其可信度將大幅提升,甚至等同于李開復自己的文本。另外一種方式是傳播媒介中節(jié)點數(shù)目龐大。例如:一條媒體信息被1萬人轉發(fā),盡管轉發(fā)者可能都是一般用戶,但是由于節(jié)點數(shù)目龐大,將導致這條信息的可信度大幅提升。另外一個需要注意的遞增特點是,無論多少人轉發(fā),可信度都應該趨向于一個上限,因為當節(jié)點數(shù)大到一定程度后,再增加轉發(fā)人數(shù)在可信度上已經沒有明顯貢獻。例如1萬人轉發(fā)和1.1萬人轉發(fā),在人類認知的模糊程度上,已經沒有明顯區(qū)別??紤]到上述可信度遞增特點,本文借鑒了文獻[11]中博客的傳播影響定義了式(3)用于計算傳播媒介對微博可信度的影響:
4實驗與分析
微博可信度作為一種靜態(tài)質量評估指標,可以應用于微博檢索排名與垃圾微博過濾等多種實際任務,為了驗證可信度評估效果,本文從數(shù)據(jù)堂(http://www.shujutang.com)收集了兩個新浪微博真實數(shù)據(jù)集進行了微博檢索排名實驗。DS1數(shù)據(jù)集是主題相關的,選擇了直接排序;為了避免查詢主題偏好,分別選取4個不同查詢主題對DS2進行了檢索排名。
針對兩個數(shù)據(jù)集中的數(shù)據(jù),排名時分別使用了文本可信度值、文本+作者融合可信度值以及文本+作者+傳播融合可信度值。微博檢索依然屬于信息檢索范疇,信息檢索中常用的傳統(tǒng)檢索排名方法平滑語言模型(Language Modeling with Jelinek-Mercer smoothing, LMJM)[14] 方法被用于和本文提出的可信評估進行了對比實驗。
評估使用了不同情況下排名前20的信息中去重信息占比、相關信息占比以及有用信息占比。去重信息占比指去重信息數(shù)目與信息總數(shù)20之比;相關信息指信息中包括和查詢主題一致的內容,相關信息占比指相關信息數(shù)目與去重信息數(shù)目之比;有用信息占比指符合用戶需求的信息與相關信息之比。其中,對相關和有用信息的識別是通過人工標記獲取的,為了消除個體差異,采用了多人標記結果取重疊部分的方式。
4.1數(shù)據(jù)及預處理
DS1數(shù)據(jù)集包括了從2014年3月14日到3月27關于“馬航失聯(lián)”的微博數(shù)據(jù)共2795條,涉及到用戶1930個;DS2數(shù)據(jù)集沒有固定主題,包括6萬多條微博和1萬多個用戶。兩個數(shù)據(jù)集的用戶來源比較多,有個人也有權威機構,因此,用戶可信度差別相對較大。圖4和圖5分別是DS1和DS2中用戶的實際分布以及基于這一分布的四象限劃分,其中DS2中僅包括隨機抽取的2000個用戶。
為了獲取傳播樹需要實時遍歷媒體網絡,由于網絡訪問受限,實時獲取每個用戶相對困難。但是每條信息的轉發(fā)數(shù)目很容易獲取,而且基于四象限分類劃分思想,媒體用戶的可信度取值是一個8元素有限集,也即{認證優(yōu)質客戶,無認證優(yōu)質客戶,認證稀奇客戶,無認證稀奇客戶,認證自我用戶,無認證自我用戶,認證網絡過客,無認證網絡過客}??紤]到數(shù)據(jù)轉發(fā)的常見情況和數(shù)據(jù)集特點,傳播樹可以采用有限集隨機取樣模擬產生。網絡世界的轉發(fā)情況通??梢詺w納為三類:轉發(fā)數(shù)目少、轉發(fā)數(shù)目多以及轉發(fā)數(shù)目適中。第一類轉發(fā)數(shù)目少,轉發(fā)者基本不包括優(yōu)質客戶或稀奇客戶,因此隨機取樣的可選范圍要去掉有限集中的前四個值;第二類轉發(fā)數(shù)目多,轉發(fā)者中必定包括優(yōu)質客戶或稀奇客戶,隨機取樣的可選范圍依然是8元素有限集,為了滿足最終傳播隊列中必須包括有限集中的前四個值,需要附加一個檢查替換步驟;第三類轉發(fā)數(shù)目適中是中間狀態(tài),直接使用有限集隨機取樣即可。三種類型中第一種情況占比最多,通常情況下一個數(shù)據(jù)集中95%的信息都沒有轉發(fā)數(shù),只有少數(shù)信息能引起用戶關注,而轉發(fā)數(shù)目多的信息更是寥寥無幾?;谝陨戏治?,結合具體數(shù)據(jù)集情況,確定三種轉發(fā)情況的分類數(shù)據(jù)。
4.2結果分析
表2是DS1的排序結果,從表中可以看出,作者和傳播兩個上層特征對文本可信有顯著影響,特別是用戶特征將相關信息占比提高了20%多。對于“馬航失聯(lián)”這樣的熱點事件而言,一些權威新聞機構(例如路透社或CNN)的信息比一般用戶更能獲取公眾認可,而這些權威新聞機構基本都屬于認證優(yōu)質客戶范疇,因此相關信息占比大幅度提高。傳播特征對相關信息的占比提高有限,這是因為DS1數(shù)據(jù)集中傳播特征影響很小,只有10多條數(shù)據(jù)有傳播信息,而且最大傳播數(shù)只有7, 通過參數(shù)設定歸屬于適中(1 盡管LMJM方法的相關信息占比達到了100%,但是LMJM方法中有用信息的數(shù)目是0,而本文方法的有用信息占比達到了100%。表3中列出了針對DS1數(shù)據(jù)的LMJM和文本+作者+傳播中排名前3的信息。從表3中可見,LMJM更注重“馬航”在整個文本中出現(xiàn)的比率,因此這些無實際意義的短文本更易排名靠前;而本文方法更注重文本實際內容,因此有實際意義的長微博更易排名靠前。本文方法更符合用戶對微博檢索的實際需求,在很多檢索情況下,少于5個字的短文本可以直接作為垃圾處理。 表4是DS2在四個不同主題上檢索排序后得到的平均值。DS2 數(shù)據(jù)中沒有轉發(fā)數(shù),傳播特征沒起作用。用戶特征對文本可信有顯著影響,特別是用戶特征將相關信息占比提高了10%左右。盡管LMJM方法的相關信息占比和本文文本+作者融合相當,但是LMJM方法中有用信息占比明顯偏低,而本文的有用信息占比達到了80%。通過詳細分析,和DS1數(shù)據(jù)集類似,LMJM更注重主題在整個文本中出現(xiàn)的比率,因此一些無實際意義的短文本更易排名靠前;而本文提出方法更注重文本實際內容,因此有實際意義的長微博更易排名靠前。從這點來看,本文方法更符合用戶對微博檢索的實際需求。 5結語 從中文微博信息的特點入手,兼顧了這些特點的可測量性和實際任務,形成了中文微博可信度影響因子譜系??紤]到人類認知的模糊性本質,本文提出一個基于信息融合的中文微博可信度評估框架。該框架首先為本質不同的三個異構特征:文本內容、信息作者與信息傳播分別使用了統(tǒng)計和、四象限法則與傳播樹排序的度量方式;其次,基于決策層可信度的模糊認知特點,采用了多維證據(jù)理論進行了最終的特征融合;最后,收集了新浪微博中兩個真實數(shù)據(jù)集進行了一系列實驗。實驗結果表明: 與傳統(tǒng)信息檢索排序方法平滑語言模型(LMJM)相比,CCM-IF的符合用戶需求的信息占比提高了10%~20%。因此,作為一個靜態(tài)質量評估指標,CCM-IF可直接用于微博檢索排序、垃圾微博過濾等實際任務。 盡管CCM-IF可以對可信度進行系統(tǒng)評估,但是從可信的定義可知,這是一個主觀性比較強的概念。除了現(xiàn)有的文本內容、文本作者和信息傳播三個高層特征以及文中討論的體現(xiàn)這些特征的可測量指標外,其他很多指標比如:時效、作者文化層次、發(fā)帖頻率等都可能對可信度有一定影響,而且不同指標可能的影響方式和程度也不同。因此,為現(xiàn)有指標和特征提供新的評估方式,增加新的影響指標與特征進一步完善可信度評估框架是未來要進行的研究工作。
參考文獻:
[1]張劍峰,夏云慶,姚建民.微博文本處理研究綜述[J].中文信息學報,2012,26(4):21-27. (ZHANG J F, XIA Y Q, YAO J M. A review towards micro text processing [J]. Journal of Chinese Information Processing, 2012, 26(4): 21-27.)
[2]
CASTILLO C, MENDOZA M, POBLETE B. Information credibility on twitter [C]// WWW 11: Proceedings of the 20th International Conference on World Wide Web. New York: ACM, 2011: 675-684.
[3]RAVIKUMAR S, BALAKRISHNAN R, KAMBHAMPATI S. Ranking tweets considering trust and relevance [C]// IIWeb 12: Proceedings of the 9th International Workshop on Information Integration on the Web. New York: ACM, 2012: Article No. 4.
[4]NAGMOTI R, TEREDESAI A, COCK M D. Ranking approaches for microblog search [C]// WI-IAT 10: Proceedings of the 2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. Washington, DC: IEEE Computer Society, 2010, 1: 153-157.
[5]高承實,榮星,陳越.微博輿情監(jiān)測指標體系研究[J].情報雜志,2011,30(9):66-70. (GAO C S, RONG X, CHEN Y. Research on public opinion monitoring index-system in micro-blogging [J]. Journal of Intelligence, 2011, 30(9): 66-70.)
[6]焦德武,常松.微博輿情:生產、研判與處置研究[J].安徽師范大學學報(人文社會科學版),2013,41(1):65-71. (JIAO D W, CHANG S. Study of micro-blog public opinions: production, judgments and treatment [J]. Journal of Anhui Normal University (Humanities and Social Sciences), 2013, 41(1):65-71.)
[7]郭秋艷,何躍.新浪微博名人用戶特征挖掘及效應研究[J].情報雜志,2013,32(2):112-116. (GUO Q Y, HE Y. Study on the celebrity users characteristics mining and the effects of Sina micro-blog [J]. Journal of Intelligence. 2013, 32(2):112-116.)
[8]WANG N, SHE J, CHEN J. How “Big Vs” dominate Chinese microblog: a comparison of verified and unverified users on Sina Weibo [C]// WebSci 14: Proceedings of the 2014 ACM Conference on Web Science. New York: ACM, 2014:182-186.
[9]HOVLAND C I. Changes in attitude through communication [J]. Journal of Abnormal Psychology, 1951, 46(3): 424-437.
[10]OKEFFE D J. Persuasion: Theory and Research [M]. Newbury Park: SAGE Publications, 1992: 131-132.
[11]WEERKAMP W, DE RIJKE M. Credibility-inspired ranking for blog post retrieval [J]. Information Retrieval, 2012, 15(3/4): 243-277.http://xueshu.baidu.com/s?wd=paperuri%3A%28ded32bd6967fc22636ecedc1f4833af8%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Flink.springer.com%2F10.1007%2Fs10791-011-9182-8&ie=utf-8&sc_us=15617408281526462347
[12]DEMPSTER A P. Upper and lower probabilities induced by a multivalued mapping [M]// Classic Works of the Dempster-Shafer Theory of Belief Functions, Volume 219 of the series Studies in Fuzziness and Soft Computing. Berlin: Springer-Verlag, 2008: 57-72.
原稿Annals of Mathematical Statistics, 1967, 38: 325-339.
http://xueshu.baidu.com/s?wd=paperuri%3A%280fd693ec38ad9bd0717c38946617c2b2%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Frd.springer.com%2Fchapter%2F10.1007%2F978-3-540-44792-4_3&ie=utf-8&sc_us=5445830529683542081
[13]李弼程,王波,魏俊,等.一種有效的證據(jù)理論合成公式[J].數(shù)據(jù)采集與處理,2002,17(1):34-36. (LI B C, WANG B, WEI J, et al. An efficient combination rule of evidence theory [J]. Journal of Data Acquisition & Processing, 2002, 17(1):34-36.)
[14]BTTCHER S, CLARKE C, CORMACK G V. Information Re-trieval: Implementing and Evaluating Search Engines [M]. Cambridge, MA: MIT Press, 2010: 198-200.