潘 超,王菁菁
(廈門大學 信息科學與技術學院,福建 廈門 361005)
伴隨著社交網絡應用的出現(xiàn)和發(fā)展,微博以其平臺開放、內容簡潔和操作方便等特性,迅速發(fā)展成為近年來一個重要的社會媒體。通過微博這個平臺,人們可以獲得真實事件的第一手報道、分享信息并且表達自己獨特的觀點,參與話題討論等。迅速地,微博聚集了數(shù)以萬計的用戶,并成為寶貴的資源并吸引了大量的科學研究,包括微博檢索[1]、熱點話題識別[2]和摘要生成技術[3]。
然而,與傳統(tǒng)的文本不同,微博文本有其獨特的特性:首先,微博文本內容限制140個字符,因此,微博文本比較簡短并出現(xiàn)了縮略語和新詞等;其次,微博文本可以包含特殊的標簽,例如標簽“@”,標簽后面加上用戶名可以讓對方收到提醒,對方通過鏈接,可以查看你的微博,再如標簽“#”表示特定的討論話題;如果有限的字符無法完整地表達觀點,用戶可以嵌入外部鏈接、視頻或圖片等。
M.Efron[4]提出利用微博文本中的標簽來擴展檢索,M.Efron和 G.Golovchinsky[5]第一次提出了利用微博的時效性,目的是為了使近期發(fā)表的微博擁有更高的相關性,X.Li[6]基于時間的模型中,賦予每條微博先驗概率,代表每條微博的“新鮮度”。R.Jones[7]在整個生命周期內為每個查詢構造時間分布。然而,這些工作都沒有系統(tǒng)地將微博的特性融合到模型中。
因此,本文基于語言模型并融合微博文本的特性,提出一種動態(tài)偽相關反饋模型(DPRF)。在給定查詢事件的情況下檢索相關微博,通過假設偽相關反饋的先驗概率是依賴于一個給定的查詢事件的發(fā)生周期和暴發(fā)周期,DPRF在每一個事件暴發(fā)周期內挑選出代表性的關鍵詞來擴展原始的查詢,從而能有效的代表原始查詢,提高檢索的準確率。實驗結果表明,該方法能提高和改善微博檢索的性能。
現(xiàn)代信息檢索中,語言模型方法在整個語料C的所有詞匯W上對每條微博d估計其概率分布θd,對每個查詢Q建模θQ,根據(jù)每條微博與查詢的似然值計算相關性得分,進而對結果排序。傳統(tǒng)的方法是計算從查詢生成文檔的概率,本文利用通過計算查詢與文檔之間的KL散度進行排序,如公式(1):
其中,P(w|θQ)=,tf表示詞頻,在查詢擴展方法中,我們計算 P(w|θQ′)。
然而,原始的查詢通常長度較短且所表達的意思模糊,并不能完全覆蓋潛在的信息需求。為了增強查詢的表達能力,我們利用查詢擴展技術生成新的高質量查詢Q′,來替代原來的查詢Q。在偽相關反饋方式中,假設通過原始查詢Q得到的前N個微博文檔d+其分布記作θF,我們簡單地使用線性的方式將原始查詢與θF相結合,如公式(2):
其中,參數(shù)α來控制新舊查詢之間的相關度。
接下來,闡述θF的推導。對于θF,相關性模型近似地把每個偽相關文檔看成查詢模型的一個抽樣。因此,相關性模型方法將θF上詞的分布定義為偽相關方式生成的詞的似然,如公式(3):
其中,P(Q|d+)=∏q∈QP(q|d+)
在傳統(tǒng)的偽相關反饋技術中,先驗概率P(d+)通常為均勻分布。然而,這樣的假設在即時傳播媒如微博,并不能夠成立。例如“藥家鑫事件”,從事件曝光、藥家鑫依法被捕,案件開審,一審判決,二審判決、執(zhí)行死刑、最后引發(fā)社會評論,整個事件可以看成許多不同的階段,各個階段對應事件的不同進展和微博平臺上討論的爆發(fā)時段。我們首先假設前N個相關微博文檔d+的先驗概率僅依賴于它們到對應暴發(fā)時間段中心的距離td+。用φ={φ1……φX}表示某個查詢事件對應的K個暴發(fā)時間段,我們提出3種不同的概率函數(shù)來擬合暴發(fā)時間段的分布,這些概率函數(shù)采用不同的機制對暴發(fā)時間段的有效范圍、衰減系數(shù)和偏度進行建模。
1)多重高斯分布
假設其先驗概率是正態(tài)分布,每個暴發(fā)時間段的中心位置為其峰值位置。一條微博可能受到多個暴發(fā)時間的影響,并且在暴發(fā)時間段前與后的影響是對稱的,如公式(4):
其中,參數(shù)σ是控制暴發(fā)點的影響范圍。
2)近鄰多項式
假設一條微博只受1個暴發(fā)時間的影響,且在暴發(fā)時間段前與后的影響是對稱的。對每一個微博文檔d+,選取到最近暴發(fā)時間點的最小距離,如公式(5):
其中,r(d+,?k)某條微博文檔 d+到某一暴發(fā)時間點的最小距離,參數(shù)σ是控制暴發(fā)點的影響范圍。
3)傾斜線線
假設一條微博只受1個暴發(fā)時間的影響,且在暴發(fā)時間段前與后的影響是不對稱的,向前影響只影響到某個范圍。利用每個暴發(fā)時段的界限,如果文檔d+在某個暴發(fā)時段內,則
否則,計算文檔d+離最近的在它之前的暴發(fā)時段的距離l,則
其中,參數(shù)σ是控制暴發(fā)點的影響范圍,K表示暴發(fā)時間段的個數(shù)。
本實驗的數(shù)據(jù)集來自新浪微博,我們使用新浪微博提供的API隨機選擇某一用戶,迭代地獲取它的粉絲與微博,從2009年8月14日到2012年5月28日共爬取30 198 929條微博,包括回復與轉發(fā)的微博,并且含有其它國家的字符,具體數(shù)據(jù)見表1。
表1 數(shù)據(jù)集統(tǒng)計Tab.1 The statistic of dataset
我們對提出的查詢擴展模型進行了驗證,在本次實驗中,我們使用了4個基本檢索模型,3個偽相關反饋模型和本文提出的動態(tài)偽相關反饋模型進行對比:
1)Lucene:使用 Lucene 進行檢索;
2)PL2:Terrier提供的一種語言模型;
3)KLJM:計算文檔與查詢的KL散度,使用JM平滑防止未出現(xiàn)的詞項使得分為零,模型中的參數(shù)設置為0.5。
4)RLM:一種融合時間特征的語言模型,主要目的為給每條微博文檔添加先驗概率,使得較近期出現(xiàn)的微博獲得較高的計算得分。
5)Rocchio:一種偽相關反饋查詢擴展方法,使用Rocchio公式。本文使用RLM的結果列表作為候選集。
6)Bo1:Terrier提供的偽相關反饋模型,使用PL2的結果列表作為候選集。
7)KL:Terrier提供的偽相關反饋模型。
8)DPRF:本文提出的動態(tài)偽相關反饋模型。
如表2所示,與傳統(tǒng)的自然語言文本相比,微博具有自身獨特的特性,在語言模型中融合微博的這些特性能夠提高微博的檢索性能。同時,由于原始查詢語義表達的有限,查詢擴展方案能夠有效的進行補充,因此,PRF方法在原有的檢索模型上有一定的提升。而DPRF進一步結合了微博的特性,極大地提高了微博檢索的性能。
表2 不同檢索模型的實驗結果Tab.2 Results of different retrieval model
文中融合了微博自身所具有的獨特特性,結合事件微博具有一定的暴發(fā)時間周期,提出動態(tài)偽相關反饋模型,實驗證明該模型在原有的基礎提高了檢索效果。信息檢索技術在傳統(tǒng)的文本上擁有成熟的技術,而微博文本作為互聯(lián)網時代的產物,給檢索研究工作帶來了新的挑戰(zhàn)。在未來的工作中,筆者將進一步挖掘微博的特性,提出更加有效的模型提高微博檢索的性能。
[1]Efron M.Information search and retrieval in microblogs[J].J.Am.Soc.Inf.Sci.Technol.,2011,62:996-1008.
[2]Mathioudakis M,Koudas N.Twitermonitor:trend detection over the twitter stream[J].In Proceedings of SIGMOD,2010:1155-1158.
[3]Takamura H,Yokono H,Okumura M.Summarizing a document stream[J].In Proceedings of ECIR,2011:177-188.
[4]Efron M.Hashtag retrieval in a microblogging environment[J].In Proceedings of SIGIR,2010:787-788.
[5]Efron M,Golovchinsky G.Estimation methods for ranking recentinformation[J].In Proceedingsof SIGIR,2011:495-504.
[6]Li X,Croft W B.Time-based language models[J].In Proceedings of CIKM,2003:469-475.
[7]Jones R,Diaz F.Temporal profiles of queries[J].ACM Trans.Inf.Syst.,25,2007.