亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于語言模型的微博檢索技術

2015-01-29 02:57:14王菁菁

電子設計工程 2015年9期

關鍵詞：模型

潘超，王菁菁

（廈門大學信息科學與技術學院，福建廈門 361005）

伴隨著社交網絡應用的出現(xiàn)和發(fā)展，微博以其平臺開放、內容簡潔和操作方便等特性，迅速發(fā)展成為近年來一個重要的社會媒體。通過微博這個平臺，人們可以獲得真實事件的第一手報道、分享信息并且表達自己獨特的觀點，參與話題討論等。迅速地，微博聚集了數(shù)以萬計的用戶，并成為寶貴的資源并吸引了大量的科學研究，包括微博檢索[1]、熱點話題識別[2]和摘要生成技術[3]。

然而，與傳統(tǒng)的文本不同，微博文本有其獨特的特性：首先，微博文本內容限制140個字符，因此，微博文本比較簡短并出現(xiàn)了縮略語和新詞等；其次，微博文本可以包含特殊的標簽，例如標簽“@”，標簽后面加上用戶名可以讓對方收到提醒，對方通過鏈接，可以查看你的微博，再如標簽“#”表示特定的討論話題；如果有限的字符無法完整地表達觀點，用戶可以嵌入外部鏈接、視頻或圖片等。

M.Efron[4]提出利用微博文本中的標簽來擴展檢索，M.Efron和 G.Golovchinsky[5]第一次提出了利用微博的時效性，目的是為了使近期發(fā)表的微博擁有更高的相關性，X.Li[6]基于時間的模型中，賦予每條微博先驗概率，代表每條微博的“新鮮度”。R.Jones[7]在整個生命周期內為每個查詢構造時間分布。然而，這些工作都沒有系統(tǒng)地將微博的特性融合到模型中。

因此，本文基于語言模型并融合微博文本的特性，提出一種動態(tài)偽相關反饋模型（DPRF）。在給定查詢事件的情況下檢索相關微博，通過假設偽相關反饋的先驗概率是依賴于一個給定的查詢事件的發(fā)生周期和暴發(fā)周期，DPRF在每一個事件暴發(fā)周期內挑選出代表性的關鍵詞來擴展原始的查詢，從而能有效的代表原始查詢，提高檢索的準確率。實驗結果表明，該方法能提高和改善微博檢索的性能。

1 檢索模型

1.1 語言模型

現(xiàn)代信息檢索中，語言模型方法在整個語料C的所有詞匯W上對每條微博d估計其概率分布θd，對每個查詢Q建模θQ，根據(jù)每條微博與查詢的似然值計算相關性得分，進而對結果排序。傳統(tǒng)的方法是計算從查詢生成文檔的概率，本文利用通過計算查詢與文檔之間的KL散度進行排序，如公式（1）：

其中，P（w|θQ）=，tf表示詞頻，在查詢擴展方法中，我們計算 P（w|θQ′）。

然而，原始的查詢通常長度較短且所表達的意思模糊，并不能完全覆蓋潛在的信息需求。為了增強查詢的表達能力，我們利用查詢擴展技術生成新的高質量查詢Q′，來替代原來的查詢Q。在偽相關反饋方式中，假設通過原始查詢Q得到的前N個微博文檔d+其分布記作θF，我們簡單地使用線性的方式將原始查詢與θF相結合，如公式（2）：

其中，參數(shù)α來控制新舊查詢之間的相關度。

接下來，闡述θF的推導。對于θF，相關性模型近似地把每個偽相關文檔看成查詢模型的一個抽樣。因此，相關性模型方法將θF上詞的分布定義為偽相關方式生成的詞的似然，如公式（3）：

其中，P（Q|d+）=∏q∈QP（q|d+）

1.2 動態(tài)偽相關反饋

在傳統(tǒng)的偽相關反饋技術中，先驗概率P（d+）通常為均勻分布。然而，這樣的假設在即時傳播媒如微博，并不能夠成立。例如“藥家鑫事件”，從事件曝光、藥家鑫依法被捕，案件開審，一審判決，二審判決、執(zhí)行死刑、最后引發(fā)社會評論，整個事件可以看成許多不同的階段，各個階段對應事件的不同進展和微博平臺上討論的爆發(fā)時段。我們首先假設前N個相關微博文檔d+的先驗概率僅依賴于它們到對應暴發(fā)時間段中心的距離td+。用φ={φ1……φX}表示某個查詢事件對應的K個暴發(fā)時間段，我們提出3種不同的概率函數(shù)來擬合暴發(fā)時間段的分布，這些概率函數(shù)采用不同的機制對暴發(fā)時間段的有效范圍、衰減系數(shù)和偏度進行建模。

1）多重高斯分布

假設其先驗概率是正態(tài)分布，每個暴發(fā)時間段的中心位置為其峰值位置。一條微博可能受到多個暴發(fā)時間的影響，并且在暴發(fā)時間段前與后的影響是對稱的，如公式（4）：

其中，參數(shù)σ是控制暴發(fā)點的影響范圍。

2）近鄰多項式

假設一條微博只受1個暴發(fā)時間的影響，且在暴發(fā)時間段前與后的影響是對稱的。對每一個微博文檔d+，選取到最近暴發(fā)時間點的最小距離，如公式（5）：

其中，r（d+，?k）某條微博文檔 d+到某一暴發(fā)時間點的最小距離，參數(shù)σ是控制暴發(fā)點的影響范圍。

3）傾斜線線

假設一條微博只受1個暴發(fā)時間的影響，且在暴發(fā)時間段前與后的影響是不對稱的，向前影響只影響到某個范圍。利用每個暴發(fā)時段的界限，如果文檔d+在某個暴發(fā)時段內，則

否則，計算文檔d+離最近的在它之前的暴發(fā)時段的距離l，則

其中，參數(shù)σ是控制暴發(fā)點的影響范圍，K表示暴發(fā)時間段的個數(shù)。

2 實驗結果與分析

本實驗的數(shù)據(jù)集來自新浪微博，我們使用新浪微博提供的API隨機選擇某一用戶，迭代地獲取它的粉絲與微博，從2009年8月14日到2012年5月28日共爬取30 198 929條微博，包括回復與轉發(fā)的微博，并且含有其它國家的字符，具體數(shù)據(jù)見表1。

表1 數(shù)據(jù)集統(tǒng)計Tab.1 The statistic of dataset

我們對提出的查詢擴展模型進行了驗證，在本次實驗中，我們使用了4個基本檢索模型，3個偽相關反饋模型和本文提出的動態(tài)偽相關反饋模型進行對比：

1）Lucene：使用 Lucene 進行檢索；

2）PL2：Terrier提供的一種語言模型；

3）KLJM：計算文檔與查詢的KL散度，使用JM平滑防止未出現(xiàn)的詞項使得分為零，模型中的參數(shù)設置為0.5。

4）RLM：一種融合時間特征的語言模型，主要目的為給每條微博文檔添加先驗概率，使得較近期出現(xiàn)的微博獲得較高的計算得分。

5）Rocchio：一種偽相關反饋查詢擴展方法，使用Rocchio公式。本文使用RLM的結果列表作為候選集。

6）Bo1：Terrier提供的偽相關反饋模型，使用PL2的結果列表作為候選集。

7）KL：Terrier提供的偽相關反饋模型。

8）DPRF：本文提出的動態(tài)偽相關反饋模型。

如表2所示，與傳統(tǒng)的自然語言文本相比，微博具有自身獨特的特性，在語言模型中融合微博的這些特性能夠提高微博的檢索性能。同時，由于原始查詢語義表達的有限，查詢擴展方案能夠有效的進行補充，因此，PRF方法在原有的檢索模型上有一定的提升。而DPRF進一步結合了微博的特性，極大地提高了微博檢索的性能。

表2 不同檢索模型的實驗結果Tab.2 Results of different retrieval model

3 結束語

文中融合了微博自身所具有的獨特特性，結合事件微博具有一定的暴發(fā)時間周期，提出動態(tài)偽相關反饋模型，實驗證明該模型在原有的基礎提高了檢索效果。信息檢索技術在傳統(tǒng)的文本上擁有成熟的技術，而微博文本作為互聯(lián)網時代的產物，給檢索研究工作帶來了新的挑戰(zhàn)。在未來的工作中，筆者將進一步挖掘微博的特性，提出更加有效的模型提高微博檢索的性能。

[1]Efron M.Information search and retrieval in microblogs[J].J.Am.Soc.Inf.Sci.Technol.，2011，62:996-1008.

[2]Mathioudakis M，Koudas N.Twitermonitor:trend detection over the twitter stream[J].In Proceedings of SIGMOD，2010：1155-1158.

[3]Takamura H，Yokono H，Okumura M.Summarizing a document stream[J].In Proceedings of ECIR，2011：177-188.

[4]Efron M.Hashtag retrieval in a microblogging environment[J].In Proceedings of SIGIR，2010：787-788.

[5]Efron M，Golovchinsky G.Estimation methods for ranking recentinformation[J].In Proceedingsof SIGIR，2011：495-504.

[6]Li X，Croft W B.Time-based language models[J].In Proceedings of CIKM，2003：469-475.

[7]Jones R，Diaz F.Temporal profiles of queries[J].ACM Trans.Inf.Syst.，25，2007.