亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于語言模型的微博檢索技術

        2015-01-29 02:57:14王菁菁
        電子設計工程 2015年9期
        關鍵詞:模型

        潘 超,王菁菁

        (廈門大學 信息科學與技術學院,福建 廈門 361005)

        伴隨著社交網絡應用的出現(xiàn)和發(fā)展,微博以其平臺開放、內容簡潔和操作方便等特性,迅速發(fā)展成為近年來一個重要的社會媒體。通過微博這個平臺,人們可以獲得真實事件的第一手報道、分享信息并且表達自己獨特的觀點,參與話題討論等。迅速地,微博聚集了數(shù)以萬計的用戶,并成為寶貴的資源并吸引了大量的科學研究,包括微博檢索[1]、熱點話題識別[2]和摘要生成技術[3]。

        然而,與傳統(tǒng)的文本不同,微博文本有其獨特的特性:首先,微博文本內容限制140個字符,因此,微博文本比較簡短并出現(xiàn)了縮略語和新詞等;其次,微博文本可以包含特殊的標簽,例如標簽“@”,標簽后面加上用戶名可以讓對方收到提醒,對方通過鏈接,可以查看你的微博,再如標簽“#”表示特定的討論話題;如果有限的字符無法完整地表達觀點,用戶可以嵌入外部鏈接、視頻或圖片等。

        M.Efron[4]提出利用微博文本中的標簽來擴展檢索,M.Efron和 G.Golovchinsky[5]第一次提出了利用微博的時效性,目的是為了使近期發(fā)表的微博擁有更高的相關性,X.Li[6]基于時間的模型中,賦予每條微博先驗概率,代表每條微博的“新鮮度”。R.Jones[7]在整個生命周期內為每個查詢構造時間分布。然而,這些工作都沒有系統(tǒng)地將微博的特性融合到模型中。

        因此,本文基于語言模型并融合微博文本的特性,提出一種動態(tài)偽相關反饋模型(DPRF)。在給定查詢事件的情況下檢索相關微博,通過假設偽相關反饋的先驗概率是依賴于一個給定的查詢事件的發(fā)生周期和暴發(fā)周期,DPRF在每一個事件暴發(fā)周期內挑選出代表性的關鍵詞來擴展原始的查詢,從而能有效的代表原始查詢,提高檢索的準確率。實驗結果表明,該方法能提高和改善微博檢索的性能。

        1 檢索模型

        1.1 語言模型

        現(xiàn)代信息檢索中,語言模型方法在整個語料C的所有詞匯W上對每條微博d估計其概率分布θd,對每個查詢Q建模θQ,根據(jù)每條微博與查詢的似然值計算相關性得分,進而對結果排序。傳統(tǒng)的方法是計算從查詢生成文檔的概率,本文利用通過計算查詢與文檔之間的KL散度進行排序,如公式(1):

        其中,P(w|θQ)=,tf表示詞頻,在查詢擴展方法中,我們計算 P(w|θQ′)。

        然而,原始的查詢通常長度較短且所表達的意思模糊,并不能完全覆蓋潛在的信息需求。為了增強查詢的表達能力,我們利用查詢擴展技術生成新的高質量查詢Q′,來替代原來的查詢Q。在偽相關反饋方式中,假設通過原始查詢Q得到的前N個微博文檔d+其分布記作θF,我們簡單地使用線性的方式將原始查詢與θF相結合,如公式(2):

        其中,參數(shù)α來控制新舊查詢之間的相關度。

        接下來,闡述θF的推導。對于θF,相關性模型近似地把每個偽相關文檔看成查詢模型的一個抽樣。因此,相關性模型方法將θF上詞的分布定義為偽相關方式生成的詞的似然,如公式(3):

        其中,P(Q|d+)=∏q∈QP(q|d+)

        1.2 動態(tài)偽相關反饋

        在傳統(tǒng)的偽相關反饋技術中,先驗概率P(d+)通常為均勻分布。然而,這樣的假設在即時傳播媒如微博,并不能夠成立。例如“藥家鑫事件”,從事件曝光、藥家鑫依法被捕,案件開審,一審判決,二審判決、執(zhí)行死刑、最后引發(fā)社會評論,整個事件可以看成許多不同的階段,各個階段對應事件的不同進展和微博平臺上討論的爆發(fā)時段。我們首先假設前N個相關微博文檔d+的先驗概率僅依賴于它們到對應暴發(fā)時間段中心的距離td+。用φ={φ1……φX}表示某個查詢事件對應的K個暴發(fā)時間段,我們提出3種不同的概率函數(shù)來擬合暴發(fā)時間段的分布,這些概率函數(shù)采用不同的機制對暴發(fā)時間段的有效范圍、衰減系數(shù)和偏度進行建模。

        1)多重高斯分布

        假設其先驗概率是正態(tài)分布,每個暴發(fā)時間段的中心位置為其峰值位置。一條微博可能受到多個暴發(fā)時間的影響,并且在暴發(fā)時間段前與后的影響是對稱的,如公式(4):

        其中,參數(shù)σ是控制暴發(fā)點的影響范圍。

        2)近鄰多項式

        假設一條微博只受1個暴發(fā)時間的影響,且在暴發(fā)時間段前與后的影響是對稱的。對每一個微博文檔d+,選取到最近暴發(fā)時間點的最小距離,如公式(5):

        其中,r(d+,?k)某條微博文檔 d+到某一暴發(fā)時間點的最小距離,參數(shù)σ是控制暴發(fā)點的影響范圍。

        3)傾斜線線

        假設一條微博只受1個暴發(fā)時間的影響,且在暴發(fā)時間段前與后的影響是不對稱的,向前影響只影響到某個范圍。利用每個暴發(fā)時段的界限,如果文檔d+在某個暴發(fā)時段內,則

        否則,計算文檔d+離最近的在它之前的暴發(fā)時段的距離l,則

        其中,參數(shù)σ是控制暴發(fā)點的影響范圍,K表示暴發(fā)時間段的個數(shù)。

        2 實驗結果與分析

        本實驗的數(shù)據(jù)集來自新浪微博,我們使用新浪微博提供的API隨機選擇某一用戶,迭代地獲取它的粉絲與微博,從2009年8月14日到2012年5月28日共爬取30 198 929條微博,包括回復與轉發(fā)的微博,并且含有其它國家的字符,具體數(shù)據(jù)見表1。

        表1 數(shù)據(jù)集統(tǒng)計Tab.1 The statistic of dataset

        我們對提出的查詢擴展模型進行了驗證,在本次實驗中,我們使用了4個基本檢索模型,3個偽相關反饋模型和本文提出的動態(tài)偽相關反饋模型進行對比:

        1)Lucene:使用 Lucene 進行檢索;

        2)PL2:Terrier提供的一種語言模型;

        3)KLJM:計算文檔與查詢的KL散度,使用JM平滑防止未出現(xiàn)的詞項使得分為零,模型中的參數(shù)設置為0.5。

        4)RLM:一種融合時間特征的語言模型,主要目的為給每條微博文檔添加先驗概率,使得較近期出現(xiàn)的微博獲得較高的計算得分。

        5)Rocchio:一種偽相關反饋查詢擴展方法,使用Rocchio公式。本文使用RLM的結果列表作為候選集。

        6)Bo1:Terrier提供的偽相關反饋模型,使用PL2的結果列表作為候選集。

        7)KL:Terrier提供的偽相關反饋模型。

        8)DPRF:本文提出的動態(tài)偽相關反饋模型。

        如表2所示,與傳統(tǒng)的自然語言文本相比,微博具有自身獨特的特性,在語言模型中融合微博的這些特性能夠提高微博的檢索性能。同時,由于原始查詢語義表達的有限,查詢擴展方案能夠有效的進行補充,因此,PRF方法在原有的檢索模型上有一定的提升。而DPRF進一步結合了微博的特性,極大地提高了微博檢索的性能。

        表2 不同檢索模型的實驗結果Tab.2 Results of different retrieval model

        3 結束語

        文中融合了微博自身所具有的獨特特性,結合事件微博具有一定的暴發(fā)時間周期,提出動態(tài)偽相關反饋模型,實驗證明該模型在原有的基礎提高了檢索效果。信息檢索技術在傳統(tǒng)的文本上擁有成熟的技術,而微博文本作為互聯(lián)網時代的產物,給檢索研究工作帶來了新的挑戰(zhàn)。在未來的工作中,筆者將進一步挖掘微博的特性,提出更加有效的模型提高微博檢索的性能。

        [1]Efron M.Information search and retrieval in microblogs[J].J.Am.Soc.Inf.Sci.Technol.,2011,62:996-1008.

        [2]Mathioudakis M,Koudas N.Twitermonitor:trend detection over the twitter stream[J].In Proceedings of SIGMOD,2010:1155-1158.

        [3]Takamura H,Yokono H,Okumura M.Summarizing a document stream[J].In Proceedings of ECIR,2011:177-188.

        [4]Efron M.Hashtag retrieval in a microblogging environment[J].In Proceedings of SIGIR,2010:787-788.

        [5]Efron M,Golovchinsky G.Estimation methods for ranking recentinformation[J].In Proceedingsof SIGIR,2011:495-504.

        [6]Li X,Croft W B.Time-based language models[J].In Proceedings of CIKM,2003:469-475.

        [7]Jones R,Diaz F.Temporal profiles of queries[J].ACM Trans.Inf.Syst.,25,2007.

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        3D打印中的模型分割與打包
        国产av一区二区三区天美| 久久精品国波多野结衣| 亚洲AV秘 无码一区二区三区| 国产丝袜在线福利观看| 所有视频在线观看免费| 99久久精品午夜一区二区| 99久久久无码国产精品免费砚床 | 日本免费三片在线视频| 久久成人国产精品一区二区| 18分钟处破好疼哭视频在线观看| 深夜国产成人福利在线观看女同| 天堂av在线播放观看| 激情亚洲一区国产精品| 免费a级作爱片免费观看美国| 欧美激情αv一区二区三区| 国产av普通话对白国语| 麻豆视频在线播放观看| 中文字幕肉感巨大的乳专区 | 色综合色综合久久综合频道| 日韩有码在线免费视频| 免费观看a级片| 99久久久无码国产精品免费砚床| 午夜国产精品视频免费看电影| 高清在线有码日韩中文字幕| 成年女人黄小视频| 亚洲欧美国产日韩制服bt| 久久av一区二区三区下| 东京热日本av在线观看| 国产中文欧美日韩在线| 日批视频免费在线观看| 日本国产精品高清在线| 欧美激情综合色综合啪啪五月| 九九99无码精品视频在线观看| 亚洲色图视频在线播放| 国产亚洲精品视频一区二区三区| 国产精品成人久久电影| 精品国产免费久久久久久| 中文字幕亚洲乱码熟女1区2区| 成人中文乱幕日产无线码| 亚洲中文字幕无码爆乳av| 熟女人妻中文字幕一区|