吳曉陽
微博短文本檢索關(guān)鍵技術(shù)
吳曉陽
微博作為當(dāng)前使用非常廣泛的社交軟件已然成為了人們獲取實(shí)時(shí)信息的重要途徑之一,然而微博短文的自身特點(diǎn)使得其檢索的難度相應(yīng)增加,通過相應(yīng)的模型建立才能更好的將當(dāng)前所面臨的一系列檢索困難一一解決,最終幫助人們搜索到相應(yīng)的內(nèi)容,從而更好的獲取相關(guān)信息。
微博是一種通過關(guān)注機(jī)制分享簡短實(shí)時(shí)信息的廣播式的社交網(wǎng)絡(luò)平臺,用戶可以通過WEB、WAP等各種客戶端在微博網(wǎng)站建立個(gè)人社區(qū),以不超過140個(gè)字符的短文本消息來進(jìn)行實(shí)時(shí)信息的基本分享。近幾年使用手機(jī)、平板電腦等移動客戶端上網(wǎng)的用戶迅速增長,微博因其使用便捷、語言精煉并且信息量充足的特點(diǎn)而逐漸備受追捧,成為一種影響力巨大的新媒體形式,人們通過微博分享的信息作為當(dāng)前一項(xiàng)非常重要的實(shí)時(shí)信息來源。但同樣由于微博的消息限定為140個(gè)字,屬于典型的短文本內(nèi)容,具有數(shù)量龐大、書寫較隨意、主題相對雜亂并且實(shí)時(shí)性強(qiáng)等特點(diǎn),使傳統(tǒng)信息檢索技術(shù)在面對海量微博的檢索任務(wù)中遇到許多難題,如何解決這些問題成為了當(dāng)前微博短文檢索技術(shù)的關(guān)鍵所在。
實(shí)時(shí)性語言模型
語言模型作為檢索的最基本模型框架是非常重要的技術(shù)點(diǎn),而實(shí)時(shí)性語言模型的建立能有效的幫助更加全面搜索到相應(yīng)的微博文本信息。因?yàn)闀r(shí)間是提高檢索質(zhì)量的重要因素之一,有效的利用時(shí)間條件就能很好的提升檢索的準(zhǔn)確性,而實(shí)時(shí)性語言模型就是利用了這樣的一個(gè)技術(shù)原理。
微博因?yàn)槲谋径绦∷栽谝欢ǔ潭壬闲枰ㄟ^時(shí)間這樣一個(gè)元素進(jìn)行區(qū)分,而在當(dāng)前大部分的搜索引擎當(dāng)中,一般都是基于網(wǎng)頁中的關(guān)鍵詞頻率、鏈接、用戶評價(jià)計(jì)算權(quán)重來對該網(wǎng)頁文本進(jìn)行加權(quán),使得不同的網(wǎng)頁在檢索結(jié)果中具有不同的先驗(yàn)概率。這樣一來以微博文本的時(shí)間特性作為重要的查詢條件輸入到相應(yīng)檢索公式中就能使得檢索出來的信息更具有準(zhǔn)確性和針對性,從而也就更有可能滿足搜索人的相應(yīng)需求。
融入時(shí)間信息的查詢建模
之前已經(jīng)描述出了時(shí)間信息在微博文本檢索中的重要性,這也是基于微博這樣一種特殊的信息發(fā)布而形成的,所以良好的融入時(shí)間信息的查詢建模往往就能更為行之有效的達(dá)到相應(yīng)的檢索需求。而最終搜索到的相應(yīng)微博文本信息也就能縮小其廣度而增強(qiáng)其精度。
比方說通過利用微博文本的平均“年齡”來融入查詢檢索中,而文本年齡即與其提交的時(shí)間相關(guān)。將文本年齡作為計(jì)算因子加入到檢索排序公式之中,檢索后得到一個(gè)初始微博文本的列表,這樣就能更加精確的查詢出相應(yīng)的微博文本而極大的減輕了短小隨意而且實(shí)時(shí)性強(qiáng)等條件的干擾。
參考文檔模型建立的作用
微博因?yàn)樽謹(jǐn)?shù)限定所以大都為短文本,而這類文檔的檢索進(jìn)行時(shí)極易發(fā)生詞典問題,這就會直接導(dǎo)致搜索信息的不夠準(zhǔn)確使得搜索的難度增大,搜索者即便通過關(guān)鍵詞進(jìn)行查詢?nèi)耘f要花費(fèi)一定的時(shí)間再從檢索內(nèi)容中進(jìn)行區(qū)分,最終才能找到自己所需要的相應(yīng)微博內(nèi)容。這就極大的提升了搜索功能的使用難度并且?guī)磔^壞的體驗(yàn)感。
反饋技術(shù)作為檢索體現(xiàn)的根本技術(shù),基于早期仍存在著一定的問題,僅對查詢而不對文檔進(jìn)行反饋使得檢索結(jié)果寬泛而更具模糊性。同時(shí)利用的反饋源如果僅局限在待檢索的文檔集合本身,則會造成反饋中能夠使用的信息資源有限,這都會極大程度的影響到檢索結(jié)果達(dá)不到預(yù)期要求。而在參考文檔模型框架下對查詢和文檔同時(shí)進(jìn)行反饋建模,就能很好的解決相應(yīng)技術(shù)問題。
參考文檔模型建立的技術(shù)關(guān)鍵
參考文檔建模的主要方法是利用參考文檔,對查詢和待檢索文檔集合同時(shí)進(jìn)行反饋建模,所以在建模過程中,參考文檔本身具有非常重要的作用。在以前的一些檢索技術(shù)中一般會以檢索相同或者相近領(lǐng)域的文檔來作為最終的參考文檔,但是鑒于微博文本短小的特點(diǎn),這樣傳統(tǒng)的檢索方式往往就會使得檢索信息結(jié)果難以達(dá)到預(yù)期效果。
同時(shí),傳統(tǒng)技術(shù)的相應(yīng)特點(diǎn)往往容易形成偽反饋從而降低檢索反饋的精度,良好的將參考文檔進(jìn)行精確的選擇建立同時(shí)在偽反饋的基礎(chǔ)上優(yōu)化相關(guān)性,這樣就能更好的通過實(shí)時(shí)反饋進(jìn)行信息的檢索從而提升精確程度,最終讓檢索的內(nèi)容更加具有針對性。
在微博文本檢索中使用排序?qū)W習(xí)模型的重要性
傳統(tǒng)的檢索技術(shù)中,使用排序得到的結(jié)果往往比較簡單和粗糙,比如向量空間模型和語言模型等,但是基于文本的特性使得檢索仍舊能夠達(dá)到一定的精度,最終也不會產(chǎn)生太多檢索差異。但是對于微博文本的特點(diǎn)尤其是在近些年微博的使用越來越廣泛,形成的微博文檔的數(shù)量也變得越來越多,排序的簡單粗糙性就在一定程度上影響到了傳統(tǒng)檢索模型的搜索精度。
當(dāng)人們逐漸意識到了排序模型的重要性,開始采用排序?qū)W習(xí)方法,一項(xiàng)基于機(jī)器學(xué)習(xí)的新的學(xué)習(xí)方法。使用機(jī)器學(xué)習(xí)技術(shù)同時(shí)讓有標(biāo)注的數(shù)據(jù)自動學(xué)習(xí)一個(gè)排序模型,這樣就能讓檢索更加智能且具有時(shí)效性,最終幫助搜索結(jié)果更能符合檢索者的預(yù)期。
排序?qū)W習(xí)模型中特征抽取的相關(guān)問題
在建立排序?qū)W習(xí)模型的過程中,最關(guān)鍵的問題就是特征選擇,如何進(jìn)行特征選擇往往直接決定了檢索結(jié)果。而相應(yīng)的特征類別主要分為微博的相關(guān)性、微博用戶特征以及微博文本特征這三類,因此良好的將這三類特征嚴(yán)格區(qū)分并將相應(yīng)的數(shù)據(jù)結(jié)合進(jìn)入檢索公式當(dāng)中就能有效的完善排序?qū)W習(xí)模型的建立,提升檢索的精準(zhǔn)度。
所謂特征抽取一定不能僅僅關(guān)注三類特征中的一種,之前所提到了微博文本具有簡短而數(shù)量巨大的特征,所以只有良好的將三類特征進(jìn)行嚴(yán)格的區(qū)分規(guī)劃,最終結(jié)合起來檢索,這樣才能保證提升微博檢索的有效率。使用單個(gè)特征雖然能在一定程度上減少資源的消耗但極有可能帶來的就是最終的檢索結(jié)果往往并不能盡如人意。
微博作為當(dāng)前人們使用非常廣泛的社交軟件已經(jīng)成為了解實(shí)時(shí)信息的重要來源之一。但是文本簡單、實(shí)時(shí)性強(qiáng)等特點(diǎn)反而增加了微博短文的檢索難度,通過相應(yīng)的技術(shù)進(jìn)行良好有效的解決才能將這些問題逐一解決并最終更加完善的將相應(yīng)的微博信息搜索得出。通過增強(qiáng)和解決相應(yīng)的技術(shù)問題才能從根本上解決微博文本檢索困難、信息不夠準(zhǔn)確、達(dá)不到相應(yīng)檢索者需求的一系列問題。
10.3969/j.issn.1001-8972.2015.21.025