摘 要:目前微博已經(jīng)成為人們獲取信息和發(fā)布信息的主要平臺,現(xiàn)有微博平臺的檢索功能只能依靠關鍵詞匹配返回檢索結果,檢索結果無法滿足用戶需求。為解決該問題,微博語義檢索正逐步成為微博信息資源檢索的主要研究內(nèi)容。該文主要介紹了近年來微博語義檢索的相關研究,最后總結微博語義檢索實現(xiàn)所涉及的相關問題并進行了探討。
關鍵詞:微博檢索 語義檢索 語義擴展
一 引言
隨著Web2.0時代的到來,“人人參與、信息共享”逐步成為當今網(wǎng)絡的主流,其中極具代表性的應用之一便是微博。微博(Microblog),即微型博客,Wiki上給出的定義是“微博是一種允許用戶及時更新簡短文本(通常少于140字)并可以公開發(fā)布的微型博客形式”微博作為一種新型的信息交流平臺,它集合各類信息交流媒體的優(yōu)點,信息傳播更加及時,內(nèi)容更加簡潔,與傳統(tǒng)信息交流媒體相比,已逐漸成為人們傳播和檢索信息的重要平臺之一。
CNNIC發(fā)布的最新報告指出,截至2017年12月,,微博作為社交媒體,其月活躍用戶達到3.76億,用戶使用率持續(xù)增長達到40.9%,較2016年12月上升3.8個百分點,微博平臺每日新增微博數(shù)量已遠超過1億條,微博用戶每日的主動搜索量已突破2億。[1]可見,微博平臺上聚集有大量的文本信息資源和龐大的用戶群體。用戶如何從海量的微博信息資源中準確、全面、高效地獲取滿足自身需求的信息,是目前亟待解決的問題。
傳統(tǒng)的微博檢索方式大多是基于關鍵詞的檢索,其結果基本是字面意義上的匹配,這樣嚴重割裂了字詞之間的語義關聯(lián),查準率和查全率兩方面的檢索結果都不太理想,很難滿足各類用戶的多樣化需求。微博語義檢索是解決這個矛盾的主要方法之一。語義檢索能從語義角度理解用戶查詢與微博信息資源,實現(xiàn)概念上的匹配,以得到用戶真正想要的信息。
二、微博語義檢索研究現(xiàn)狀
現(xiàn)階段有關微博信息檢索方面的研究逐步開始獲得越來越多的人的關注,但在微博語義方面的檢索研究大體還處于初步階段。
(一)語義查詢擴展的微博檢索
針對傳統(tǒng)基于關鍵詞匹配搜索方法的局限性,提出了基于語義查詢擴展的微博檢索策略,利用潛在語義分析和TF-IDF兩個指標判定詞語的主題相關性、描述能力和辨別能力,運用KL距離獲取候選詞與查詢詞之間的相似程度,進而進行查詢擴展;最后根據(jù)詞語的權重向量,運用余弦公式對檢索得到的文檔進行相關性排序。[2]
此方法較基于傳統(tǒng)關鍵詞匹配的方法得到了較大改善,但語義僅停留在淺層的語義層面,對于深層次推理層面的語義研究并未涉及,可看作為從關鍵詞搜索到語義網(wǎng)搜索的過渡方法。
(二) RDF/XML的微博知識表達與語義檢索
通過對新浪微博數(shù)據(jù)進行分析,設計合適的資源描述框架(Resource Description Framework,RDF)結構,將其轉換為富含語義關系的RDF格式,構建合適的RDF結構圖。將其存儲在Virtuoso數(shù)據(jù)庫中并通過SPARQL查詢語言實現(xiàn)對微博數(shù)據(jù)的語義查詢。[3]
此方法為微博數(shù)據(jù)的語義轉換與檢索提供了借鑒,在網(wǎng)絡輿情監(jiān)控方面也具有重要的實用意義。但是在建構微博RDF結構圖時選用的信息具有一定程度上的主觀性,需進一步對微博自身內(nèi)容進行自然語言處理和語義標識,以豐富語義查詢的內(nèi)容。
(三) HowNet的微博文本語義檢索
知網(wǎng)(HowNet)被定義為:以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內(nèi)容的常識知識庫。[4]基于HowNet將用戶輸入的檢索詞與微博短文本進行語義相關度計算,以此來實現(xiàn)微博語義檢索。
此方法能夠從高級語義和知識庫系統(tǒng)角度對用戶的查詢意圖和微博文本進行匹配,檢索效果較好,但在大數(shù)據(jù)背景下,其計算效率還有待進一步提升。此外,目前微博平臺已不再是單純的文字信息,同時可發(fā)布圖像、音樂和視頻等多媒體信息,這就為微博的語義檢索帶來了更大的挑戰(zhàn)。
(四)潛在語義與圖結構的微博語義檢索
降低微博語義檢索效率的原因主要有微博文本短小、特征稀疏、存在與用戶查詢之間的語義鴻溝。通過引入Wikipedia語料庫和DBpedia知識庫為短文提供豐富、準確的語義知識,從Hashtag、普通文本背后隱藏的主題以及實體三方面出發(fā),提出一個基于特征、主題模型和圖結構的綜合語義檢索模型。[5]
此檢索模型具有較好檢索性能,但由于實體的比較對微博語義搜索的結果具有很大的影響,且DBpedia的關系復雜多樣,此模型只簡單地利用實體之間的關系,未考慮屬性傳遞、權重等因素。
(五)通用本體構建的微博語義檢索
本體是共享概念模型的明確的形式化規(guī)范說明。頂級本體又稱通用本體,是描述最普遍的概念及概念之間的關系,不同領域之間可以共享的概念和知識。由于微博語義檢索是檢索不同領域、不同教育水平的所有微博用戶發(fā)布的微博文本信息,故選用頂級本體作為知識庫。用戶輸入檢索條件后,與本體庫中的概念進行映射,對檢索條件進行查詢擴展;利用本體庫中概念之間的語義關系,對微博短文本的特征進行擴展與選擇;微博短文本通過倒排索引構建索引庫與查詢擴展后的索引條件進行匹配實現(xiàn)微博語義檢索。[6]
此方法將通用本體引入微博信息檢索中,既可對用戶的查詢進行有效擴展,又可以解決微博短文本特征稀疏性問題對微博短文本特征進行擴展與選擇,提高了微博檢索效率。
三 微博語義檢索實現(xiàn)要解決的相關問題
(一)微博短文本特征選擇問題
為了降低微博短文本特征稀疏性的問題,現(xiàn)階段大多采用短文本特征擴展方法,與此同時將會為微博短文帶來很多冗余信息與噪聲[7]。
(二)字數(shù)擴展問題
2016年11月微博將用戶發(fā)布的字數(shù)限制擴大到2000字以內(nèi),這樣使得微博不僅存在短文本還有長文本,微博短文本的預處理方法將不再完全適用。
(三)實時檢索與跨媒體檢索問題
現(xiàn)如今微博信息生產(chǎn)數(shù)量巨大、更新速度飛快,且信息類型多種多樣,如圖像、視頻、音頻等,用戶對檢索信息時效性和多樣化提出了更高的要求。
四 總結
在信息化社會大背景下,微博信息資源呈爆炸式增長,用戶對微博信息檢索結果的要求也越來越高。本文通過對現(xiàn)階段有關微博語義檢索的研究情況進行梳理,總結出了微博語義檢索需要解決的若干問題。
參考文獻:
[1]中國互聯(lián)網(wǎng)絡信息中心. 第41次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告[R].[2018-1-31]. http://cnnic.cn/gywm/xwzx/rdxw/201801/t20180131_ 70188.html
[2]唐曉波,房小可. 基于語義查詢擴展的微博檢索[J].情報資料工作,2014(2):34-38
[3]羅凌云,史淼,陽小華,等. 基于RDF/XML的微博知識表達與語義檢索系統(tǒng)[J].南華大學學報(自然科學版),2014(4):56-60
[4]王李冬,張慧熙. 基于HowNet的微博文本語義檢索研究[J]. 情報科學,2016(9):134-137
[5]肖寶,李璞,胡嬌嬌,等. 基于潛在語義與圖結構的微博語義檢索[J]. 計算機工程,2017(6):183-188
[6]許彤陽,尹凱. 大數(shù)據(jù)背景下微博語義檢索[J]. 情報雜志,2017(12):174-179
[7]Liu Zitao,Yuwenchao,Chen Wei,et al. Short text feature selection and classification for microblog mining[C]//Proceedings of Internatinal Conference on Computational Intelligence and Software Engineering.Wuhan:ACM,2010:1-4.
作者簡介:
李玲(1998-) 女 漢 河北省南宮市 本科 河北大學管理學院
主要研究方向:圖書情報