遼寧對(duì)外經(jīng)貿(mào)學(xué)院信息管理系 李志曉
微博搜索技術(shù)及隱私安全問(wèn)題的研究
遼寧對(duì)外經(jīng)貿(mào)學(xué)院信息管理系 李志曉
通過(guò)與谷歌搜索進(jìn)行比較研究,找出微博搜索技術(shù)的優(yōu)缺點(diǎn),并提出了利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)來(lái)提高微博搜索的多樣性和準(zhǔn)確性。同時(shí)分析了微博用戶個(gè)人隱私安全問(wèn)題的泄露途徑和保護(hù)途徑,以及微博實(shí)名制的必要性。
谷歌搜索;網(wǎng)絡(luò)爬蟲(chóng);隱私安全
目前,有很多重要的時(shí)事熱點(diǎn)事件都是由微博最先進(jìn)行報(bào)道的。微博搜索技術(shù)發(fā)展的重要性不言而喻。其實(shí)微博在搜索和查詢方面都具獨(dú)特的特征,微博搜索技術(shù)其實(shí)是屬于信息檢索技術(shù)領(lǐng)域的,或者說(shuō)是屬于文本檢索的范疇,這也是近段間以來(lái)的研究熱點(diǎn)之一。微博就是一個(gè)由大量文檔數(shù)據(jù)組成的被檢索語(yǔ)料庫(kù),根據(jù)用戶提供的檢索詞,經(jīng)過(guò)檢索模型對(duì)文檔數(shù)據(jù)庫(kù)中相近的語(yǔ)義詞進(jìn)行對(duì)比,最后將結(jié)果按照升降順序返回給用戶。但是,由于微博搜索技術(shù)缺少對(duì)商業(yè)智能的支撐,簡(jiǎn)單的來(lái)說(shuō)就是現(xiàn)在的微博搜索技術(shù)基本是把傳統(tǒng)網(wǎng)頁(yè)搜索的基礎(chǔ)內(nèi)容進(jìn)行了克隆,缺少對(duì)信息的挖掘整理,且微博的搜索結(jié)果和搜索范圍也僅僅只限于微博本身,因此用戶需要耗費(fèi)大量的時(shí)間精力去對(duì)匹配結(jié)果進(jìn)行歸納提煉,才能獲取到最終所需的信息。經(jīng)常會(huì)導(dǎo)致用戶感到困難并且對(duì)檢索結(jié)果不滿。
為了更好的挖掘微博搜索技術(shù)的問(wèn)題,本文將搜索引擎中其中比較重要的三點(diǎn)與相對(duì)比較成熟的搜索機(jī)制比如谷歌搜索,進(jìn)行比較思考從而為微博搜索的進(jìn)一步發(fā)展提供意見(jiàn)。
2.1 熱門(mén)搜索列表的比較
隨著計(jì)算機(jī)行業(yè)的快速發(fā)展,網(wǎng)絡(luò)信息量直線增長(zhǎng),為了掌握最新最有用的熱門(mén)信息,提供熱門(mén)信息列表讓用戶方便的獲取最新信息也是很有必要的。通過(guò)對(duì)微博熱門(mén)列表和谷歌熱門(mén)列表進(jìn)行比較分析,可以看新浪微博作為時(shí)效性強(qiáng)的搜索引擎網(wǎng)站,不管你處在任何頁(yè)面都能夠看到"發(fā)現(xiàn)"的這個(gè)功能,單擊就能看見(jiàn)熱門(mén)列表的存在,而谷歌搜索在熱門(mén)列表的體現(xiàn)則比新浪微博豐富很多,不僅包含熱門(mén)搜索詞并且還對(duì)熱門(mén)信息進(jìn)行了分類,為用戶提供了方便的服務(wù)。但是在建立熱門(mén)列表時(shí)一定要注意的是在一定程度上要幫助用戶過(guò)濾垃圾信息。因此檢索系統(tǒng)需要開(kāi)發(fā)專門(mén)的篩選器,在信息進(jìn)入到語(yǔ)義搜索之前用這個(gè)篩選器篩選掉可疑的垃圾信息,并對(duì)搜索出的結(jié)果進(jìn)行整合。
2.2 搜索提示與結(jié)果的比較
對(duì)于缺少搜索經(jīng)驗(yàn)和搜索詞不明確的用戶來(lái)說(shuō),在搜索過(guò)程中不可或缺的會(huì)有探索式的搜索過(guò)程,然后在過(guò)程中不斷發(fā)現(xiàn)自己的信息需求。所以說(shuō)檢索提示對(duì)一個(gè)搜索引擎來(lái)說(shuō)是至關(guān)重要的。當(dāng)用戶輸搜索詞時(shí)在檢索框中會(huì)相應(yīng)顯示出與搜索詞相關(guān)的最熱門(mén)搜索條目并進(jìn)行實(shí)時(shí)排序,這樣不僅能減少用戶輸入耗費(fèi)時(shí)間而且同時(shí)也是熱門(mén)列表的另一種表現(xiàn)方式。
用戶在搜索過(guò)程中難免會(huì)出現(xiàn)輸入錯(cuò)別字或在不注意的情況下輸入拼音的情況,從而導(dǎo)致搜索結(jié)果不理想。先說(shuō)新浪搜索,當(dāng)你輸入錯(cuò)別字后它便不會(huì)出現(xiàn)檢索提示了,而是在搜索結(jié)果會(huì)自動(dòng)給出"你要搜的是不是XXX"內(nèi)容,而谷歌搜索則在用戶輸入錯(cuò)別字時(shí)自動(dòng)顯示出搜索提示來(lái)幫助用戶進(jìn)行錯(cuò)別字糾正,從而幫助用戶獲取正確的搜索信息。可以發(fā)現(xiàn)谷歌搜索提供了錯(cuò)別字糾正的功能而微博搜索并沒(méi)與實(shí)現(xiàn)這一點(diǎn)。
"網(wǎng)絡(luò)爬蟲(chóng)"也可以叫做蜘蛛程序。爬蟲(chóng)是搜索引擎中的重要組成部分,它可以自動(dòng)的對(duì)網(wǎng)頁(yè)程序進(jìn)行抓取并且同時(shí)獲得網(wǎng)頁(yè)的鏈接地址,然后從網(wǎng)站的首頁(yè)開(kāi)始對(duì)網(wǎng)頁(yè)的內(nèi)容進(jìn)行讀取并獲得另一個(gè)網(wǎng)頁(yè)的鏈接地址,就這樣不停的從一個(gè)站點(diǎn)移動(dòng)至另外的站點(diǎn),直到把網(wǎng)站的所有內(nèi)容抓取盡為止。所以它對(duì)一個(gè)搜索引擎的的查準(zhǔn)率和搜索詞提示率都起著重大的作用。在微博中想要加入爬蟲(chóng)技術(shù)需要設(shè)置入口網(wǎng)站地址,爬蟲(chóng)通過(guò)一定的方法將網(wǎng)頁(yè)的源代碼以文檔的形式保存在微博引擎中,然后以匹配邏輯繼續(xù)提取下面的網(wǎng)頁(yè)地址再次進(jìn)行保存。當(dāng)滿足一定條件時(shí),爬蟲(chóng)停止工作。利用網(wǎng)絡(luò)爬蟲(chóng)的主動(dòng)性和智能性來(lái)解決微博搜索目前面臨的問(wèn)題。
3.1 增加搜索結(jié)果的多樣性
微博目前的搜索技術(shù)在運(yùn)行中沒(méi)有辦法發(fā)現(xiàn)網(wǎng)頁(yè)中的信息的規(guī)律和關(guān)鍵字,缺乏一定的智能性。所以在微博中需要建立較完整的的資料庫(kù),以便爬蟲(chóng)來(lái)獲取關(guān)鍵信息。比如建立一個(gè)基于微博搜索的媒體新聞網(wǎng)站爬蟲(chóng)模型,讓微博搜索引擎通過(guò)爬蟲(chóng)技術(shù)與相對(duì)成熟的新聞網(wǎng)站建立聯(lián)系。再建立時(shí)間的限制,讓微博的爬蟲(chóng)接口獲取最新的微博和新聞,因?yàn)樾侣劸W(wǎng)站的信息來(lái)源廣、具備比較高的參考價(jià)值,且每條新聞的發(fā)布都有一個(gè)后臺(tái)支撐著,這樣確保不存在過(guò)多垃圾信息,完全圍繞事件進(jìn)行微博發(fā)布,緊扣信息主題,不存在虛假和謠言信息。因此利用爬蟲(chóng)建立網(wǎng)站聯(lián)系,可以對(duì)這些信息進(jìn)行聚類,增加了消息的可靠性和準(zhǔn)確性的同時(shí)也增加了微博搜索結(jié)果的多樣性。
3.2 增加搜索結(jié)果的準(zhǔn)確性
由于微博搜索的特殊性,所以關(guān)鍵字搜索在微博搜索引擎中就顯得尤為重要。在對(duì)微博主題進(jìn)行爬蟲(chóng)時(shí),需要構(gòu)建關(guān)鍵詞詞庫(kù)來(lái)幫助爬蟲(chóng)對(duì)系統(tǒng)的微博信息進(jìn)行爬取,增加搜索結(jié)果的準(zhǔn)確性和覆蓋性,從而解決微博搜索結(jié)果的疏散性。
如果需要對(duì)微博搜索結(jié)果的準(zhǔn)確性進(jìn)行增加,這就需要對(duì)增加對(duì)關(guān)鍵字的數(shù)據(jù)挖掘,根據(jù)微博的文本內(nèi)容進(jìn)行聚集分析,得到不同的分類結(jié)果,從而產(chǎn)生關(guān)鍵字庫(kù)模板。并且對(duì)不同事件所涉及關(guān)鍵詞組再次進(jìn)行分類。這樣當(dāng)用戶輸入的搜索詞時(shí),爬蟲(chóng)在關(guān)鍵字庫(kù)模板中進(jìn)行分類抓取,從而得到用戶所需的查找內(nèi)容。并且把通過(guò)數(shù)據(jù)挖掘獲取到事件的時(shí)間點(diǎn),聚集在一起進(jìn)行爬蟲(chóng)抓取,做為數(shù)據(jù)挖掘的第一階段,在準(zhǔn)確性的基礎(chǔ)上增加了實(shí)時(shí)性。例如把近期提及一篇新聞關(guān)鍵字的微博文章和新聞都聚集在一起,再用爬蟲(chóng)后的關(guān)鍵字模塊進(jìn)行關(guān)鍵字標(biāo)注,最后通過(guò)比對(duì)映射增加關(guān)聯(lián)詞詞庫(kù),這樣微博的搜索引擎便可以對(duì)用戶大量的輸入詞進(jìn)行完整的內(nèi)容搜索和聯(lián)想。雖然微博搜索結(jié)果有一定的疏散性,但是微博信息具有很強(qiáng)的交互性,利用這個(gè)特性獲取事件爬取的關(guān)鍵詞然后形成詞庫(kù),放入到數(shù)據(jù)庫(kù)中為搜索的后續(xù)信息做好前提工作。
通過(guò)查閱資料我發(fā)現(xiàn)國(guó)內(nèi)已經(jīng)開(kāi)發(fā)出針對(duì)于中文的分詞技術(shù),且技術(shù)相對(duì)成熟,常用的中文分詞包有庖丁解牛分詞包(適用于Lucene整合)Ling Pipe(開(kāi)源自然語(yǔ)言處理的Java 開(kāi)源工具包)等。該技術(shù)可以完成中文分詞詞性標(biāo)注和未登錄詞識(shí)別等功能,并將結(jié)果存入到數(shù)據(jù)庫(kù)中。假如用戶想查詢與雪有關(guān)的微博內(nèi)容,利用爬蟲(chóng)的關(guān)鍵字抓取技術(shù)可以可以搜索到很多與雪有關(guān)的內(nèi)容,但是如果把這個(gè)分詞技術(shù)建立在爬蟲(chóng)關(guān)鍵字基礎(chǔ)上的話,那么會(huì)增加微博搜索引擎的后臺(tái)支持,當(dāng)用戶輸入雪時(shí)在搜索結(jié)果頁(yè)面中會(huì)同時(shí)展示類似冬天、寒冷等類似的微博內(nèi)容。這樣既豐富了內(nèi)容又節(jié)省了時(shí)間,提高了搜索效率。
總結(jié)來(lái)說(shuō)將爬蟲(chóng)技術(shù)應(yīng)用于微博搜索需要完成三個(gè)階段:
(1)構(gòu)建關(guān)鍵詞詞庫(kù)模板,綜合關(guān)鍵詞,形成模板,并實(shí)時(shí)更新。
(2)增大搜索引擎接口,選定具有代表性的信息庫(kù)來(lái)源。
(3)數(shù)據(jù)挖掘,利用分詞技術(shù)提取關(guān)鍵字的特征詞。隨著信息時(shí)代的高速發(fā)展,國(guó)內(nèi)外的熱點(diǎn)新聞熱點(diǎn)話題在網(wǎng)絡(luò)上更新的越來(lái)越迅速,關(guān)鍵詞的更新也越來(lái)越快。通過(guò)爬蟲(chóng)技術(shù)在微博搜索中的應(yīng)用,增加了搜索結(jié)果的時(shí)效性、高效性、準(zhǔn)確性。
4.1 微博是否需要實(shí)名制
隨著網(wǎng)絡(luò)實(shí)名制的的發(fā)展,越來(lái)越多的社交平臺(tái)要求用戶在注冊(cè)時(shí)需要填寫(xiě)自己的真實(shí)信息,如個(gè)人的地理位置、教育信息等方便在網(wǎng)絡(luò)社交圈中找到自己的好友。以社交網(wǎng)絡(luò)人人網(wǎng)為例,它是一個(gè)實(shí)名制的社交平臺(tái),用戶注冊(cè)人人網(wǎng)時(shí)需要進(jìn)行個(gè)人身份證號(hào)、出生日期這些重要的個(gè)人信息的填寫(xiě)來(lái)完成注冊(cè),就相當(dāng)于把用戶的個(gè)人信息完全的裸露在網(wǎng)絡(luò)上,我認(rèn)為這樣做是利弊相間的,雖然增加了用戶在網(wǎng)絡(luò)中的舒適感和真實(shí)感但是同時(shí)方便了不法分子對(duì)這些信息進(jìn)行利用,增加了用戶被網(wǎng)絡(luò)詐騙的幾率。微博雖然暫時(shí)還沒(méi)有實(shí)行制度,但隨著網(wǎng)絡(luò)在我們?nèi)粘I钪械膽?yīng)用,我相信微博實(shí)名制指日可待。其實(shí)只要微博能夠有個(gè)人隱私數(shù)據(jù)的保護(hù)技術(shù),如自動(dòng)提醒用戶自己的信息將被收集展示,由用戶自己決定是否繼續(xù)錄入自己的信息。網(wǎng)絡(luò)社交平臺(tái)的實(shí)名制度究竟是增加了用戶在網(wǎng)絡(luò)上的"存在感還是更大程度的暴露了用戶真實(shí)生活中的個(gè)人隱私?所以網(wǎng)絡(luò)社交平臺(tái)是否需要實(shí)名制,也是一個(gè)需要探討解決的問(wèn)題。
4.2 用戶信息的泄露與保護(hù)措施
微博的魅力在于它會(huì)引導(dǎo)我們找到很多好久不聯(lián)系同學(xué),并且通過(guò)關(guān)注很容易的就看到他們的最近生活狀態(tài),微博還有一個(gè)特點(diǎn)就是沒(méi)有用戶訪問(wèn)記錄,你可以盡情的"窺視"每個(gè)人的微博主頁(yè),可以輕而易舉的了解一個(gè)人的交際網(wǎng)。這從側(cè)面也體現(xiàn)出了微博泄露用戶個(gè)人信息的嚴(yán)重程度。所以用戶在使用微博發(fā)布信息時(shí),必須要知道,你在社交網(wǎng)絡(luò)上的發(fā)布的所有動(dòng)態(tài)都是完全透明性的,所以一定要提高安全意識(shí)。
要處理微博用戶個(gè)人隱私安全面臨的問(wèn)題,需要從用戶本身的安全保護(hù)意識(shí)和提升網(wǎng)絡(luò)技術(shù)支程的方面著手處理。因?yàn)橛泻芏嘤脩舨⒉涣私庑畔⑿孤兜膰?yán)重性所以社交平臺(tái)應(yīng)該負(fù)起這個(gè)責(zé)任。并且積極引領(lǐng)用戶去了解怎么樣去保護(hù)自己的信息隱私安全,如定期變更密碼或不要隨意展現(xiàn)自己的地理位置等,提升用戶的安全意識(shí)。在當(dāng)下的網(wǎng)絡(luò)情況,多數(shù)的社交軟件都有和第三方軟件合作,比如當(dāng)用戶要完成一個(gè)新的注冊(cè),在下方就會(huì)彈出授權(quán)第三方登陸,當(dāng)用戶同意授權(quán)后,第三方軟件則會(huì)竊取到用戶的大量信息,形成巨大的信息泄露源。所以,微博應(yīng)該在確保第三方程序安全的同時(shí)應(yīng)該有種技術(shù)讓用戶在第三方登錄時(shí)能夠完全自主選擇個(gè)人信息的展示的程度。所以,這就需要建立一個(gè)能夠控制隱私信息流的技術(shù)支撐,通過(guò)對(duì)用戶端口與服務(wù)器端口的局限設(shè)計(jì),就能夠加強(qiáng)對(duì)信息流的監(jiān)管控制,從而達(dá)到保護(hù)用戶隱私安全的目標(biāo)。微博作為一個(gè)社交平臺(tái)網(wǎng)絡(luò),應(yīng)該加強(qiáng)自身的安全程度,采取合理有效的措施保護(hù)用戶的個(gè)人信息安全。
微博搜索的問(wèn)世,是搜索系統(tǒng)發(fā)展中至關(guān)重要的一步。盡管它現(xiàn)在的發(fā)展仍然存在著很多漏洞,但是相信只要能把爬蟲(chóng)技術(shù)合理的應(yīng)用到微博搜索中去,利用關(guān)鍵詞庫(kù)模板的爬蟲(chóng)技術(shù)進(jìn)行微博搜索結(jié)果的進(jìn)一步完善。同時(shí)微博要盡快的的加強(qiáng)對(duì)用戶信息的保護(hù),積極引領(lǐng)用戶加強(qiáng)對(duì)隱私安全的意識(shí),希望國(guó)家也質(zhì)定些相關(guān)的法律政策,為社交平臺(tái)的網(wǎng)絡(luò)用戶提供一個(gè)安全的上網(wǎng)環(huán)境。
[1]林紅靜,黃夢(mèng)醒?;谖⒉┬畔⒌年P(guān)鍵詞庫(kù)爬蟲(chóng)策略[J]。海南大學(xué)學(xué)報(bào),2016(02):17.
[2]周中華,謝江,張惠然。基于Python的新浪微博數(shù)據(jù)爬蟲(chóng)[J]。計(jì)算機(jī)應(yīng)用,2014(11):35-36.
[3]陳晨。基于主題爬蟲(chóng)的個(gè)性化搜索引擎技術(shù)研究[J]。黑龍江科技信息,2110(11):38-40.
[4]衛(wèi)冰潔,王斌,李帥,李鵬。微博檢索的研究進(jìn)展[J]。中文信息學(xué)報(bào),2015(02):11-12.