文/楊望
Web Spam技術(shù)的發(fā)展與防御
文/楊望
隨著Web技術(shù)的發(fā)展,Spam不再是Email領(lǐng)域的專利,萬維網(wǎng)垃圾(Web Spam)成為一種新的危害,垃圾網(wǎng)頁(Spam page)開始日益充斥著互聯(lián)網(wǎng)。在今年USENIX舉辦的LEET 2011,業(yè)界對Web Spam的危害、發(fā)展以及控制進行了討論,本文將通過對大會上幾篇論文的分析對Web Spam進行一個概要的介紹。
來自微軟公司的Sasi Parthasarathy在大會上作了題為“Complex Search of Web Spam”的演講。在演講中,Parthasarathy對垃圾網(wǎng)頁和搜索引擎的關(guān)聯(lián)做了詳細(xì)的介紹。在他看來,一個垃圾網(wǎng)頁是一個使用垃圾技術(shù)來提升其在搜索結(jié)果的排名,但實際對用戶沒有任何使用價值的網(wǎng)頁。用戶不會主動地去瀏覽這些垃圾網(wǎng)頁,所以垃圾網(wǎng)頁必須通過搜索引擎才能欺騙用戶并創(chuàng)造收入。要達到這樣效果,垃圾網(wǎng)頁就必須了解搜索引擎對頁面排名的方法。目前通用的頁面排名依賴于兩方面的數(shù)據(jù):網(wǎng)頁內(nèi)容數(shù)據(jù)和網(wǎng)頁鏈接數(shù)據(jù)。垃圾網(wǎng)頁也從這兩方面實施對搜索引擎的欺騙。在頁面方面,常見的欺騙技術(shù)包括:
堆砌(Keyword Stuffing)
域名停放 (Parked Domain)
內(nèi)容隱藏(Hidden Content)
機器自動生成內(nèi)容 (Machine GeneratedContent)
社交媒體網(wǎng)站欺騙(Social Media Spam)這些欺騙技術(shù)有著不同的實現(xiàn)方法,但總體來說都是生成大量對用戶沒有意義甚至不可閱讀的內(nèi)容,但這些內(nèi)容包含大量關(guān)鍵字,可以被搜索引擎發(fā)現(xiàn)并評估。例如內(nèi)容隱藏技術(shù)可以生成如圖1的一段HTML代碼,這段代碼在頁面上不可見,但羅列并重復(fù)大量的搜索引擎敏感的關(guān)鍵字。當(dāng)相應(yīng)的關(guān)鍵字被搜索時,該頁面會被排列在靠前的搜索結(jié)果中,但當(dāng)用戶點擊該頁面時,可能無法得到任何想要的與關(guān)鍵字相關(guān)的信息。
除了基于頁面內(nèi)容的欺騙,垃圾網(wǎng)頁還采用基于鏈接的欺騙方式,主要形式包括:
鏈接農(nóng)場(Link Farms)
鏈接交換(Link Exchange)
這兩種方式都是企圖通過對垃圾網(wǎng)頁建立大量的鏈接,從而提高搜索引擎對垃圾網(wǎng)頁的排名。
Parthasarathy針對這些欺騙技術(shù)指出,目前各家搜索引擎也在試圖通過相關(guān)性判定等技術(shù)手段進行自動或人工的垃圾網(wǎng)頁識別技術(shù),但目前的效果很不理想。一方面一些合法的提升網(wǎng)站排名技術(shù)(例如一些大網(wǎng)站會購買付費鏈接)和欺騙技術(shù)的效果相似,搜索引擎難以判定哪一個是合法,哪一個是非法;另一方面如何判定內(nèi)容的意義也是一個難題。
圖1
來自印第安納大學(xué)的Youngsang Shin等人發(fā)表的《The Nuts and Bolts of a Forum Spam Automator》通過對流行的垃圾網(wǎng)頁工具XRumer的分析揭示了目前為何垃圾網(wǎng)頁能如此盛行。XRumer這一類工具通過在各類論壇上自動發(fā)布包含執(zhí)行垃圾網(wǎng)頁鏈接的帖子來提高垃圾網(wǎng)頁在搜索引擎對鏈接層次分析上的排名。盡管現(xiàn)在的論壇通過用戶注冊、CAPTCHA、用戶信譽識別等技術(shù)來盡量避免這類自動發(fā)帖工具對論壇的污染,但在經(jīng)濟利益的驅(qū)動下,這類工具的開發(fā)者逐個擊破了論壇管理員設(shè)立的各類防護手段。
Shin通過對XRumer軟件的功能分析,發(fā)現(xiàn)XRumer可以通過模板自動注冊帳號,并具有學(xué)習(xí)功能,對于沒有見過的注冊界面,可以將其關(guān)鍵字段采集并交由用戶進行配置。對于大多數(shù)論壇需要的郵件認(rèn)證,XRumer可以依賴用戶配置的郵箱或者自動注冊免費郵箱來完成認(rèn)證過程。雖然很多論壇使用CAPTCHA技術(shù)來識別人和程序,阻礙程序的自動注冊過程,XRumer可以自己破解簡單的基于文本和問題的CAPTCHA,并提供接口識別那些基于圖片的CAPTCHA技術(shù),黑客的經(jīng)濟生態(tài)圈已經(jīng)發(fā)展得很完善,存在一些第三方的CAPTCHA破解服務(wù)提供者,提供每1000個問題1美元的低廉價格服務(wù)。
很多論壇會對用戶的行為進行統(tǒng)計,只有良好信譽的用戶才能發(fā)帖并避免自己的帖子被刪除。XRumer也提供了用戶行為的模擬功能,例如設(shè)置不同的帳號互相提問和回答一些正常的問題來偽裝正常用戶。同時XRumer還會根據(jù)在論壇搜索關(guān)鍵字的結(jié)果,調(diào)整發(fā)帖的內(nèi)容,并采用隨機生成文本的方式,來避免基于黑名單過濾的監(jiān)控方式。
簡而言之,在這樣強大的工具面前,為了將這些垃圾網(wǎng)頁相關(guān)的發(fā)帖清除,論壇管理員將面對一場艱苦的斗爭。
垃圾網(wǎng)頁的清除是一項系統(tǒng)的工作,從搜索引擎和論壇管理員的角度,都無法最終有效地控制垃圾網(wǎng)頁,而域名是垃圾網(wǎng)頁的基礎(chǔ)設(shè)施之一,如果能控制垃圾網(wǎng)頁存在的域名,就能在一定程度上直接削弱垃圾網(wǎng)頁的存在。來自加州圣迭戈分校的He Liu介紹了如何從域名上對垃圾網(wǎng)頁進行控制。He Liu介紹了CNNIC(中國互聯(lián)網(wǎng)信息中心)和LegalScript兩個不同組織的不同手段。CNNIC是.cn域名的注冊服務(wù)商,.cn域名曾經(jīng)是垃圾網(wǎng)頁的重災(zāi)區(qū)。
目前CNNIC采用的方式是提高域名注冊和持有的成本,垃圾網(wǎng)頁的控制者對經(jīng)濟因素非常敏感,.cn域名成本的升高成功地讓中國的垃圾網(wǎng)頁開始大量地向俄羅斯的.ru域名轉(zhuǎn)移。LegalScript則采用域名認(rèn)證的方式,對某些領(lǐng)域的網(wǎng)頁進行審查,一旦判定該網(wǎng)頁為垃圾網(wǎng)頁,則和對應(yīng)的域名服務(wù)商聯(lián)系,采用ClientHold的方式,即中止用戶對該域名的使用,同時繼續(xù)保留該域名的使用權(quán),防止有人試圖在其他服務(wù)商那里繼續(xù)注冊和使用相同的域名,這一類域名主要針對使用.com等頂級域名的垃圾網(wǎng)頁。
(作者單位為東南大學(xué)計算機學(xué)院)
網(wǎng)康科技連續(xù)三年入圍中央政府采購系統(tǒng)
2011年6月1日,中央國家機關(guān)2011年度計算機等產(chǎn)品政府集中采購協(xié)議供貨項目(總第18期)第三批開標(biāo),網(wǎng)康科技作為業(yè)內(nèi)領(lǐng)先的網(wǎng)絡(luò)應(yīng)用管理設(shè)備提供商,憑借全球頂尖的網(wǎng)絡(luò)應(yīng)用管理技術(shù)、產(chǎn)品和解決方案,連續(xù)3年成功入圍中央政府采購系統(tǒng)。
中央國家機關(guān)采購協(xié)議供貨項目是我國目前級別最高的政府采購項目。網(wǎng)康科技作為國內(nèi)成長最快、高端用戶最多的網(wǎng)絡(luò)應(yīng)用管理廠商之一,在2011年持續(xù)發(fā)力,此次采購項目中,上網(wǎng)行為管理9款產(chǎn)品以及流量分析10款產(chǎn)品實現(xiàn)入圍。同去年相比,產(chǎn)品數(shù)量有大幅度地提升。
在本次開標(biāo)結(jié)果中,網(wǎng)康科技上網(wǎng)行為管理以及流量分析兩大系列產(chǎn)品是同類入圍產(chǎn)品數(shù)量最多的廠商,證明了網(wǎng)康科技在該領(lǐng)域的耕耘頗深。此外,網(wǎng)康的拳頭產(chǎn)品上網(wǎng)行為管理系列產(chǎn)品在中央政府采購系統(tǒng)中,與同類廠商相比,采購量長期排名前三。
目前,網(wǎng)康科技的產(chǎn)品已經(jīng)被廣泛應(yīng)用于政府、金融、能源、教育、通信、制造等眾多行業(yè),擁有超過一萬家企業(yè)級客戶。
首屆互聯(lián)網(wǎng)電視產(chǎn)業(yè)論壇在京舉行
6月8日,由南方廣播影視傳媒集團、創(chuàng)維集團和北京優(yōu)朋普樂聯(lián)合主辦的2011年首屆中國互聯(lián)網(wǎng)電視產(chǎn)業(yè)鏈高峰論壇在北京舉行。在本次研討會上,由南方傳媒、創(chuàng)維集團、優(yōu)朋普樂以及索尼影視等產(chǎn)業(yè)實踐者聯(lián)合組建的互聯(lián)網(wǎng)電視產(chǎn)業(yè)鏈第一次正式完整展現(xiàn)。
據(jù)DisplaySearch預(yù)測,全球互聯(lián)網(wǎng)電視市場在2012年則可望達8,700萬部,市場占有率約38%, 2014年全球互聯(lián)網(wǎng)電視出貨量將達到1.2億臺。在這種形勢下,產(chǎn)業(yè)鏈合作模式將為互聯(lián)網(wǎng)電視產(chǎn)業(yè)運營服務(wù)打造出新標(biāo)桿,成為服務(wù)提供的事實標(biāo)準(zhǔn),對推動中國互聯(lián)網(wǎng)電視產(chǎn)業(yè)的發(fā)展將會產(chǎn)生重大影響。通過產(chǎn)業(yè)鏈合作,廣電牌照方、內(nèi)容商、電信運營商、電視機廠商等多個企業(yè)都將有序參與到未來的互聯(lián)網(wǎng)視頻內(nèi)容服務(wù)產(chǎn)業(yè)中。