亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        社會標注及其在信息檢索中的應(yīng)用研究綜述

        2010-07-18 03:11:58靳延安李瑞軒文坤梅辜希武盧正鼎段東圣
        中文信息學(xué)報 2010年4期
        關(guān)鍵詞:語義分類資源

        靳延安,李瑞軒,文坤梅,辜希武,盧正鼎,段東圣

        (1.華中科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院,湖北武漢430074;2.湖北經(jīng)濟學(xué)院信息管理學(xué)院,湖北武漢430205)

        1 引言

        標注(Annotation①according toWordNet,a)note,annotation,notation:a comment(usually added to a text);b)annotation,annotating-the act of adding notes.)是閱讀者對文檔內(nèi)容的一種理解和概括,或者是對文檔內(nèi)容發(fā)表的觀點、態(tài)度并提出建議的一種途徑。也有學(xué)者把標注理解為“做記號”,記號可以是與其所標示的內(nèi)容完全獨立的符號系統(tǒng),也可以是與所標示的內(nèi)容存在直接關(guān)系的詞語,但至少可據(jù)此理解“標注”具有標示作用,可提高查找的便利性,具有一定的標引功能。

        通常意義上的標注是個體行為。在Web 2.0中,網(wǎng)絡(luò)用戶自由選擇標簽(字詞或短語)來標注網(wǎng)絡(luò)資源的個體行為被Internet匯集在了一起,形成了社會標注(SocialAnnotation)。這個時候,社會標注可以看作是社會大眾對某個目標的理解、觀點或者看法,比如對網(wǎng)站的可用性和友好性的評論。社會標注的興起是以提供標注服務(wù)的網(wǎng)站(如Delicious①http://Del.icio.us,Flick r②http://www.flickr.comConnotea③http://www.connotea.org、CiteULike④http://www.citeulike.org、Digg⑤http://www.diig.com)的流行為標志的,這些網(wǎng)站允許用戶選用簡短的字詞對自己喜愛和關(guān)注的網(wǎng)頁進行標注并保存在個人賬號中,極大地方便了用戶對個人網(wǎng)絡(luò)資源的管理和組織。

        近年來在SIGIR、WWW 以及其他刊物和會議上有越來越多的研究工作開始關(guān)注社會標注。到目前為止的研究中,有從以下角度對社會標注進行研究:社會標注的理念和優(yōu)缺點[1-2]、統(tǒng)計特性[3-4]、社會標注改善搜索性能[5-6]等進行了研究。文獻[1]詳細闡釋了社會標注的理念,認為社會標注是一種元數(shù)據(jù),文獻[2]認為社會標注由三元組組成(如圖1)。Ciro Cattuto等抓取Delicious和BibSonomy兩個網(wǎng)站的大量數(shù)據(jù)集,分析了由三元組構(gòu)成的超圖,發(fā)現(xiàn)超圖節(jié)點間連接非常緊密,相對路徑長度比較低。同時,基于社會標注共同出現(xiàn)的頻率,構(gòu)造了社會標注有權(quán)超圖,研究了社會標注的統(tǒng)計特性和其網(wǎng)絡(luò)結(jié)構(gòu),認為標注的使用符合冪率分布[3-4]。包勝華等人則使用社會標注設(shè)計了相似排序算法SSR和靜態(tài)排序SPR算法來優(yōu)化搜索的結(jié)果[5]。

        本文將從社會標注的標注對象、標注方法、分類特性、社區(qū)發(fā)現(xiàn)等幾個方面綜述社會標注在信息檢索方面的應(yīng)用研究。在文章的最后對目前存在的問題進行總結(jié),并進一步討論社會標注將來的研究方向。

        圖1 社會標注三元組

        2 標注對象和標注方法

        2.1 標注對象

        社會標注作為一種新型網(wǎng)絡(luò)資源的管理和組織形式,在許多網(wǎng)絡(luò)應(yīng)用中發(fā)揮著重要的作用,包括Web頁面、博客文章、圖像以及音視頻等在內(nèi)的越來越多的網(wǎng)絡(luò)資源都得到了標注。隨著對各種資源標注的不斷增加,對社會標注的利用、描述、可視化、組織與檢索效率以及標注系統(tǒng)等方面的研究也日益激增,特別是對網(wǎng)頁資源的研究。

        (1)網(wǎng)頁資源

        在IE和FireFox瀏覽器中,用戶可以將喜歡的并且希望以后常來看的網(wǎng)頁收藏到所使用計算機中不同的收藏夾是標注最早的形式。因此,可以將收藏夾看作是用戶為了進行網(wǎng)頁標引與信息檢索的方便而建的索引。社會標注已經(jīng)成為一種普遍的網(wǎng)絡(luò)服務(wù),得到許多用戶的關(guān)注和歡迎,包括Delicious在內(nèi)的許多支持社會標注的網(wǎng)站都提供了標注網(wǎng)頁資源的功能,以便用戶在線組織和檢索感興趣的網(wǎng)頁資源。

        社會標注本身作為一種元數(shù)據(jù),所含有的語義信息和標注之間隱含的鏈接關(guān)系可以為計算網(wǎng)頁的相關(guān)性的重要指標,從而為網(wǎng)頁資源的快速定位提供有力支持。另一方面,同一社會標注的使用規(guī)模也可以作為結(jié)果排序的重要依據(jù)。文獻[5,7]都在社會標注對搜索性能和質(zhì)量的改善上做了大量研究。但是,這些研究大都是基于Delicious等網(wǎng)站為研究對象,而且這些網(wǎng)站數(shù)據(jù)經(jīng)過規(guī)范化、去重以后,規(guī)模還非常小。

        另外,社會標注的瀏覽和可視化也是非常值得研究的一個方面。在著名的Delicious網(wǎng)站上,已經(jīng)有數(shù)千萬個社會標注。如果這些標注看作是一個社會標注空間的話,如何讓用戶在如此龐大的空間里輕松自如地瀏覽就成為一個必須解決的問題。目前,大多數(shù)網(wǎng)站廣泛采用標注云技術(shù)來實現(xiàn)流行標注的瀏覽,也有一些網(wǎng)站直接使用標注詞列表來顯示。通常,標注云是從整個標注空間中選擇的頻繁使用的標注,根據(jù)頻次的不同使用不同大小和顏色按照字母順序顯示在一個平面上。雖然用戶能夠從標注云中直接觀察到每個標注的熱門程度,但是它僅僅能夠顯示很小部分的標注空間。為了顯示整個標注空間,文獻[8]使用聚類方法將空間中所有的標注根據(jù)語義相近的程度自動進行聚類,這種聚類方便了用戶的瀏覽。而Donaldson等人則在GiveA L-ink.org系統(tǒng)中除了按照傳統(tǒng)的語義相似布局標注外,還使用二維的網(wǎng)絡(luò)圖來幫助用戶檢索相關(guān)標注[9],但是筆者認為這種方法在大規(guī)模下是否能用有待進一步研究。

        (2)博客資源

        博客是一種日志性質(zhì)的網(wǎng)站,主要由按新舊順序排列的帶有日期的文章及對應(yīng)的評論組成,不同的博客之間通過鏈接、評論和反向鏈接互相聯(lián)系,帶有明顯的社區(qū)特性。在博客中,對于社會標注的研究主要集中在社會標注對博客文章的分類作用、標注方法、標注可視化和主題相關(guān)性。文獻[10]從Technorati①http://www.technorati.com,一個著名的博客搜索引擎。從2002年至今,Technorati的博客索引量已經(jīng)達到1.33億篇。網(wǎng)站收集了使用率最高的350個標注進行分析,發(fā)現(xiàn)標注對博客文章進行粗略的分類很有幫助,但對于一篇具體的博客則不然。Gilad M ishne基于合作過濾的方法開發(fā)了A utoTag自動標注工具,用戶在標注博客時,該工具可以推薦更為合適的標注。在此基礎(chǔ)上,通過配合博客信息發(fā)布的相關(guān)控制機制,可以使得用戶的標注過程更加簡單,而且可以保證標注的質(zhì)量[11]。但是,對于利用標注來組織博客資源的有效性,以及什么樣的功能適合使用社會標注(或者說博客的創(chuàng)作者和讀者從社會標注可以獲得什么好處)的研究很少看到有發(fā)表。

        (3)圖像資源

        隨著標注對象的進一步擴展,如何利用標注來提高檢索圖像資源的效率也成為國內(nèi)外學(xué)者較為關(guān)注的問題。圖像作為最重要也是最常見的資源類型往往在數(shù)量和格式上以驚人的數(shù)量存在。與文本資源相比,圖像資源占用空間更大,能提取出來的特征維數(shù)更多。如何建立對高維的海量數(shù)據(jù)的最優(yōu)索引從而提高數(shù)據(jù)檢索效率也越來越成為圖像分析和檢索領(lǐng)域的熱點。目前,圖像檢索技術(shù)主要有基于文本的檢索方法(TBIR:Text-based Im age Retrieval)[12]、基于圖像內(nèi)容的檢索方法(CBIR:Contentbased Image Retrieval)[13]和基于語義的檢索方法(SBIR:Semantic-based Image Retrieval)[14]。

        表1 圖象檢索技術(shù)比較

        從表1可以看出,每種方法都有缺陷,但是如果能夠結(jié)合TBIR的人工標注和SBIR能夠解決“語義鴻溝”的優(yōu)點,將會對圖像資源的檢索性能有更大的提高。文獻[15]認為社會化網(wǎng)絡(luò)文本就好像現(xiàn)實社會中某一特定群體的背景信息,使用個性化的社會化網(wǎng)絡(luò)文本對圖像進行標注能夠提高人們標注圖像的效率。

        隨著Web2.0的發(fā)展,越來越多的用戶利用社會標注來組織和檢索的網(wǎng)頁、圖像、信息和博客資源。但是,對于多媒體資源的標注卻比較少見。目前,針對多媒體信息的檢索的主要技術(shù)是將多媒體資源與對應(yīng)的文本空間進行映射,轉(zhuǎn)換成文本空間進行檢索。

        筆者認為如果把社會標注的分類特性和語義特性用在多媒體檢索系統(tǒng)中,將會大大提高多媒體信息檢索的效率。

        2.2 標注方法

        根據(jù)Delicious報告,在整個網(wǎng)絡(luò)空間中被標注過的文檔僅僅占到相當(dāng)小的一個比率,已經(jīng)被標注過的網(wǎng)頁比率不足萬分之一,這樣就造成了社會標注的稀疏性問題。如何提高網(wǎng)頁、博客、圖像等資源的社會標注普及率,使社會標注更好地服務(wù)于信息資源的組織和檢索,從而成為了一個必須解決的問題。社會標注主要有兩種方法:一種是手工標注,廣泛應(yīng)用于網(wǎng)頁、博客、圖像資源的標注;另外一種就是自動標注,適用于語義網(wǎng)中資源和資源關(guān)系的標注。

        手工標注最早出現(xiàn)在博客服務(wù)中,用戶完成博客文章的撰寫時,往往被要求自由選擇一些簡短的詞對博客文章進行分類。目前流行的Delicious等提供社會標注服務(wù)的系統(tǒng)也都采用的是這種方法,允許用戶可以很容易地根據(jù)自己的喜好自由選取合適的關(guān)鍵詞對網(wǎng)絡(luò)資源進行標注、分類,不依賴于某個受控的詞匯表。顯然,由于不同用戶會選取不同的詞來進行標注,這樣會產(chǎn)生一義多詞[16]或者一詞多義[17]等問題,同時,標注可能呈現(xiàn)發(fā)散性而不利于信息的組織和檢索。為此,許多學(xué)者致力于幫助用戶推薦標注[18-20],以提供標注的準確性和收斂性。

        目前,網(wǎng)絡(luò)資源增長迅速,加之語義Web呼之欲出,手工標注不可能滿足大規(guī)模標注網(wǎng)絡(luò)資源的需要。為了解決社會標注的稀疏性,就必須通過自動或者半自動的方法在系統(tǒng)后臺標注網(wǎng)絡(luò)資源,或者在前臺對用戶進行社會標注的推薦[10-11,19-22],從而提高標注普及率,解決數(shù)據(jù)的稀疏性。自動標注方法的一般思路是在整個網(wǎng)絡(luò)空間中尋找與當(dāng)前文檔內(nèi)容相關(guān)的文檔,從這些相關(guān)文檔中匯聚成當(dāng)前文檔候選的社會標注;然后從這些候選的標注中按照某種標準篩選出最恰當(dāng)?shù)纳鐣俗?。文獻[22]分別使用非監(jiān)督機器學(xué)習(xí)聚類、基于詞典的方法和基于計算相關(guān)性的實驗方法三種方法對政界文檔進行了自動標注,并對三種方法的應(yīng)用及優(yōu)缺點進行了對比。

        但是有學(xué)者認為自動標注違背了Web2.0的開放精神[23],和提取關(guān)鍵字沒有區(qū)別。需要指出的是,絕大多數(shù)的社會標注直觀上可以看作是與文檔內(nèi)容相關(guān)的關(guān)鍵詞;但是社會標注與傳統(tǒng)意義上的關(guān)鍵詞又是截然不同的。傳統(tǒng)的關(guān)鍵詞基本上是從文檔本身抽取出來的,本質(zhì)上反映了文檔作者對該文檔的概括;而社會標注則是在網(wǎng)絡(luò)社會環(huán)境下產(chǎn)生的,是由使用者產(chǎn)生的,反映的是使用者對文檔的理解,社會標注可以不出現(xiàn)在文檔中,具有一定的社會屬性,比如傳播性。

        筆者認為對網(wǎng)絡(luò)資源進行自動標注必須依賴于既有專家分類和已有的標注空間即大眾分類,以避免“冷啟動”[24]問題。社會標注自動標注的一般過程如圖2所示。當(dāng)爬行器獲取到某個網(wǎng)絡(luò)資源時,首先判別是否和某個專家分類一致。如果一致,利用專家分類進行標注;如果不一致,則和大眾分類進行比較,如果一致則取大眾分類中的標簽進行標注。否則,對網(wǎng)絡(luò)資源進行標注學(xué)習(xí)(即利用提取關(guān)鍵字和信息抽取技術(shù))獲得該資源的標簽。

        圖2 社會標注自動標注過程

        3 社會標注與分類

        3.1 社會標注的分類特性

        在Web 2.0中,每個用戶可根據(jù)自己的理解自由選擇一些詞來標注和組織網(wǎng)絡(luò)資源,或者參與對任一資源的推薦、評論。例如:截至2009年8月7日,豆瓣成員已經(jīng)為電影《海角七號》創(chuàng)建了1 985個標注,使用次數(shù)最多的前八個標注為臺灣電影、《海角七號》 、臺灣 、愛情、范逸臣、2008、中孝介、電影[25]。如果采用傳統(tǒng)分類方法,電影《海角七號》可以分入電影或臺灣電影,而不可能分入“《海角七號》、范逸臣、中孝介”這樣的類目。但是在社會標注系統(tǒng)中,由于使用這些標注詞的用戶大量存在,因此可以通過大眾標注建立新的分類,這種分類就是大眾化分類。和傳統(tǒng)的資源描述方法相比,社會標注采用的是自然語言,即依據(jù)大眾口頭詞匯對資源予以標記,不需專用詞表,省去傳統(tǒng)文獻標引的查重、概念分析、查表選詞等工作過程,用戶標注時不受限制、自由發(fā)揮,可以從不同角度,以不同方式對同一對象發(fā)表自己的觀點和評價,使得被標注對象的每一個部分都可能被關(guān)注到[26]。例如:電影《海角七號》既有“臺灣電影”這樣的標注,也有“愛情”(描述內(nèi)容)、“2008”(上映年度)這樣的標注。

        綜上所述,可以看出社會標注能夠更全面、更徹底的揭示資源,形成的標注結(jié)果更符合大眾的需求。另一方面,當(dāng)這些具有相同社會標注的資源匯集在一起形成一個標注空間時,可以視社會標注為這些資源的分類類目,具有分類特性。

        目前,關(guān)于社會標注具有分類特性的研究有很多[10,27-28]。但是,對于社會標注分類特性的利用卻很少,大多集中在信息資源的組織方面[26-27]。筆者認為,除了社會標注的分類特性還可以滿足用戶搜索定位資源的需求。

        3.2 社會標注的分類缺陷

        隨著Internet的出現(xiàn),海量的網(wǎng)絡(luò)資源使得利用受控語言進行分類和標注的可操作性變得越來越差。嚴格來講,社會標注和分類是兩個對立的概念,文獻[29-30]對兩者做了全面的比較。傳統(tǒng)的信息資源往往依賴于由專家預(yù)先定義良好的受控詞匯、分類表、詞典和本體庫,是自上而下的由少數(shù)資源控制者集中控制主導(dǎo)的分類。而社會標注是大眾自發(fā)的使用用戶自由選擇的詞對網(wǎng)絡(luò)信息進行標識和共享,是自下而上的由廣大用戶集體智慧和力量主導(dǎo)的分類。在整個社會標注空間中,所有社會標注都是共享的,空間中沒有明確的、系統(tǒng)的指導(dǎo)原則和范圍注釋說明。因此,不同的用戶以不同的方式在使用標注詞時,會產(chǎn)生固有的歧義。比如:Delicious中的標注“filtering”的有[1]:

        ?Last.FM-Your personal music network-Personalized on line radio station

        ? InfoWorld:Collaborative know ledge gardening

        ? Wired 12.10:The Long Tail

        ?Oh M y God It Burns!Practical Applications of the Philosopher's stone.For d runks.Brita filtermakes bad vodka into good vodka

        ?Introduction to Bayesian Filtering

        盡管這些頁面都標注為“filtering”,但含義相差很大,比如用水凈化伏特加酒和貝葉斯統(tǒng)計分析是兩個完全不同的主題。再比如ANT(社會學(xué)中的Actor Netw ork Theory理論)和ANT(基于Java的build工具)。

        另外,傳統(tǒng)的自頂向下的分類具有嚴格的層次性,分類中最基本的詞間都有關(guān)系,如有上位類、下位類。而社會標注的分類呈現(xiàn)出一種扁平的結(jié)構(gòu),標注之間是平等關(guān)系,標注詞的選擇不受任何限制,標注內(nèi)容與標注對象之間的關(guān)系并不明顯。層次的缺乏將導(dǎo)致不能很好地定位某特定標注,也沒有辦法揭示標注之間復(fù)雜的關(guān)系,從而容易妨礙宏觀把握知識的體系結(jié)構(gòu),進而導(dǎo)致失去很多查找新資源的途徑。當(dāng)然,目前流行的社會標注服務(wù)都提供了相關(guān)標注功能,從一定程度上緩解了標注平面性所帶來的缺陷,但沒有從根本上解決層次缺乏的問題。因此,有學(xué)者指出,可以利用標注隱含的概念為標注建立層次關(guān)系[27]。

        由上面分析可知,由于社會標注在分類上的隨意性和缺乏層次性,造成社會標注在應(yīng)用上存在不能快速精準定位資源的缺陷。對此,筆者認為可以考慮在用戶添加標注后,利用人工智能和本體(Ontology)的方法對該標注進行分析定位,并向用戶顯示其所處的樹狀,甚至網(wǎng)狀的知識體系結(jié)構(gòu),從而方便用戶從整體上認識該問題。

        4 社會標注在信息檢索中的應(yīng)用

        社會標注具有以下4個特性:(1)標引特性:社會標注使用者(非創(chuàng)建者)為了方便日后對Web資源的查找進行的標引;(2)分類特性:當(dāng)標注相同Web資源的社會標注匯集在一起時,無疑形成了對Web資源的大眾分類;(3)資源發(fā)現(xiàn)特性:當(dāng)用戶瀏覽相關(guān)社會標注時,可能發(fā)現(xiàn)新的Web社區(qū),這些社區(qū)聚合了具有相同主題的Web資源;(4)語義特性:社會標注是使用者對Web資源內(nèi)容的一種理解、觀點和概括,因此帶有很強的語義。顯然,這4個特性都可以幫助用戶找到預(yù)期的信息,因此,社會標注對Web用戶和搜索引擎都有重要的意義,可以利用社會標注來進行信息檢索。一方面用戶可以得到更快更準確的搜索結(jié)果,另一方面在對Web上信息資源按照各種不同的類別存儲的前提下,搜索引擎自身能夠更有效率地進行檢索并返回結(jié)果。

        4.1 社會標注與分類搜索

        分類搜索是最早出現(xiàn)的一種網(wǎng)絡(luò)信息檢索方法,Yahoo!被認為是分類搜索的鼻祖。原理上,它與基于爬蟲的搜索完全不同,比如Google?;谂老x的搜索通過從互聯(lián)網(wǎng)上提取的各個網(wǎng)站的信息(以網(wǎng)頁文字為主)建立索引數(shù)據(jù)庫,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶。而分類搜索是基于人工標引的檢索方法。它以科學(xué)、實用的分類目錄為工具,以規(guī)范化的自然語言為類名,在對網(wǎng)絡(luò)信息歸納、概括的基礎(chǔ)上,以網(wǎng)站為單元,提供經(jīng)過專家評價和人工整序的網(wǎng)絡(luò)信息。所有網(wǎng)站在分類體系中同聚異分,各有所屬,縱向成枝,橫向成網(wǎng),只需按圖索驥,同一類屬或相關(guān)主題的信息即可循類以求。

        用戶從不同的觀點對網(wǎng)頁進行標注,這些標注通常是對相關(guān)網(wǎng)頁的很好的總結(jié)。比如:Delicious中Amazon主頁的所有標注中位居前5的是shopping、am azon、books、music 和 store。這些標注準確的描述了頁面,并可以看作是計算相似性的新的元數(shù)據(jù)。因此,當(dāng)大眾用戶的社會標注匯集在一起,就形成了對資源的分類??梢岳蒙鐣俗⒌脑獢?shù)據(jù)特性來搜索和定位Web資源。文獻[31]介紹了如何通過將標注、分類和瀏覽加以集成,以便提高終端用戶進行聯(lián)合檢索的效率。文獻[32]從標準規(guī)范到具體應(yīng)用,具體描述了社會標注理念在軟件組件搜索引擎中的應(yīng)用情況,并指出社會標注理念可用于改進搜索質(zhì)量。Hak Kim等人研究指出,通過形式化的概念分析,提出一種新方法用于在標注博客的標注中實現(xiàn)具有上下文關(guān)系的社會標注,并建立概念層次[27]。

        筆者認為,在分類搜索中,社會標注可以用于信息資源的分類顯示、標注的分類顯示和搜索結(jié)果的分類顯示等方面,并將提高分類的能力。但是利用社會標注進行分類搜索需要注意:由于社會標注分類沒有統(tǒng)一的分類標準,相同標注或相似標注在不同的分類體系中的標注含義不盡相同,因此相同或相近的網(wǎng)頁可能分屬不同的標注層次。可以利用標注隱含的概念為標注建立層次關(guān)系,有了標注的層次,就可以實現(xiàn)分類搜索在性能和質(zhì)量上的大幅度提高。但同時存在由于標注“垃圾”所帶來的層次過多所造成的負擔(dān)。

        4.2 社會標注與語義搜索

        網(wǎng)絡(luò)搜索的實現(xiàn)技術(shù)有兩種:一種技術(shù)是前文所提到的分類搜索;另一種技術(shù)就是全文檢索。這兩種搜索技術(shù)有著本質(zhì)區(qū)別。而語義搜索屬于全文檢索的一種,與之對應(yīng)的是關(guān)鍵字檢索。目前流行的大部分搜索引擎如Google、百度都屬于關(guān)鍵字檢索。但是,由于關(guān)鍵字不能充分的表達語義信息,導(dǎo)致搜索結(jié)果無法保證語義的相關(guān)度,其效果遠不能使人滿意。

        如何有效地填補”語義鴻溝”,實現(xiàn)語義搜索?語義搜索最早出現(xiàn)在上世紀80年代SIGIR會議論文中[33],但由于研究始終受制于語義信息處理發(fā)展水平的局限。隨著自然語言處理、人工智能的發(fā)展,尤其是語義網(wǎng)技術(shù)的興起與發(fā)展,語義搜索近來得以迅速發(fā)展。盡管到目前為止對語義檢索在概念上仍沒有統(tǒng)一的界定,但不同的研究卻有著共同之處,語義搜索就是基于對信息資源的語義處理來實現(xiàn)效率更高的檢索。語義信息的提取和處理可以是基于語義網(wǎng)方法與技術(shù)的,也可以是基于自然語言處理技術(shù)的。近兩年,從語義信息提取和處理角度進行研究實現(xiàn)語義搜索,從而提高語義級檢索效率和服務(wù)質(zhì)量已經(jīng)成為檢索領(lǐng)域的研究難點和最為關(guān)鍵的問題。

        目前,國內(nèi)外對此問題的研究具有代表性的有:基于潛在語義索引(Latent Sem antic Indexing)模型的方法[34]、基于詞典(Thesaurus)的方法[35-36]、基于本體和語義標注的方法[37-39]。筆者認為社會標注本身就攜帶有很強的語義信息,它與生俱來的低門檻、易使用等優(yōu)點必將會成為填補“語義鴻溝”的最有發(fā)展?jié)摿Σ⑶揖哂袕V闊應(yīng)用前景的新技術(shù)。

        在某種程度上,可以用社會標注代替?zhèn)鹘y(tǒng)的關(guān)鍵詞[5,7]或與關(guān)鍵詞一起[40]理解內(nèi)容的語義并搜索語義相關(guān)的信息?;诖蟊娀诸惡蜕鐣Z義信息的語義搜索在國外才剛剛起步,在國內(nèi)尚處于萌芽狀態(tài),具有廣闊的發(fā)展空間。將社會標注與語義搜索結(jié)合進行研究是一種新的發(fā)展態(tài)勢。在國外,有少數(shù)學(xué)者圍繞社會標注和語義Web做了一些研究。文獻[27]研究了社會標注在語義Web中的應(yīng)用,通過形式化的概念分析,構(gòu)建了一種用于在標注博客的標注中實現(xiàn)具有上下文關(guān)系的社會標注新方法,并在標注中建立起概念層次。G ruber等人試圖綜合運用本體和社會標注的優(yōu)勢,構(gòu)建社會標注中各種標注詞的本體[41]。A l-Khalifa等人則提出在創(chuàng)建語義元數(shù)據(jù)的過程中開發(fā)社會標注的價值,指出通過分析社會標注中的各種標注,在虛擬社群中創(chuàng)建新的標注以及由機器抽取關(guān)鍵詞并確立關(guān)鍵詞之間的關(guān)系,可以進一步挖掘出社會標注的潛在價值[29]。

        在國內(nèi),圍繞本體與社會標注的研究也開始出現(xiàn)。利用語義標注工具對現(xiàn)有的大量信息進行標注,將使得頁的內(nèi)容成為機器可識別的數(shù)據(jù),從而構(gòu)成語義的基礎(chǔ)。但是,這些標注工具絕大部分只支持手工標注,少數(shù)支持半自動標注(需要用戶指導(dǎo)標注學(xué)習(xí)過程)。筆者認為,將社會標注與語義Web相結(jié)合,推出更為智能化、更為個性化、更易于操作以及更加有利于組織和利用信息的方法與技術(shù),將是未來社會標注領(lǐng)域較為前沿的研究課題。

        4.3 社會標注與搜索性能

        在過去的十年中,關(guān)于提高搜索質(zhì)量的研究有許多。這些研究大都集中在:1)根據(jù)查詢和文檔的相似性進行排序。目前,這種技術(shù)包括產(chǎn)生錨文本、抽取元數(shù)據(jù)、分析鏈接關(guān)系和挖掘用戶日志等。2)根據(jù)鏈接關(guān)系計算得出的文檔質(zhì)量。

        在提升互聯(lián)網(wǎng)搜索的用戶體驗上已經(jīng)有很多前人的工作,其中大部分都專注于改進搜索結(jié)果的相關(guān)排序,已經(jīng)提出了很多模型來估計查詢和文檔之間的相似度[42]。在現(xiàn)代搜索引擎的研究中又出現(xiàn)了很多利用元數(shù)據(jù)來增強相似度排序性能的模型,比如文檔標題[43]、錨文本[44]、以及用戶查詢?nèi)罩綶6]等,這些方法都或多或少地提升了互聯(lián)網(wǎng)搜索的性能。另外,網(wǎng)頁的靜態(tài)質(zhì)量也可被用來改進搜索。Brin和Page提出了PageRank[45]利用鏈接結(jié)構(gòu)從網(wǎng)頁創(chuàng)建者的角度去衡量網(wǎng)頁的質(zhì)量。最近也有人開始利用獨立于網(wǎng)絡(luò)鏈接結(jié)構(gòu)的頁面內(nèi)容布局和用戶在頁面停留的時間來綜合衡量網(wǎng)頁的質(zhì)量進行排序[46]。

        具體來講,在提升網(wǎng)頁搜索效率上有兩方面的表現(xiàn):社會標注是不同用戶對主題相關(guān)的網(wǎng)頁資源的一種具有語義的概要性描述,可以作為相似排序的依據(jù);同一標簽的使用量可以看作是主題網(wǎng)頁的數(shù)量規(guī)模,這個數(shù)量規(guī)??梢宰鳛樵u價網(wǎng)頁重要性的依據(jù)。文獻[47]對來自社會標注系統(tǒng)的各種數(shù)據(jù)進行開發(fā)與抽取,構(gòu)建了可以提高檢索效率和改進檢索性能的概念模型,同時,首次將網(wǎng)站的點擊排名和社會標注對同一網(wǎng)站的標注強度結(jié)合在一起來改善搜索效果。文獻[48]指出,社會標注為信息過濾和信息檢索領(lǐng)域開創(chuàng)了新局面,可以被進一步應(yīng)用到數(shù)字資源的相關(guān)度排序中。作者從定性的角度,構(gòu)建了一個概念模型和一項評估機制,研究了標注系統(tǒng)Q tag的性能,并指出系統(tǒng)通過提供用戶標注來實現(xiàn)資源相關(guān)度排序并支持用戶使用更具有共享性的標注來表達自身的意見與觀點。

        4.4 社會標注與資源發(fā)現(xiàn)

        近幾年關(guān)于社會網(wǎng)絡(luò)的研究方興未艾,已經(jīng)有一些研究工作[10,49]開始關(guān)注社會標注所具有的社區(qū)特性,但研究成果還不多。社區(qū)(Community)就是網(wǎng)絡(luò)中結(jié)點的集合,社區(qū)中的節(jié)點之間具有緊密的連接,而社區(qū)之間則為松散的連接[50-51]。因此,可以通過分析三元組將使用相同標注的用戶看作是一個用戶社區(qū),也可以將具有相同標注的資源看作是一個主題社區(qū),還可以將具有相近語義的社會標注看作是一個標注社區(qū)。文獻[10]抽取了使用率最高的350個標注進行分析,判斷同一標注所標注的所有博客網(wǎng)頁是否具有主題上的相關(guān)性。李昕[49]等人正是從社會標注形成的社區(qū)中試圖自動發(fā)現(xiàn)社會大眾共同的興趣。從更加深刻的角度來看,具有社會標注的Web資源共享是一種知識的發(fā)現(xiàn)與共享。只要這些Web資源被其他用戶用同一個社會標注標記過,用戶就可以通過標注發(fā)現(xiàn)自己以前并不知道的Web資源,而這些新發(fā)現(xiàn)的網(wǎng)頁對用戶來說往往更有價值?;谏鐣俗⒕哂械纳鐣院蜐撛诘恼Z義,構(gòu)建特定領(lǐng)域的社會網(wǎng)絡(luò),并在社會網(wǎng)絡(luò)中進行語義搜索將對搜索的查準率、召回率和排序產(chǎn)生深遠的影響。

        目前,關(guān)于社區(qū)發(fā)現(xiàn)的策略和方法主要有兩類,一類是從社會網(wǎng)絡(luò)本身的結(jié)構(gòu)出發(fā),也就是利用圖形理論,通過一些算法來發(fā)現(xiàn)社區(qū),這類算法偏向于封閉數(shù)據(jù)。比如利用圖分割問題(Graph Partitioning Problem)的譜分解(Spectral bisection)的方法[52-53]、Kernighan-Liu(KL)方法[54],凝聚的和分裂的層次聚類法[50,55],基于邊中介性的GN 算法[51,56]等等。另一類,從包含社會網(wǎng)絡(luò)的資源出發(fā),利用共現(xiàn)性(Cooccurrence)構(gòu)建社會網(wǎng)絡(luò)[57-58]。這一類普遍是計算兩個資源共同出現(xiàn)的頻率,當(dāng)頻率高于某個閾值時,認為它們屬于同一社區(qū)。兩類方法中譜平分、KL方法、層次聚類法需要指定社區(qū)的規(guī)模大小和社區(qū)的數(shù)目。基于邊中介性的GN方法雖然不需要指定社區(qū)規(guī)模大小和數(shù)目,但是算法時間復(fù)雜度比較高O(m2n),并且該GN算法強迫任何一個節(jié)點必須屬于一個社區(qū),而不考慮是否真正有意義。

        以上方法有一個共同的缺陷就是都沒有考慮領(lǐng)域知識。共現(xiàn)性雖然表面上不存在以上問題,但是由于共現(xiàn)性存在數(shù)據(jù)規(guī)模的稀疏性問題,必須合理做平滑處理。

        5 存在問題和未來研究方向

        目前,雖然社會標注應(yīng)用比較廣泛,但是由于難以對其語義進行管理和應(yīng)用,社會標注的利用還遠遠不能讓人滿意。目前在社會標注研究領(lǐng)域依然存在如下問題和挑戰(zhàn):

        (1)社會標注缺乏統(tǒng)一規(guī)范

        社會標注由用戶隨意標注,通常比較模糊且簡短不規(guī)范,盡管可以被用戶理解,但是從信息檢索的角度看還不能被充分利用。筆者認為應(yīng)該從兩個層面規(guī)范社會標注:一是社會標注的使用。目前,社會標注只針對單個詞匯的,不允許標注中出現(xiàn)空格。因此,在標注時,要規(guī)范標注的單復(fù)數(shù)、連接符號、詞形、詞性等。二是標注的層次,適當(dāng)增加等級類目,以提供快速精確定位信息資源。

        (2)挖掘社會標注的語義

        社會標注是由大眾產(chǎn)生,當(dāng)這些標注匯集在一起時,由于缺乏規(guī)范和層次性,使得很難從大量的社會標注以及它們對應(yīng)的網(wǎng)頁中建立起層次結(jié)構(gòu)的語義關(guān)系。如果要形成社會標注的語義關(guān)系,就必須需要理解社會標注與專家分類體系之間到底有怎樣本質(zhì)的聯(lián)系,必須消除社會標注的由于不規(guī)范所造成的各種缺陷:歧義缺陷(不同學(xué)科、不同專業(yè)、不同國家和地區(qū)、不同語境中對同一標注詞理解差異而形成的歧義,例如:農(nóng)業(yè)領(lǐng)域中,如果都用“雞毛菜”作為標注,一種意思是上海地區(qū)人們稱小白菜為“雞毛菜”,而在植物學(xué)中,“雞毛菜”是一種亞熱帶行海藻,屬石花菜科);同義缺陷(同一概念所用標注詞不同而導(dǎo)致相關(guān)信息查全率的降低,例如:馬鈴薯、土豆、洋芋);同現(xiàn)缺陷(無法處理相關(guān)標注詞同現(xiàn)而帶來的復(fù)雜概念表達的欠缺,例如:紅的、圓的水果);語法缺陷(無法處理不同標注詞之間語法關(guān)系表達的損失,比如寫文章和寫的文章);權(quán)重缺陷(不同標注詞出現(xiàn)的先后順序表達的缺失)。目前,關(guān)于標注缺陷的研究集中在前面兩個,對于后面的缺陷鮮有研究。

        (3)社會標注稀疏性問題的解決

        許多研究都以Delicious為研究對象,僅有很少的一部分研究主題與Web信息檢索有關(guān)。文獻[5]和[47]提出了修改包括標注在內(nèi)的搜索算法,然而這兩個研究都沒有論證Delicious是否能夠產(chǎn)生足夠數(shù)量、質(zhì)量來支持他們的方法。對于諸如如何利用大眾分類和專家分類自動標注網(wǎng)絡(luò)資源,提高社會標注的普及率,進而來提高標注資源的搜索這一類面向社會標注的語義搜索應(yīng)用,尚未引起業(yè)界廣泛的關(guān)注和研究。

        (4)垃圾社會標注的處理

        目前,在提供社會標注的系統(tǒng)中,存在大量惡意的、無用的垃圾社會標注,這些垃圾標注十分不利于對網(wǎng)絡(luò)資源的共享、檢索、定位。對于垃圾社會標注,BibSonomy主要依靠手工檢查和刪除[3],其他很多提供此服務(wù)的社會標注系統(tǒng)也是采用手工方式。因此,能夠自動檢測垃圾社會標注是當(dāng)前社會標注利用必須解決的一個問題。

        (5)標注粒度問題

        如今,提供社會標注的系統(tǒng)可標注的對象局限于某個網(wǎng)頁或某篇文章。但有時對人們真正有用的信息只是其中的一部分,一個段落甚至一句話,因此,用戶在通過標簽找到該資源后,仍需要花一定的精力去尋找對自己有價值的那部分內(nèi)容。這時,可以考慮讓用戶定位資源中的“相關(guān)內(nèi)容區(qū)域”,例如,若干個段落、若干句子、圖或表等,使資源內(nèi)的具體內(nèi)容單元可以被區(qū)分和單獨標引。當(dāng)然,也要避免標注粒度太小而帶來標注負擔(dān)的問題。

        (6)信息檢索

        社會標注在信息檢索中的應(yīng)用研究還很少,僅有的成果集中在分類搜索和利用社會標注隱含鏈接來計算網(wǎng)絡(luò)資源相關(guān)性和結(jié)果排序方面。但是,關(guān)于社會標注在信息檢索的用戶界面表示、語義信息挖掘及可視化方面還鮮有研究。另外,將社會標注的資源發(fā)現(xiàn)能力應(yīng)用在信息檢索中也是有待進一步研究的一個熱點。

        6 結(jié)束語

        隨著提供社會標注服務(wù)系統(tǒng)的急劇增加,對社會標注服務(wù)的應(yīng)用研究越來越成為研究領(lǐng)域關(guān)注的問題,目前人們已經(jīng)在這方面做了大量的工作,本文對最近幾年來國內(nèi)外在該領(lǐng)域的主要成果進行了回顧與總結(jié),綜述了社會標注的研究現(xiàn)狀,包括社會標注的標注對象、標注方法及其分類特性、在信息檢索中的應(yīng)用等等,并在綜述的同時指出仍然存在的問題和將來進一步研究的方向??偟膩碚f,對社會標注的研究仍然處于剛剛起步的階段,離商業(yè)應(yīng)用還有很長的路要走,仍然有大量關(guān)鍵的問題還需要做深入細致的研究。

        [1] M athes A.Fo lksonom ies-Cooperative Classification and Communication through Shared Metadata[OL].http://www.adammathes.com/academic/computermediated-communication/folksonomies.htm l.

        [2] Lambiotte R.and Ausloos M.Collaborative Tagging A s A Tripartite Network[C]//Proceedings of the International Conference on Computational Science.Sp ringer-Verlag,2006:1114-1117.

        [3] Cattuto C.,Schm itz C.,Baldassarri A.,et al.Network Properties of Folksonom ies[J].AICommunications Journal,Special Issue on Network Analysis in Natural Sciences and Engineering,2007,20(4):245-262.

        [4] Cattuto C,Loreto V.,Pietronero L.Sem iotic Dynamics and Collaborative Tagging[J].Proceedings o f the National Academy of Sciences,2007,104:1461-1464.

        [5] Shenghua B.,Xian W.Op timizing W eb Search Using Social Annotations[C]//Proceedings of Word Wide Word(WWW 2007).New York:ACM,2007:501-510.

        [6] GuiRong X.,Huajun Z.,Zheng C.,Yong Y.,et al.Optimizing Web Search Using Web Click Through Data[C]//Proceedings o f ACM International Con ference on In formation and Know ledge M anagement(CIKM 2005).New York:ACM,2005:118-126.

        [7] H otho A.,J schke R.,Schmitz C.,etal.In formation Retrieval in Fo lksonom ies:Search and Ranking[C]//Proceedings of the 3rd European Semantic Web Conference(ESWC2006).M ontenegro:Springer,2006:411-426.

        [8] Begelman G.,Keller P.,Smadja F.Automated Tag Clustering Imp roved Search and Exp loration in the Tag Space[C]//W orkshop of Collaborative W eb Tagging atW orld W ide Web(WWW 2006).2006.

        [9] Justin J.,M ichaelC.,Benjam in M.,Heather R.,et al.Visualizing Social Links in Exp loratory Search[C]//Proceedings of the 19th ACM Con ference on H ypertext and hypermedia.New York:ACM.2008:213-218.

        [10] Brooks C.,Montanez N.Imp roved Annotation o f the Blogosphere via Autotagging and H ierarchical Clustering[C]// Proceedings of W orld Wide W ord(WWW2006).New York:ACM.2006:625-632.

        [11] M ishne G.AutoTag:A Co llaborative App roach to Automated Tag Assignment for W eblog[C]//Proceedings of W orld W ide W ord(WWW 2006).New York:ACM,2006:953-954.

        [12] Tamura H.,Yokoya N..Image Database System s:A Survey[J].Pattern Recognition,1984,17(1):29-43.

        [13] A rnold W.M.S.,MarcelW,Simone S.,et al.Content-Based Image Retrieval at the End o f the Early Years[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(12):1349-1380.

        [14] Ben B..Semantic Based Image Retrieval:A Probabilistic A pp roach[C]//Proceedings o f the 18th ACM International Con ference on M ultimedia.New York:ACM,2000:167-176.

        [15] Shevade B.,Sundaram H.,Lexing X..Modeling Personal and Social Network Context for Event Annotation in Images[C]//Proceedings of the Con ference on Digital libraries.New York:ACM,2007:127-134.

        [16] Ching-man A.Y.,Gibbins N.,Nigel S..Tag Meaning Disambiguation through Analysis of T ripartite Structure of Folksonom ies[C]//Proceedings of the 2007 IEEE/WIC/ACM International Con ferences on Web Intelligence and Intelligent Agent Techno logy w orkshop(W I-IATW 2007).Washington,DC,:IEEE Computer Society,2007:3-6.

        [17] 金澎,吳云芳,俞士汶.詞義標注語料庫建設(shè)綜述[J].中文信息學(xué)報,2008,22(3):16-23.

        [18] Robert J.,Leandro M,Andreas H,et al.Tag Recommendations in Folksonomies[C]//Proceedings of the 11th European Conferenceon Princip les and Practice of Know ledge Discovery in Databases.Warsaw,Po land:Sp ringer-Verlag,2007:506-514.

        [19] Sigurb B,Roelof V.Flickr Tag Recommendation Based on Collective Know ledge[C]//Proceedings of World Wide Web(WWW 2008).New York:ACM,2008:327-336.

        [20] Jian W,Brian DD.Exp lorations in Tag Suggestion and Query Expansion[C]//Proceedings of the 2008 ACM w orkshop on Search in social media.New York:ACM,2008:43-50.

        [21] Fuxman A.,Tsaparas P.,Achan K.et al.Using the Wisdom of the Crow ds for Keyword Generation[C]//Proceedings of World W ide W eb(WWW 2008).New York:ACM,2008:61-70.

        [22] K lebanov B.B.,Daniel D.,Beigman E..Automatic Annotation of Semantic Fields for Political Science Research[J].Journal of In formation Technology&Po litics,2008,5(1):95-120.

        [23] Culotta A.,Bekkerman R.,M cCallum A..Extracting Social Netw orks and Contact In formation from Email and the Web[C]//CEAS-1,2004.

        [24] Andrew I.Schein,A lexandrin Popescul,Ly le H.Ungar,David M.Pennock.Methods and Metrics for Co ld-Start Recommendations[C]//Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR 2002).New York City,New York:ACM:253-260.

        [25] 豆瓣網(wǎng)關(guān)于電影《海角七號》的社會標注頁面[OL].h ttp://www.douban.com/sub ject/3158990/?i=0.

        [26] 張玫,張曉琳.Connotea中Social Tagging機制研究[J].現(xiàn)代圖書情報技術(shù).2007(7):1-4.

        [27] Hak L.K.,Suk H.H.,Hong G.K..FCA-based App roach for M ining Contextualized Folksonomy[C]//Proceedings of the ACM Symposium on A pp lied Computing(SAC2007).New York:ACM,2007:1340-1345.

        [28] A liakbary S,Khayyam ian M,Abo lhassani H.Using Social Annotations for Search Results Clustering[C]//Proceedings of the 13th International Computer Society of Iran Com puter Conference.Heidelberg,Berlin:Springer,2008:976-980.

        [29] Al-Khalifa,Hugh C..Fo lksAnnotation:A Semantic M etadata Tool for Annotating Learning Resources U-sing Fo lksonom ies and Domain Ontologies[C]//Innovations in In formation Technology.Dubai:IEEE,2006:1-5.

        [30] Ernst J..What A re the Differences between A Vocabulary,A Taxonomy,A Thesaurus,An Ontology,and A M eta-Model?[OL] :http://www.metamodel.com/article.php?story=20030115211223271;January 15,2003.

        [31] Barrow s J.T..Features:Search Considered Integral[J].Queue,2006,4(4):30-36.

        [32] VanderleiA.,Durao A.,Martins A,et al.A Cooperative Classification Mechanism for Search and Retrieval Softw are Components[C]//Proceedings of the ACM Sym posium on A pp lied Com puting(SAC2007).Seoul:ACM,2007:866-871.

        [33] K raw czak D.,Sm ith P.,Shute S..EP-X:A Demonstration of Semantica lly Based Search of Bibliographic Databases[C]//Proceedings of the 10th annua l international ACM SIGIR con ference on Research and development in information retrieval(SIGIR1987).New York:ACM :263-271.

        [34] Furnas G.W.,Deerw ester S..In formation Retrieval Using A Singular Value Decomposition Model of Latent Semantic Structure[C]//Proceedings of the11th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIG 1988).New York:ACM,1988:465-480.

        [35] Voorhees E.M.Using WordNet to Disambiguate Word Senses For Tex t Retrieval[C]//Proceedings o f the 16th Annual International ACM SIGIR Con ference on Research and Development in Information Retrieval(SIGIR1993).New York:Sp ringer,.1993:173-180.

        [36] Voorhees E.M.Query Expansion Using Lexical Semantic Relations[C]//Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR1994),New York:Sp ringer,1994,61-69.

        [37] Guha R,M ccool R,M iller E..Semantic search.In:Proceedings of W orld W ide Web 2003(WWW 2003)[C]//New York:ACM,2003:700-709.

        [38] Zhang L,Yu Y..An Enhanced Model for Searching in Semantic Portals[C]//Proceedings of World W ide Web 2005(WWW 2005).New York:ACM,2005:453-462.

        [39] May field J,Finin T..Information Retrieval on the Semantic W eb:Integrating Inference and Retrieval[C]//Proceedings of SIGIRWorkshop on the Semantic Web(SIGIR2003).New York:ACM :325-334.

        [40] W u X.,Zhang L.,Yu Y..Exp loring Socia l Annotations for the Semantic Web[C]//Proceedings of World Wide Web(WWW 2006).New York:ACM,2006:417-426.

        [41] G ruber T..Onto logy of Folksonomy:A Mash-up of Apples and O ranges[J].International Journal on Semantic Web and Information Systems 2007,3(1):1-11.

        [42] Salton G.,M cGillM.J..Introduction to M odern Information Retrieval[M].New York:M cG raw-H ill,1983.

        [43] H u Y.,Xin G.,Song R.,et al..Title Extraction from Bodies of H tm l Documents and Its App lication to W eb Page Retrieval[C]//Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in In formation Retrieval(SIGIR2005).New York:ACM,2005:250-257.

        [44] Westerveld T.,K raaijW.,H iemstra D..Retrieving Web Pages Using Content,Links,U rls and Anchors,Pages[C]//Proceedings o f TREC10.2001:663-672.

        [45] Page L.,Brin S.,Motwani R,.The Pagerank Citation Ranking:Bringing O rder to the Web[R].Tech-nical report,Stanford Digital Library Technologies Project,1998.

        [46] Richardson M.,Prakash A.,Bril E..Beyond Pagerank:Machine Learning For Static Ranking[C]//Proc.of W orld WideWeb(WWW 2006).New York:ACM,2006:707-715.

        [47] Yanbe Y.,Jatow t A.,Nakamura S.,et al.Can Social Bookmarking Enhance Search in the Web?[C]//Proceedings o f the Con ference on Digital libraries(DL2007).New York:ACM,2007:107-116.

        [48] Lee S.E.,Han S.S..Q tag:Introducing theQualitative Tagging System[C]//Proceedings of the 18th Conference on Hypertextand H yperdedia(HH 2007).New York:ACM,2007:35-36.

        [49] Li Xin,Guo Lei,Y ihong,Eric Zhao.Tag-based Social Interest Discovery[C]//Proceedings of World W ide Web(WW 2008).New York:ACM,2008:675-684.

        [50] Scott J.Social Netw ork Analysis:A H andbook.2nd edition[M].London:Sage Pub lications,2000.

        [51] Girvan M.,Newman MEJ..Community Structure in Social and Biological Networks[J].Proceedings of the National A cademy of Sciences of the United States of America,2002,99(12):7821-7826.

        [52] Fiedler M.A lgebraic Connectivity of G raphs[J].Czechoslovak Mathematical Journal,23(2):298-305.

        [53] Pothen A.,Simon H.,Liou K..Partitioning Sparse Matrices with Eigenvectors of G raphs[J].SIAM Journalon Matrix Analysis and Application.1990,11(3):430-452.

        [54] Kernighan W.,Lin S..An Efficient Heuristic Procedure for Partitioning Graphs[J].Bell System Technica l Journal.1970(49):291-307.

        [55] Girvan M.,Newman M EJ..Finding and Evaluating Community Structure in Networks[J].Physical Review E 2004(69),arXiv:cond-mat0308217,2004.

        [56] G leiser P.,Danon L..Community Structure in Jazz[DB].arXiv:cond-mat0307434,2003.

        [57] Faloutsos C.,KSM,and A.Tomkins.Fast Discovery of Connection Subgraphs[C]//Proceedings of the 10th ACM SIGKDD International Conference on Know ledge Discovery and Data Mining(SIGKDD2004).New York:ACM :118-127.

        猜你喜歡
        語義分類資源
        基礎(chǔ)教育資源展示
        分類算一算
        一樣的資源,不一樣的收獲
        語言與語義
        分類討論求坐標
        資源回收
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        資源再生 歡迎訂閱
        資源再生(2017年3期)2017-06-01 12:20:59
        “上”與“下”語義的不對稱性及其認知闡釋
        91麻豆精品激情在线观看最新| 亚洲天堂丰满人妻av| 在线观看av片永久免费| 欧美成人午夜精品久久久| 2021国产精品视频| 国产精品久久国产精品久久 | 色欲AV成人无码精品无码| 亚洲素人av在线观看| 国产91精品高潮白浆喷水| 日本亚洲欧美色视频在线播放| 国内精品久久久久久久久久影院 | 国产三级av大全在线爽| 亚洲一区二区三区偷拍自拍| 蜜臀av一区二区三区久久| 人妻无码一区二区不卡无码av| 肉体裸交丰满丰满少妇在线观看 | 日韩男女av中文字幕| 久久久久久夜精品精品免费啦 | 性感人妻中文字幕在线| 一区二区三区视频在线观看| 无人高清电视剧在线观看| 欧美黄色免费看| 精品少妇一区二区三区四区| 激情综合五月| 中国xxx农村性视频| 欧美日韩国产在线成人网| 亚洲精品456在线播放狼人 | 免费成人在线电影| 伊人久久大香线蕉免费视频| 亚洲精品熟女乱色一区| 美女被男人插得高潮的网站| 97高清国语自产拍| 国产激情视频在线观看首页| 日韩av中文字幕波多野九色| 国产综合精品一区二区三区| 无遮挡亲胸捏胸免费视频| 最新亚洲av日韩av二区一区| 青青草亚洲视频社区在线播放观看| 亚洲成人色区| 草草影院国产| 久久精品国产亚洲av一般男女|