張軍雄
(廣東海洋大學圖書館,廣東 湛江 524088)
張軍雄 男,1972年生。本科學歷,副研究館員。研究方向:數(shù)字化圖書館。
網(wǎng)絡(luò)時代,Tag不再是新鮮事物,在新聞、博客、論壇、視頻網(wǎng)站中都可以看到Tag的身影。Tag是Web2.0技術(shù)發(fā)展的產(chǎn)物之一,它具有信息分類和信息傳播的功能。Tag的出現(xiàn)為信息處理提供了一種新的分類手段,使信息分類工作由專業(yè)化走向社會化,由規(guī)范化走向自由化。由此引起了人們對Tag的關(guān)注和重視,許多專業(yè)人士從各個方面對Tag展開研究,從而使Tag在信息組織領(lǐng)域、網(wǎng)絡(luò)傳播領(lǐng)域扮演著越來越重要的角色,對其檢索效率的研究愈顯迫切。
Tag作為一種網(wǎng)絡(luò)分類方式,也稱為開放式分類或大眾分類,是一種對網(wǎng)絡(luò)日志進行個性化整理的民間分類方式,具有平面化、社會化、人性化以及隨意性、聚合性、自適應(yīng)性等特點。它是一種靈活、開放的分類方式,是用戶為自己的文章、圖片、音頻、視頻等一系列文件所定義的一個或多個描述。因此Tag可用來組織個人網(wǎng)絡(luò)信息資源,如果不同的用戶使用同樣的Tag來描述、組織相關(guān)內(nèi)容的信息資源,則可將這些信息資源進行聚合。同樣,對于同一內(nèi)容或者具有相關(guān)性的內(nèi)容,用戶用來描述、組織這些內(nèi)容的Tag可以進行匯聚。[1]大眾分類法為信息組織工具的設(shè)計提供了一種新的視角,將組織資源的權(quán)力由權(quán)威、專業(yè)人員轉(zhuǎn)交給大眾用戶,一方面應(yīng)對網(wǎng)絡(luò)資源的海量、異構(gòu)、分布式和高動態(tài)等特征,另一方面真實反映用戶的詞匯,充分發(fā)揮用戶在信息檢索系統(tǒng)中的作用,以滿足用戶的個性化需求。[2]
隨著Tag應(yīng)用范圍的擴展,其數(shù)量激增,形成了網(wǎng)絡(luò)“標簽云”,使Tag的性質(zhì)也隨之發(fā)生變化,演化成聚合信息、聚合人群、分享信息的工具。海量的信息被自由分類到不同的Tag中,為了查找自己感興趣的東西,就需要通過檢索來實現(xiàn),Tag也就因此具備了檢索功能。由于網(wǎng)絡(luò)Tag是不受規(guī)則控制的分類產(chǎn)物,因此其檢索效率并沒有得到事先保障,對其檢索效率的研究也相對滯后。但作為網(wǎng)絡(luò)環(huán)境下一種新的信息組織方式,我們有必要對其檢索效率進行探討和研究,使其與傳統(tǒng)的信息組織方式相得益彰,使信息組織更加多樣化和簡單化,使網(wǎng)絡(luò)資源得到更好的組織與應(yīng)用。
3.1.1 Tag的選詞靈活,網(wǎng)民可以任意選詞,且詞匯處于動態(tài)變化之中,能及時吸納各種新名詞,反映用戶的觀點和最新網(wǎng)絡(luò)資源,在網(wǎng)絡(luò)環(huán)境下,比主題詞標引顯得更加靈活有效。
3.1.2 用戶可以自主控制專指度,必要時可選取專指性較強的語詞來作為Tag。標引的專指性較高,有利于更深入準確地揭示文獻內(nèi)容,為提高查準率創(chuàng)造條件。
3.1.3 網(wǎng)絡(luò)上的新事物、新名詞較多,Tag可以彌補詞表收詞量不足和更新不及時等缺點,能及時使用新名詞術(shù)語標引與新概念有關(guān)的文獻,還能對圖片、視頻等信息進行標引,更加符合用戶的實際需要。
3.1.4 Tag的時效性強,能夠及時反映網(wǎng)絡(luò)流行資訊,還可對新事物、新技術(shù)、新概念進行標引,有利于實現(xiàn)對信息資源的快速聚合,體現(xiàn)網(wǎng)絡(luò)時代的便捷性,為用戶檢索提供方便。
3.1.5 Tag簡單易用,有利于網(wǎng)絡(luò)資源的推廣,使網(wǎng)絡(luò)資源的建設(shè)和使用大眾化。因此用戶不需要進行檢索技能培訓就能夠快速適應(yīng),從而使網(wǎng)絡(luò)信息得到最大化共享。
3.2.1 Tag中存在大量同義詞,致使同一主題下的文獻較分散,容易造成漏檢,從而降低了檢全率。
3.2.2 漢語中的一詞多義現(xiàn)象不可避免,用戶在選取Tag時一般不會對這種語詞加以限定或說明,容易產(chǎn)生歧義,導(dǎo)致在檢索某種主題文獻時把該詞其他含義的主題文獻一并檢索出來,從而造成誤檢。
3.2.3 Tag中的語詞是平面關(guān)系,關(guān)聯(lián)性能差,詞間關(guān)系不明確,無法清晰表達概念之間的關(guān)系,不利于擴檢或縮檢。
3.2.4 用戶選詞存在模糊性和不確定性,語義表達不準確,造成概念表達出現(xiàn)交叉模糊現(xiàn)象,無形中增加了檢索難度。
3.2.5 在Tag標引和檢索過程中,標引用戶和檢索用戶在分詞上可能存在不一致,導(dǎo)致詞組處理困難,檢索難度加大。尤其是有些用戶喜歡使用專指度高或不常用的詞組作為Tag,這就更加影響檢索的準確性。
4.1.1 Tag是一種分類系統(tǒng)
Tag是用戶根據(jù)自己的需要自由選擇詞匯對網(wǎng)絡(luò)資源進行標注而產(chǎn)生的,每添加一個詞匯即為對資源添加一個Tag,每個Tag相當于用戶對資源的一個分類,資源根據(jù)不同的Tag被組織到不同的分類之下,所有用戶的資源存在于一個共享的平臺上,相同的Tag還能夠聚合不同用戶相同分類下的資源,是一種普通人運用自由定義關(guān)鍵字的方式進行協(xié)作分類的活動。[3]
傳統(tǒng)的分類法是由專業(yè)人員利用規(guī)范化詞表進行分類,而自由分類法則由網(wǎng)民利用自由詞進行分類,不需要專業(yè)分類技術(shù),自由選擇關(guān)鍵詞,不受詞表控制。它的分類由社會大眾完成,適用于網(wǎng)絡(luò)海量數(shù)據(jù)的處理,對新學科、新事物具有很強的兼容性,而且信息分類的成本低、效率高。缺點是分類質(zhì)量參差不齊,分類目錄散亂。因為Tag不遵循傳統(tǒng)的樹狀分類規(guī)律,而是一種平面化的分類體系,這種分類體系在網(wǎng)絡(luò)信息急劇增長的今天,具有無限的發(fā)展?jié)摿Α?/p>
4.1.2 Tag是一種自由信息組織技術(shù)
Tag是用戶為了方便選用自由詞作為自己的Tag,對網(wǎng)絡(luò)信息資源的內(nèi)容進行描述和揭示,而不需要遵循任何規(guī)則的分類方法。用戶根據(jù)自己的需要,用個性化語言來標記網(wǎng)絡(luò)資源,而后通過互聯(lián)網(wǎng)用戶的大量交換以及相關(guān)的內(nèi)容匹配實現(xiàn)信息的社會化傳播。其實Tag的出現(xiàn),就是把網(wǎng)絡(luò)信息組織的工作由專業(yè)人員轉(zhuǎn)向了社會大眾,使海量信息的組織變得簡單便捷,不需要專業(yè)隊伍,也不需要專業(yè)規(guī)則,使網(wǎng)絡(luò)信息資源的加工成本大大降低。
4.1.3 Tag是自由詞
Tag就是一個個用于標識網(wǎng)絡(luò)信息的詞匯,這些詞匯都是由網(wǎng)民自己選取的,或選取于文章,或來源于文章之外,只要作者認為這些詞匯能概括自己的信息內(nèi)容即可,不需要遵守任何規(guī)則,可以隨心所欲地發(fā)揮。因此Tag實際上就是自由詞,具有自由詞的屬性和特征,即具有隨意性、彈性大、標引簡單,但同時也不可避免地造成標引數(shù)據(jù)的不一致性,使信息組織散亂,不利于文獻集中。
檢索效率是每個檢索系統(tǒng)都需要考慮的重要因素,其評價指標包括檢全率、檢準率、檢索的便捷性、響應(yīng)速度以及檢索成本等,其中,檢全率和檢準率是最重要的指標。Tag作為一種網(wǎng)絡(luò)資源分類方式,其檢索效率受以下因素影響。
4.2.1 選詞過于隨意,標引不夠準確
由于網(wǎng)民的文化知識水平參差不齊,因此Tag不像科技文獻中的關(guān)鍵詞那樣通過認真篩選,能夠準確表達文獻主題。有些Tag的概念表述不明確,與文章內(nèi)容的相符程度不高,這就會給檢索活動帶來困難,容易造成漏檢或誤檢。
4.2.2 專指性太強,使用詞組過多
網(wǎng)絡(luò)上有些Tag使用了過多的詞組來標注,使Tag的專指性很高,表面上看起來有利于提高檢準率,但由于專指度過高,使概念相同或相似的文獻不能集中在同一個Tag下,被分散于多處,用同一個Tag進行檢索時,就會漏檢一些文獻,從而影響了檢全率。另外,過高的專指度也未必能提高檢準率,由于幾個Tag都是詞組,表達的概念范圍非常狹窄,若用同義詞進行檢索,也無法將該文獻檢索出來。同時有些Tag所選的詞組不能準確表達文獻的主題內(nèi)容,檢索更加困難。
4.2.3 分類等級不明顯
Tag本身具有分類功能,但Tag分類不同于傳統(tǒng)的分類法,沒有嚴格的等級關(guān)系。由于Tag生成的不確定性,導(dǎo)致分類體系較為凌亂,沒有系統(tǒng)的分類組織,Tag的歸類處于分散狀態(tài),不利于進行族性檢索。如果從分類角度來檢索相關(guān)文獻,就容易造成漏檢,同時還會檢出一些不相關(guān)的主題,造成誤檢。
4.2.4 Tag的數(shù)量
一般來說,采用3~8個關(guān)鍵詞能較好地表達文章內(nèi)容,而網(wǎng)絡(luò)上的一些文章所用Tag過少,僅用一兩個詞來表達,難以準確概括文章內(nèi)容,導(dǎo)致檢準率低。如果Tag語詞太多,除非每個詞都選得比較準確,否則不但沒有起到準確表達文章主題的作用,反而造成干擾,增加了檢索噪音,從而增加了檢索的難度,影響檢索效率。
4.2.5 分類穩(wěn)定性差
Tag不是按照傳統(tǒng)的學科來進行分類,而是按照專題來分,而有些專題是不固定的,隨時可能發(fā)生變化,為檢索帶來困難。以新浪博客為例,如文化、生活、產(chǎn)經(jīng)等欄目是固定的,而有些欄目是根據(jù)新聞事件的需要臨時設(shè)置的,事件過后專題就被取消了,與之相關(guān)的文章也就難以檢索了。
4.2.6 不同的專題
網(wǎng)站上不同的專題聚集了不同的人群,他們的文化層次、思維方式各不相同,因此,不同專題的人群選取Tag的結(jié)果也不盡相同。有些專題的Tag比較準確嚴謹,有些則較為隨意。而各專題涉及內(nèi)容的范圍也各有差異,也會對Tag的選取造成不同的影響。有些專題內(nèi)容比較單一,Tag選取就比較簡單,有些專題涉及的內(nèi)容較廣,Tag選取的難度就高一點。另外,有些網(wǎng)民為了提高自身的關(guān)注度和點擊率,在選取Tag時標新立異,采用一些容易吸引眼球的詞匯,而這些詞匯并不能準確表達文章的內(nèi)容,導(dǎo)致檢索效率下降。
除此之外,檢索響應(yīng)時間隨著系統(tǒng)的升級而不斷加快,網(wǎng)站界面越來越友好,算法越來越科學,檢索的便捷性較好,響應(yīng)時間較短。而檢索成本則因用戶而異,對于專業(yè)檢索的用戶來說,由于對檢索結(jié)果的要求高,因此感覺檢索成本較高;而對于普通用戶來說,由于對檢索結(jié)果的要求不高,而Tag檢索操作簡單,易于使用,故感覺檢索成本較低。
隨著網(wǎng)絡(luò)資源的不斷豐富,Tag的使用越來越廣泛,將成為一種有效的網(wǎng)絡(luò)信息資源分類工具。Tag應(yīng)用技術(shù)將不斷進步,網(wǎng)民的Tag水平也會越來越高。而要提高Tag的檢索效率,關(guān)鍵在于加強Tag的后臺控制技術(shù),比如對同義詞、多義詞進行合并或指引,并加強詞間關(guān)聯(lián)。另外,對網(wǎng)民使用Tag的技術(shù)和習慣進行適當指引和幫助,也是非常必要的。目前,國內(nèi)外越來越多的人從資源描述、協(xié)同技術(shù)、排序技術(shù)、聚類分析等對Tag進行了深入研究,這將促進Tag技術(shù)的不斷進步,也將促使Tag檢索效率的不斷提高。
[1]徐憶南.近年來Tag分類問題研究述略與展望[J].內(nèi)蒙古民族大學學報,2010(11).
[2]隆捷.基于Tag的互聯(lián)網(wǎng)自由分類法研究[D].北京大學,2007.
[3]梁桂英,李記旭.Folksonomy 初探[J].圖書館雜志,2006(4).
[4]張立彬.基于Tag的個性化信息服務(wù)新方式[J].情報科學,2008(10).
[5]鞠福琴,等.從自由分類法看網(wǎng)絡(luò)信息的分類組織[J].情報探索,2008(5).
[6]程慧榮,等.國外基于大眾標注系統(tǒng)的Tag研究[J].圖書情報工作,2009(1).
[7]馬狄倫,吳丹.自由分類法的社會效應(yīng)分析[J].圖書館學研究,2009(12).
[8]顏瑜.網(wǎng)絡(luò)信息檢索效率分析[J].科技情報開發(fā)與經(jīng)濟,2009(5).
[9]朱咫渝.通俗分類的發(fā)展與應(yīng)用[J].情報資料工作,2008(3).
[10]Hsu Ming-Hung,Chen Hsin-His.Efficient and Effective Prediction of Social Tags to Enhance Web Search.Journal of the American Society for Information Science and Technology,2011(62).
[11]Trattner Christoph,Helic Denis,Strohmaier Markus.On the Construction of Efficiently Navigable Tag Clouds Using Knowledge from Structured Web Content.Journal of Universal Computer Science,2011(17).