桂筱丹
(首都圖書館,北京 100021)
當前,互聯(lián)網(wǎng)已經(jīng)成為人們獲取信息最重要的來源之一,隨著以 Blog(博客)、SNS(社會性網(wǎng)絡(luò)服務(wù))、RSS聚合、Bookmark(社會性書簽)等社會性服務(wù)為代表的新一代互聯(lián)網(wǎng)(Web2.0)技術(shù)的廣泛應(yīng)用,一種“全民織網(wǎng)”的新形態(tài)互聯(lián)網(wǎng)信息創(chuàng)造、組織方式應(yīng)運而生。在此背景下,F(xiàn)olksonomy由社會性書簽最具特色的自定義標簽(Tag)功能衍生而來,是Web2.0的重要范疇和典型的技術(shù)應(yīng)用之一。
Folksonomy概念的出現(xiàn)晚于它的應(yīng)用。2004年,Thomas Vander Wal將“folk”和“taxonomy”組合成“Folksonomy”,作為描述del.icio.our(美味書簽)和Flickr(閃亮圖片夾)兩個網(wǎng)站所發(fā)展出的信息架構(gòu)的術(shù)語。
Folk:意思是廣大成員、人們,表達了Folksonomy作為Web2.0環(huán)境下社會化軟件(Social Software)的大眾性。社會性軟件是指任何支持群體交流的軟件,其核心內(nèi)涵在于互聯(lián)網(wǎng)應(yīng)用模式開始從傳統(tǒng)的“人機對話”逐漸轉(zhuǎn)變?yōu)椤叭伺c人對話”。
Taxonomy:意思是分類法,傳統(tǒng)意義上指專家分類法或圖書館分類法,表現(xiàn)為基于概念的樹狀分類表,具有嚴謹?shù)膶哟谓Y(jié)構(gòu)和唯一性。Taxonomy表達了Folksonomy信息資源組織的功能性。
Folksonomy:維基百科中的定義為一種通過協(xié)作式創(chuàng)建和管理標簽對內(nèi)容(資源對象)進行注解和分類的方法和實踐。譯作“分眾分類法”、“大眾分類法”、“通俗分類法”、“社會分類法”、“自由分類法”等,也有人將其解釋為Social Classification。
Folksonomy的原理是向社群參與者提供一種協(xié)同構(gòu)建與分享各自網(wǎng)絡(luò)資源標簽的開放式平臺,用戶通過自己制定的分類標準來提交Tag,由用戶群體定義Tag的頻率來決定信息的組織方式。
下面以張愛玲作品《十八春》為例說明Folksonomy形成過程,見表1。
表1 用戶群體對張愛玲作品《十八春》定義Tag列表
以 Tag使用頻率計算:張愛玲(5),十八春(4),中國文學(4),愛情(3),小說(3),文學(2),張愛玲小說(1),中國(1),經(jīng)典(1),女性(1),其中,“張愛玲”、“十八春”、“中國文學”,這3個詞語使用頻率最高,那么這3個詞語就組成該作品在有限范圍內(nèi)(User1~User5)的 Folksonomy。
當然,以上User樣本量選取有限,無法完整地表現(xiàn)Folksonomy的信息組織結(jié)構(gòu)。Folksonomy的主要機制是基于“開放性元數(shù)據(jù)標準”和“自然語言的群類聚集”。只有當一定數(shù)量的用戶對信息進行個性化標引,才能形成有效穩(wěn)定的社會性Folksonomy。惠普實驗室的研究人員指出,只要指向某網(wǎng)頁(即資源對象)的書簽(即用戶行為)數(shù)量超過100個,每個標簽在標引這個網(wǎng)頁所使用的所有標簽中占的比例會相對固定,也就是說形成了對該網(wǎng)頁相對穩(wěn)定的分類。
傳統(tǒng)分類法是權(quán)威專家學者根據(jù)知識累積和實踐經(jīng)驗構(gòu)建而成的,F(xiàn)olksonomy卻是任何人都可以根據(jù)自己對信息資源的主觀解讀,不受傳統(tǒng)分類法學科、語種、等級結(jié)構(gòu)甚至是準確性限制,使用個性化標簽自由標引。當然這并不是說Folksonomy結(jié)構(gòu)混亂。如上所言,采用基于統(tǒng)計概率的客觀規(guī)律調(diào)節(jié),F(xiàn)olksonomy呈現(xiàn)相對穩(wěn)定的結(jié)構(gòu)體系。
Folksonomy是隨著Web2.0技術(shù)的應(yīng)用而逐漸形成的。面向社會搭建一個開放共享的平臺,借助網(wǎng)絡(luò)的力量來利用集體智慧,這是Web2.0核心要素。Folksonomy作為Web2.0典型應(yīng)用,為用戶提供了共享標簽功能。用戶對信息資源的標引公開,所有人均可共享。
傳統(tǒng)分類法具有嚴密的等級結(jié)構(gòu)和邏輯關(guān)系,而Folksonomy的類目則是根據(jù)數(shù)理統(tǒng)計方法在內(nèi)的各種算法和機制產(chǎn)生的,各個Tag之間的關(guān)系是一種平行的關(guān)系,但是又可以根據(jù)相關(guān)性分析,將經(jīng)常一起出現(xiàn)的Tag關(guān)聯(lián)起來,而產(chǎn)生一種相關(guān)性的分類。Folksonomy通過標簽云(Tag Cloud)傳達各個Tag在運用時的情形,使用頻率越高、設(shè)置次數(shù)越多的Tag,字體越大、越粗,顏色越醒目。
圖1為在Librarything網(wǎng)站以“Web2.0”搜索Tag,其相關(guān)Tag生成的標簽云(LT Tag Cloud)。
圖1 “Web2.0”相關(guān)Tag標簽云
傳統(tǒng)分類法使用人工語言,具有嚴格的層級結(jié)構(gòu),用戶需要具有一定的專業(yè)知識,從根目錄開始經(jīng)過幾級類目尋找所需要的信息。Folksonomy是通過自然語言的社群聚類實現(xiàn)類目劃分,平面化非等級結(jié)構(gòu)。用戶不需要預(yù)先學習其體系構(gòu)建,減少用戶的認知負擔,用戶可以輕松掌握使用方法。
在當前瞬息萬變的網(wǎng)絡(luò)世界里,由于傳統(tǒng)分類法使用受控語言,類名預(yù)先設(shè)定,用戶不能自定義以及更改類名,其體系結(jié)構(gòu)相對固定和滯后,學科創(chuàng)新、社會發(fā)展趨勢難以及時反映。而Folksonomy引入自然語言作為標簽(即類名),不受類名使用標準限制,能從不同角度描述信息資源的內(nèi)容,全面而靈活;標簽的確定依據(jù)用戶自定義頻率,體系隨著社會熱點話題及時實現(xiàn)結(jié)構(gòu)動態(tài)更新。
雖然用戶個性化的標引行為首先是為了滿足個人信息組織的需求,而不是為了滿足Folksonomy內(nèi)容創(chuàng)建整體性需要,但大量用戶的個性化行為卻形成了其用戶為主體的體系創(chuàng)建模式,省去了傳統(tǒng)分類法大量專業(yè)人員預(yù)先編制分類體系、組織信息和維護更新所消耗的成本。與專業(yè)分類系統(tǒng)的高成本相比,它是以很低的成本獲得了高命中率的分類系統(tǒng)。
Tag是用戶對信息資源顯性和隱性知識分析提煉的結(jié)果,不一定是針對主題,可以是時間、對象、時代背景等任意個性化理解的標注,高度集中的標簽反映了該內(nèi)容本身的標志性的特性,而分散的標簽,更多的和個人的知識信息系統(tǒng)的需求和不同相關(guān),實現(xiàn)了對信息資源多角度深刻揭示。
Folksonomy自由化標引形成的非等級標簽系統(tǒng)具有內(nèi)在邏輯關(guān)系,它使知識的擴展不是過分地封閉在某一個領(lǐng)域內(nèi)。用戶通過標引標簽行為能發(fā)現(xiàn)平時沒有關(guān)注的知識領(lǐng)域,里面不僅可以包括主流性話題,也包括其他方面非主流的話題,體現(xiàn)了文化的多樣性。這種多向線索知識擴展鏈,有助于發(fā)現(xiàn)用戶興趣的“長尾”。
Folksonomy是網(wǎng)絡(luò)環(huán)境下一種新興的社會化分類法,具有很多優(yōu)于傳統(tǒng)分類法的特點。但是,F(xiàn)olksonomy并不能稱作完美的信息分類組織方法,甚至在很大程度上具有無法忽視的缺陷,需要正視和加以控制。
依托面向社會的開放式平臺,網(wǎng)絡(luò)用戶使用Tag標引信息資源,這是Folksonomy結(jié)構(gòu)體系形成的基礎(chǔ)。但由于用戶文化水平的不平衡性以及所處環(huán)境、學科專業(yè)的多元化,對同一信息資源的理解會有較大差異;同時由于用詞習慣的不同,同義詞、反義詞、翻譯詞、外來詞甚至是網(wǎng)絡(luò)文字的大量使用,致使Tag選擇出現(xiàn)歧義缺陷、同義缺陷、同現(xiàn)缺陷、語法缺陷以及權(quán)重缺陷。用戶選用過于個性化而通用性差的Tag,致使Tag使用缺乏控制,內(nèi)容聚合質(zhì)量下降。
Folksonomy不存在根節(jié)點,沒有上位類和下位類,盡管使用頻率高的Tag在標簽云中通過字體大小、顏色等凸顯出來,但當Tag數(shù)量超過某個限度后,很難按照邏輯結(jié)構(gòu)找到需要的類別。在大眾淺層信息需求的影響下,一部分具有重大價值但卻過于專業(yè)性、使用頻率較低的標引很容易被遺漏。
因為用戶標引的不可控性,在一些使用頻率特別高的Tag當中,會出現(xiàn)一些毫無關(guān)系、沒有價值的垃圾資源條目(Tag spam)。這些Tag spam產(chǎn)生可能是因為盲目的宣傳、無關(guān)廣告信息、用戶權(quán)限的濫用,甚至可能是因為惡意的破壞。Tag spam的出現(xiàn)會影響Folksonomy體系的有效運行。
目前已經(jīng)有很多使用Folksonomy對信息架構(gòu)分類的系統(tǒng)意識到了這些問題,并采用一系列規(guī)范化的控制措施來優(yōu)化Folksonomy分類體系:①引入基于人工智能技術(shù)的同義詞環(huán),合并具有同意義的標簽;②建議不要使用過于個人色彩的詞匯標引;③通過用戶對數(shù)據(jù)源的人工判斷和打分,發(fā)現(xiàn)高質(zhì)量的重要信息;④根據(jù)用戶對系統(tǒng)的貢獻(比如添加信息資源的數(shù)量、質(zhì)量、被其他用戶利用的程度等)設(shè)置用戶級別,根據(jù)級別設(shè)置不同的權(quán)限;⑤加強對使用標簽檢索的結(jié)果進行排序整理;⑥對濫用標簽情況進行人工干預(yù)處理等。
“皮尤網(wǎng)絡(luò)與美國生活項目”(Pew Internet&American Life Project)的報告表明,美國有28%的網(wǎng)民曾給自己的博客、網(wǎng)絡(luò)照片、在線書簽、視頻添加標簽,每天都有7%的網(wǎng)民利用標簽功能為自己上傳或找到的內(nèi)容進行分類和管理。這項調(diào)查顯示,短短幾年之內(nèi)Folksonomy已經(jīng)開始被網(wǎng)絡(luò)用戶熟悉、接受和使用。Folksonomy使得分類法思想和廣大用戶對信息資源的理解無障礙結(jié)合起來,并且提供了更加個性化和多元化的信息組織方式,使得這種以自定義標簽形式的分類方法在不同的領(lǐng)域得到了廣泛的應(yīng)用。
Connotea:由自然出版集團(Nature Publishing Group)2004年12月建立的網(wǎng)上參考資源管理和社會性書簽工具。Connotea提供網(wǎng)絡(luò)化的參考鏈接和資源緩存、平面資源的組織,輔之以多維標簽、協(xié)作標注、資源共享和書目信息/引文連接自動添加等功能。
CiteULike:CiteULike是學術(shù)性社會書簽管理工具,目的在于促進和發(fā)展科研人員之間的共享。用戶通過CiteULike特有的開發(fā)工具可以共享信息、交流學術(shù)論文,CiteULike提供用戶學術(shù)文章和書籍信息保存、分享、組織等服務(wù),支持用戶建立個人資料庫,支持Tags、RSS訂閱、設(shè)置優(yōu)先權(quán)限、支持按照Tags和作者查詢功能,并支持建立用戶組群等服務(wù)。2004年11月創(chuàng)立,目前擁有學術(shù)論文信息200多萬條。
Via Zheng Steve.Museum:作為一個試驗性項目,系統(tǒng)注冊用戶可以對他們提供的藝術(shù)品進行標引描述,其目的在于通過協(xié)同合作的方式使公眾參與組織博物館中的藝術(shù)品信息,使博物館工作人員了解到社會大眾對博物館中藝術(shù)品的理解。初步的研究成果表明,一部分標簽具有普遍適用性,而另一部分標簽只適用于個別藝術(shù)品。
Del.icio.us:這是最早也是目前最著名的社會性書簽工具,2003年年底由Joshua Schachter開發(fā),2005年已經(jīng)擁有超過500萬用戶和1.5億書簽地址連接。Del.icio.us使用非等級分類系統(tǒng),用戶可以直接對每個書簽自由進行個性化標引。系統(tǒng)根據(jù)用戶書簽的標引,自動篩選并推薦相似想法用戶。Del.icio.us主頁提供“popular”(熱門)和“recent”(最新)頁面,幫助用戶了解網(wǎng)站熱點和趨勢流向。
Flickr:作為圖片分享服務(wù)網(wǎng)站,由加拿大Ludicorp公司的Stew art Butterfield和Caterina Fake 2004年設(shè)計。2008年11月4日該網(wǎng)站用戶上傳圖片突破30億,到目前為止該數(shù)量已經(jīng)改寫為34億,還在以每分鐘超過3000張的速度增長。Flickr通過授權(quán)控制策略,對資源信息公開的范圍和供他人使用的形式進行區(qū)分。允許用戶邀請他人加入,將用戶已有的社會關(guān)系轉(zhuǎn)入Flickr系統(tǒng);同時允許用戶根據(jù)興趣、Tags、關(guān)注度等發(fā)展Flickr系統(tǒng)內(nèi)部的社會關(guān)系。擁有用戶組功能,各組群中具有圖片共享功能,可以組成圖片集,設(shè)立組群內(nèi)部論壇,甚至還提供用戶聊天功能。
Folksonomy是一種全新的分類思想和互聯(lián)網(wǎng)應(yīng)用方式,對傳統(tǒng)分類法具有理念和實際應(yīng)用多方面的啟示,提供網(wǎng)絡(luò)用戶參與分類的可能途徑,進行了自然語言和人工語言結(jié)合的有益嘗試。在未來的發(fā)展上,如何引導(dǎo)網(wǎng)絡(luò)用戶集體智慧、利用分類專家的專業(yè)能力提高檢索效果;提升系統(tǒng)個性化服務(wù),突破現(xiàn)有的數(shù)字資源服務(wù)平臺,應(yīng)用到個人信息組織的其他方面是Folksonomy亟待解決的問題。
[1] [2010-04-28].http://www.connotea.org/.
[2] [2010-04-28].http://www.citeulike.org/.
[3] [2010-04-28].http://www.steve.museum//.
[4] [2010-04-28].http://www.del.icio.us/.
[5] [2010-04-28].http://www.flickr.com/.
[6]田野.調(diào)查顯示28%美國網(wǎng)民曾在網(wǎng)上貼標簽.[2007-02-05].http://www.cnii.com.cn/20070108/ca397634.htm.
[7] 李文舉.公眾分類法(Folksonomy)基礎(chǔ)性理論研究.圖書館學研究,2008(9):78-80.
[8] 王翠英.Folksonomy 初探.圖書館學研究,2007(5):85-87.
[9] 陳潔,司莉.社會分類法(Folksonomy)特點及其應(yīng)用研究.圖書與情報,2008(3):27-30.
[10] 余臻,李保珍.網(wǎng)絡(luò)信息資源的大眾化分類.情報科學,2008(7):65-67.