李翔
摘要:
從20世紀后期了開始,萬維網開始了泡沫性的增長,人們越來越多的依賴網絡所帶來的便利,網絡代替了傳統的文字資料。經過多年的積累,網絡成為了一個巨大的數據庫,而網上過大的數據信息量已經超出了人們的信息處理能力范圍。在當前的社會背景之下,社會化標簽系統營運而生,標簽系統能夠為人們提供有效的與資源聚合的標簽,用戶通過自定義的詞匯對資源進行標注,使資源以一種簡短的詞匯進行展示,提高人們對資源的閱讀速度。
關鍵詞:
社會化標簽系統;聚合連接;資源內容
中圖分類號:
F49
文獻標識碼:A
文章編號:1672-3198(2014)18-0175-02
1 國內外社會化標簽現狀
在快速的網絡社會中,社交網站吸引了很多人利用社會網絡參與、關注和建立屬于自己的關系網,據統計,在Facebook社交網站用戶中85%的用戶每周登陸一次,每月至少登錄一次Facebook有4億的人,平均每個注冊用戶平均每天會花費3個小時在Facebook上。隨著開心網、微博、51job等各類新型的網站那的興起,帶動了社交功能型網站的傳播,而社會化標簽的推薦服務也在這些網站中暫露頭角,體現了巨大的商業(yè)價值。例如一些招聘網站會根據企業(yè)發(fā)出的招聘信息標簽與招聘人員的招聘信息標簽進行符合度匹配。
標簽數據的三個主要因素區(qū)別于普通的結構圖,會呈現出一種獨特的超圖結構,社會化標簽系統中,利用PageRank算法或FolkRank算法能夠為用戶提供高效的標簽推薦,為用戶提供更加快速的訪問體驗。在用戶偏好的數據的獲取和計算上,通過在數據模型中利用更高維度的張量分解技術減低噪聲對數據采集的影響,提高標簽計算分析的準確率。
隨著社會上對社會化標簽系統的重視和研究,國外的很多比較成熟的研究成果可以借鑒,對研究社會化標簽系統的個性化標簽推薦有著重要意義,例如超圖能夠更加直觀的刻畫社會化標簽系統中的三種因素之間的結構關系;基于標簽的聚類算法可以對標簽系統周圍的噪音進行過濾,減少一些不準確的標注對資源標簽標注所帶來的影響;推薦節(jié)點能夠為用戶提供多種類別的節(jié)點,打破了只推薦一中類別的傳統思想;社會網絡分析方法能夠借助社會信息的,較為社會化標簽系統提供更加全面更快速的資訊,與推薦算法結合已達到擴大影響的目的;多層網絡有很好的耦合性,有助于對資源進行標簽分析。
2 社會化標簽
標簽可以被理解為給用戶特定資源的主題等資源的特點進行描述。社會化標簽是用戶對資源的一種概括,能夠復合人們對資源的直觀理解。元數據標簽是由用戶生成的,它不同于由專家或作者的網站自動生成一種標簽數據,它能夠更加簡短、明確、清晰的反應出資源的特征。
人們對網絡的認識從簡單到復雜,復雜的網絡理論能夠清楚的分析一些復雜的動態(tài)系統,它能夠幫助人們理解和解釋系統的結構、相互作用的關系。在復雜網絡中,每一個節(jié)點都代表為一個單獨的個體,在本文中研究中被代表為用戶,兩個節(jié)點之間的連接線表示了用戶與用戶之間的相互聯系。
圖1為第一部分,圖中所有的節(jié)點相互連接,而且所有的節(jié)點全部相同,這是一種典型的基本網路。圖2所示是“用戶-對象”,用戶和對象被分成兩個部分,一邊的節(jié)點與另一邊的節(jié)點進行相連,相同類型間的節(jié)點不相連,例如購物網站。社會化標簽系統還存在另一種關系,如圖3所示。圖3中不僅包括可用戶、對象還包括了標簽,構成了獨特的三元結構圖,是“用戶-對象”結構的延伸,不同的節(jié)點之間可以相連,相同的節(jié)點之間同樣不可以相連。超圖理論打破了原有的顯性連接的束縛,允許一條邊連接多個節(jié)點。
超圖理論在標簽算法當中具有一般性,因此在各個學術領域都得到了認可和廣泛的應用,是現今研究社會化標簽系統中的熱點。
3 標簽推薦圖模型算法
在Folksonomies中會在系統的導航中為用戶推薦幾種標簽,更甚至通過用戶的偏好進行分析,推薦用戶更加關心的資源。
pageRank算法又被稱為網頁排名,它能夠通過用戶在某一頁面入鏈數量對該網頁的重要性進行分析。pageRank算法入鏈方法假設頁面入鏈的次數越多,那么這個頁面就越重要,而鏈接到它的上級頁面也是重要的。pageRank不但考慮到入鏈數量也考慮到了入鏈質量,同理,入鏈質量越高該頁面越重要。在本文中pageRank值以下被稱為PR值,每個網頁都有一個PR值,而每個頁面的PR值都是由鏈接頁面的PR值迭代而成。PR值的計算公式如下:
PR(A)=(1-d)+d(PR(T1)C(T1)+
PR(T2)C(T2)+…+PR(Ti)C(Ti))
公式中PR(A)是頁面A的PR值;用PR(Ti)表示入鏈到網頁A的頁面的值,也就是頁面Ti的PR值,網頁Ti是到達網頁A的最后鏈接頁;C(Ti)是入鏈到頁面Ti時所有的總跳轉數。d的數值為0到1。
我們可以將標簽的Folksonomy四元素F=(U,T,I,Y)形成一個三部圖GF(V,E)。三部圖中一條邊權重的值為GF,w(u,t)=|{r∈R(u,r,t)∈Y}|中w是節(jié)點出現的數量。設w(vi,vj)為GF中邊的權值,w(vi)為vi頂點的值。公式如下:
4 總結
社會化標簽系統由于更加準確和簡短的描述非常受廣大網名的歡迎,用戶可以對任何資源進行標簽自定義設置。但是,社會標簽系統并不是完美的,數據的損失、冗余、噪音的產生都會影響到系統對資源標簽的處理。標簽算法的融合和革新將是今后研究的重點方向。
參考文獻
[1]孔祥迎.基于社會化標簽的個性化推薦技術研究[D].成都:電子科技大學,2013.
[2]陳麗霞.基于社會化標簽的P2P語義推薦研究[D].西安:西安電子科技大學,2012.
[3]馬翩翩.D~2核K-means算法在標簽系統中的應用研究[D].南寧:廣西大學,2012.
[4]王曉帥.社會化標簽推薦算法的研究[D].南寧:廣西大學,2012.
[5]范能能.圖像社會化標簽預處理與聚類方法研究[D].武漢:華中科技大學,2012.
[6]傅麗君.社會化標簽與分類集成的信息導航結構及其應用研究[D].杭州:浙江理工大學,2013.