陶 皖,徐 京,劉成滿 (安徽工程大學(xué)計算機(jī)與信息學(xué)院,安徽 蕪湖241000)
隨著Web 2.0的出現(xiàn),互聯(lián)網(wǎng)上各類新型社交網(wǎng)絡(luò)應(yīng)用 (如論壇、社交網(wǎng)站、博客、微博等)蓬勃地發(fā)展[1]。各類社交網(wǎng)站提供多種工具,為網(wǎng)絡(luò)中搜尋有共同興趣的朋友、潛在朋友或共享朋友及相關(guān)資源帶來極大的便利,但各種社交網(wǎng)站內(nèi)信息不能表示成機(jī)器可直接處理的形式,使得社交網(wǎng)站間缺乏信息集成和交互的有效機(jī)制。本體技術(shù)可以提供機(jī)器可理解的信息,能為社交網(wǎng)站中的信息表示及網(wǎng)站間的協(xié)作提供幫助。為此,筆者對本體技術(shù)在社交網(wǎng)站信息表示中的應(yīng)用進(jìn)行了探討。
本體是共享概念模型的明確形式化規(guī)范說明。一個本體實際上就是一個完備的詞匯表,其核心作用是定義某一領(lǐng)域內(nèi)的基本概念以及這些基本概念之間的關(guān)系。在社交網(wǎng)絡(luò)領(lǐng)域,本體有多方面的應(yīng)用[2]。FOAF (Friend of-a-Friend)、DC (Dulin Core)和SIOC (Semantically Interlinked Online Communities)是已建立的可用于社交網(wǎng)絡(luò)的本體框架或詞匯,其具體內(nèi)容如下[3]。
FOAF是機(jī)器可讀的本體,它可以描述人、人的行為及他和其他人或物的關(guān)系。FOAF中的詞匯用RDF(Resource Description Framework)或OWL(Web Ontology Language)表示,其將RDF技術(shù)和社交網(wǎng)絡(luò)的概念聯(lián)系起來。
DC是描述各類網(wǎng)絡(luò)資源 (如網(wǎng)頁、視頻、圖像等)、實物資源 (如書、藝術(shù)品等)的術(shù)語集合。完整的DC元數(shù)據(jù)可從DCMI(Dublin Core Metadata Initiative)網(wǎng)站查詢。最先制定的15個元數(shù)據(jù)集已總結(jié)為文檔IETF RFC 5013、ISO標(biāo)準(zhǔn)15836-2009和NISO標(biāo)準(zhǔn)Z39.85[4]。15項元數(shù)據(jù)比較全面地概括了電子資源的主要特征,涵蓋了資源的重要檢索點 (1,2,3項),輔助檢索點或關(guān)聯(lián)檢索點 (5,6,10,11,13項)以及有價值的說明性信息 (4,7,8,9,12,14,15),其不僅適用于電子文獻(xiàn)目錄,也適用于各類電子化的公務(wù)文檔目錄、產(chǎn)品、商品、藏品目錄,具有很好的實用性。在組合其他元數(shù)據(jù)描述標(biāo)準(zhǔn)后可完成數(shù)據(jù)云、語義Web、社交網(wǎng)絡(luò)等各類應(yīng)用中的元數(shù)據(jù)交互。
SIOC是采用公開標(biāo)準(zhǔn)的機(jī)器可讀的格式來描述互聯(lián)網(wǎng)中包含的信息,為blog、論壇和郵件列表等提供相互討論的方法。SIOC基于RDF模型,采用RDFs描述,可采用其他已存在的本體來豐富信息的表達(dá)能力。如采用FOAF本體的foaf:maker屬性來說明信息的創(chuàng)建者。
百事高音樂論壇 (http://www.besgold.com)有會員104萬人,具有論壇、群組、家園等板塊,其中清風(fēng)音樂論壇 (http://bbs.breezecn.com)有會員50多萬人,具有音樂交流、特色清風(fēng)、清風(fēng)家園、朋友圈等板塊[5]。這些在線音樂論壇具有明顯社交網(wǎng)絡(luò)的特征,即主題單一、具備完整的音樂價值鏈、有專業(yè)性且關(guān)系穩(wěn)定。因此,借助本體技術(shù)研究音樂論壇中的關(guān)系網(wǎng)絡(luò),通過恰當(dāng)定義論壇用戶以及各個主題之間的社會網(wǎng)絡(luò)關(guān)系,由此建立音樂論壇社會網(wǎng)絡(luò)信息的表示本體OMSN (Ontology for Music Social Network)。
1)會員 (用戶)社會網(wǎng)絡(luò) 通過會員 (用戶)社會網(wǎng)絡(luò)可以分析網(wǎng)絡(luò)中具有相近興趣愛好的用戶群體,如用戶間關(guān)系可用RDF三元組表示為member A、member B和relation Value,其存儲一對成員的關(guān)系,具體含義如下:“member B”回復(fù)或者引用 “member A”的次數(shù)是 “relation Value”;用戶的權(quán)威度可通過記錄出度、入度、精華、威望、級別值等表示。
2)主題社會網(wǎng)絡(luò) 通過主題社會網(wǎng)絡(luò)可以分析具有一定相似性的時下熱點主題群,而熱點主題的找尋可通過找尋關(guān)鍵用戶而得到,因為論壇中的關(guān)鍵用戶是論壇中影響力很大的成員,關(guān)鍵用戶發(fā)起的話題或者關(guān)鍵用戶關(guān)注的主題一般具有典型的代表性,往往會引起論壇其他成員的共鳴。
通過FOAF、DC和SIOC本體可以表述用戶信息:FOAF主要描述論壇中人的概貌信息;DC元素(如:dc:title;dc:description)主要幫助FOAF更細(xì)化地描述個體;SIOC本體分為2部分,一部分記錄論壇內(nèi)容,另一部分記錄FOAF等詞匯間的映射關(guān)系。采用的部分本體詞匯如表1所示,音樂論壇的本體結(jié)構(gòu)如圖1所示。
表1 OMSN本體詞匯
圖1 音樂論壇用戶本體實例圖
信息表示是社交網(wǎng)絡(luò)分析的基礎(chǔ)性工作,結(jié)合本體技術(shù)可使社交網(wǎng)站的信息變得機(jī)器可讀,從而可以高效率地為用戶提供所需要的信息。FOAF、DC及SIOC是廣泛使用的本體標(biāo)準(zhǔn)框架,結(jié)合FOAF、DC及SIOC本體設(shè)計音樂論壇類社交網(wǎng)站用戶信息表示本體,以便形成概念化的共享表述,從而提高信息的分享和交互能力。下一步研究工作是在具體實例研究的基礎(chǔ)上總結(jié)出通用性的多本體設(shè)計規(guī)則,采用protégé等工具構(gòu)建本體管理模塊,以便滿足具體的社交網(wǎng)絡(luò)信息分析及應(yīng)用需求。
[1]Fatalian A,Nayeri Z A,Azadnia,M.Impact of using semantic social networks on organizations[A].In Proceedings of the 2009international Conference on Advances in Social Network Analysis and Mining [C].Washington:IEEE Computer Society,2009:47-52.
[2]Shoaib M,Basharat A.Ontology based knowledge representation and semantic profiling in personalized semantic social networking framework [A].In Proceeding of the 3rd International Conference on Computer Science and Information Technology [C].Chengdu:IEEE Computer Society,2010:95-99.
[3]Morteza Jamalzadeh,Navid Behravan.Using semantic web ontologies for better inter-operability on social network sites [A].In Proceeding of the IEEE International Conference on Control System,Computing and Engineering [C].Penang:IEEE Computer Society,2011:103-108.
[4]ZHOU Chun-ying,CHEN Huajun,YU Tong.Social network mashup:Ontology-based social network integration for statistic learning[A].In Proceeding of the IEEE International Conference on Information Reuse and Integration [C].Las Vegas:IEEE Computer Society,2008:143-146.
[5]Sánchez D,Batet M,Valls A,et al.Ontology-driven web-based semantic similarity [J].Journal of Intelligent Information Systems,2010,35(3):383-413 .