毛承潔 ,張 龍,龐 川,陳潔敏
(1.華南師范大學(xué)信息服務(wù)軟件技術(shù)研究中心,廣東廣州510631;2.澳門(mén)科技大學(xué)行政與管理學(xué)院,澳門(mén)999078)
社會(huì)網(wǎng)絡(luò)是指社會(huì)個(gè)體成員之間因?yàn)榛?dòng)而形成的相對(duì)穩(wěn)定的關(guān)系體系,社會(huì)網(wǎng)絡(luò)關(guān)注的是人們之間的互動(dòng)和聯(lián)系[1]. 在互聯(lián)網(wǎng)時(shí)代,社會(huì)網(wǎng)絡(luò)服務(wù)(Social Network Services,簡(jiǎn)稱(chēng)SNS),也稱(chēng)為社交網(wǎng)絡(luò),旨在為一群擁有相同興趣與活動(dòng)的人建立社會(huì)性網(wǎng)絡(luò)的互聯(lián)網(wǎng)應(yīng)用服務(wù). SNS 基本內(nèi)涵是社會(huì)型網(wǎng)絡(luò)社區(qū),即社交關(guān)系的網(wǎng)絡(luò)化,它將現(xiàn)實(shí)中的社會(huì)圈子搬到網(wǎng)絡(luò)上,根據(jù)需要建立自己的社交圈.
2000年2月,美國(guó)斯坦福大學(xué)發(fā)布了第一份有關(guān)互聯(lián)網(wǎng)絡(luò)與社會(huì)關(guān)系的調(diào)研報(bào)告,指出互聯(lián)網(wǎng)的發(fā)展不是為人們之間的互聯(lián)提供了技術(shù)支持,而是在技術(shù)發(fā)達(dá)的社會(huì)中使人們更加孤單[2]. 目前,國(guó)外著名的社交網(wǎng)絡(luò)服務(wù)網(wǎng)站和工具有Facebook、Myspace、Twitter 和MSN 等,國(guó)內(nèi)有QQ 朋友網(wǎng)、人人網(wǎng)和開(kāi)心網(wǎng)等.許多社會(huì)網(wǎng)絡(luò)服務(wù)已成為眾多用戶(hù)每天生活的一部分,成為連接虛擬網(wǎng)絡(luò)與真實(shí)人際關(guān)系的橋梁,成為越來(lái)越多的人首選的個(gè)人信息傳播工具. SNS 基本思想是應(yīng)用互聯(lián)網(wǎng),基于WEB2.0 建立設(shè)計(jì)專(zhuān)用的SNS 網(wǎng)站,為用戶(hù)提供各種互相聯(lián)系、相互交流的方式,如電子郵件、留言、網(wǎng)絡(luò)聊天、博客、信息共享和網(wǎng)絡(luò)社區(qū)等. 社會(huì)網(wǎng)絡(luò)的服務(wù)模式、服務(wù)內(nèi)容及服務(wù)的人群每天都在增長(zhǎng).
本文研究了社會(huì)網(wǎng)絡(luò)服務(wù)的理論基礎(chǔ)和實(shí)現(xiàn)技術(shù),討論并實(shí)現(xiàn)了不同的用戶(hù)行為分析方法.首先概述了社會(huì)網(wǎng)絡(luò)用戶(hù)行為分析的作用和方法,介紹了相關(guān)的軟件工具;然后,以面向?qū)W者的社會(huì)網(wǎng)絡(luò)SCHOLAT 為例,分別應(yīng)用第三方網(wǎng)絡(luò)分析軟件CNZZ 和自主開(kāi)發(fā)的SCHOLAT 后臺(tái)分析軟件,對(duì)用戶(hù)的瀏覽、登錄行為及好友交互行為等多方面進(jìn)行分析與展示,給出了數(shù)據(jù)抽取的詳細(xì)實(shí)現(xiàn)過(guò)程;最后,總結(jié)了全文,指出進(jìn)行有效的用戶(hù)行為分析是社會(huì)網(wǎng)絡(luò)發(fā)展的基礎(chǔ),可以根據(jù)分析結(jié)果為用戶(hù)提供特色功能和個(gè)性服務(wù).
社會(huì)網(wǎng)絡(luò)的理論基礎(chǔ)是“六度分離”理論[3].“六度分離”理論使得人們對(duì)于自身的人際關(guān)系網(wǎng)絡(luò)的威力有了新的認(rèn)識(shí). 馬可姆·格蘭德威爾在他的著作《引爆流行》中考證了一個(gè)名為“郝特兄弟會(huì)”的歐洲農(nóng)民組織,有個(gè)約定俗成的規(guī)定:1個(gè)聚居點(diǎn)的人員規(guī)模超過(guò)150個(gè)人時(shí),就要將該聚居點(diǎn)變成2個(gè),并依此循環(huán). 格蘭德威爾認(rèn)為:“把人群控制在150 人以下似乎是管理人群的一個(gè)最佳和最有效的方式”. 許多團(tuán)體建制都無(wú)意識(shí)地采用了這條規(guī)律[4].
目前,像BBS 一樣,SNS 也出現(xiàn)了眾多的開(kāi)源項(xiàng)目可用于快速部署一個(gè)全新的SNS 站點(diǎn).在一些發(fā)達(dá)國(guó)家,SNS 逐漸取代BBS 成為互聯(lián)網(wǎng)交互應(yīng)用最主要的服務(wù)模式.其次要有大批量的注冊(cè)用戶(hù).通常網(wǎng)站的用戶(hù)可以分為兩大類(lèi),一類(lèi)是訪客(也稱(chēng)過(guò)客),一類(lèi)是注冊(cè)用戶(hù).社交網(wǎng)站與新聞網(wǎng)站最大的不同在于:新聞網(wǎng)站的信息主要來(lái)源于網(wǎng)站創(chuàng)辦機(jī)構(gòu)通過(guò)各種途徑獲取并有選擇地發(fā)布;而社會(huì)網(wǎng)站的信息則主要來(lái)源于注冊(cè)用戶(hù),主要信息源由注冊(cè)用戶(hù)發(fā)布.前者的用戶(hù)主要是過(guò)客,而社交網(wǎng)站的用戶(hù)更多的是注冊(cè)用戶(hù).一個(gè)社會(huì)網(wǎng)絡(luò)能否實(shí)現(xiàn)服務(wù)職能取決于它能否吸引足夠量的用戶(hù)注冊(cè).
SNS 網(wǎng)站的基本目的是提供優(yōu)良的信息和服務(wù)吸引并留住更多的用戶(hù),繼而將用戶(hù)轉(zhuǎn)化為營(yíng)收資源,核心是用戶(hù),關(guān)鍵是能夠?yàn)橛脩?hù)提供感興趣的信息和工具,所以用戶(hù)的行為分析對(duì)SNS 的發(fā)展是非常重要的.主要意義包括:(1)鎖定目標(biāo)用戶(hù)群,指導(dǎo)用戶(hù)使用目標(biāo)業(yè)務(wù),進(jìn)行營(yíng)銷(xiāo)和推薦服務(wù);(2)易于業(yè)務(wù)的開(kāi)展;(3)凸顯SNS 商業(yè)價(jià)值[5-6].社會(huì)網(wǎng)絡(luò)服務(wù)的用戶(hù)行為分析的主要作用包括:分析用戶(hù)關(guān)系和社區(qū)發(fā)現(xiàn),實(shí)現(xiàn)個(gè)性化推薦服務(wù),優(yōu)化人機(jī)交互界面,設(shè)計(jì)用戶(hù)協(xié)作功能等.
用戶(hù)行為分析的研究方法一般有2 種:一種是通過(guò)大量的調(diào)查問(wèn)卷;一種是通過(guò)軟件工具采集SNS 實(shí)時(shí)數(shù)據(jù).前一種是傳統(tǒng)的方法,工作量大,而且需要許多人配合,數(shù)據(jù)準(zhǔn)確度沒(méi)有保障;后一種方式是利用IT 技術(shù)的新方法,數(shù)據(jù)量大,而且實(shí)時(shí)、準(zhǔn)確. SNS 本身就是一個(gè)基于互聯(lián)網(wǎng)的系統(tǒng),往往有龐大的用戶(hù)群體,而且用戶(hù)行為信息可以通過(guò)軟件工具獲取,所以采用后者進(jìn)行用戶(hù)行為分析是未來(lái)發(fā)展方向.用戶(hù)分析需要的理論與技術(shù)包括概率統(tǒng)計(jì)、數(shù)據(jù)結(jié)構(gòu)、模糊集理論、人工智能技術(shù)和數(shù)據(jù)庫(kù)技術(shù)等.
專(zhuān)用于SNS 分析的軟件工具有Krackhardt、Lundberg、KrackPlot 和STRUCTURE 等[7]. 但是,做好具體SNS 用戶(hù)行為分析,要根據(jù)具體SNS 用戶(hù)的特殊要求,自主編寫(xiě)輔助的分析軟件工具.
本節(jié)以作者開(kāi)發(fā)的面向?qū)W者的社會(huì)網(wǎng)絡(luò)SCHOLAT 為例,進(jìn)行用戶(hù)行為分析應(yīng)用研究. 主要方法:(1)使用第三方網(wǎng)絡(luò)分析軟件CNZZ;(2)自主開(kāi)發(fā)分析軟件SCHOLAT 后臺(tái)管理軟件.
實(shí)現(xiàn)用戶(hù)分析最根本的是進(jìn)行數(shù)據(jù)收集,主流統(tǒng)計(jì)模式是在網(wǎng)頁(yè)里面嵌入一段JS 代碼,JS 是客戶(hù)端語(yǔ)言,可以在用戶(hù)瀏覽網(wǎng)頁(yè)的同時(shí)分析當(dāng)前頁(yè)面的一些數(shù)據(jù),如:瀏覽器當(dāng)前打開(kāi)的網(wǎng)站,從哪個(gè)網(wǎng)站跳轉(zhuǎn)過(guò)來(lái)的,當(dāng)前瀏覽器版本以及操作系統(tǒng)等參數(shù).CNZZ 正是采用了這種方式.
CNZZ 專(zhuān)業(yè)從事互聯(lián)網(wǎng)數(shù)據(jù)監(jiān)測(cè)和統(tǒng)計(jì)分析,提供全方位網(wǎng)站流量統(tǒng)計(jì)分析,自動(dòng)生成數(shù)據(jù)報(bào)表.可進(jìn)行實(shí)時(shí)流量數(shù)據(jù)、24 小時(shí)趨勢(shì)圖、搜索引擎關(guān)鍵字分析,作者通過(guò)CNZZ 主要研究學(xué)者網(wǎng)訪客(過(guò)客)的用戶(hù)行為. 例如訪客的時(shí)段、受訪頁(yè)面信息(停留時(shí)間、入口及出口頁(yè)面等)、來(lái)路分析(來(lái)路域名、分類(lèi)等)[8].通過(guò)訪客信息的分析提供學(xué)者網(wǎng)界面設(shè)計(jì)優(yōu)化建議,進(jìn)行營(yíng)銷(xiāo)策略和個(gè)性化服務(wù).
例如:圖1 是學(xué)者網(wǎng)2012年3月2日—4月30日之間的來(lái)訪域名和次數(shù)查詢(xún)信息. 可以看出來(lái)自jsjxy.gdut. edu. cn 和jdgcxy. gdut. edu. cn 的訪客用戶(hù)分別有878 和626 次,經(jīng)深度分析得知這2個(gè)域名來(lái)自同一所大學(xué)的2個(gè)學(xué)院,有一批研究生導(dǎo)師注冊(cè)了學(xué)者網(wǎng),在該期間有大量研究生通過(guò)該網(wǎng)站訪問(wèn)學(xué)者網(wǎng)了解和選擇研究生導(dǎo)師. 學(xué)者網(wǎng)可以根據(jù)這些用戶(hù)的行為改善學(xué)者網(wǎng)設(shè)計(jì).
圖1 應(yīng)用CNZZ 分析學(xué)者網(wǎng)用戶(hù)來(lái)路域名Figure 1 Scholat users’domain analysis by CNZZ
第三方網(wǎng)絡(luò)分析工具只能分析社交網(wǎng)絡(luò)服務(wù)的一般用戶(hù)行為,每個(gè)具體的社交網(wǎng)絡(luò)都有各自關(guān)系的用戶(hù)行為,要分析這些用戶(hù)行為,往往需要自主設(shè)計(jì)的專(zhuān)用軟件[9-10].作者已設(shè)計(jì)學(xué)者網(wǎng)后臺(tái)管理軟件,可以進(jìn)行用戶(hù)訪問(wèn)次數(shù)、用戶(hù)關(guān)系(好友、群、共同作者等)等分析.
3.2.1 數(shù)據(jù)抽取 Kettle 是一款開(kāi)源、跨平臺(tái)、純Java 編寫(xiě)的ETL 工具,數(shù)據(jù)抽取高效穩(wěn)定,允許管理來(lái)自不同數(shù)據(jù)庫(kù)的數(shù)據(jù),提供一個(gè)圖形化的用戶(hù)環(huán)境來(lái)描述做什么.Kettle 中有2 種腳本文件:transformation 和job.transformation 完成針對(duì)數(shù)據(jù)的基礎(chǔ)轉(zhuǎn)換,job 則完成整個(gè)工作流的控制.作者的數(shù)據(jù)抽取與清洗便是利用Kettle 完成的,通過(guò)使用Kettle對(duì)學(xué)者網(wǎng)進(jìn)行數(shù)據(jù)挖掘,對(duì)有價(jià)值的數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、清洗.
數(shù)據(jù)抽取過(guò)程支持全量抽取和增量抽取,全量抽取采用完全抽取的方式,將需要的數(shù)據(jù)經(jīng)過(guò)必要的轉(zhuǎn)換全部抽取出來(lái);增量抽取是將自上次抽取后發(fā)生變化的數(shù)據(jù)(新增、修改)經(jīng)過(guò)必要的轉(zhuǎn)換抽取出來(lái),圖2 是抽取結(jié)構(gòu)圖.
圖2 抽取結(jié)構(gòu)圖Figure 2 Extraction diagram
業(yè)務(wù)庫(kù)到ODS 的抽取,實(shí)行全量抽取,在抽取過(guò)程中添加時(shí)間戳. ODS 到DW 的抽取,首次抽取實(shí)行全量抽取,然后一定周期內(nèi)實(shí)行增量抽取,而增量抽取時(shí),采取時(shí)間戳記錄方式.執(zhí)行了一定周期的增量抽取后,原則上需要重新全量抽取一次,再執(zhí)行增量抽取,根據(jù)時(shí)間戳劃分抽取點(diǎn). 圖3 是從MySQL 到Oracle 全量抽取圖.
圖3 MySQL 到Oracle 全量抽取Figure 3 Full extraction from MySQL to Oracle
3.2.2 用戶(hù)分析與展示 利用Oracle Application Express 展示挖掘得到的數(shù)據(jù),在網(wǎng)頁(yè)上以列表、柱狀圖、折線圖和餅狀圖等形式展示用戶(hù)分析的統(tǒng)計(jì)信息.自主設(shè)計(jì)的學(xué)者網(wǎng)用戶(hù)分析工具重點(diǎn)關(guān)注用戶(hù)的行為,包括用戶(hù)注冊(cè)、訪問(wèn)和登錄分析,單位情況分析,活躍學(xué)者和網(wǎng)盤(pán)使用分析等.圖4 是學(xué)者網(wǎng)是受訪前10 名用戶(hù)和每日學(xué)者登錄曲線圖.
圖4 學(xué)者登錄曲線圖Figure 4 Scholar's login curve
通過(guò)這些用戶(hù)行為分析可以提出活躍用戶(hù)推薦、相關(guān)學(xué)者推薦、相關(guān)學(xué)術(shù)信息(論文、成果等)的推薦等.
通過(guò)SNS 用戶(hù)行為分析,提出諸如對(duì)用戶(hù)界面、數(shù)據(jù)模型、功能設(shè)計(jì)、用戶(hù)管理和協(xié)作模式等改進(jìn)意見(jiàn),以及對(duì)用戶(hù)的服務(wù)推薦等營(yíng)銷(xiāo)方面的思路和模式.例如學(xué)者網(wǎng)中通過(guò)用戶(hù)行為分析對(duì)熱點(diǎn)學(xué)者、活躍學(xué)者和潛在學(xué)者等進(jìn)行不同的推薦服務(wù).社會(huì)網(wǎng)絡(luò)用戶(hù)行為分析的目的是為SNS 發(fā)展和擁有越來(lái)越多的用戶(hù),繼而進(jìn)行有效商業(yè)營(yíng)銷(xiāo),實(shí)現(xiàn)社會(huì)效率和經(jīng)濟(jì)效益雙豐收,使SNS 能夠良性發(fā)展.
[1]社會(huì)網(wǎng)絡(luò):百度百科科學(xué)名詞定義[DB/OL]. (2012-03-23)[2012-04-23]. http://baike.baidu.com/view/1483745.htm.
[2]陳卉. 社會(huì)性網(wǎng)絡(luò)服務(wù)(SNS)流行原因分析[J]. 新聞世界,2009(5):114-115.
[3]王陸. 典型的社會(huì)網(wǎng)絡(luò)分析軟件工具及分析方法[J].中國(guó)電化教育,2009(4):95-100.
[4]馬爾科姆·格拉德威爾. 引爆流行[M]. 錢(qián)清,覃愛(ài)冬,譯. 北京:中信出版社,2002.
[5]TANG Feiyi,MAO Chengjie,YU Jianghui. The implementation of information service based on social network systems[C]∥Proceedings of the 5th International Conference on New trends in Information and Service Science.Macau,China,2011:46-49.
[6]費(fèi)鐘琳,王京安. 社會(huì)網(wǎng)絡(luò)分析:一種管理研究方法和視角[J]. 科技管理研究,2010(24):216-219.
[7]劉軍. 整體網(wǎng)分析講義:UCINET 軟件實(shí)用指南[M].上海:上海人民出版社,2009:56-58.
[8]趙蓉英,王靜. 社會(huì)網(wǎng)絡(luò)分析(SNA)研究熱點(diǎn)與前沿的可視化分析[J]. 圖書(shū)情報(bào)知識(shí),2011(1):88-94.
[9]CATANESE S A,MEO P D,F(xiàn)ERRARA E,et al. Crawling facebook for social network analysis purposes [J].Computing Research Repository,2011,Doi:10. 1145/1988688.1988749.
[10]李建國(guó),毛承潔,劉曉,等. 學(xué)術(shù)信息服務(wù)平臺(tái)的研究與設(shè)計(jì)[J]. 華南師范大學(xué)學(xué)報(bào):自然科學(xué)版,2012,44(3):51-54.