亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        不同學(xué)科領(lǐng)域的用戶標(biāo)簽標(biāo)注行為差異研究
        ——以新浪微博用戶的標(biāo)簽為例*

        2016-06-01 12:38:40池雪花張穎怡章成志
        圖書館論壇 2016年9期
        關(guān)鍵詞:比率個數(shù)標(biāo)簽

        池雪花,張穎怡,高 星,盧 超,章成志

        不同學(xué)科領(lǐng)域的用戶標(biāo)簽標(biāo)注行為差異研究
        ——以新浪微博用戶的標(biāo)簽為例*

        池雪花,張穎怡,高 星,盧 超,章成志

        文章以新浪微博中用戶標(biāo)簽作為研究對象,從微博中收集用戶基本信息與用戶標(biāo)簽信息,依據(jù)用戶標(biāo)簽分類體系對用戶標(biāo)簽進(jìn)行人工分類;然后分析標(biāo)簽類型、標(biāo)簽類型分布熵、用戶平均標(biāo)簽個數(shù)、用戶平均標(biāo)簽長度等標(biāo)簽標(biāo)注行為指標(biāo)在不同學(xué)科領(lǐng)域中的差異,以及從高頻和不同標(biāo)簽個數(shù)分組兩個角度分析上述行為指標(biāo)在不同學(xué)科領(lǐng)域的差異。研究表明,標(biāo)簽類型、平均標(biāo)簽個數(shù)在不同學(xué)科領(lǐng)域中有顯著性差異;不同學(xué)科領(lǐng)域高頻標(biāo)簽中,標(biāo)簽類型存在較大差異;在不同標(biāo)簽個數(shù)分組下,用戶標(biāo)簽類型在不同學(xué)科領(lǐng)域下無明顯差異,用戶的平均標(biāo)簽長度隨著個數(shù)的增多呈遞減趨勢。

        用戶標(biāo)簽 標(biāo)簽分類 標(biāo)注行為 用戶信息行為

        0 引言

        隨著互聯(lián)網(wǎng)發(fā)展,越來越多的Web2.0網(wǎng)站采用標(biāo)簽標(biāo)注功能,用戶針對網(wǎng)絡(luò)資源進(jìn)行標(biāo)注,從而產(chǎn)生大量的標(biāo)簽。一些社交網(wǎng)站允許用戶在維護(hù)個人文檔時,用關(guān)鍵詞標(biāo)注自己的興趣或愛好,這種類型的關(guān)鍵詞通常稱為用戶標(biāo)簽(UserTag),圖1為新浪微博博主孫茂松的用戶標(biāo)簽(http://weibo.com/p/1005051970879995/ info?mod=pedit_more)。

        圖1 孫茂松的用戶標(biāo)簽

        規(guī)范的用戶標(biāo)簽可以對社交網(wǎng)站上的用戶進(jìn)行有效分類,并為用戶興趣建模、好友推薦、專家檢索等應(yīng)用提供依據(jù)。然而目前微博用戶標(biāo)簽存在標(biāo)注隨意、標(biāo)簽無序化、標(biāo)簽間缺乏語義關(guān)系等問題,這限制了用戶標(biāo)簽的實際應(yīng)用效果。現(xiàn)有的社會化標(biāo)簽研究主要對象為用戶生成內(nèi)容對應(yīng)的標(biāo)簽,而學(xué)術(shù)界對用戶標(biāo)簽的研究還較少,更缺乏對用戶標(biāo)簽的分類研究。

        研究不同領(lǐng)域的社會化標(biāo)簽的標(biāo)注行為差異,對標(biāo)簽標(biāo)注質(zhì)量的提高有重要作用。為此,本文通過對用戶標(biāo)簽進(jìn)行分類研究,考察不同學(xué)科領(lǐng)域的標(biāo)注差異,從而為今后的用戶標(biāo)簽標(biāo)注界面或標(biāo)注系統(tǒng)的研究與設(shè)計提供參考。本文選擇新浪微博作為研究對象,從微博中收集用戶標(biāo)簽相關(guān)信息,設(shè)計微博用戶標(biāo)簽分類體系,依據(jù)該體系對用戶標(biāo)簽進(jìn)行人工分類;然后分析不同學(xué)科領(lǐng)域中用戶標(biāo)簽的差異。調(diào)研結(jié)果發(fā)現(xiàn),標(biāo)簽類型、平均標(biāo)簽個數(shù)在不同學(xué)科領(lǐng)域中有顯著性差異;不同學(xué)科領(lǐng)域高頻標(biāo)簽中,標(biāo)簽類型存在較大差異;在不同標(biāo)簽個數(shù)分組下,用戶標(biāo)簽類型在不同學(xué)科領(lǐng)域下無明顯差異,用戶的平均標(biāo)簽長度隨著個數(shù)的增多呈遞減趨勢。

        1 相關(guān)研究概述

        (1)標(biāo)簽標(biāo)注行為研究概述。標(biāo)注系統(tǒng)中用戶標(biāo)注行為的研究已引起學(xué)者持續(xù)關(guān)注。2007年FarooqU等從標(biāo)簽增長、標(biāo)簽重用、標(biāo)簽顯隱性、標(biāo)簽歧視、標(biāo)簽頻率和標(biāo)注方式來分析用戶標(biāo)簽標(biāo)注行為[1];Mirzaee V等從每個資源的標(biāo)簽數(shù)量、標(biāo)簽的選擇與使用、標(biāo)注頻率等角度分析用戶標(biāo)簽標(biāo)注動機(jī)對標(biāo)注行為的影響[2];Xufei Wang等以StumleUpon與Delicious為平臺,從用戶標(biāo)簽數(shù)量、用戶標(biāo)簽共享、高頻率標(biāo)簽的使用等角度對用戶標(biāo)注行為進(jìn)行分析[3];Aedín Guyot從標(biāo)簽長度、標(biāo)簽個數(shù)、高頻率使用標(biāo)簽、不同語言標(biāo)簽、標(biāo)簽長尾性等角度對LibraryThing中的書籍標(biāo)簽進(jìn)行分析[4];章成志等人對騰訊微博用戶標(biāo)簽與微博內(nèi)容關(guān)鍵詞進(jìn)行相關(guān)度評分,考察不同領(lǐng)域用戶標(biāo)簽主題表達(dá)能力[5]。

        (2)標(biāo)簽類型劃分研究概述。社會化標(biāo)簽具有不同的類型和功能,區(qū)分標(biāo)簽類型有利于有針對性的應(yīng)用研究。學(xué)者們提出不同的標(biāo)簽類型劃分方式。Sen S和Lam K等將標(biāo)簽劃分為客觀標(biāo)簽、主觀標(biāo)簽和個人標(biāo)簽[6];Xu Zhichen和Fu Yun等將標(biāo)簽劃分為描述內(nèi)容、提供資源一些額外信息(如時間、地點)、外部屬性(如擁有者類型)、表達(dá)對資源評價、用于自我組織的一些個人詞匯等[7];Melenhorst M S和Van S M等將標(biāo)簽劃分為內(nèi)容標(biāo)簽、態(tài)度標(biāo)簽、自我提醒標(biāo)簽等[8];Bischoff K和Firan C S等將標(biāo)簽細(xì)分為主題、類型、作者或擁有者、評價、目的、自身任務(wù)需要、地點、時間等類型[9];Heymann P等等將標(biāo)簽劃分為客觀和基于內(nèi)容的、物理屬性、意見、個人、縮寫詞、垃圾標(biāo)簽等類型[10];Bhnstedt D等將標(biāo)簽劃分為人物或者組織資源作者或涉及到的人、地點、資源的類型、資源所涉及事件、主題、目標(biāo)或任務(wù)等類型[11];Cantadora I等將標(biāo)簽劃分為基于內(nèi)容和基于環(huán)境兩大類,基于內(nèi)容的標(biāo)簽可再細(xì)分為物理實體和非物理實體及組織團(tuán)體,基于環(huán)境下可細(xì)分為時間、地點等類型[12]。

        綜上,社會化標(biāo)簽標(biāo)注行為、標(biāo)簽類型劃分等相關(guān)研究較深入,然而缺乏用戶標(biāo)簽的類型劃分、不同學(xué)科領(lǐng)域的用戶標(biāo)簽標(biāo)注行為差異等相關(guān)研究。用戶標(biāo)簽分類研究對于用戶標(biāo)簽標(biāo)注界面或系統(tǒng)設(shè)計具有參考價值,因此,本文結(jié)合用戶模型,引入標(biāo)簽分類體系,對用戶標(biāo)簽進(jìn)行分類,并進(jìn)行標(biāo)簽類型、標(biāo)簽類型分布熵、標(biāo)簽個數(shù)、標(biāo)簽長度這四個方面的計算,通過四個指標(biāo)分析用戶在不同分類角度下的標(biāo)注行為差異。

        2 調(diào)研流程與關(guān)鍵步驟描述

        2.1 調(diào)研流程

        如圖2所示,本文調(diào)研流程為:首先利用新浪微博平臺,采集不同學(xué)科領(lǐng)域下的用戶標(biāo)簽數(shù)據(jù);其次制定用戶標(biāo)簽分類體系,邀請3名志愿者參與用戶標(biāo)簽分類任務(wù),得到用戶標(biāo)簽分類數(shù)據(jù)集;然后根據(jù)標(biāo)簽分類數(shù)據(jù)集進(jìn)行結(jié)果分析,即利用分類結(jié)果獲得標(biāo)簽類型比率、標(biāo)簽類型分布熵以及標(biāo)簽的平均長度、平均個數(shù);最后進(jìn)行不同學(xué)科領(lǐng)域、高頻標(biāo)簽、不同標(biāo)簽個數(shù)用戶等三個角度下的比較分析。

        2.2 標(biāo)簽分類體系的構(gòu)建

        本文結(jié)合用戶建模思想構(gòu)建用戶標(biāo)簽分類體系。本文通過前期的用戶標(biāo)簽數(shù)據(jù)調(diào)研結(jié)果,參考GolematiM等關(guān)于個人本體構(gòu)建的研究成果[13],結(jié)合對部分用戶標(biāo)簽類型的考察,在GolematiM等人成果的基礎(chǔ)上,增加狀態(tài)、行業(yè)領(lǐng)域、身份或職位、工作經(jīng)歷和其他這5個用戶相關(guān)屬性,最終得到用戶標(biāo)簽分類體系,如表1所示(說明:部分標(biāo)簽由于用戶個人經(jīng)歷不同可劃分成多種類型,如標(biāo)簽“音樂”可劃分成專業(yè)或興趣愛好。對于上述情況,本文參考用戶主頁,結(jié)合用戶實際情況進(jìn)行標(biāo)簽類型劃分)。

        圖2 用戶標(biāo)簽類別的調(diào)查分析流程圖

        表1 微博用戶標(biāo)簽分類體系說明與舉例

        表2 用戶標(biāo)注行為量化指標(biāo)說明

        2.3 用戶標(biāo)注行為量化指標(biāo)構(gòu)建

        為全面考察用戶標(biāo)簽在不同學(xué)科領(lǐng)域的差異,本文從標(biāo)簽類型比率、類型分布熵、平均標(biāo)簽個數(shù)與長度等角度進(jìn)行考察,見表2。

        (1)標(biāo)簽類型比率。選擇類型比率指標(biāo)的原因:在微博中,用戶可以標(biāo)注不同類型的標(biāo)簽;某一類型的標(biāo)簽數(shù)越多,說明用戶標(biāo)注此類型標(biāo)簽的積極性越高。因此,通過類型比率,可以對用戶使用不同標(biāo)簽類型的積極性的差異進(jìn)行分析。為計算類型比率,本文對每位用戶的標(biāo)簽按照事先構(gòu)建好的標(biāo)簽分類體系進(jìn)行分類,并對用戶標(biāo)簽數(shù)量進(jìn)行統(tǒng)計,從而計算出每個學(xué)科領(lǐng)域用戶標(biāo)簽的類型比率。

        (2)標(biāo)簽類型分布熵。選擇標(biāo)簽類型分布熵的原因:信息熵是信息論中用于度量信息量的概念;一個系統(tǒng)的信息熵越低表明該系統(tǒng)越有序,信息熵越高表明該系統(tǒng)越混亂。計算標(biāo)簽類型分布熵可描述出標(biāo)簽類型的離散程度。因此,通過計算標(biāo)簽類型分布熵的大小,可對不同學(xué)科領(lǐng)域用戶的整體標(biāo)簽類型分布的差異進(jìn)行分析。

        (3)平均標(biāo)簽個數(shù)。選擇平均標(biāo)簽個數(shù)指標(biāo)的原因:用戶可以為自己標(biāo)注不同數(shù)量的標(biāo)簽,因此不同用戶的標(biāo)簽數(shù)量有差異;之前學(xué)者通過對不同網(wǎng)站中用戶的平均標(biāo)簽個數(shù),以及不同資源的平均標(biāo)簽個數(shù)進(jìn)行調(diào)研來分析用戶的標(biāo)簽標(biāo)注行為[2][3-4][13]。因此,通過平均標(biāo)簽個數(shù)可以對不同學(xué)科領(lǐng)域用戶的平均標(biāo)簽個數(shù)的差異進(jìn)行分析。

        新浪微博的標(biāo)簽分為中英文兩種語言。對中文標(biāo)簽,本文將空格符號作為標(biāo)簽分割符,如“旅游校園生活”計算為2個標(biāo)簽。對英文的標(biāo)簽,以一個單詞為標(biāo)準(zhǔn),如“IT”計算為1個標(biāo)簽。由此得到每位用戶的標(biāo)簽總數(shù),計算用戶標(biāo)簽總數(shù)與用戶數(shù)量的比率,得到平均標(biāo)簽個數(shù)。

        (4)平均標(biāo)簽長度。選擇平均標(biāo)簽長度指標(biāo)的原因:用戶標(biāo)注行為研究中,學(xué)者開始對標(biāo)簽長度予以重視[4];標(biāo)簽長度的研究數(shù)量占所有用戶標(biāo)注行為的研究仍較少。因此,通過平均標(biāo)簽長度指標(biāo),可對不同學(xué)科領(lǐng)域用戶標(biāo)簽的平均標(biāo)簽長度的差異進(jìn)行分析,從而為標(biāo)簽長度的研究提供參考。本文采用計算字節(jié)數(shù)的方式,將1個中文計算為2個字節(jié),如“旅游”為4個字節(jié)長度;將一個英文字母計算為1個字節(jié),如“IT”為2個字節(jié)長度。通過上述方式,統(tǒng)計得到標(biāo)簽總長度,并計算標(biāo)簽總長度與總個數(shù)的比率,得到平均標(biāo)簽長度。

        3 調(diào)研結(jié)果與分析

        3.1 實驗數(shù)據(jù)準(zhǔn)備

        (1)實驗數(shù)據(jù)采集概述。在采集實驗數(shù)據(jù)時,本文對以下幾點進(jìn)行控制:數(shù)據(jù)來源:本文以新浪微博為研究平臺,采集用戶信息及用戶標(biāo)簽數(shù)據(jù);采集時間:數(shù)據(jù)采集的時間段為2014年12月20日至2015年4月20日;采集對象:選擇檔案學(xué)、圖書館學(xué)、情報學(xué)、新聞學(xué)、機(jī)器學(xué)習(xí)、人工智能6個學(xué)科領(lǐng)域作為采集對象;采集方法:在新浪微博網(wǎng)絡(luò)平臺上,根據(jù)事先選擇的學(xué)科領(lǐng)域,以學(xué)科名作為關(guān)鍵詞,在微博搜人欄目中手動檢索出用戶,去除認(rèn)證的微博用戶,記錄用戶名,用戶URL及用戶標(biāo)簽;通過上述途徑共采集2673個微博用戶,不同學(xué)科領(lǐng)域的調(diào)研用戶分布見表3。

        表3 不同學(xué)科領(lǐng)域的調(diào)查用戶數(shù)

        標(biāo)簽分類數(shù)據(jù)集的構(gòu)建。根據(jù)2.2小節(jié)提供的標(biāo)簽分類體系,邀請2名志愿者對6個學(xué)科領(lǐng)域微博用戶的標(biāo)簽進(jìn)行分類,然后邀請第3名志愿者對不一致結(jié)果給予確認(rèn),作為該標(biāo)簽的最終分類結(jié)果。為刻畫兩名志愿者的標(biāo)注是否一致,采用比較簡單的標(biāo)注差異度量化指標(biāo)來度量,差異度計算公式如下:

        兩名志愿者的標(biāo)注差異如表4所示。結(jié)果顯示:6個領(lǐng)域中兩名志愿者的標(biāo)注差異度為0.13~0.28,均值為0.1570,說明兩名志愿者在對用戶標(biāo)簽進(jìn)行分類時,有較好的標(biāo)注一致性。

        表4 志愿者標(biāo)注的差異度

        3.2 不同學(xué)科領(lǐng)域用戶標(biāo)簽類別差異分析

        選取6個不同學(xué)科領(lǐng)域的新浪微博用戶,通過標(biāo)簽類型比率、標(biāo)簽類型分布熵、平均標(biāo)簽個數(shù)、平均標(biāo)簽長度來分析不同領(lǐng)域用戶標(biāo)簽類別差異。對不同學(xué)科領(lǐng)域用戶標(biāo)簽類型進(jìn)行差異性分析,結(jié)果如圖3所示:(1)在各個學(xué)科領(lǐng)域下,標(biāo)簽主要集中在P、H、D類型,說明大部分用戶習(xí)慣選用自己的專業(yè)、所屬領(lǐng)域、興趣愛好來描述自己;(2)情報學(xué)、機(jī)器學(xué)習(xí)、人工智能P類的標(biāo)簽比率總體較高,都在0.4以上,其他三個學(xué)科領(lǐng)域的P類標(biāo)簽比率較低,說明情報學(xué)、機(jī)器學(xué)習(xí)、人工智能用戶使用微博主要用于學(xué)術(shù)交流,專業(yè)屬性較強(qiáng),其他三個學(xué)科領(lǐng)域用戶比較傾向綜合發(fā)展;(3)H類型標(biāo)簽比率普遍較高,說明用戶的興趣愛好比較廣泛,其中新聞學(xué)的比率最高,達(dá)到0.40左右,情報學(xué)、人工智能相對較低,機(jī)器學(xué)習(xí)最低,為0.20左右;(4)圖書館學(xué)的L類比率尤為高,體現(xiàn)出圖書館學(xué)用戶喜歡使用表示生活經(jīng)歷的標(biāo)簽。對不同領(lǐng)域微博用戶標(biāo)簽類型分布熵進(jìn)行差異性分析,結(jié)果如表5所示。

        圖3 不同學(xué)科領(lǐng)域用戶標(biāo)簽類型分布

        表5 不同學(xué)科領(lǐng)域標(biāo)簽類型分布熵

        從標(biāo)簽類型分布熵看,值從大到小依次的領(lǐng)域是:圖書館學(xué)、新聞學(xué)、檔案學(xué)、情報學(xué)、人工智能、機(jī)器學(xué)習(xí)。圖書館學(xué)的熵值最大為2.7258,說明在圖書館學(xué)的用戶標(biāo)簽類型最多,差異較大。機(jī)器學(xué)習(xí)的熵值最小為1.9848,人工智能、情報學(xué)的熵值也相對較小分別為2.0422、2.5305。說明自然科學(xué)領(lǐng)域用戶標(biāo)簽類型差異幅度較小,社會科學(xué)領(lǐng)域用戶標(biāo)簽類型差異幅度大,標(biāo)簽呈現(xiàn)多樣化。對不同學(xué)科領(lǐng)域微博用戶平均標(biāo)簽個數(shù)、長度進(jìn)行差異分析,結(jié)果如表6所示。

        表6 不同學(xué)科領(lǐng)域用戶平均標(biāo)簽個數(shù)、長度

        微博用戶的平均標(biāo)簽個數(shù)為6個左右,圖書館學(xué)用戶的平均標(biāo)簽個數(shù)最少為3.67個,人工智能的用戶平均標(biāo)簽個數(shù)最多為7.89個,新聞學(xué)和機(jī)器學(xué)習(xí)的平均標(biāo)簽個數(shù)也較多,大約為6-7個,檔案學(xué)用戶的平均標(biāo)簽個數(shù)為5.13。說明機(jī)器學(xué)習(xí)、人工智能、情報學(xué)、新聞學(xué)用戶標(biāo)簽標(biāo)注積極性較高,檔案學(xué)和圖書館學(xué)用戶標(biāo)注積極性較低,其中圖書館學(xué)用戶積極性最低。

        用戶的平均標(biāo)簽長度為7.14字節(jié),不同學(xué)科領(lǐng)域下用戶平均標(biāo)簽長度無明顯差異,即用戶趨向于使用3-4個字的詞語用來標(biāo)注。其中檔案學(xué)平均標(biāo)簽長度最短為6.54字節(jié)。機(jī)器學(xué)習(xí)的平均標(biāo)簽長度最長為7.82字節(jié),原因可能是由于其專業(yè)名詞較長。從整體看,自然科學(xué)領(lǐng)域的用戶的平均標(biāo)簽長度較長,社會科學(xué)領(lǐng)域的用戶的平均標(biāo)簽長度較短。

        3.3 高頻用戶標(biāo)簽類別差異分析

        微博用戶標(biāo)簽在一定程度上揭示了用戶自身信息,如愛好、專業(yè)、觀點、感想。由于具有相同文化、知識或社會背景的用戶對某些事物存在一致的認(rèn)識,因此他們會不約而同地使用相同的標(biāo)簽。本文對這些相同的標(biāo)簽進(jìn)行統(tǒng)計,試圖對高頻次的用戶標(biāo)簽類別在不同領(lǐng)域進(jìn)行差異分析。

        首先,通過標(biāo)簽比率從眾多標(biāo)簽中挑取出高頻用戶標(biāo)簽,計算公式為:

        標(biāo)簽比率=標(biāo)簽出現(xiàn)的次數(shù)/所有標(biāo)簽個數(shù)

        然后通過對比率從大到小排序,得到每個領(lǐng)域的高頻用戶標(biāo)簽。表7為不同領(lǐng)域的頻次最高的前10個用戶標(biāo)簽。

        表7 不同學(xué)科領(lǐng)域TOP-10高頻標(biāo)簽一覽表

        由表7可知:(1)每個領(lǐng)域中(除圖書館學(xué))標(biāo)簽比率最大的標(biāo)簽皆為本領(lǐng)域的名稱,圖書館學(xué)標(biāo)簽比率最大的是“教育就業(yè)”,說明圖書館學(xué)用戶比較關(guān)注教育就業(yè)方面。(2)出現(xiàn)次數(shù)較多的共同標(biāo)簽有“旅游”“美食”“文藝”“音樂”“電影”,說明這些為用戶的普遍愛好和共同特點,也有可能是因為微博為用戶給自己打標(biāo)簽時提供的標(biāo)簽自動推薦功能導(dǎo)致該類標(biāo)簽比率上升。(3)多個領(lǐng)域出現(xiàn)了“80后”“90后”標(biāo)簽,揭示了微博用戶主要為80后、90后群體。(4)情報學(xué)、機(jī)器學(xué)習(xí)、人工智能相對于其他三個領(lǐng)域出現(xiàn)較多的標(biāo)簽為專業(yè)名詞。(5)檔案學(xué)領(lǐng)域出現(xiàn)了“情報學(xué)”,情報學(xué)領(lǐng)域下出現(xiàn)“圖書館學(xué)”“檔案學(xué)”等,體現(xiàn)了領(lǐng)域之間的交叉,在交叉領(lǐng)域下又出現(xiàn)了很多共同的高頻標(biāo)簽,如“互聯(lián)網(wǎng)”“IT”“大數(shù)據(jù)”等,體現(xiàn)了交叉領(lǐng)域間的共同背景。(6)情報學(xué)中出現(xiàn)“武漢大學(xué)”,新聞學(xué)中出現(xiàn)了“中國傳媒大學(xué)”,其都為本學(xué)科領(lǐng)域?qū)嵙敿獾母咝!?/p>

        本文對微博用戶高頻標(biāo)簽進(jìn)行標(biāo)簽類型差異性分析,將標(biāo)簽按照標(biāo)引的頻次選擇Top5、Top10、Top20,并按分類體系進(jìn)行類型分布統(tǒng)計,結(jié)果如圖4(a)-(f)所示。

        圖4 微博用戶高頻標(biāo)簽類型分布比較

        由圖4(a)可看出,檔案學(xué)領(lǐng)域微博用戶高頻標(biāo)簽以H、P為主,說明微博用戶在表達(dá)自己的興趣愛好之外傾向于表達(dá)專業(yè)技能。從圖4(b)、4(c)、4(d)看出,圖書館學(xué)、情報學(xué)、新聞學(xué)領(lǐng)域的標(biāo)簽類型較多,但以H為主。說明微博用戶并非只關(guān)注單方面的知識,而更多偏向于綜合、全面和廣泛的學(xué)習(xí)交流。從圖4(e)、4(f)可見人工智能和機(jī)器學(xué)習(xí)的標(biāo)簽類型集中在P和D類,在前20個標(biāo)簽中只有4種類型,且只有一個標(biāo)簽是B類,表明這兩個學(xué)科的標(biāo)簽類型相對單一。

        從整體高頻標(biāo)簽類型分布情況來看,用戶偏向選擇興趣愛好和專業(yè)的標(biāo)簽。社會學(xué)科用戶標(biāo)簽類型相對自然科學(xué)用戶較多,體現(xiàn)社會學(xué)科用戶的表達(dá)方式的多樣化。

        對高頻用戶標(biāo)簽進(jìn)行平均標(biāo)簽長度的差異分析,結(jié)果見表8。取前5個高頻標(biāo)簽進(jìn)行考察時,計算出所有領(lǐng)域的平均標(biāo)簽長度為6.6字節(jié),前10個高頻標(biāo)簽的平均長度為6.2字節(jié),前20個高頻標(biāo)簽的平均長度為6.15字節(jié)。在這三個分組中標(biāo)簽長度無明顯差異。而表6顯示不同學(xué)科領(lǐng)域用戶平均標(biāo)簽長度為7.14字節(jié)。對比可見,高頻標(biāo)簽一般長度較短的,為3個字左右。在TOP5,TOP10,TOP20不同分組下,機(jī)器學(xué)習(xí)的平均標(biāo)簽長度始終為最長,檔案學(xué)的平均標(biāo)簽長度始終為最短。從整體看,自然科學(xué)用戶平均標(biāo)簽長度普遍比社會科學(xué)用戶平均標(biāo)簽長度長。

        表8 平均標(biāo)簽長度(單位:字節(jié))

        3.4 不同標(biāo)簽個數(shù)用戶對應(yīng)的用戶標(biāo)簽類別差異

        微博用戶可以為自己選擇1個或多個標(biāo)簽來描述自己,從標(biāo)簽個數(shù)在一定程度上可以看出用戶使用標(biāo)簽的積極程度。因此根據(jù)用戶的標(biāo)簽個數(shù)對用戶進(jìn)行分組研究顯得有意義。本文已剔除無標(biāo)簽用戶,根據(jù)統(tǒng)計發(fā)現(xiàn)用戶標(biāo)簽個數(shù)最少為1個,最多有13個。所以把用戶按照標(biāo)簽個數(shù)分組為:標(biāo)簽個數(shù)1-3個、標(biāo)簽個數(shù)4-6個、標(biāo)簽個數(shù)7-9個、標(biāo)簽個數(shù)10個以上。

        對不同標(biāo)簽個數(shù)用戶的標(biāo)簽類型進(jìn)行差異性分析。通過按不同標(biāo)簽個數(shù)對用戶進(jìn)行分組,然后在統(tǒng)計了每個分組下標(biāo)簽的類型比率,得到的結(jié)果如圖5所示。

        圖5 不同標(biāo)簽個數(shù)用戶分組下的標(biāo)簽類型比率

        從圖5可知:(1)標(biāo)簽類型為專業(yè)和行業(yè)領(lǐng)域的標(biāo)簽在用戶標(biāo)簽個數(shù)增多的情況下成下降趨勢,這是由于描述用戶專業(yè)的標(biāo)簽個數(shù)有限,當(dāng)基數(shù)增大時,比率減小。(2)標(biāo)簽類型為興趣愛好的標(biāo)簽隨個數(shù)的增多比率上升,說明用戶在標(biāo)簽個數(shù)增多時偏向選用類型為興趣愛好的標(biāo)簽,同時也說明用戶廣泛的興趣愛好。(3)標(biāo)簽類型為性格特征的標(biāo)簽,在個數(shù)為1-3個和10-13個時比率較大。(4)標(biāo)簽類型為狀態(tài)和自然屬性的標(biāo)簽,隨著標(biāo)簽個數(shù)增多類型比率增大。(5)類型為教育經(jīng)歷的標(biāo)簽,在標(biāo)簽個數(shù)為1-3個的用戶組內(nèi)較少使用,在標(biāo)簽個數(shù)為4-13個的用戶中無明顯差異。(6)類型為身份、工作經(jīng)歷的標(biāo)簽在不同分組內(nèi)也無明顯差異。

        對微博用戶高頻標(biāo)簽進(jìn)行平均標(biāo)簽長度差異分析,結(jié)果如表9所示。由表9可知,標(biāo)簽長度一般為6-8字節(jié),即平均每個標(biāo)簽為3-4個字。當(dāng)用戶標(biāo)簽個數(shù)為1-3個時,平均標(biāo)簽長度為7.5字節(jié);當(dāng)用戶標(biāo)簽個數(shù)為4-6個時,平均標(biāo)簽長度為7.06字節(jié);當(dāng)用戶標(biāo)簽個數(shù)為7-9個時,平均標(biāo)簽長度為7.14字節(jié);當(dāng)用戶標(biāo)簽個數(shù)為10個以上時,平均標(biāo)簽長度為6.94字節(jié)。可以看出用戶的平均標(biāo)簽長度隨著個數(shù)的增多而減短,即標(biāo)簽個數(shù)越多,平均標(biāo)簽長度越短,標(biāo)簽個數(shù)越少,平均標(biāo)簽長度越長。

        表9 平均標(biāo)簽長度(單位:字節(jié))

        4 結(jié)論與展望

        本文從用戶建模的角度區(qū)分標(biāo)簽類型,研究不同學(xué)科領(lǐng)域高頻用戶標(biāo)簽,不同標(biāo)簽個數(shù)用戶下的標(biāo)簽類型的差異,結(jié)果表明:不同學(xué)科領(lǐng)域用戶的標(biāo)簽類型主要集中在專業(yè)、興趣愛好和行業(yè)領(lǐng)域。社會科學(xué)領(lǐng)域的用戶標(biāo)簽類型多且差異較大,其中標(biāo)簽類型為興趣愛好的最多,自然科學(xué)領(lǐng)域的用戶標(biāo)簽類型相對較少,集中的標(biāo)簽類型為專業(yè)。自然科學(xué)領(lǐng)域的平均標(biāo)簽個數(shù)比社會科學(xué)領(lǐng)域多。從平均標(biāo)簽長度看,皆在3-4個字左右,這是由于用戶一般使用3-4字的詞語使用習(xí)慣造成的。但高頻用戶標(biāo)簽的長度較短。在標(biāo)簽個數(shù)逐漸增多下,用戶的平均標(biāo)簽長度減短,且在使用標(biāo)簽類型為專業(yè)的標(biāo)簽后會偏向選擇表示興趣愛好的標(biāo)簽,體現(xiàn)了用戶廣泛的興趣。

        本文研究不足之處主要包括:人工分類的形式,由于每個人的認(rèn)知程度,知識面限制等原因,所以不可避免地給分類帶來了判斷誤差;數(shù)據(jù)采集在學(xué)科領(lǐng)域覆蓋面上有待提高;此外,在采集用戶信息時僅用單一的查詢詞且僅通過網(wǎng)站采集數(shù)據(jù),并不能結(jié)合用戶的實際真實信息以得到更加可靠的結(jié)果。下一步可以根據(jù)用戶發(fā)微博,關(guān)注好友等行為來對用戶進(jìn)行動態(tài)建模,以便于更準(zhǔn)確實時地分析用戶的行為。

        [1]FarooqU,KannampallilTG,SongY,et al.Evaluating tagging behavior in socialbookmarking systems:metrics and design heuristics[C]//Proceedingsofthe 2007 InternationalACM Conference on Supporting Group Work,2007:351-360.

        [2]Mirzaee V,Iverson L.Tagging:Behaviour and motivations[J].ProceedingsoftheAmerican SocietyforInformationScience&Technology,2009,46(1):1-5.

        [3]Wang X,Kumar S,Liu H.A Study of Tagging BehavioracrossSocialMedia[C]//Proceedingofthe2011 SIGIR Workshop on Social Web Search and Mining. Beijing:2011.

        [4]Guyot A.Understanding Booksonomies-How and why are book taggerstagging[D].Aberystwyth:University of Wales,2013.

        [5]章成志,何陸林,丁培紅.不同領(lǐng)域的用戶標(biāo)簽主題表達(dá)能力差異研究——以中文微博為例[J].情報理論與實踐,2013(4):68-71.

        [6]SenS,LamSK,RashidAM,etal.tagging,communities,vocabulary,evolution[C]//Proceedings of the conference on Computer supported cooperative work. USA:ACM,2006:181-190.

        [7]Xu Z,F(xiàn)u Y,Mao J,et al.Towardsthe semantic web: Collaborativetag suggestions[C]//Proceedings of Collaborativewebtaggingworkshop at WWW 2006.Edinburgh,Scotland:2006.

        [8]Melenhorst M S,Van SM.Usefulnessoftagsin providingaccessto large information systems[C]//Proceedings of IEEE International Professional Communication Conference.Scattle:IPCC,2007:1-9.

        [9]Bischoff K,F(xiàn)iran C S,Kadar C,et al.Automatically identifying tag types[M]//Advanced Date Mining and Applications.Berlin:Springer,2009:31-42.

        [10]Heymann P,Paepcke A.Garcia-Molina H.Tagging human knowledge[C]//Proceedings of the Third ACM International Conference on Web Search and Data Mining.New York:ACM,2010:51-60.

        [11]BhnstedtD,LehmannL,RensingC,etal.Automantic identification of tag types in a resource-based learning scenario[M]//Towards Ubiquitous Learning.Berlin:Springer,2011:57-70.

        [12]CantadoraI,Konstasb I,Joemon M J.Categorisingsocialtagsto improvefolksonomy-based recommendations [J].WebSemantics:Science,ServicesandAgentson the WorldWideWeb,2011,9(19):1-15.

        [13]GolematiM,KatiforiA,VassilakisC,etal.Creatingan Ontologyfor the User Profile:Method and Applications [C]//ProceedingsoftheFirstInternationalConferenceon Research Challenges Information Science.Ouarzazate:2007:23-26.

        (責(zé)任編輯:鄺玥)

        Different Tagging Behavior of Microblog Users in Different Domains——A Case Study of User Tagging of Sina Weibo

        CHIXue-hua,ZHANGYing-yi,GAOXing,LUChao,ZHANGCheng-zhi

        This paper studies user tags of Sina Weibo.By collecting users’profiles and their tagging information,tags are classified manually according to tags classification system;then analysis is made of the differences in tag types,the distribution entropy of tag types,the average number of user tags,and the average length of tags in different domains.Tagging behavioral indicators are also compared according to high frequency and tag number. The study finds that there are significant differences in tag types and average tag number in different domains;and there are large differences in types of high-frequency words.Grouped by the numbers of different tag types,no obvious differences are showed in user tag types of different domain sand the average length of user-generated tags decreases with an increase in the number of tags.

        user tags;tag classification;tagging behavior;user information behavior

        格式 池雪花,張穎怡,高星,等.不同學(xué)科領(lǐng)域的用戶標(biāo)簽標(biāo)注行為差異研究——以新浪微博用戶的標(biāo)簽為例[J].圖書館論壇,2016(9):112-120.

        池雪花,女,南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院碩士生;張穎怡,女,南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院博士生;高星,女,南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院碩士生;盧超,男,南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院博士生;章成志,男,博士生導(dǎo)師,南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院教授,通訊作者,E-mail:zcz51@126.com。

        2015-08-03

        *本文系國家社會科學(xué)基金重大項目“面向突發(fā)事件應(yīng)急決策的快速響應(yīng)情報體系研究”(項目編號:13&ZD174)、國家社會科學(xué)基金項目“在線社交網(wǎng)絡(luò)中基于用戶的知識組織模式研究”(項目編號:14BTQ033)和中央高?;究蒲袠I(yè)務(wù)費專項資金項目(項目編號:30915011323)研究成果之一

        猜你喜歡
        比率個數(shù)標(biāo)簽
        一類具有時滯及反饋控制的非自治非線性比率依賴食物鏈模型
        怎樣數(shù)出小正方體的個數(shù)
        等腰三角形個數(shù)探索
        怎樣數(shù)出小木塊的個數(shù)
        怎樣數(shù)出小正方體的個數(shù)
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        標(biāo)簽化傷害了誰
        一種適用于微弱信號的新穎雙峰值比率捕獲策略
        基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
        精品一区二区av在线| 中文字幕天堂在线| 911国产在线观看精品| 色偷偷亚洲精品一区二区| 久久综合99re88久久爱| 成人久久久久久久久久久| 亚洲AV无码一区二区三区天堂网| 最新亚洲av日韩av二区一区| 国产av天堂亚洲av刚刚碰| 无码欧美毛片一区二区三| 亚洲无码专区无码| 国产蜜臀精品一区二区三区| 中文乱码字字幕在线国语| 男男啪啪激烈高潮cc漫画免费| 国产a级网站| 国产青春草在线观看视频| 一区二区三区人妻少妇| 男女爽爽无遮挡午夜视频| 国产亚洲AV无码一区二区二三区| 亚洲国产综合精品中文| 成人片黄网站a毛片免费| 少妇人妻真实偷人精品视频 | 中文亚洲AV片在线观看无码| 国产老熟女伦老熟妇露脸| 国产精品妇女一二三区| 久久AⅤ无码精品为人妻系列| 天堂视频一区二区免费在线观看| 手机在线观看日韩不卡av| 国产青草视频在线观看| 日韩久久久久中文字幕人妻| 久久精品国产黄片一区| 美女露内裤扒开腿让男人桶无遮挡 | 国产主播一区二区在线观看| 天天射综合网天天插天天干| 天美传媒一区二区| 欧美色图50p| 日韩五码一区二区三区地址| 日本高清视频永久网站www| 欧美一欧美一区二三区性| 日本在线观看一区二区三区视频| 妺妺窝人体色www婷婷|