亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用作者主題模型進(jìn)行圖書館UGC的主題發(fā)現(xiàn)與演化研究*

        2016-08-08 06:24:18章成志
        圖書館論壇 2016年7期
        關(guān)鍵詞:圖書館信息模型

        趙 華,章成志

        利用作者主題模型進(jìn)行圖書館UGC的主題發(fā)現(xiàn)與演化研究*

        趙華,章成志

        通過對在線社交網(wǎng)絡(luò)上圖書館用戶生成內(nèi)容(UGC)的分析,可以從宏觀上更好地了解我國圖書館機(jī)構(gòu)關(guān)注的熱點(diǎn)話題及其演化情況。文章以新浪微博為數(shù)據(jù)源,獲取一定時段我國圖書館微博的內(nèi)容數(shù)據(jù),依據(jù)作者主題模型獲取候選主題,通過對候選主題進(jìn)行聚類確定合適的話題數(shù),根據(jù)作者主題模型結(jié)果計算相鄰時間片主題之間的相似度,在此基礎(chǔ)上分析主題的演化,最終完成不同圖書館主題分布及演化的差異分析。實證研究結(jié)果表明:目前我國圖書館微博主要關(guān)注新書推薦、講座信息、圖書館服務(wù)、圖書信息等主題;各月份的關(guān)注主題差異不大;除了共同關(guān)注的圖書館服務(wù)、新書推薦等話題之外,上午時段關(guān)注音樂和大學(xué)生相關(guān)話題,下午關(guān)注講座信息和公益話題,晚上時段關(guān)注公益和大學(xué)生話題。

        主題發(fā)現(xiàn)主題演化圖書館微博在線社交網(wǎng)絡(luò)用戶生成內(nèi)容

        引用本文格式趙華,章成志.利用作者主題模型進(jìn)行圖書館UGC的主題發(fā)現(xiàn)與演化研究[J].圖書館論壇,2016(7):34-45.

        0 引言

        微博是近年來新興的一種網(wǎng)絡(luò)信息傳播方式。自2006年Twitter問世以來,類似的服務(wù)如雨后春筍般在各個國家出現(xiàn)。由于其便捷性、即時性、互動性、裂變式傳播等特點(diǎn),微博迅速成為公眾信息交流的新型平臺,世界各地越來越多的用戶在微博上表達(dá)自己的想法。截至2015 年6月,我國微博用戶規(guī)模為2.04億,其中使用新浪微博的用戶占69.4%[1];Twitter的活躍用戶為3.16億[2]。身處轉(zhuǎn)型過程之中的圖書館,正試圖在傳統(tǒng)的運(yùn)作模式之外尋求一種新的發(fā)展方向[3],其中,服務(wù)模式的變革和創(chuàng)新是圖書館轉(zhuǎn)型的重要內(nèi)容,而微博的應(yīng)用正是拓展傳統(tǒng)圖書館服務(wù)模式和服務(wù)內(nèi)容的一種新途徑,因此越來越多的圖書館開始提供微博服務(wù)[4]。通過比較分析在線社交網(wǎng)絡(luò)上圖書館用戶生成內(nèi)容(User Generated Content,UGC)的主題演化,可以從宏觀上更好地了解我國圖書館機(jī)構(gòu)關(guān)注的熱點(diǎn)話題及其演化情況。

        縱觀現(xiàn)有的研究與應(yīng)用,鮮有針對在線社交網(wǎng)絡(luò)上圖書館用戶生成內(nèi)容的主題發(fā)現(xiàn)與演化研究。本文以圖書館微博為研究對象,從新浪微博平臺上抓取圖書館用戶的微博語料,使用作者主題模型(Author-Topic Model,ATModel)建模的方法抽取候選話題,對候選話題進(jìn)行聚類,確定較為合適的話題數(shù),然后再次采用作者主題模型進(jìn)行話題建模以確定最終話題。在此基礎(chǔ)上,計算主題相似度,完成圖書館用戶發(fā)布內(nèi)容的主題發(fā)現(xiàn)、圖書館微博話題演化分析以及不同時段話題分布的差異分析。結(jié)果發(fā)現(xiàn),目前我國圖書館微博主要關(guān)注新書推薦、講座信息、圖書館服務(wù)、圖書信息等主題;各月份的關(guān)注主題差異不大;除此之外,上午時段主要關(guān)注音樂和大學(xué)生相關(guān)話題,下午以講座信息和公益話題為主,晚上時段的關(guān)注熱點(diǎn)聚焦于公益和大學(xué)生話題。

        1 相關(guān)研究工作概述

        1.1圖書館微博的相關(guān)研究

        作為社交網(wǎng)絡(luò)平臺的重要代表,微博廣受學(xué)界關(guān)注[5-11],有關(guān)圖書館微博的研究也越來越多。2010年,王妙婭使用統(tǒng)計分析的方法,以新浪微博上的13個圖書館用戶的微博信息為實驗數(shù)據(jù),對圖書館微博的應(yīng)用現(xiàn)狀進(jìn)行了研究[12]。2011年,陳琳取樣分析新浪微博圖書館用戶的信息,對圖書館微博群組、微博賬戶、微博內(nèi)容等現(xiàn)狀進(jìn)行了揭示[13]。2012年,黃淑敏采集20個新浪微博認(rèn)證的圖書館官方微博的實驗數(shù)據(jù),通過微博數(shù)、關(guān)注數(shù)、粉絲數(shù)、注冊天數(shù)、原創(chuàng)率等指標(biāo)分析圖書館微博的影響力[14]。2014年,李曉靜等將新浪微博認(rèn)證的圖書館微博用戶分為個人用戶和官方用戶,通過網(wǎng)絡(luò)調(diào)查方法,對這兩種用戶的特征進(jìn)行了研究,提出圖書館微博用戶發(fā)展策略[15]。同年,劉國敏對圖書館微博社區(qū)的用戶參與行為進(jìn)行了研究[16]。目前國內(nèi)外主要研究圖書館微博的概念、特征、優(yōu)勢、作用、發(fā)布內(nèi)容、現(xiàn)狀分析與發(fā)展策略、存在問題與解決途徑等[17],對圖書館微博內(nèi)容方面的研究不夠深入。

        1.2主題發(fā)現(xiàn)與演化的相關(guān)研究

        話題的演化反映了一個話題從提出、發(fā)展、衰亡到最后結(jié)束的過程。2010年,單斌等根據(jù)引入時間方式的不同,總結(jié)了三種不同的演化方法:(1)將時間作為可觀測變量結(jié)合到LDA(Latent Dirichlet Allocation,隱含狄利克雷分布)模型中;(2)在整個文本集合上用LDA模型生成話題,然后按文本的時間信息,根據(jù)話題后驗離散地分析話題隨時間的演化;(3)將文本集合先按一定時間粒度離散到相應(yīng)的時間窗口,在每個窗口上運(yùn)用LDA模型來獲取演化[18]。

        國內(nèi)外很多學(xué)者采取不同的方法來研究話題檢測及追蹤,并進(jìn)行了實證研究。比如:2010年,Ramage等使用半監(jiān)督的Labeled LDA對Twitter上1周的數(shù)據(jù)進(jìn)行實驗研究,將話題分為四種類型,并對四類話題的強(qiáng)度差異進(jìn)行了分析[19]。2011年,Wayne Xin Zhao等比較了Twitter和New York Times上話題的類型,對比分析兩種媒體上話題在分布、內(nèi)容、覆蓋程度、轉(zhuǎn)發(fā)程度等方面存在的差異[20]。2012年,RuiLi等提出了一個基于Twitter的事件檢測分析系統(tǒng)(TEDAS),檢測新事件、分析事件的時空模式以及識別事件的重要性[21]。同年,Yuheng Hu等提出了聯(lián)合貝葉斯模型,并對該模型進(jìn)行定量和定性評估[22]。2013年,Abdelhaq等開發(fā)了EvenTweet系統(tǒng),根據(jù)用戶所發(fā)微博及其時空信息,檢測當(dāng)?shù)貙崟r事件,跟蹤事件隨時間的演化,并進(jìn)行了實證研究[23]。同年,史慶偉等基于AT和TOT(Topics over Time,主題演化)模型,構(gòu)建了作者主題演化模型,從科技文獻(xiàn)中挖掘隱含主題、研究人員的研究興趣及其演化規(guī)律[24]。2014年,周振宇等從話題關(guān)注度、詞匯差異度、話題演化度三個方面對新浪新聞和新浪微博兩個平臺的差異性進(jìn)行了對比分析[25]。同年,張玥等對突發(fā)事件在新浪微博和新浪新聞兩個平臺上輿情傳播的特征和規(guī)律進(jìn)行了比較分析[26]。

        綜上所述,目前大量研究都是針對微博平臺展開,但對圖書館微博內(nèi)容的研究不夠深入,且缺少對圖書館微博主題發(fā)現(xiàn)及演化方面的研究。因此,本文用作者主題模型進(jìn)行話題建模,以圖書館新浪微博為研究對象,研究圖書館微博的話題分布和話題演化,比較不同時段話題分布存在的差異,多角度地了解微博內(nèi)容的主題分布情況,從宏觀上了解我國圖書館的關(guān)注熱點(diǎn)及其演化。

        2 研究框架與關(guān)鍵技術(shù)描述

        2.1研究框架

        為了優(yōu)化圖書館現(xiàn)有的信息服務(wù),本文以新浪微博為研究平臺,以圖書館微博為實證對象,利用聚類的方法確定主題數(shù);結(jié)合時間信息,使用作者主題模型建模的方法發(fā)現(xiàn)主題;并結(jié)合相似度計算的方法判斷主題間的演化關(guān)系。具體研究框架如圖1所示。

        圖1 圖書館微博主題發(fā)現(xiàn)及演化研究框架圖

        首先,從新浪微博上獲取圖書館微博用戶的微博語料,將微博語料分別以月份和時段為時間片進(jìn)行劃分,對圖書館微博語料進(jìn)行作者主題模型建模,挖掘候選主題;接著根據(jù)作者主題模型生成的“主題-詞項”矩陣計算得到同一時間片內(nèi)主題間的相似度,對主題進(jìn)行聚類,從而得到每一時間片較為準(zhǔn)確的主題數(shù);然后,根據(jù)得到的主題數(shù)對圖書館微博語料進(jìn)行二次作者主題模型建模,計算相鄰時間片之間的主題相似度;最后對圖書館微博的主題及其演化進(jìn)行分析。

        本文使用的關(guān)鍵技術(shù)主要包括作者主題模型建模、主題數(shù)確定方法及話題演化關(guān)系確定方法,下一小節(jié)將對這些關(guān)鍵技術(shù)進(jìn)行描述。

        2.2關(guān)鍵技術(shù)描述

        2.2.1作者主題模型

        本文采用作者主題模型進(jìn)行興趣抽取。作者主題模型能夠?qū)⑽臋n和作者結(jié)合起來,在一個統(tǒng)一的框架下同時在作者和文檔水平進(jìn)行建模。

        作者主題模型認(rèn)為每個作者有一個主題概率分布θ,每個主題有一個詞項概率分布φ,模型如圖2所示。該模型的生成過程[27]如下:

        (1)對于每個作者,抽取多項式概率分布θ;

        (2)對于每個主題,抽取多項式概率分布φ;

        (3)對文檔d中的每個詞項:(a)抽取一個作者x;(b)抽取一個主題z;(c)抽取一個詞項w;

        抽取過程重復(fù)Nd次,形成文檔d。

        圖2 作者主題模型圖

        圖2中包含如下參數(shù):θ、φ、α、β、ad、x、z、w、D、Nd、K、T。其中,θ為作者—主題概率分布;φ為主題-詞項概率分布;α為Dirichlet先驗參數(shù),表示文檔-主題概率分布的先驗;β為Dirichlet先驗參數(shù),表示主題-詞項概率分布的先驗;ad為作者集合上的均勻分布;x為作者;z為主題;w為詞項;D為文檔集合;Nd為重復(fù)采樣次數(shù);K為作者的數(shù)量;T是主題的數(shù)量。

        2.2.2主題數(shù)確定方法

        不同時間片討論的主題存在著一些差異。為了較準(zhǔn)確地確定每個時間片的主題個數(shù),本文首先利用作者主題模型確定候選主題,然后根據(jù)作者主題模型所得的“主題-詞項”矩陣文檔計算各個時間片內(nèi)主題間的JS距離(見公式1),接著使用AP聚類算法對候選主題進(jìn)行聚類,將聚類的類簇數(shù)作為最終的主題數(shù)目。

        其中,AP算法是根據(jù)N個數(shù)據(jù)點(diǎn)之間的相似度進(jìn)行聚類的方法,不需要事先指定聚類數(shù)目,它將所有的數(shù)據(jù)點(diǎn)都作為潛在的聚類中心。AP算法[28-29]過程如下:將N個數(shù)據(jù)點(diǎn)之間的相似度組成N×N的相似度矩陣S;以S矩陣對角線上的數(shù)值s(k,k)作為k點(diǎn)能否成為聚類中心的評判標(biāo)準(zhǔn),該值越大,表明這個點(diǎn)成為聚類中心的可能性也就越大,這個值又稱作參考度。聚類的數(shù)量受到參考度的影響,如果認(rèn)為每個數(shù)據(jù)點(diǎn)都有可能作為聚類中心,那么參考度就應(yīng)取相同的值。如果取輸入的相似度的均值作為參考度的值,得到聚類數(shù)量是中等的。如果取最小值,則得到類數(shù)最少的聚類。

        其中,P(i)表示同一時間片內(nèi)主題P中詞i的概率,Q(i)表示同一時間片內(nèi)主題Q中詞i的概率。

        2.2.3話題演化關(guān)系確定方法

        本文通過計算相鄰時間片主題間的余弦相似度[30]來確定主題的演化情況,計算方法如公式2:

        其中,Ai表示詞i在主題A中的概率,Bi表示詞i在主題B中的概率。

        本文參照J(rèn)ianyu Li等[31]的研究,根據(jù)主題之間的相似度來確定兩個主體之間是否具有演化關(guān)系。設(shè)置相鄰時間片不同主題之間的相似度的閾值為P0,如果相似度大于等于P0,就認(rèn)為后一個時間片的主題是前一個時間片主題的延續(xù),兩個主題之間具有演化關(guān)系。

        3 實驗結(jié)果與分析

        3.1實驗數(shù)據(jù)

        本文利用新浪微博上119家圖書館的新浪微博為數(shù)據(jù)源①,時間跨度為2013年1月1日至2013年12月31日。其中,微博數(shù)為65529條;經(jīng)過分詞、詞性標(biāo)注、去停用詞和對少于2個單詞的微博進(jìn)行過濾等預(yù)處理后,得到的微博數(shù)為56726條。

        以月份為時間片進(jìn)行時間切割,得到各時間片的微博數(shù)及百分比,參見表1。從表1可發(fā)現(xiàn),2013年新浪微博圖書館用戶各月的微博數(shù)在5.81%~11.19%之間波動,其中,2月和8月微博數(shù)最少,4月和5月微博數(shù)最多,總體分布比較均勻。

        為了揭示不同時段圖書館微博話題分布的差異,以時段為時間片進(jìn)行時間切割,將一天劃分為上午(03:00~12:00)、下午(12:00~19:00)、晚上(19:00~次日03:00)三個時段,各時段的微博數(shù)分布如下:上午22574條,下午23998條、晚上9363條②。

        3.2實驗結(jié)果分析

        本文對圖書館微博的實驗結(jié)果從主題總體分布、時段分布和月份分布及演化三個方面進(jìn)行分析。使用作者主題模型獲取候選主題,采取開源的Gibbs Sampling為采樣工具,其參數(shù)設(shè)置如下:K設(shè)為50,模型參數(shù)α,β分別設(shè)為50/K和0.1。隨后,根據(jù)作者主題模型建模結(jié)果計算不同主題之間的JS距離,然后根據(jù)所得JS距離對主題進(jìn)行AP聚類。

        表1 2013年圖書館新浪微博數(shù)據(jù)

        表2 基于作者主題模型的圖書館微博數(shù)據(jù)集上的8個中心主題

        3.2.1圖書館微博主題的總體分布結(jié)果分析

        本文對圖書館微博總體數(shù)據(jù)集建模結(jié)果進(jìn)行AP聚類之后,得到8個中心主題,如表2所示。表2給出了利用作者主題模型計算得到的8個主題,并對主題進(jìn)行了人工歸納總結(jié),每個主題的描述包括兩個部分:(1)與主題最相關(guān)的前10個詞項;(2)與主題最相關(guān)的前10個作者。

        從表2可以看出,這8個中心主題分別與“早安問候”(主題2)、“活動信息”(主題6)、“新書推薦”(主題8)、“講座信息”(主題10)、“清華文科”(主題15)、“圖書館服務(wù)”(主題24)、“圖書信息”(主題28)、“人生感悟”(主題48)相關(guān)。作者與主題有較好的對應(yīng)關(guān)系,如“清華文科”主題的前三個作者中,清華大學(xué)圖書館、清華文科圖書館和浙江海洋學(xué)院圖書館與主題詞中的“清華大學(xué)”“清華”“文科”“人文”“浙江”“海洋學(xué)院”等密切相關(guān)。從主題的總體分布可以看出,三江學(xué)院圖書館、信陽師范學(xué)院圖書館等經(jīng)常發(fā)布“早安問候”相關(guān)主題的微博;杭州圖書館經(jīng)常發(fā)布“活動信息”“圖書館服務(wù)”方面的信息;上海圖書館信使側(cè)重發(fā)布“活動信息”“講座信息”“圖書館服務(wù)”“人生感悟”“新書推薦”等方面的信息;民間流動圖書館重視發(fā)布以“人生感悟”為主題的微博。

        (續(xù)上表)

        3.2.2圖書館微博主題的時段分布結(jié)果分析

        將2013年的微博語料劃分為上午、下午、晚上三個時段,進(jìn)行作者主題模型建模,建模結(jié)果如表3、表4和表5所示。其中,上午時段的主題數(shù)為10,通過二次AP聚類,得到5個中心主題,如表3所示。

        從表3可以看出,圖書館微博上午時段的5個中心主題分別與“大學(xué)生”(主題1)、“音樂”(主題9)、“親子閱讀”(主題2)、“圖書館服務(wù)”(主題5)、“新書推薦”(主題10)相關(guān)。三峽大學(xué)圖書館漂流書屋、三峽大學(xué)圖書館讀者俱樂部等對“大學(xué)生”這個主題比較關(guān)注;北京市東城區(qū)圖書館、庫克音樂等比較側(cè)重“音樂”主題;悠貝親子圖書館、愛貝樂親子圖書館等對“親子閱讀”相關(guān)主題比較關(guān)心;廣東財經(jīng)大學(xué)圖書館、重慶大學(xué)圖書館等注重“圖書館服務(wù)”話題;上海圖書館信使、華東交通大學(xué)圖書館等經(jīng)常進(jìn)行“新書推薦”。

        從表4可以看出,圖書館微博下午時段的5個中心主題分別與“新書推薦”(主題1)、“講座信息”(主題3)、“親子閱讀”(主題4)、“圖書館服務(wù)”(主題5)、“公益”(主題2)相關(guān)。上海圖書館信使、民間流動圖書館等關(guān)心“新書推薦”主題;杭州圖書館、北京市東城區(qū)圖書館等注重“講座信息”的發(fā)布;悠貝親子圖書館、愛貝樂親子圖書館依舊把“親子閱讀”相關(guān)話題作為重點(diǎn);四川大學(xué)圖書館、三峽大學(xué)圖書館漂流書屋等側(cè)重“圖書館服務(wù)”方面的信息;立人圖書館、閔行區(qū)圖書館等注重與“公益”相關(guān)的話題。

        表3 圖書館微博上午時段數(shù)據(jù)集上的5個中心主題

        表4 圖書館微博下午時段數(shù)據(jù)集上的5個中心主題

        從表5可以看出,圖書館微博晚上時段的4個中心主題分別與“新書推薦”(主題1)、“親子閱讀”(主題3)、“公益”(主題4)、“大學(xué)生”(主題2)相關(guān)。順德圖書館、杭州圖書館等側(cè)重“新書推薦”;上海圖書館信使、悠貝親子圖書館等關(guān)注“親子閱讀”;立人圖書館、四川大學(xué)圖書館等對“公益”主題更為關(guān)注;三峽大學(xué)圖書館漂流書屋、重慶圖書館等關(guān)心與“大學(xué)生”相關(guān)的話題。

        表5 圖書館微博晚上時段數(shù)據(jù)集上的4個中心主題

        綜上可發(fā)現(xiàn),上午、下午、晚上三個時段微博發(fā)布的內(nèi)容既有共同點(diǎn),也存在著差異。“親子閱讀”“新書推薦”的相關(guān)話題貫穿三個時段;“圖書館服務(wù)”的話題常在上午、下午兩個時段被提到;“公益”相關(guān)話題往往在下午、晚上兩個時段發(fā)布;“大學(xué)生”話題在上午、晚上兩個時段受到更多的關(guān)注;此外,“音樂”相關(guān)話題常出現(xiàn)在上午時段,“講座信息”相關(guān)話題則常在下午時段被提及。而且,從上面的分析可以看出,不同圖書館的話題各有側(cè)重。

        3.2.3圖書館微博主題的月份分布及其演化結(jié)果分析

        本文對所得候選主題進(jìn)行AP聚類,以得到的類簇數(shù)作為主題數(shù),進(jìn)行二次主題建模。選取閾值P0為0.7來展示圖書館微博主題演化情況,包括主題的新生、合并、分裂和消亡,結(jié)果見附錄。附錄中每個方框中的一行代表一個主題,有連線關(guān)系的兩個主題間具有演化關(guān)系,箭頭末端的主題是箭頭始端的主題在下個月的演變結(jié)果。附錄給出了利用作者主題模型計算得到的主題,每個主題的描述包括三個部分:(1)主題名稱;(2)與主題最相關(guān)的前10個詞項;(3)與主題最相關(guān)的前4個作者(由于篇幅的限制,未給出主題詞詞項和作者的概率,且只給出前4個最相關(guān)的作者)。

        從附錄可以看出,2013年1月,立人圖書館、上海圖書館信使、順德圖書館等發(fā)布較多與“公益”“新書推薦”和“圖書館服務(wù)”主題相關(guān)的微博。2月,“圖書館服務(wù)”是上海圖書館信使等的主要話題,而“星云大師”成為鑑真圖書館等的主要話題。3月,“新書推薦”“圖書館服務(wù)”“親子閱讀”成為上海圖書館信使、順德圖書館和立人圖書館等的熱議話題。4月,“講座信息”“親子閱讀”“圖書館服務(wù)”等成為立人圖書館、愛貝樂親子圖書館、四川大學(xué)圖書館等的話題熱點(diǎn)。5月,民間流動圖書館、杭州圖書館等延續(xù)了之前的“講座信息”“親子閱讀”“新書推薦”等話題,且出現(xiàn)了“圖書信息”“大學(xué)生”兩個新話題。6-7月和5月討論的話題大致相同,新增了“圖書館服務(wù)”的話題。8月,立人圖書館、華東交通大學(xué)圖書館等出現(xiàn)“志愿者”相關(guān)話題。9月,話題較單一,主要是上海圖書館信使等關(guān)注的“圖書館服務(wù)”相關(guān)話題。10月,“圖書信息”“親子閱讀”“活動信息”“講座信息”等主題依舊是重點(diǎn)。11月,延續(xù)了之前的熱點(diǎn)話題,除了“親子閱讀”“講座信息”“圖書信息”等話題,新增了上海圖書館信使等關(guān)心的“新書推薦”和三峽大學(xué)圖書館漂流書屋、三峽大學(xué)圖書館讀書俱樂部等發(fā)布的“大學(xué)生”相關(guān)話題。12月,“活動信息”和“大學(xué)生”相關(guān)話題成為熱點(diǎn)。

        4 結(jié)語

        本文以新浪微博為數(shù)據(jù)源,獲取一定時段我國圖書館微博內(nèi)容數(shù)據(jù),然后依據(jù)作者主題模型獲取候選主題,通過對候選主題進(jìn)行聚類,確定合適的話題數(shù);接著根據(jù)作者主題模型結(jié)果計算相鄰時間片主題之間的相似度,在此基礎(chǔ)上分析主題的演化;最終完成不同圖書館主題分布及演化的差異分析。本文實證結(jié)果表明:目前我國圖書館微博主要關(guān)注新書推薦、講座信息、圖書館服務(wù)、圖書信息等主題;各月份的關(guān)注主題差異不大;除此之外,上午、下午以及晚上三個時段關(guān)注的話題各有側(cè)重。

        本文只對不同圖書館在不同時間片的微博內(nèi)容進(jìn)行了粗略的分析,未能結(jié)合其他微博的信息進(jìn)行更詳細(xì)的分析。因此,未來本研究團(tuán)隊將把時段粒度劃分得更細(xì),結(jié)合粉絲數(shù)、用戶評論、微博數(shù)量、時間、用戶行為特征等信息,更為全面細(xì)致地揭示圖書館微博的使用現(xiàn)狀,為圖書館用戶提供優(yōu)化建議,以提高圖書館微博影響力。

        注釋

        ①該微博數(shù)據(jù)由合肥學(xué)堂信息技術(shù)有限公司友情提供,在此表示感謝。

        ②在對時段數(shù)據(jù)預(yù)處理的過程中,進(jìn)一步過濾了791條短微博。

        [1]中國互聯(lián)網(wǎng)絡(luò)信息中心.第36次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[R/OL].[2015-09-01].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201507/P02015 0723549500667087.pdf.

        [2]Twitter Reports Second Quarter 2015 Results[R/OL].[2015-09-01].http://files.shareholder.com/downloads /AMDA-2F526X/0x0x841607/E35857E7-8984-48C1 -A33B-15B62F72A0F7/2015_Q2_Earnings_press_ release.pdf.

        [3][4][17]王曼,張秋.國內(nèi)外圖書館微博研究綜述[J].圖書情報工作,2012,56(23):135-140.

        [5]Hend S.Al-Khalifa,Rasha M.Al-Eidan.An experimental system for measuring the credibility of news content in Twitter[J].International Journal of Web Information Systems,2011,7(2):130-151.

        [6]Mike Thelwall,Kevan Buckley,Georgios Paltoglou.Sentiment in Twitter events[J].Journal of the American Society for Information Science and Technology,2011,62(2):406-418.

        [7]Dhiraj Murthy,Scott A.Longwell.Twitter and disasters:TheusesofTwitter duringthe 2010 Pakistan floods [J].Information,Communication&Society,2013,16 (6):837-855.

        [8]王曉光,袁毅,滕思琦.微博社區(qū)交流網(wǎng)絡(luò)結(jié)構(gòu)的實證分析[J].情報雜志,2011,30(2):199-202.

        [9]朱恒民,李青.面向話題衍生性的微博網(wǎng)絡(luò)輿情傳播模型研究[J].現(xiàn)代圖書情報技術(shù),2012,(5):60-64.

        [10]Sarah Vieweg,Amanda L.Hughes,Kate Starbird,et al.Microblogging during two natural hazardsevents:what twitter maycontribute to situationalawareness[C]// Proceedingsofthe SIGCHI conference on human factors in computing systems,Atlanta,Georgia,USA.New York:ACM,2010:1079-1088.

        [11]AlexanderMills,RuiChen,JinKyuLee,etal.Web2.0 emergency applications:How useful can Twitter be for emergency response?[J].Journal of Information Privacy andSecurity,2009,5(3):3-26.

        [12]王妙婭.國內(nèi)圖書館微博應(yīng)用現(xiàn)狀及建議[J].圖書館學(xué)研究,2010(12):39-41.

        [13]陳琳.國內(nèi)圖書館微博應(yīng)用現(xiàn)狀研究[J].圖書館學(xué)研究,2011(24):30-33.

        [14]黃淑敏.圖書館微博使用特征及發(fā)展策略研究[J].大學(xué)圖書館學(xué)報,2012(1):78-83.

        [15]李曉靜,丁樹亭.新浪圖書館微博用戶特征研究[J].圖書館論壇,2014(1):62-66.

        [16]劉國敏.圖書館微博社區(qū)的用戶參與行為研究[J].圖書館論壇,2014(1):57-61,73.

        [18]單斌,李芳.基于LDA話題演化研究方法綜述[J].中文信息學(xué)報,2010,24(6):43-49.

        [19]Daniel Ramage,Susan Dumais,Dan Liebling.CharacterizingMicroblogswith TopicModels[C]//Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media.Washington DC,USA:AAAIPress,2010:130-137.

        [20]Wayne Xin Zhao,Jing Jiang,Jianshu Weng,et al.Comparing Twitter and traditional media using topic models[C]//Proceedingsof the 33rd European conference on Advances in Information Retrieval.Berlin:Springer,2011:338-349.

        [21]Rui Li,Kin Hou Lei,Ravi Khadiwala,et al.Tedas:ATwitter-basedeventdetectionandanalysissystem[C]// Proceedings of the 2012 IEEE 28th International Conference on Data Engineering.Washington,DC:IEEE,2012:1273-1276.

        [22]Yuheng Hu,Ajita John,F(xiàn)ei Wang,et al.ET-LDA:Joint Topic Modeling for Aligning Events and their TwitterFeedback[C]//ProceedingsoftheTwenty-Sixth AAAI Conference on Artificial Intelligence July 22-26,2012,Toronto,Ontario,Canada.Palo Alto,CA:AAAIPress,2012:59-65.

        [23]HamedAbdelhaq,Christian Sengstock,MichaelGertz.Eventweet: Online localized event detection from Twitter[C]//Proceedings of the VLDB Endowment.Riva del Garda,Trento,Italy:VLDB Endowment.2013:1326-1329.

        [24]史慶偉,喬曉東,徐碩,等.作者主題演化模型及其在研究興趣演化分析中的應(yīng)用[J].情報學(xué)報,2013,32(9):912-919.

        [25]周振宇,李芳.特定事件微博與新聞報道話題對比研究[J].中文信息學(xué)報,2014,28(1):47-55.

        [26]張玥,孫霄凌,朱慶華.突發(fā)公共事件輿情傳播特征與規(guī)律研究——以新浪微博和新浪新聞平臺為例[J].情報雜志,2014,33(4):90-95.

        [27]Mark Steyvers,Padhraic Smyth,Michal Rosen-Zvi,et al.Probabilisitic author-topic models for information discovery[C]//Proceedingsof the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Seattle.Washington:ACM,2004:306-315.

        [28]Brendan J.Frey,Delbert Dueck.Clustering by passing messages between data points[J].Science,2007,315 (5814):972-976.

        [29]甘月松,陳秀宏,陳曉暉.一種AP算法的改進(jìn):M-AP聚類算法[J].計算機(jī)科學(xué),2015,42(1):232-267.

        [30]G.Salton,A.Wong,C.S.Yang.A Vector Space Model for Automatic Indexing[J].Communications of theACM,1975,18(11):613-620.

        [31]Jianyu Li,SanaMalik,Alison Smith,et al.TopicFlow:Visualizing Topic Alignment ofTwitter Data over Time [EB/OL].[2015-07-01].https://wiki.cs.umd.edu/ cmsc734_f12/images/0/05/TopicFlowFinalReport2.pdf.

        (責(zé)任編輯:何燕)

        附錄:我國圖書館新浪微博主題演化圖(2013年1月~2013年12月)

        Topic Detection and Evolution of Library User Generated Content Based on Author-Topic Model

        ZHAO Hua,ZHANG Cheng-zhi

        Based on topic detection and evolution of library User Generated Content(UGC)from online social networks,one can observe the hot topics and their evolution from a macro perspective.In this paper,the authors extract library corpus from Weibo(microblog)in a certain period.Author-Topic model is used to obtain candidate topics.According to the results of topics clustering,the authors get an appropriate topic number.Then,the authors calculate the similarities between two neighbor topics according to time.Finally,the authors present a comparative analysis of topic evolution between different libraries.The experimental results show that:libraries in China focus on the topics of new arrivals,lecture information,library services,book information and others;topics vary little each month;library Weibos concern the issues about music and college students in the morning,lecture information and public service in the afternoon;public service and college students in the evening in addition to the common topics such as library service,new arrivals.

        topic detection;topic evolution;library microblog;online social network;UGC

        *本文系國家社會科學(xué)基金項目“在線社交網(wǎng)絡(luò)中基于用戶的知識組織模式研究”(項目編號:14BTQ033)和國家社會科學(xué)基金重點(diǎn)項目“大數(shù)據(jù)環(huán)境下社會輿情與決策支持方法體系研究”(項目編號:14AZD084)研究成果之一

        趙華,女,南京理工大學(xué)情報學(xué)專業(yè)碩士研究生;章成志,男,博士,南京理工大學(xué)教授,博士生導(dǎo)師,通訊作者,E-mail:zhangcz@ njust.edu.cn。

        2016-04-19

        猜你喜歡
        圖書館信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        圖書館
        小太陽畫報(2018年1期)2018-05-14 17:19:25
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        飛躍圖書館
        3D打印中的模型分割與打包
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        去圖書館
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        无码一区二区丝袜| 漂亮人妻被中出中文字幕久久| 亚洲国产成人久久一区| 中文字幕无码专区一VA亚洲V专| 日产精品一区二区在线| 自拍偷自拍亚洲一区二区| 影音先锋中文字幕无码资源站 | 伊人色综合久久天天五月婷| 亚洲日本va午夜在线影院| 午夜在线观看有码无码| 国产精品女同av在线观看| 午夜不卡无码中文字幕影院| 国产95在线 | 欧美| 国产成人aa在线观看视频| av黄色大片久久免费| 亚洲av成人无码一区二区三区在线观看| 欧美疯狂做受xxxx高潮小说| 天堂在线观看av一区二区三区| 国产一区二区三区成人av| 亚洲av乱码一区二区三区林ゆな| 色伦专区97中文字幕| 久久精品国产精品亚洲婷婷| 国产av一啪一区二区| 欧美精品国产综合久久| 男人和女人高潮免费网站| 中文字幕亚洲综合久久| 国产精品一区二区三区播放| 日本熟妇hdsex视频| 欧美色欧美亚洲另类二区不卡| 偷拍av一区二区三区| 中文字幕一区二区三区久久网 | 国产av无码专区亚洲av果冻传媒| 精品国模一区二区三区 | 亚洲人成伊人成综合网中文| 日本一区二区三区视频国产| 亚洲av无码av制服另类专区| 国产在线观看黄| av黄色大片久久免费| 色视频综合无码一区二区三区| 78成人精品电影在线播放| 女同同成片av免费观看|