亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于社會(huì)網(wǎng)絡(luò)分析方法的書目二次歸類研究

        2019-03-20 06:52:10姜彩云孟亞琪王忠義
        圖書館理論與實(shí)踐 2019年2期
        關(guān)鍵詞:歸類書目特征向量

        姜彩云,孟亞琪,王忠義△

        (1.南通航運(yùn)職業(yè)技術(shù)學(xué)院學(xué)生工作處;2.華中師范大學(xué)信息管理學(xué)院)

        在這個(gè)信息爆炸的時(shí)代,信息過載[1,2]問題日益凸顯,導(dǎo)致用戶越來越難檢索到自己真正需要的信息,特別是對(duì)于學(xué)習(xí)型用戶來說,僅僅通過簡單的書目檢索難以找到自己所需要的相關(guān)書籍。就目前的網(wǎng)絡(luò)閱讀社區(qū)以及數(shù)字圖書館的書目分類體系而言,并沒有很好的方法將其融入到書目檢索系統(tǒng)中,也無法以分類體系為基礎(chǔ)實(shí)現(xiàn)效果明顯的書目推薦機(jī)制。因此,本文基于書目特征向量和社會(huì)網(wǎng)絡(luò)分析方法實(shí)現(xiàn)書目的二次分類,主要目的是將其運(yùn)用到書目檢索和推薦系統(tǒng)中,為學(xué)習(xí)型用戶提供更廣的檢索維度和推薦維度,優(yōu)化用戶的檢索體驗(yàn)。

        1 研究現(xiàn)狀

        目前,國內(nèi)關(guān)于書目分類體系的研究主要集中于三個(gè)方面:① 書店的書目分類體系,這個(gè)部分又可以分為實(shí)體書店和網(wǎng)上書店兩部分;② 數(shù)字圖書館的書目分類;③ 網(wǎng)絡(luò)閱讀社區(qū)的分類體系。

        對(duì)于實(shí)體書店的書目陳列方法,王建強(qiáng)提出了構(gòu)建基于《中國圖書館分類法》而不囿于《中國圖書館分類法》(以下簡稱《中圖法》)的分類體系,根據(jù)營銷需求或地域特征,對(duì)某些類目進(jìn)行適當(dāng)?shù)馗?。?]吳永貴認(rèn)為對(duì)叢書的處理宜采用集中歸類與分散歸類并行的辦法,調(diào)整《中圖法》的相關(guān)類目級(jí)別,[4]因?yàn)椤吨袌D法》類目劃分的主要依據(jù)是書目的學(xué)科屬性,而忽視了書目主題信息的重要性。尹云嵐提出了“主題書架”的概念、作用、以及設(shè)立方法,這種《中圖法》結(jié)合主題陳列法的應(yīng)用,很好地彌補(bǔ)了書目分類陳列的弊端。[5]而網(wǎng)上書店的書目分類體系,更多地傾向于服務(wù)性與商業(yè)性。王益等發(fā)現(xiàn)“亞馬遜”的書目分類體系多是從讀者的興趣出發(fā),并且以銷售為目的。[6]梁世敏在比較了中國各大網(wǎng)上書店的書目分類體系后發(fā)現(xiàn),它們大都是按照個(gè)人的理解來設(shè)計(jì)分類,直觀、易用,但通用性較差。[7]馬小莉等人比較了中美網(wǎng)上書店的區(qū)別,發(fā)現(xiàn)我國的網(wǎng)上書店更重思想性、科學(xué)性,美國的網(wǎng)上書店更重服務(wù)性、商業(yè)性。[8]

        數(shù)字圖書館大多按照《中圖法》對(duì)書目進(jìn)行分類,這種分類方法的主要弊端是忽視了書目主題之間的聯(lián)系,常常導(dǎo)致主題相同的書被分在不同的類目。如,攝影藝術(shù)作品、理論屬于“J4攝影藝術(shù)類”,但攝影學(xué)、攝影原理屬于“TB一般工業(yè)技術(shù)類”。除此之外,《中圖法》已經(jīng)過多次修訂,很多高校圖書館選擇將新書按照新版分類法分類,舊書保持原來的分類,導(dǎo)致同類的書被分在了不同的類目,[9]所謂“同書異號(hào)”[10]就是指這種現(xiàn)象。

        研究網(wǎng)絡(luò)閱讀社區(qū)分類體系的文獻(xiàn)很少,因此通過對(duì)幾個(gè)有代表性的網(wǎng)絡(luò)閱讀社區(qū)的親身體驗(yàn),筆者做出了如下歸納。“豆瓣讀書”[11]是目前國內(nèi)最受關(guān)注的網(wǎng)絡(luò)閱讀社區(qū)平臺(tái),它并不注重書目的標(biāo)準(zhǔn)分類,而是傾向于讓讀者自己分類,如標(biāo)簽分類法,在簡單的幾個(gè)大類下通常有讀者自行編輯和選擇的數(shù)以萬計(jì)的標(biāo)簽,讀者還可以自己創(chuàng)建書單進(jìn)行分享,很好地結(jié)合了讀者興趣與書目主題兩個(gè)維度?!熬W(wǎng)易云閱讀”[12]整合了旗下的幾個(gè)不同風(fēng)格的閱讀網(wǎng)站,如“國風(fēng)中文網(wǎng)”“采薇書院”“QQ閱讀”[13-15]更注重書目熱度,以類目排行榜作為首頁板塊,同時(shí),“QQ閱讀”也重視對(duì)于讀者的分類,如以性別為維度創(chuàng)建類目。

        總的來說,相比書店和數(shù)字圖書館,網(wǎng)絡(luò)閱讀社區(qū)偏向于根據(jù)讀者興趣和書目主題進(jìn)行分類。這與閱讀社區(qū)用戶不穩(wěn)定性和社區(qū)之間的競爭有很大關(guān)系。盡管各種平臺(tái)的書目分類體系有較大的區(qū)別,但是,其書目分類原則都是基于平臺(tái)自身的發(fā)展需求。數(shù)字圖書館的歸類嚴(yán)格遵循《中圖法》,書店偏向商業(yè)化與利益化,網(wǎng)絡(luò)閱讀社區(qū)則偏向“討好”讀者,但無論是基于何種目的的書目分類體系,都沒有很好地考慮到學(xué)習(xí)型用戶的需求。目前,關(guān)于書目分類體系的優(yōu)化研究集中于書店,其中,除了考慮讀者興趣和利于銷售的建議之外,梁世敏建議在傳統(tǒng)分類體系的基礎(chǔ)上構(gòu)建一個(gè)便于用戶使用的多維分類體系。[7]本文提出的基于書目特征向量的書目二次分類方法并不是為了改變傳統(tǒng)的書目分類體系,而是要在傳統(tǒng)書目分類體系上,將二次分類的結(jié)果與書目檢索機(jī)制相結(jié)合,從內(nèi)容覆蓋率、預(yù)測性等方面優(yōu)化書目檢索和檢索推薦效果,使得學(xué)習(xí)型用戶能夠從更多維度檢索到自己需要的書目。

        2 書目二次歸類實(shí)現(xiàn)方法

        為了實(shí)現(xiàn)書目二次歸類的目的,本文提出基于書目特征向量計(jì)算書目相似度以構(gòu)建判斷矩陣,再根據(jù)判斷矩陣,利用社會(huì)網(wǎng)絡(luò)分析方法對(duì)書目進(jìn)行二次歸類的方法(見圖1)。該方法大致包含三個(gè)層級(jí)的處理:數(shù)據(jù)采集層、數(shù)據(jù)處理層、數(shù)據(jù)分析層。

        圖1 書目二次歸類方法的實(shí)現(xiàn)方法的過程

        (1)數(shù)據(jù)采集層。數(shù)據(jù)采集層的主要工作是收集原始數(shù)據(jù),包括書目外部形式特征和書目主題內(nèi)容特征兩個(gè)部分。書目外部形式特征包括書目的外部基本信息,書目主題內(nèi)容特征包括能體現(xiàn)書目主題、內(nèi)容的詞條。

        (2)數(shù)據(jù)處理層。數(shù)據(jù)處理層的主要任務(wù)是接收數(shù)據(jù)采集層得到的原始數(shù)據(jù)并對(duì)其進(jìn)行整合、處理,最終形成書目相似判斷矩陣。首先,將書目外部形式特征和書目主題內(nèi)容特征進(jìn)行整理、合并形成書目外部形式特征向量BI和書目主題內(nèi)容特征向量BT,再對(duì)其進(jìn)行關(guān)鍵詞共現(xiàn)計(jì)算,構(gòu)建關(guān)鍵詞共現(xiàn)矩陣IFM和TFM;然后,基于此進(jìn)行歐氏距離計(jì)算得到書目歐氏距離矩陣IDM和TDM,并通過標(biāo)準(zhǔn)化公式形成相似度矩陣ISM和TSM;接著,加權(quán)整合為相似度矩陣SM;最后,通過選取合適的閾值進(jìn)行判斷并最終形成相似度判斷矩陣SJM(這是一個(gè)0-1矩陣)。

        (3)數(shù)據(jù)分析層。數(shù)據(jù)分析層的主要任務(wù)是接收數(shù)據(jù)處理層得到的書目相似判斷矩陣,并通過社會(huì)網(wǎng)絡(luò)分析方法對(duì)其進(jìn)行分析得到分類結(jié)果。具體包括凝聚子群分析、中心性分析、核心-邊緣分析和基于中心性的網(wǎng)絡(luò)可視化分析。其中,凝聚子群分析主要根據(jù)書目特征(不僅僅是學(xué)科領(lǐng)域的特征)找到書目數(shù)據(jù)庫中的“小群體”,使得“小群體”內(nèi)部書目相似度較高,[16]初步得到書目二次歸類結(jié)果;中心性分析主要是根據(jù)節(jié)點(diǎn)的點(diǎn)度、接近中心性分析對(duì)各子群中的書目進(jìn)行加權(quán)分析得到最終歸類結(jié)果;核心-邊緣分析和中心性可視化分析,分別從學(xué)習(xí)型用戶和無檢索目的用戶兩個(gè)角度說明了分析結(jié)果對(duì)書目二次歸類結(jié)果的支撐意義。

        3 實(shí)證過程

        3.1 數(shù)據(jù)收集

        為了在數(shù)據(jù)處理層建立書目特征向量,需要在數(shù)據(jù)采集層收集合適、完整的數(shù)據(jù)。書目特征向量由書目外部形式特征和書目主題內(nèi)容特征兩個(gè)維度組成。

        (1)書目外部形式特征包括書目的基本信息,對(duì)這些信息的基本要求是:① 區(qū)分度適中,區(qū)分度過低的指標(biāo)(如書目載體)和區(qū)分度過高的指標(biāo)(如書目ISBN號(hào))都不適合作為書目分類的數(shù)據(jù);② 具有分類方面的意義,沒有分類意義的指標(biāo)(如出版社)或分類意義很低的指標(biāo)(如書目篇幅)也不適合作為書目分類的數(shù)據(jù)。

        (2)書目主題內(nèi)容特征主要包括能體現(xiàn)書目主題內(nèi)容的詞條,對(duì)這些詞條的基本要求是:① 對(duì)書目的區(qū)分度中等或中等偏上,對(duì)于書目主題來說,區(qū)分度中等偏上的詞條是值得考慮的,區(qū)分度過低(如“文學(xué)”)并不適合作為書目主題的特征詞;② 詞條之間相關(guān)度要盡可能趨向于零,這是由于相關(guān)度接近1的詞條會(huì)影響書目分類的準(zhǔn)確性。

        筆者利用爬蟲技術(shù)采集了豆瓣讀書TOP 250排行榜中225本符合要求的書的信息[17](檢索日期:2017年11月9日)。依據(jù)對(duì)書目信息的基本要求,有關(guān)書目外部形式特征的信息,本文采集的書目外部形式特征數(shù)據(jù)為書名、作者、評(píng)分信息(評(píng)分與評(píng)分人數(shù))、出版時(shí)間;書目主題內(nèi)容特征的信息為(前十個(gè))熱門標(biāo)簽、“有用”數(shù)量前三的短評(píng)內(nèi)容、“贊”數(shù)量前三的長評(píng)內(nèi)容。

        3.2 數(shù)據(jù)處理

        (1)書目特征向量。書目特征向量分為兩個(gè)維度,即書目外部形式特征和書目主題內(nèi)容特征。由于對(duì)于學(xué)習(xí)型用戶來說,用戶的興趣并不是一個(gè)重要的維度,因此并沒有納入書目特征的考慮。

        書目外部形式特征向量如下

        BIi=

        其中,“BIi”表示編號(hào)為i的書目的信息特征向量,“aID”表示書目作者編號(hào),“period”表示書目出版年代,“assessment”表示書目的評(píng)價(jià)情況(綜合了豆瓣評(píng)分情況、評(píng)價(jià)人數(shù)、評(píng)論數(shù)量),“origin”表示書目來源(國內(nèi)/國外)。

        書目主題內(nèi)容特征向量如下

        BTi=

        其中,“BTi”表示編號(hào)為i的書目的主題特征向量,“type1”表示書目體裁,“type2”表示書目題材,“theme1”表示書目主題1,“theme2”表示書目主題2。相比短評(píng)和長評(píng)的內(nèi)容,熱門標(biāo)簽的適用性更高,因?yàn)闊衢T標(biāo)簽無需預(yù)先處理,而且熱門標(biāo)簽的參評(píng)人數(shù)是書評(píng)內(nèi)容的5-10倍左右,甚至更多。

        確定書目主題內(nèi)容特征值的步驟如下。① 篩選熱門標(biāo)簽。將每本書的10個(gè)熱門標(biāo)簽按如下原則篩選,刪除長句子;刪除作者名與作者的國籍信息;刪除重復(fù)信息,如“明史”“明朝”“歷史”同為某書熱門標(biāo)簽,則刪除“明史”標(biāo)簽;刪除區(qū)分度幾乎為零的標(biāo)簽,如“文學(xué)”;合并同義詞、近義詞,如“愛情”與“言情”,“大學(xué)”與“校園”;合并學(xué)術(shù)領(lǐng)域標(biāo)簽,如“心理學(xué)”與“心理”,“政治學(xué)”與“政治”;拆分組合詞,如“古典名著”標(biāo)簽拆分為“古典”和“名著”兩個(gè)標(biāo)簽。② 將標(biāo)簽填入相應(yīng)主題特征維度。將所有剩余熱門標(biāo)簽根據(jù)屬性分別填入主題特征的題材、體裁、主題維度后,所有書目題材和體裁都已填充完畢,部分書目的書目主題部分沒有值或只有一個(gè)值。③ 提取主題詞。利用中文分詞軟件對(duì)書目的長評(píng)和短評(píng)內(nèi)容進(jìn)行分詞并歸納共現(xiàn)頻數(shù),去掉停用詞和無意義詞。[18]按照頻數(shù)大小選擇詞語作為書目主題內(nèi)容特征值填入書目主題內(nèi)容特征向量。最終形成的書目主題內(nèi)容特征向量(部分)見表1。

        表1 書目主題內(nèi)容特征向量(部分)

        (2)建立共現(xiàn)矩陣。根據(jù)書目外部形式特征向量和書目主題內(nèi)容特征向量分別建立關(guān)鍵詞共現(xiàn)矩陣。首先,統(tǒng)計(jì)α個(gè)特征向量中出現(xiàn)的β個(gè)詞,以這β個(gè)詞構(gòu)建β×β的矩陣,則矩陣中第i行、第j列的值就是第i個(gè)詞和第j個(gè)詞一起出現(xiàn)在特征向量中的頻次。這一處理過程在MATLAB中的代碼(以IFM的實(shí)現(xiàn)代碼為例)為

        A=arraySet;%圖書信息特征向量集

        B=zeros(173);%圖書信息特征詞共有365個(gè)

        for i=1:225%書的數(shù)量225

        for j=1:5

        for m=j:5

        %雙向頻數(shù)矩陣

        B(A(i,j),A(i,m))=B(A(i,j),A(i,m))+1;

        B(A(i,m),A(i,j))=B(A(i,m),A(i,j))+1;

        end

        end

        end

        for i=1:225%矩陣同行同列除以2

        B(i,i)=B(i,i)/2;

        end

        IFM=B;%B矩陣即書目信息關(guān)鍵詞共現(xiàn)矩陣

        最終形成的共現(xiàn)矩陣IFM如表2所示。

        表2 書目信息關(guān)鍵詞共現(xiàn)矩陣(部分)

        書目主題關(guān)鍵詞共現(xiàn)矩陣TFM的構(gòu)建代碼類似,最終形成了422×422的雙向矩陣。

        (3)建立歐氏距離矩陣。這一步需要根據(jù)IFM、TFM和歐氏距離公式來構(gòu)建書目信息距離矩陣IDM和書目主題距離矩陣TDM(見公式(1))。

        D(i,j)表示書目編號(hào)為i、j的兩本書之間的歐氏距離,其中n為歐式空間維數(shù),在IDM中n=196,在TDM中n=365,a_ik表示第i個(gè)點(diǎn)的第k維坐標(biāo)值,a_jk表示第j個(gè)點(diǎn)的第k維坐標(biāo)值。這個(gè)處理過程在MATLAB中的代碼(以書目信息歐氏距離為例)為

        A=sum(IFM.*IFM,2);%IFM 為關(guān)鍵詞共現(xiàn)矩陣

        B=IFM*IFM';

        D=bsxfun(@plus,A,A')-2*B;

        D=sqrt(D);

        IDM=D;%D矩陣即為書目信息歐式距離矩陣

        最終形成的書目信息歐氏距離矩陣IDM見表3。

        表3 書目信息歐氏距離矩陣(部分)

        書目主題歐氏距離矩陣TDM與IDM的構(gòu)建代碼類似,最終IDM與TDM的矩陣規(guī)格不變。

        (4)建立書目相似度矩陣。得到了距離矩陣之后,需要通過特定的方面將其標(biāo)準(zhǔn)化,使得矩陣數(shù)據(jù)被控制在[0,1]之間,建立相似度矩陣(見公式(2))。

        其中c是一個(gè)常數(shù),本文將c取值為1.4。D(i,j)表示書目編號(hào)為i、j的兩本書之間的歐氏距離。這個(gè)過程在MATLAB中的代碼為

        A=zeros(225);%書目距離矩陣提取為 225×225矩陣

        A=reshape(X,1,50625);

        B=reshape(IDM,1,50625);

        for i=1:50625

        A(i)=1/1.4^B(i);

        end

        ISM=reshape(A,225,225);%ISM 即為書目信息相似度矩陣。

        書目主題相似度矩陣TSM與ISM的構(gòu)建代碼類似,最終ISM與TSM都為225×225矩陣。

        下一步將對(duì)ISM與TSM進(jìn)行加權(quán)處理,形成書目相似度矩陣SM??紤]到學(xué)習(xí)型用戶的需求,書目主題的重要性將大于書目信息,但是書目信息中的作者、年代維度又是書目檢索與推薦的必備考慮因素,故將書目主題的權(quán)重定為w_1=0.6,將書目信息的權(quán)重定為w_2=0.4。對(duì)其進(jìn)行加權(quán)處理所形成的書目相似度矩陣SM如表4所示。

        (5)數(shù)據(jù)二值化。這一步的基本方法是選擇一個(gè)合適的閾值對(duì)標(biāo)準(zhǔn)化后的相似度矩陣進(jìn)行二值化,形成二值化判斷矩陣,將其作為書目是否相似的判斷標(biāo)準(zhǔn)。①二值化后獨(dú)立節(jié)點(diǎn)——判斷結(jié)果為“不與任何一本書相似”的書目占比15%左右。這是基于允許書目具有鮮明的特色而從信息和主題角度難以找到相似書目的目的。② 二值化后每本書的相似書目數(shù)量的均值、標(biāo)準(zhǔn)差、中間數(shù)合理。本文認(rèn)為,均值在5-15、標(biāo)準(zhǔn)差在15以下、中位數(shù)在5-10是一個(gè)好的指標(biāo)。這里對(duì)標(biāo)準(zhǔn)差的要求比較低,這是基于允許某些書的相似書目很多,也允許某些書幾乎沒有相似書目的目的,是根據(jù)書目本身屬性來制定的,因此在選擇閾值的時(shí)候,以上指標(biāo)中的均值和中間值將是重點(diǎn)考慮的因素。③ 推廣要求:數(shù)據(jù)量的因素,實(shí)證書目數(shù)量是225本,當(dāng)實(shí)驗(yàn)數(shù)據(jù)增多甚至是應(yīng)用于專業(yè)的數(shù)據(jù)庫時(shí),閾值應(yīng)做出相應(yīng)地改變;標(biāo)準(zhǔn)化公式的因素,在公式(2)中,常數(shù)c的取值如果改變,閾值也應(yīng)該做出相應(yīng)地改變。

        表4 書目相似度矩陣(部分)

        本文對(duì)不同閾值的二值化相似書目數(shù)量結(jié)果進(jìn)行分析和比較,得到了分析結(jié)果如表5所示。

        表5 二值化閾值取值結(jié)果比較

        顯然,0.44-0.46的取值結(jié)果是本文所期待的。本文最終確定了δ=0.45,應(yīng)用這個(gè)閾值所得到的二值化的結(jié)果均值為10.9289,標(biāo)準(zhǔn)差為10.6038,中間數(shù)為6。應(yīng)用δ閾值所得到的二值化相似判斷矩陣SJM如表6所示。

        3.3 書目二次歸類

        數(shù)據(jù)分析部分對(duì)書目相似判斷矩陣SJM應(yīng)用社會(huì)網(wǎng)絡(luò)分析方法。首先,進(jìn)行凝聚子群分析,得出書目初始?xì)w類結(jié)果;然后,經(jīng)過中心度分析對(duì)每個(gè)子群中的書目依據(jù)號(hào)召力進(jìn)行排序;接著通過核心-邊緣分析對(duì)書目進(jìn)行分層,識(shí)別出書目中一些特殊的沉默節(jié)點(diǎn),找到邊緣書目;最后,通過中間中心性分析識(shí)別書目中控制能力較強(qiáng)的書目,最終得到書目二次歸類結(jié)果。

        表6 二值化相似判斷矩陣SJM(部分)(δ=0.45)

        (1)凝聚子群分析。本文利用UCINET工具進(jìn)行凝聚子群分析(CONCOR方法),并將分析結(jié)果作為書目二次歸類的初步結(jié)果。書目二次歸類(部分)結(jié)果見圖2。

        圖2 書目二次歸類凝聚子群分析結(jié)果圖示(部分)

        從最終的分類結(jié)果來看,225本書的一級(jí)分類有四類,二級(jí)分類有八類。數(shù)量最多的分類有53本書,最少的有9本。在本實(shí)驗(yàn)中,類別號(hào)從上到下分為①至⑧組,其中類別④為孤立節(jié)點(diǎn)的集合。

        (2)點(diǎn)度中心度分析。在得到書目二次歸類初步結(jié)果后,需要分辨每個(gè)類別中“號(hào)召力”更強(qiáng)的書目,即更適合推薦的書目。考慮到學(xué)習(xí)型用戶的用書特點(diǎn),對(duì)這些書目的基本要求是:① 該書目與本類別的書目相似度較高,聯(lián)系密切;② 該書目與其他類別書目的交流相對(duì)方便。

        要篩選達(dá)到要求①的書目可以使用社會(huì)網(wǎng)絡(luò)分析方法中的點(diǎn)度中心度分析。點(diǎn)度中心度反映了與某節(jié)點(diǎn)直接相關(guān)(相連)的節(jié)點(diǎn)數(shù),[16]可以篩選出某群體的中心節(jié)點(diǎn),而中心節(jié)點(diǎn)一定程度上可以說明它們與類別內(nèi)其他書目普遍相似度較高。要篩選達(dá)到要求②的書目可以使用社會(huì)網(wǎng)絡(luò)分析方法中的接近中心度分析。接近中心度反映了某節(jié)點(diǎn)與所有節(jié)點(diǎn)的距離之和,[16]一定程度上可以認(rèn)為該節(jié)點(diǎn)與其他類別中的點(diǎn)交流的方便程度。

        因此,對(duì)每個(gè)類別的書目“號(hào)召力”進(jìn)行排序時(shí),以節(jié)點(diǎn)的點(diǎn)度中心度與接近中心度加權(quán)求和的結(jié)果為標(biāo)準(zhǔn),權(quán)值為0.5∶0.5(因?yàn)橐螈俸廷趯?duì)于學(xué)習(xí)型用戶來說都是非常重要的)。表7是利用UCINET對(duì)數(shù)據(jù)進(jìn)行點(diǎn)度中心度、接近中心度分析的結(jié)果。

        表7 點(diǎn)度、接近中心度分析(部分)結(jié)果

        由于點(diǎn)度和接近中心度的計(jì)算方式不同,在加權(quán)時(shí)需要先對(duì)兩種中心度的值進(jìn)行標(biāo)準(zhǔn)化,將其都控制在 [0,1] 之間 (見公式 (3))。

        其中i為書目編號(hào),TCi表示“號(hào)召力”,Di為其點(diǎn)度中心度,Dmax為所有數(shù)據(jù)樣本中點(diǎn)度中心度最大值,在本文中Dmax=16.518,Ci為接近中心度,Cmax為數(shù)據(jù)樣本中接近中心度最大值,在本文中Cmax=1.64。書目“號(hào)召力”的計(jì)算結(jié)果如表8所示。

        表8 節(jié)點(diǎn)綜合“號(hào)召力”(部分)計(jì)算結(jié)果

        在計(jì)算出所有書目在整體書目中綜合“號(hào)召力”的量化數(shù)值后,便得到了書目二次歸類結(jié)果(見表9)。

        以上歸類結(jié)果將書目共分為8類,其中類別④中全部為孤立節(jié)點(diǎn),不與其他任何節(jié)點(diǎn)有明顯聯(lián)系。以“號(hào)召力”為依據(jù)將歸類后的書目排序,若將該排序結(jié)果作為書目推薦列表,則用戶對(duì)前列書目的點(diǎn)擊將有效擴(kuò)大檢索維度和提高查全率。

        (3)核心-邊緣分析。利用UCINET的核心-邊緣分析,可以找到數(shù)據(jù)集中的沉默節(jié)點(diǎn),這些節(jié)點(diǎn)所表示的書目與其他書目的相似度普遍較低,這恰好可以說明這樣的書目主題鮮明、扣題緊密。根據(jù)分析結(jié)果來看,可以找到如表10所示的邊緣書目。

        表9 書目二次歸類(部分)結(jié)果(以類別⑧為例)

        表10 邊緣書目列表

        在進(jìn)行推薦時(shí),與其他書目相似度普遍較低的書目通常不會(huì)被提起,但是學(xué)習(xí)型用戶并不需要大量相似的書目,相反,主題契合度是一個(gè)很重要的條件。因此,這些書目不應(yīng)該被忽略。

        (4)中間中心性可視化分析。前面的研究使用點(diǎn)度中心度分析和接近中心度分析量化了書目的“號(hào)召力”。然而數(shù)據(jù)集中書目的位置、地位難以通過絕對(duì)的數(shù)字來表示。故本文利用UCINET的Visualize功能對(duì)書目二次歸類結(jié)果進(jìn)行可視化,并且以中間中心性為依據(jù),區(qū)分書目網(wǎng)絡(luò)中處于網(wǎng)絡(luò)中心或邊緣的書目。中間中心度可以體現(xiàn)節(jié)點(diǎn)對(duì)其他節(jié)點(diǎn)的控制程度,[19]可以通過可視化結(jié)果從整體上了解數(shù)據(jù)集中的聚類情況和不同聚類之間的聯(lián)系。分析結(jié)果見圖3(為了提高可視化網(wǎng)絡(luò)的可讀性,這里用書目編號(hào)代替了書目名)。

        圖3 中間中心性可視化網(wǎng)絡(luò)

        由圖3可知,除了孤立節(jié)點(diǎn)外,整體網(wǎng)絡(luò)可以分為四個(gè)區(qū)域,其中處于中心的書目有B7、B8、B104、B224等。在書目信息和書目主題的雙重考量下,這些書目仍然地處中心區(qū)域,有兩個(gè)可能:① 它們具有當(dāng)代書目出版物的主流特征;② 它們的主題太過普通,不具特殊性。另外,除了孤立節(jié)點(diǎn),存在一個(gè)區(qū)域(圖示右下角)的書目與其他區(qū)域完全沒有聯(lián)系,在書目節(jié)點(diǎn)的條件下,如學(xué)科性質(zhì)、體裁完全不同則有可能出現(xiàn)這種結(jié)果。

        對(duì)于沒有檢索目的(即對(duì)書目沒有特征要求)的用戶來說,這些處于網(wǎng)絡(luò)中心的書目節(jié)點(diǎn)可以幫助他們更快地確定一個(gè)檢索方向。除此之外,相比從網(wǎng)絡(luò)邊緣出發(fā),從網(wǎng)絡(luò)中心出發(fā)找到一本用戶滿意的書所需要的檢索次數(shù)和時(shí)間更加理想。

        4 結(jié)語

        本文利用豆瓣讀書的225本書的信息構(gòu)建了書目特征向量并建立關(guān)鍵詞共現(xiàn)矩陣,通過標(biāo)準(zhǔn)化過程形成書目相似度矩陣、二值化過程形成書目相似判斷矩陣,并通過社會(huì)網(wǎng)絡(luò)分析方法實(shí)現(xiàn)對(duì)書目的二次歸類。本文研究成果的意義在于,可以將圖書分類結(jié)果運(yùn)用到書目檢索機(jī)制中,為擴(kuò)展檢索提供建議;也可以運(yùn)用到一個(gè)針對(duì)學(xué)習(xí)型用戶的圖書推薦系統(tǒng)中,結(jié)合推薦機(jī)制構(gòu)成一個(gè)不依賴于用戶日志和檢索歷史的書目推薦機(jī)制,同時(shí)在推薦機(jī)制介入中心性分析結(jié)果的考察和計(jì)算,進(jìn)而從書目覆蓋率、預(yù)測性等方面優(yōu)化學(xué)習(xí)型用戶的使用體驗(yàn)。本文的局限性在于書目特征向量的維度不算非常完備,在未來的研究中需要進(jìn)一步豐富書目特征向量的維度。

        猜你喜歡
        歸類書目特征向量
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
        推薦書目《初春之城》
        都市人(2022年3期)2022-04-27 00:44:57
        克羅內(nèi)克積的特征向量
        電表“對(duì)”與“錯(cuò)”歸類巧掌握
        Happiness through honorable actions
        一類特殊矩陣特征向量的求法
        EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
        分式方程應(yīng)用題歸類解說
        本刊郵購書目
        《全國新書目》2009年1月薦書榜
        全國新書目(2009年1期)2009-04-13 06:58:24
        日本一区二区三区女优在线| 女女女女bbbbbb毛片在线| 射精情感曰妓女色视频| 高清国产亚洲va精品| 国产在线a免费观看不卡| 国语自产视频在线| 亚洲成a v人片在线观看| 国产香蕉尹人综合在线观| 97中文字幕一区二区| 美女被男人插得高潮的网站| 一进一出一爽又粗又大| 欧美一片二片午夜福利在线快 | 亚洲三级香港三级久久| 亚洲中文字幕久久精品蜜桃| 国产成人一区二区三区在线观看| 青草蜜桃视频在线观看| 草青青视频手机免费观看| 深夜爽爽动态图无遮无挡| 欧美熟妇色ⅹxxx欧美妇| 亚洲国产欧美久久香综合| 手机在线免费观看的av| 中文字幕日韩欧美一区二区三区| 国产乱理伦片在线观看| 亚洲无码观看a| 国产综合开心激情五月| 又大又紧又粉嫩18p少妇| 丁香五月亚洲综合在线| 大香伊蕉国产av| 国产九九在线观看播放| 国产精品女同av在线观看| 男人和女人做爽爽免费视频| 精品少妇一区二区三区视频| 久久精品国产一区二区涩涩| 精品一区中文字幕在线观看 | 青春草免费在线观看视频| 国产乱妇乱子在线播视频播放网站| 日韩女人毛片在线播放| 精品人妻av中文字幕乱| 日韩精品免费一区二区三区观看| 亚洲午夜福利在线视频| 无码精品色午夜|