亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高校圖書館用戶群體的閱讀偏好
        ——對“熱門圖書”數(shù)據(jù)的考察*

        2020-05-12 07:51:18章成志周清清
        圖書館論壇 2020年5期
        關鍵詞:高頻詞熱門題名

        張 恒,章成志,周清清

        0 引言

        1970 年代中期誕生的OPAC 系統(tǒng)(Online Public Access Catalog,又稱“聯(lián)機公共檢索目錄”)[1]在日常運行中,積累了用戶大量的圖書檢索、瀏覽等信息,圖書館分析這些數(shù)據(jù),生成了一些應用。比如,OPAC系統(tǒng)按照《中國圖書館分類法》(以下簡稱《中圖法》)劃分的22個類別,基于圖書瀏覽次數(shù)生成“熱門圖書”排行榜推薦給用戶,用戶對OPAC系統(tǒng)中圖書詳情頁面的瀏覽,表明用戶對該書感興趣[2]。因此,基于所有用戶瀏覽次數(shù)生成的“熱門圖書”在一定程度上代表整個用戶群體的閱讀偏好。由于熱門圖書只是每所高校館根據(jù)各自的OPAC數(shù)據(jù)統(tǒng)計生成的,存在局限性,所以本文采集多所高校館的熱門圖書數(shù)據(jù),生成每所高校的用戶群體閱讀偏好向量,然后對這些高校進行聚類分析。這項工作將聚類分析應用于用戶群體閱讀偏好研究,擴展了該類研究的思路;幫助高校館把握用戶群體的閱讀偏好,通過聚類發(fā)現(xiàn)具有相似群體閱讀偏好的高校;聚類結果可對資源建設提供幫助。

        1 相關研究概述

        1.1 OPAC數(shù)據(jù)挖掘

        用戶在OPAC系統(tǒng)中進行圖書檢索,系統(tǒng)以日志形式保存相關信息,挖掘檢索日志有助于理解用戶行為與興趣,有針對性地優(yōu)化系統(tǒng),還可以為圖書館管理決策提供參考。對OPAC檢索日志挖掘一般遵循一定的框架,如將檢索日志挖掘分為數(shù)據(jù)采集、數(shù)據(jù)處理和數(shù)據(jù)分析3個階段[3]。姜婷婷等搜集武漢大學圖書館18天的檢索日志,遵循日志挖掘框架,從關鍵詞、查詢式、搜索會話3個層次分析用戶行為[4]。侯志江等基于OPAC檢索日志挖掘用戶需求,從短缺圖書和館藏覆蓋率等角度指導圖書采購[2]。劉高軍等基于北方工業(yè)大學圖書館10年的借閱記錄,首先使用基于用戶的協(xié)同過濾算法生成粗召回的推薦結果,然后針對具體用戶提取相關特征,構建用戶偏好模型,對粗召回結果集進行過濾,得到更精準的推薦結果[5]。OPAC 系統(tǒng)通常包含簡單的數(shù)據(jù)統(tǒng)計與分析功能,可以對系統(tǒng)中積累的數(shù)據(jù)進行初步挖掘,并且將結果在系統(tǒng)中展示,為用戶選擇圖書提供幫助。熱門借閱、熱門評分、熱門收藏、熱門圖書、借閱關系圖等都是在此基礎之上進行的。陸艷以河海大學2003-2013年借閱量排名前100 圖書數(shù)據(jù)為主,結合其他院校信息,分析高校館讀者閱讀特征[6]。劉麗帆等基于89 所高校館TOP 圖書數(shù)據(jù),參考全評價理論,結合層次分析法和決策樹模型,預測高校館用戶閱讀趨勢[7]。

        1.2 用戶閱讀偏好

        用戶會由于個人喜好、專業(yè)背景、研究領域等偏向于閱讀某一些書,稱為用戶閱讀偏好。閱讀偏好是一種心理特征,也是一種行為傾向[8]。OPAC系統(tǒng)提供的熱門圖書排行榜依據(jù)所有用戶的瀏覽次數(shù)生成,可以代表高校用戶群體的閱讀偏好。相關研究包括:門淑華等總結大學生閱讀的多樣性、廣泛性、時代性、休閑型和實用性特點[9];于向前等發(fā)現(xiàn)大學生閱讀出現(xiàn)盲目跟從、追求功利實用和偏好網(wǎng)絡閱讀現(xiàn)象,應通過樹立高尚閱讀動機、舉辦讀書活動等進行引導[10];盧章平等將生物反饋技術引入就不同題材書籍對閱讀偏好影響的探索,發(fā)現(xiàn)大學生心理因素與書籍內(nèi)在元素都會影響閱讀偏好[11]。

        整體而言,OPAC數(shù)據(jù)研究多使用一所或幾所高校數(shù)據(jù)來分析用戶行為,且大多針對單個用戶構建圖書推薦模型。本文使用多所高校OPAC數(shù)據(jù),從用戶群體閱讀偏好角度進行研究。

        2 研究設計

        2.1 研究框架

        本文的研究框架如圖1所示。(1)采集103所中國高校館網(wǎng)站的“熱門圖書”排行榜數(shù)據(jù),以“題名+責任者”對圖書去重。(2)使用DF(Document Frequency)[12]特征選擇法過濾圖書,選擇部分圖書來反映高校用戶的群體閱讀偏好。(3)使用TF-IDF(Term Frequency-Inverse Document Frequency)[13]方法來計算圖書在各高校中的權重,生成高校用戶群體的閱讀偏好向量。(4)使用AP聚類[14]方法對這些高校進行聚類,調(diào)整參數(shù)得到最優(yōu)聚類結果。(5)對聚類結果中不同類簇高校的“熱門圖書”就類別分布、題名高頻詞、圖書高頻學科主題詞進行分析。

        圖1 高校館用戶群體閱讀偏好研究框架

        圖2 數(shù)據(jù)采集流程

        2.2 研究問題

        “熱門圖書”排行榜是高校館OPAC 系統(tǒng)根據(jù)用戶瀏覽次數(shù)生成。出于興趣用戶才會在OPAC系統(tǒng)中檢索相關圖書,進而對檢索結果中的圖書詳情進行瀏覽。高校館中被大量用戶瀏覽過的“熱門圖書”可以在一定程度上反映該校的用戶群體閱讀偏好。那么,基于用戶群體閱讀偏好是否可以將高校聚成若干個類簇?因此,本文主要研究兩個問題:如何基于用戶群體閱讀偏好對高校進行聚類?不同類簇的高校用戶群體閱讀偏好有何不同?

        2.3 關鍵技術描述

        2.3.1 數(shù)據(jù)采集

        江蘇匯文軟件有限公司(以下簡稱“匯文”)“Libsys圖書館管理系統(tǒng)”在國內(nèi)高校館中應用較為廣泛,按照圖2流程,本文設計爬蟲程序自動采集高校館“熱門圖書”排行榜數(shù)據(jù)。

        首先,人工從匯文網(wǎng)站的“用戶名單”中篩選一批可訪問的高校館網(wǎng)站鏈接。匯文系統(tǒng)按照《中圖法》22個圖書大類,為每個大類分別生成基于瀏覽次數(shù)的“熱門圖書”排行榜,每個榜單一般為100 種圖書(少數(shù)情況下會低于100 種)。(1)本文采集各個類別的“熱門圖書”排行榜網(wǎng)頁,(2)提取出每一種“熱門圖書”的題名、責任者、瀏覽次數(shù)等信息。最終采集到103所高校共225,734 條“熱門圖書”數(shù)據(jù),采集時間為2018年10-11月。部分數(shù)據(jù)見表1。

        表1 部分“熱門圖書”信息

        圖3 圖書瀏覽熱度分布

        研究榜單數(shù)據(jù)一般要估計數(shù)據(jù)分布,確保榜單中的數(shù)據(jù)具有足夠的代表性。本文以高校館熱門圖書排行榜中的圖書及其瀏覽次數(shù)來刻畫用戶群體的閱讀偏好,進行聚類分析,因此,要驗證排行榜中的圖書是否能代表絕大部分用戶的閱讀偏好。本文定義瀏覽熱度指標來反映圖書在所有高校的受歡迎程度,圖書的瀏覽熱度通過如下方式計算:(1)對每所高校的熱門圖書瀏覽次數(shù)作歸一化處理,以圖書瀏覽次數(shù)除以該高校22個排行榜中所有圖書的瀏覽次數(shù)之和;(2)取1本書在所有高校中瀏覽次數(shù)經(jīng)過歸一化之后的值,以這些值的平均值作為該書的瀏覽熱度。瀏覽熱度最高的前1萬本書的瀏覽熱度取對數(shù)后的分布情況見圖3。這1萬本書的瀏覽熱度取對數(shù)后服從冪率分布,少許部分圖書獲得了絕大部分熱度。從排行榜中提取最熱門的前1萬本書尚且如此,可見排行榜之外圖書僅能反映極少數(shù)人的閱讀偏好。因此,熱門圖書排行榜中的圖書能代表絕大部分高校用戶的閱讀偏好。

        2.3.2 圖書去重

        本文以部分熱門圖書作為反映高校用戶群體閱讀偏好的特征,對103所高校進行聚類分析。首先要對不同圖書進行區(qū)分,本文使用“題名+責任者”作為圖書的唯一標識。通過觀察采集到的熱門圖書數(shù)據(jù)發(fā)現(xiàn):同一種圖書在不同圖書館網(wǎng)站上的“題名”信息存在一些差異,如“毛澤東傳:中文版”“毛澤東傳:[中文版]”“毛澤東傳-中文版”“毛澤東傳.中文版”。因此,本文通過計算機程序對“題名”做如下處理:一是去除題名中的標點符號(“?”“:”“[”“]”等)和空格;二是將所有英文字母轉化為小寫。前面提到的4個“題名”樣例都將變換為“毛澤東傳中文版”。對“責任者”數(shù)據(jù)同樣也做如上處理。

        2.3.3 特征選擇

        以“題名+責任者”對圖書進行去重后,需要再從中選擇具有代表性的圖書作為特征。聚類分析常用的特征選擇方法有卡方檢驗(CHI)[15]、信息增益(Information Gain,IG)[16]、文檔頻率(Document Frequency,DF)[12]等。本研究中編寫DF算法程序進行特征選擇,DF值是針對文檔集中的詞語計算的,指文檔集中包含某個詞語的文檔數(shù)量與文檔總數(shù)量的比值。本文計算收藏某本圖書的高校數(shù)量與高校總數(shù)量的比值來進行特征選擇,由于高校的總數(shù)量一定,只需要比較同時收藏某本圖書的高校數(shù)量(School Number,以下簡稱SN)即可??紤]到22 個類別各有一個“熱門圖書”排行榜,且觀察發(fā)現(xiàn)不同高校的圖書瀏覽次數(shù)在類別上的分布存在差異。筆者認為特征選擇時應考慮類別因素,因此,在每個類別中,都利用DF方法提取一次圖書特征,最后將22個類別各自提取的圖書特征綜合起來。

        使用DF方法進行特征選擇時,一般選取DF值適中的特征,具體做法是設定閾值過濾DF值過高和過低的特征。因為DF值過高表明該特征幾乎出現(xiàn)在所有的樣本中,不能夠反映具體樣本的特點。DF值越低,表明特征出現(xiàn)在越少的樣本中,這樣的特征更能夠反映具體樣本的特點,但DF值過低的特征數(shù)量龐大,需要進行過濾以控制最終選出的特征數(shù)量,從而避免“維數(shù)災難”。本文提取圖書作為特征時,首先在整體上(不分圖書類別)對同時被N所高校收藏的圖書數(shù)量分布情況進行分析。如圖4所示,橫軸表示收藏同一本圖書的高校數(shù)量(即SN值),縱軸表示同時被N所高校收藏的圖書數(shù)量,可見大部分圖書只被少數(shù)高校館收藏。

        圖4 同時被N所高校收藏的圖書數(shù)量分布

        為提取出能夠反映不同高校閱讀特點的圖書并且避免“維數(shù)災難”,需要過濾掉SN值過高和過低的圖書。那么,如何確定過濾的閾值?為此,本文統(tǒng)計了低SN值對應的圖書數(shù)量的占比。如表2所示,SN值小于4的圖書數(shù)量占了圖書總數(shù)量的94.82%(即:接近95%,在統(tǒng)計上具有足夠的代表性),因此以4作為SN值的下限。圖書被收藏的高校數(shù)量最大值(SN_max)為91,本文取SN_max的1/2(取整為46)作為上限,而SN值大于46的圖書只占圖書總數(shù)量0.05%。所以提取每個類別中的圖書特征的做法如下:在每個類別中統(tǒng)計圖書被收藏的高校數(shù)量,剔除SN小于4的圖書,同時統(tǒng)計各類中SN的最大值,以最大值的1/2作為上限,剔除SN超出上限的圖書。各類別提取到的特征數(shù)量如圖5所示,22個類別的特征數(shù)量總和為6934。

        表2 同時被較低數(shù)量高校收藏的圖書數(shù)量占比

        圖5 圖書類別及其特征數(shù)量

        2.3.4 特征權重計算

        在確定作為特征的圖書集合后,基于TFIDF算法[13]原理,按照下面公式計算每所高校的特征權重:

        TF-IDF的思想是用詞頻乘以詞語的逆文檔頻率作為特征詞的權重。將所有高校及其熱門圖書當作文檔集,每一個高校即為一篇文檔,高校的熱門圖書相當于文檔中的詞語。那么一所高校中,圖書TF值(詞頻)即為圖書瀏覽次數(shù)除以該高校的圖書總瀏覽次數(shù),圖書的TF值體現(xiàn)了圖書在具體高校中的受歡迎程度,TF值越高,說明該圖書相對于其他圖書更受歡迎。圖書IDF值(逆文檔頻率)即為高??倲?shù)除以收藏該圖書的高校數(shù)量,圖書的IDF值體現(xiàn)了圖書在所有高校中的重要程度,IDF值越高,說明圖書出現(xiàn)在較少的高校中,更能夠體現(xiàn)出具體高校的閱讀特點。因此,本文以圖書的TF值乘以IDF值作為圖書的權重,綜合考慮圖書在具體高校中的受歡迎程度以及圖書在所有高校中的重要程度。

        2.3.5 AP聚類

        AP聚類即為近鄰傳播聚類(Affinity Propagation)法[14]。AP 聚類應用了圖論理念,將每個聚類樣本當作圖中一個節(jié)點,通過圖中節(jié)點之間的信息傳播來尋找聚類集合[17]。AP聚類的輸入為相似度矩陣,首先需要計算樣本之間的相似度,得到N*N 的相似度矩陣S(N 即樣本個數(shù))。本文計算高校之間的余弦相似度來生成相似度矩陣。假設兩所高校的閱讀偏好向量分別為A和B,那么它們的余弦相似度計算公式如下:

        AP聚類過程中,進行兩種信息傳遞。吸引信息(Responsibility)矩陣R:r(i,k)描述了數(shù)據(jù)對象k適合作為數(shù)據(jù)對象i的聚類中心的程度;歸屬信息(Availability)矩陣A:a(i,k)描述了數(shù)據(jù)對象i選擇數(shù)據(jù)對象k 作為其聚類中心的適合程度[18]。Preference是AP聚類中一個重要的參數(shù),即相似度矩陣中的S(i,i),是指點i 作為聚類中心的參考度。查閱相關文獻發(fā)現(xiàn),Preference的取值一般有如下幾種:相似度矩陣中最小值、平均值、平均值的1/2或者2倍、中位數(shù)、中位數(shù)的1/2 或者2 倍,或者根據(jù)實際情況再做相應調(diào)整。一般來說,Preference 的取值越小,聚類的個數(shù)越少。

        為得到較好的聚類結果,對Preference 參數(shù)進行調(diào)整,得到多組聚類結果。然后利用誤方差和(Sum of Squares for Error,簡稱 SSE)[19]對不同Preference 參數(shù)下的聚類效果進行評估,SSE值越小,說明聚類效果越好。SSE計算公式如下:

        其中,k表示聚類結果的類簇個數(shù),Ci指類簇i的質心,p表示類簇中的點。

        3 實驗結果與分析

        3.1 AP聚類結果

        為識別用戶群體閱讀偏好,使用AP算法對103 所高校進行聚類。調(diào)試AP 聚類中的參考度(Preference參數(shù)),當設置為前面提到的相似度矩陣的最小值、平均值、中值等數(shù)值時,得到的類簇個數(shù)比較多,很可能會使得原本屬于同一類簇的高校被劃分到不同的類簇中。所以本文將參考度調(diào)得更小一些,設為負值。在-1~0之間每隔0.05 取一個值作為參考度,得到了多組不同的結果。不同參考度下,計算聚類結果的SSE值如圖6所示。根據(jù)SSE值越小聚類效果越好的原則,選擇參考度為-0.05時的聚類結果進行分析,這時103所高校聚成13 個類簇,詳細結果見表3。

        圖6 不同參考度下聚類結果的誤方差和

        表3 AP聚類結果

        表3中高校數(shù)量較少的類簇有3個:類簇1、2和13,這3個類簇的高校都不超過5所。一般來說,相似度越大的高校越容易聚在一起,同一類簇中的高?;旧隙紝儆趯Ψ较嗨贫茸罡叩膸姿咝?。計算每一所高校與其他所有高校的余弦相似度,并且按照相似度從大到小排序,部分結果見表4??梢园l(fā)現(xiàn)與類簇1、2和13中高校最相似的1~2 所高校,相似度相比于剩下的高校有較大的差距。然而,其他10個類簇中的高校,與之最相似的前幾所高校的相似度相差不大。在聚類時會優(yōu)先選擇相似度最大的高校聚在一起,如“三江學院”和“華北電力大學”會先聚在一起,而“西安工程大學”與“三江學院”的相似度只有0.1982,但與“東北農(nóng)業(yè)大學”的相似度為0.2389,“西安工程大學”會更傾向于與“東北農(nóng)業(yè)大學”聚在一起。因此,相似度最高的前1~2 所高校與剩下的高校相似度差距較大是導致類簇1、2和13中高校數(shù)量較少的主要原因。

        表4 部分高校的相似高校及相似度

        圖7 各類簇高權重圖書在不同類別上的分布

        類簇5中北京林業(yè)大學、南京農(nóng)業(yè)大學、南京林業(yè)大學等農(nóng)林類高校聚在一類。類簇6中包含南京理工大學、南京航空航天大學、哈爾濱工業(yè)大學、西北工業(yè)大學,這4所高校隸屬于工信部。類簇8中常州工程職業(yè)技術學院、揚州工業(yè)職業(yè)技術學院、泰州職業(yè)技術學院等職業(yè)技術學院聚在了一起。由此可見聚類效果是可靠的。

        3.2 不同類簇的高校用戶閱讀偏好

        3.2.1 圖書類別分布

        對于聚類得到的13個高校類簇,計算每個類簇中所有高校用戶偏好向量的平均向量,然后對平均向量中的圖書特征權重按照從大到小排序,得到每個類簇取權重最高的前100本圖書。本文統(tǒng)計這100本圖書在22個圖書類別中的分布情況,如圖7所示。各類簇中平均特征權重最高的前100種圖書中,文學類書占比最多,尤其是類簇4、9、12,比重均超過50%,表明文學類圖書幾乎在所有高校中都很受讀者歡迎。在工業(yè)技術類中,類簇2、6和7的圖書數(shù)量占比明顯高于其他類簇,反映出這兩個類簇和其他類簇高校用戶閱讀偏好的差異。觀察這3個類簇中的高校發(fā)現(xiàn),工科類高校較多。另外,類簇3 在政治、法律這一類別中的圖書占比遠高于其他類簇,類簇1和8在馬列主義、毛澤東思想、鄧小平理論類別中的圖書占比也遠高于其他類簇,表明這3個類簇的用戶閱讀偏好與其他類簇高校存在差異。

        3.2.2 題名高頻詞

        先獲取每個類簇中平均特征權重最高的前100本書,對題名進行分詞、去停用詞,然后統(tǒng)計詞頻。取各個類簇中前50的高頻詞分別生成詞云,見圖8。從13個類簇的圖書題名高頻詞詞云圖中可以看出,“中國”和“世界”這兩個詞幾乎在每個類簇中都屬于詞頻最高的幾個詞之中。13 個類簇平均特征權重最高的前100 本書中,包含“中國”一詞的圖書有33種,而且這33種圖書出現(xiàn)在不同類簇中的次數(shù)也較為平均,都不超過3次?!爸袊币辉~在圖書題名中均對圖書的主題起到限定作用,如“中國近代史”“中國人的精神”“中國人的氣質”。包含“世界”一詞的圖書有40種,有幾種圖書出現(xiàn)在不同類簇中次數(shù)較高,“平凡的世界”出現(xiàn)在7個類簇中,且“平凡的世界”這一書名還有幾種其他形式,如“平凡的世界第2版”“平凡的世界普及本”“平凡的世界第1部”,這3種圖書均出現(xiàn)在4個類簇中。因此,“世界”一詞占有很大權重的類簇中,“平凡”一詞往往也占有較大的權重,如類簇4、10、12 和13?!疤K菲的世界”也出現(xiàn)在5 個類簇中,包含“世界”一詞的圖書多是文學類圖書。

        圖8 各類簇圖書題名高頻詞

        類簇7和8中詞頻最高的3個詞均為“分析”“入門”“matlab”,大體看,這兩個類簇的高校用戶閱讀偏好十分相似。但是,除詞頻最高的3個詞,類簇8中的“龍族”“馬克思主義”“哲學”等詞與類簇7 區(qū)別明顯。類簇3 中的高校多為“音樂”“美術”類高校,一般來說,該類高校的主要學科為人文社科,而類簇3的高頻詞中包含“社會”“文化”等,這些詞語也代表了人文社科領域的主要研究話題。

        3.2.3 圖書高頻學科主題詞分析

        獲取每個類簇中平均特征權重最高的前100本書,然后從高校館網(wǎng)站上采集這些圖書的學科主題詞數(shù)據(jù),并統(tǒng)計學科主題詞的詞頻。取各個類簇中前50 的高頻詞分別生成詞云,如圖9 所示。與圖書題名高頻詞的情況類似,有幾個學科主題詞幾乎在每個類簇中頻次都很高,它們是“中國”“長篇小說”“當代”“現(xiàn)代”,包含這幾個學科主題詞的圖書多為小說或其他體裁的文學作品,說明文學類圖書最受歡迎,與圖書類別分布中的結論一致。有幾個類簇學科主題詞相比于其他類簇表現(xiàn)出一些差異,如類簇1中的“普及讀物”和“高等學?!钡念l次也比較高,但在其他類簇中的頻次卻相對較低。類簇6中“應用軟件”的頻次最高,甚至超過了“中國”,包含學科主題詞“應用軟件”的圖書多是各種應用軟件的使用介紹,類簇6中的學校以理工科高校,而這些學校的師生在學習和科研中經(jīng)常需要使用各類應用軟件。

        圖9 各類簇圖書高頻學科主題詞

        3.3 對圖書館工作的參考價值

        本研究對于圖書館工作有著重要的參考價值。圖書館在進行圖書推廣時,一般是選擇本校瀏覽次數(shù)較高的一些圖書或者網(wǎng)絡熱門圖書生成推薦列表,然后向讀者宣傳。本研究可以生成有別于傳統(tǒng)的圖書推薦列表為圖書推廣提供更多的選擇,本研究中獲取了不少高校的熱門圖書瀏覽數(shù)據(jù),可以統(tǒng)計圖書在這些高校中的瀏覽次數(shù),從而生成基于大量高校讀者閱讀偏好的圖書推薦列表。除此之外,對于具體高校,可以統(tǒng)計與其同類簇中高校的圖書瀏覽次數(shù),生成圖書推薦列表,同類簇中的高校用戶具有相似的閱讀偏好,這樣的推薦列表具有較為重要的價值。

        另外,高校圖書館進行資源建設工作時可以參考在大量高校中都熱門的圖書,如果本高校圖書館的館藏中還沒有其中的一些圖書,就可以及時采購。本研究生成了一些具有相似閱讀偏好的高校類簇,類簇中的高校需要采購圖書時,還可以參考同類簇中其他高校的熱門圖書。以南京理工大學為例,其圖書館網(wǎng)站上公布了熱門圖書排行榜,采集到前10本圖書的題名數(shù)據(jù)信息分別是:c語言程序設計實驗指導、蘇菲的世界、狼圖騰、平凡的世界1、追風箏的人、平凡的世界第2版、平凡的世界第一部、明朝那些事兒朱元璋卷、c++ primer plus第6版中文版、圍城第2版。與其同類簇的高校有13所,這13所高校最熱門的10本圖書的題名數(shù)據(jù)信息分別是:深度學習入門之pytorch、c++ primer第3版、消失的航班、平凡的世界、狼圖騰、strategic management、追風箏的人、高質量程序設計指南:c++/c語言第3版、挪威的森林、外國經(jīng)濟與管理??梢钥吹剑惔馗咝5臒衢T圖書的題名數(shù)據(jù)信息與南京理工大學有所不同,在擴充館藏資源時就可以考慮這些不同的圖書。

        4 總結與展望

        本文基于用戶群體的閱讀偏好,對中國103所高校進行聚類分析。AP聚類結果顯示這些高校被聚成了13個類簇,進而對各類簇中的高平均特征權重的圖書類別分布、圖書題名高頻詞以及圖書高頻學科主題詞進行了分析,發(fā)現(xiàn)這些類簇的圖書類別分布大體上比較相似,文學類圖書在各類中均占了較大的比重,但在工業(yè)技術等幾個類別的圖書占比上,有些類簇與其他類簇存在非常明顯的差異。而圖書題名的高頻詞也反映了文學類圖書占有很大比例這一情況,同時也體現(xiàn)了部分類簇中高校的閱讀偏好特點,且不同類簇的高頻詞存在差異。圖書高頻學科主題詞和題名高頻詞的情況相似。由此可見,部分類簇之間的用戶群體閱讀偏好在圖書類別分布、圖書題名高頻詞及圖書高頻學科主題詞上存在明顯差異。

        本文為用戶群體閱讀偏好研究提供了一種新的思路,并且本研究有助于高校圖書館了解用戶群體的閱讀偏好,發(fā)現(xiàn)與本校具有相似群體閱讀偏好的高校,對于圖書館的圖書推廣和資源建設工作具有重要的參考價值。此外,同一類簇的高校圖書館也可展開合作,為用戶提供館際互借服務。當然,本研究還存在一定的局限性,比如受限于數(shù)據(jù)獲取的途徑,本文選擇的高校在代表性上有所欠缺。未來工作可以擴展高校相關數(shù)據(jù),收集這些高校更為詳細的其他信息,探索聚類結果生成的原因,從而更加深刻地理解不同類簇高校圖書館用戶群體閱讀偏好的差異。

        猜你喜歡
        高頻詞熱門題名
        30份政府工作報告中的高頻詞
        小康(2022年7期)2022-03-10 11:15:54
        省級兩會上的高頻詞
        小康(2022年7期)2022-03-10 11:15:54
        棲鳳閣題名記
        西江月(2021年2期)2021-11-24 01:16:12
        28份政府工作報告中的高頻詞
        小康(2021年7期)2021-03-15 05:29:03
        省級兩會上的高頻詞
        小康(2021年7期)2021-03-15 05:29:03
        熱門智能手機應用
        海外星云(2016年7期)2016-12-01 04:18:00
        瘋狂猜圖
        家庭百事通(2016年5期)2016-05-06 20:48:31
        北大漢簡五《大羅圖》題名商榷
        佳石選賞
        中華奇石(2015年7期)2015-07-09 18:32:15
        論文寫作技巧——題名
        又大又粗欧美黑人aaaaa片 | 国产实拍日韩精品av在线| 日日拍夜夜嗷嗷叫国产| 国产欧美亚洲精品a| 在线av野外国语对白| 国产对白刺激在线观看| 国内自拍视频在线观看h| 国内偷拍精品一区二区| 国产一精品一av一免费爽爽| 国产午夜精品一区二区三区不卡| 国产清品夜色一区二区三区不卡| 日本午夜伦理享色视频| 亚洲成av人综合在线观看| 又粗又硬又黄又爽的免费视频| 色窝窝无码一区二区三区2022| 在线观看日本一区二区三区| 69国产成人精品午夜福中文| 国产成人精品999在线观看| 国产精品久久久久久久专区| 丝袜美腿一区在线观看| 亚洲av午夜福利精品一区| 性饥渴艳妇性色生活片在线播放 | 国内激情一区二区视频 | 日韩国产精品一区二区Hd| 一本久道久久综合狠狠操| 中文字幕一区二区精品视频| 亚洲熟女乱色综合亚洲av| 美国黄色片一区二区三区 | 亚洲毛片网| 少妇又色又爽又刺激的视频 | 精东天美麻豆果冻传媒mv| 久久亚洲国产中v天仙www| AV无码专区亚洲AVL在线观看| av在线天堂国产一区| 色妞色视频一区二区三区四区| 国产久视频国内精品999| 亚洲av男人免费久久| 人妻av中文字幕久久| 国产成人av一区二区三区在线| 人妻少妇精品一区二区三区| 99国产精品久久一区二区三区|