陳曉玲李劍鋒付 強(qiáng)
(吉林省科學(xué)技術(shù)信息研究所a.信息資源中心;b.信息技術(shù)支撐中心,長(zhǎng)春 130033)
隨著數(shù)字化科技文獻(xiàn)平臺(tái)的發(fā)展,對(duì)從事提供信息方面服務(wù)工作而言,其服務(wù)的模式和理念對(duì)管理者提出了新的要求,服務(wù)方式要以網(wǎng)絡(luò)平臺(tái)為主的信息化服務(wù)[1]??萍嘉墨I(xiàn)服務(wù)于廣大用戶的工作存在服務(wù)內(nèi)容的深度和廣度不夠?qū)挿?缺乏用戶服務(wù)細(xì)節(jié)化,從而降低服務(wù)質(zhì)量,服務(wù)理念不夠創(chuàng)新,加強(qiáng)“人”的因素及數(shù)據(jù)素養(yǎng)的意識(shí)和理念,只有轉(zhuǎn)變和創(chuàng)新科技資源的服務(wù)思想,才能真正提高和完善服務(wù)質(zhì)量[2]?,F(xiàn)階段用戶在使用平臺(tái)過(guò)程中對(duì)數(shù)據(jù)庫(kù)的訪問(wèn)次數(shù)、檢索次數(shù)、瀏覽次數(shù)和下載次數(shù)等方面留下海量的數(shù)據(jù)集,由于海量數(shù)據(jù)集以不同的結(jié)構(gòu)形式分散的存儲(chǔ)在服務(wù)器中,從而使大量的隱性的有價(jià)值的用戶信息無(wú)法得到有效的利用和挖掘[3]。上述問(wèn)題直接導(dǎo)致管理部門無(wú)法進(jìn)行高效的決策,管理人員無(wú)法為用戶提供高質(zhì)量的服務(wù),因此如何將這些用戶數(shù)據(jù)信息轉(zhuǎn)化為知識(shí)服務(wù),為管理部門提供決策依據(jù),科學(xué)指導(dǎo)管理,提高平臺(tái)的管理水平和服務(wù)質(zhì)量,將是迫切需要解決的問(wèn)題。
將數(shù)據(jù)挖掘分析技術(shù)應(yīng)用于平臺(tái)共享服務(wù)領(lǐng)域,可根據(jù)用戶下載文獻(xiàn)的歷史數(shù)據(jù)發(fā)現(xiàn)、挖掘數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。挖掘數(shù)據(jù)背后隱藏的信息,預(yù)測(cè)用戶的信息需求,掌握用戶下載文獻(xiàn)類型規(guī)律,這是平臺(tái)開展個(gè)性化服務(wù)的基礎(chǔ)[4]。數(shù)據(jù)挖掘能為平臺(tái)管理者進(jìn)行業(yè)務(wù)處理和信息服務(wù)提供先進(jìn)的工具,平臺(tái)的信息及數(shù)據(jù)庫(kù)能得到更深層次的加工,平臺(tái)的工作能更有效率,價(jià)值管理人員能按照各個(gè)用戶的要求或習(xí)慣,為用戶組織更多、更好的有針對(duì)性的高質(zhì)量文獻(xiàn)類型信息,提供更多的個(gè)性化服務(wù)。進(jìn)一步豐富平臺(tái)的功能,提升平臺(tái)信息服務(wù)、知識(shí)服務(wù)的績(jī)效,使其在助推吉林省創(chuàng)新驅(qū)動(dòng)發(fā)展中發(fā)揮更大的作用。本研究是當(dāng)前科技文獻(xiàn)發(fā)展的熱點(diǎn)同時(shí)也是重點(diǎn),是科技文獻(xiàn)資源建設(shè)、科技信息服務(wù)發(fā)展的趨勢(shì)和方向,其研究成果能立刻應(yīng)用到實(shí)際工作中,轉(zhuǎn)化效果顯著。筆者利用平臺(tái)的用戶數(shù)據(jù)進(jìn)挖掘和建立用戶畫像,并在平臺(tái)進(jìn)行功能的開發(fā)與實(shí)現(xiàn)。
對(duì)用戶行為數(shù)據(jù)集進(jìn)行預(yù)處理,建立挖掘結(jié)構(gòu)模型,預(yù)測(cè)用戶行為,提升用戶服務(wù)績(jī)效和滿意度。突破基于用戶的固有數(shù)據(jù)、資源或系統(tǒng)服務(wù)的獲取,以用戶需求目標(biāo)驅(qū)動(dòng),挖掘和發(fā)現(xiàn)知識(shí),為用戶解決實(shí)際問(wèn)題,實(shí)現(xiàn)知識(shí)的價(jià)值增值。為用戶提供高質(zhì)量、符合用戶真正需求的服務(wù)產(chǎn)品。1)根據(jù)用戶初步需求分析,不斷幫助用戶修改需要及用戶反饋,最終獲得知識(shí)服務(wù)需求[5];2)解決用戶基本問(wèn)題,提出合理化的方案和決策;3)貫穿于用戶需求全過(guò)程的連續(xù)性、動(dòng)態(tài)式的系統(tǒng)服務(wù)[6]。對(duì)用戶行為數(shù)據(jù)集進(jìn)行預(yù)處理,建立挖掘結(jié)構(gòu)模型,預(yù)測(cè)用戶行為,提升用戶服務(wù)績(jī)效和滿意度。
首先采集用戶基本信息、交互信息以及行為信息數(shù)據(jù),進(jìn)行數(shù)據(jù)預(yù)處理,建立用戶畫像。并經(jīng)過(guò)統(tǒng)計(jì)、分類、聚類等數(shù)據(jù)挖掘算法,給用戶建立標(biāo)簽體系和用戶行為模型[7],進(jìn)一步預(yù)測(cè)用戶行為(見圖1)。
圖1 數(shù)據(jù)挖掘在平臺(tái)科研用戶行為分析中的應(yīng)用技術(shù)路線圖Fig.1 Application technology roadmap of data mining in platform research user behavior analysis
依托于平臺(tái),截止2020年活躍用戶約1 500人,通過(guò)平臺(tái)注冊(cè)用戶的基本信息以及后臺(tái)和日志記錄存儲(chǔ)的用戶行為數(shù)據(jù),從而形成用戶的基礎(chǔ)信息、交互信息和行為信息數(shù)據(jù)集?;A(chǔ)信息數(shù)據(jù)集主要包括性別、年齡、學(xué)歷、工作單位、機(jī)構(gòu)類型和學(xué)科領(lǐng)域、地區(qū)等;交互信息數(shù)據(jù)集主要包括對(duì)其他用戶資源的評(píng)價(jià)、收藏和分享等;行為數(shù)據(jù)集主要包括用戶對(duì)資源的瀏覽、閱讀、檢索、收藏和評(píng)論等產(chǎn)出的所有記錄。
用戶畫像的數(shù)據(jù)源于收集的用戶基本信息、交互信息和行為信息,第1步根據(jù)用戶基本信息、行為數(shù)據(jù)進(jìn)行用戶“刻畫”[8];第2步對(duì)用戶的動(dòng)態(tài)行為數(shù)據(jù)進(jìn)行關(guān)聯(lián),完善用戶的畫像,從而達(dá)到修正標(biāo)簽體系[9],這是一個(gè)漸近式的循環(huán)過(guò)程,最終為所有的用戶打上畫像標(biāo)簽,進(jìn)一步精、準(zhǔn)、快地分析出用戶行為習(xí)慣、閱讀偏好和關(guān)注熱點(diǎn)等數(shù)據(jù)挖掘信息,以便提供平臺(tái)的用戶個(gè)性化服務(wù)。
平臺(tái)的后臺(tái)管理數(shù)據(jù)庫(kù)擁有用戶基本信息、交互信息、行為信息的所有數(shù)據(jù)集[10]。在平臺(tái)用戶細(xì)分過(guò)程中主要使用k均值聚類算法,其原理是隨機(jī)選取k個(gè)對(duì)象作為初始的聚類中心,計(jì)算每個(gè)對(duì)象與各個(gè)種子聚類中心之間的距離,把每個(gè)對(duì)象分配給距離其最近的聚類中心。在對(duì)平臺(tái)用戶日志信息和文獻(xiàn)數(shù)據(jù)資源進(jìn)行分析時(shí),要用到文本挖掘相關(guān)算法。常用的文本挖掘算法有基于詞頻的TF-IDF(Term Frequency-Inverse Document Frequency)算法以及基于自然語(yǔ)言理解的LDA(Latent Dirichlet Allocation)算法。1)TF-IDF是一種統(tǒng)計(jì)方法,其基本原理是提取出單篇文本/文獻(xiàn)的對(duì)應(yīng)關(guān)鍵詞以及權(quán)重值,利于后續(xù)使用[11]。2)LDA是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),可用于識(shí)別大規(guī)模文檔集或語(yǔ)料庫(kù)中潛藏的主題信息。進(jìn)而對(duì)文獻(xiàn)資源按主題及關(guān)鍵詞信息進(jìn)行分類[12]。
利用上述聚類、文本挖掘等技術(shù)整合用戶數(shù)據(jù),包括注冊(cè)用戶基本信息、資源檢索、瀏覽、訪問(wèn)、收藏、在線時(shí)間、資源下載量和資源收藏量等,按照一定的規(guī)則和標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行歸類并量化,對(duì)用戶數(shù)據(jù)打標(biāo)簽處理。再運(yùn)用歸一化算法,建立用戶標(biāo)簽特征向量,完成用戶建模。
用戶模型包括單用戶畫像模型和群體用戶畫像模型[13]。群體用戶畫像模型是通過(guò)分析機(jī)構(gòu)用戶群體行為特征的相似度,如群體用戶的基本屬性、用戶之間交互、用戶對(duì)資源需求和服務(wù)評(píng)價(jià)等的相似度,以及群體用戶瀏覽資源、利用某類資源的相似度等計(jì)算得出。相似度度量(Similarity),即計(jì)算個(gè)體間的相似程度,相似度度量的值越小,說(shuō)明個(gè)體間相似度越小,相似度的值越大說(shuō)明個(gè)體差異越大。平臺(tái)用戶畫像框架模型如圖2所示。
圖2 平臺(tái)用戶畫像框架模型Fig.2 Platform user portrait framework model
通過(guò)上述用戶模型的建立,確定用戶模型特征向量,根據(jù)文獻(xiàn)資源建立特征向量模型,做相似度計(jì)算。計(jì)算文本相似性,常用的方法是計(jì)算向量空間余弦相似度(Cosine Similarity)。余弦相似度的原理是利用向量空間中兩個(gè)向量夾角的余弦值,把它作為衡量?jī)蓚€(gè)個(gè)體間差異的大小[14]。余弦值越接近1,就表明夾角越接近0度,也就是兩個(gè)向量越相似,這就叫余弦相似性。
通過(guò)計(jì)算用戶模型特征向量與文獻(xiàn)資源模型特征向量的余弦相似度,按照相似度值從大到小的順序?qū)⒋扑臀墨I(xiàn)資源進(jìn)行排序,再加入時(shí)效性權(quán)值進(jìn)行二次排序,完成用戶行為預(yù)測(cè)及個(gè)性化推送[15]。其中時(shí)效性權(quán)值計(jì)算公式如下
其中S為計(jì)算得到的相似度,ξ為時(shí)效性權(quán)值調(diào)整系數(shù),t為平臺(tái)當(dāng)前時(shí)間,t0為文獻(xiàn)資源進(jìn)入數(shù)據(jù)庫(kù)的時(shí)間。
首先對(duì)平臺(tái)審核通過(guò)的實(shí)名注冊(cè)用戶基本屬性和關(guān)注信息進(jìn)行過(guò)濾,其次對(duì)用戶在平臺(tái)瀏覽、檢索和下載科技資源過(guò)程中生成的大量瀏覽記錄進(jìn)行數(shù)據(jù)挖掘和分析處理,同時(shí)剔除繁雜的和不相關(guān)的記錄,最終通過(guò)數(shù)據(jù)挖掘算法得出用戶的真正關(guān)注的科技資源信息,如平臺(tái)用戶的個(gè)人空間中的閱讀記錄實(shí)例(見圖3),以時(shí)間線的為軸羅列出用戶的文獻(xiàn)閱讀記錄。通過(guò)對(duì)用戶行為的數(shù)據(jù)挖掘分析,在平臺(tái)的首頁(yè)中猜你喜歡功能模塊推薦出關(guān)注的熱點(diǎn)文獻(xiàn)(見圖4)。
圖3 平臺(tái)用戶閱讀記錄展示Fig.3 Display of reading records of platform users
圖4 平臺(tái)首面的猜你喜歡功能Fig.4 Guess what you like from the first side of the platform
根據(jù)前期的需求分析和用戶畫像方法,對(duì)用戶行為數(shù)據(jù)集進(jìn)行預(yù)處理,建立數(shù)據(jù)挖掘結(jié)構(gòu)模型,預(yù)測(cè)用戶行為,提升用戶服務(wù)績(jī)效和滿意度。同時(shí),通過(guò)對(duì)用戶行為和特征的大數(shù)據(jù)整理、挖掘和分析,形成精準(zhǔn)信息推送的內(nèi)容和推送規(guī)則,使用戶在使用平臺(tái)時(shí)能無(wú)縫融入精準(zhǔn)推送服務(wù)中,本研究?jī)?nèi)容在平臺(tái)V2.0版本中進(jìn)行系統(tǒng)設(shè)計(jì)開發(fā)和實(shí)證運(yùn)行,其效果已在平臺(tái)的使用中得到實(shí)證,轉(zhuǎn)化率達(dá)到100%。平臺(tái)的用戶檢索績(jī)效、用戶信息獲取績(jī)效,以及用戶科研績(jī)效都得到了極大的提升,平臺(tái)信息服務(wù)和知識(shí)服務(wù)能力切實(shí)得到了提升,平臺(tái)的支撐和保障作用進(jìn)一步增強(qiáng),平臺(tái)本身肩負(fù)著助推我省創(chuàng)新驅(qū)動(dòng)發(fā)展、協(xié)同科研攻關(guān)和提升科研績(jī)效的使命,完善平臺(tái)功能,將更好地發(fā)揮平臺(tái)的科技資源支撐和保障作用。