摘 要:人工智能技術(shù)發(fā)展,驅(qū)動著圖書館的知識服務(wù)向著個性化、精準化方向發(fā)展。文章在概述知識發(fā)現(xiàn)和用戶畫像的基礎(chǔ)上,構(gòu)建了圖書館讀者用戶畫像,以此構(gòu)建了基于用戶畫像的圖書館知識發(fā)現(xiàn)服務(wù)模型。分析發(fā)現(xiàn),基于用戶畫像的圖書館知識服務(wù),能在服務(wù)的個性化、精準化方面有著一定的優(yōu)勢,能夠提升圖書館知識服務(wù)體驗。
關(guān)鍵詞:人工智能;用戶畫像;圖書館;知識發(fā)現(xiàn);知識工程;機器學(xué)習(xí)
中圖分類號:G252 文獻標識碼:A DOI:10.11968/tsyqb.1003-6938.2017114
Abstract The development of artificial intelligence technology drives the library's knowledge service towards individuation and precision. Basic on the summarization of knowledge discovery and User portrait, this article constructs the user portrait, so as to construct a service model of librarys knowledge discovery. It is found that the library knowledge service based on user portrait has some advantages in personalized and precision service, and also can improve the experiences of library knowledge service.
Key words artificial intelligence; user portrait; library; knowledge discovery; knowledge engineering; machine learning
智能化與自動化是人工智能時代的兩大主題,而移動智能終端的普及應(yīng)用,也為智能化與自動化的實現(xiàn)提供了海量的大數(shù)據(jù)基礎(chǔ),通過數(shù)據(jù)挖掘和算法計算,從海量數(shù)據(jù)中發(fā)現(xiàn)需要的知識發(fā)現(xiàn),也在機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)模型和知識表示等人工智能技術(shù)的推動下,呈現(xiàn)出了新的發(fā)展態(tài)勢。同時,隨著大數(shù)據(jù)的發(fā)展,數(shù)據(jù)量的爆發(fā)式增長和大數(shù)據(jù)分析技術(shù)的成熟使用戶可捕捉的行為數(shù)據(jù)越來越多,可形成用戶關(guān)鍵信息畫像的用戶畫像被廣泛的應(yīng)用到了以標簽、畫像為基礎(chǔ)的精準服務(wù)領(lǐng)域[1]。將用戶畫像與知識發(fā)現(xiàn)相結(jié)合,可以為用戶的需求精準提供基于知識發(fā)現(xiàn)的決策知識、咨詢知識等服務(wù)。
圖書館是人類知識的傳承和傳播中心,實現(xiàn)對館藏知識的傳播與增值服務(wù)也一直是信息時代到大數(shù)據(jù)時代圖書館的主要服務(wù)內(nèi)容。近年來,基于知識發(fā)現(xiàn)系統(tǒng)如Primo、Worldcat Local、Encore等的圖書館知識發(fā)現(xiàn)服務(wù)也成為了知識服務(wù)的主要組成部分。隨著人工智能時代的到來驅(qū)動著圖書館向智能化服務(wù)、自動化服務(wù)轉(zhuǎn)型的過程中,基于用戶畫像的圖書館知識發(fā)現(xiàn)服務(wù)無疑將提高讀者的服務(wù)體驗與滿意度。
1 知識發(fā)現(xiàn)與用戶畫像
1.1 從人工智能到知識發(fā)現(xiàn)
從學(xué)科體系來看,人工智能是計算機科學(xué)的一個分支,它試圖了解智能的實質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機器,該領(lǐng)域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。知識工程作為人工智能的五大研究領(lǐng)域(即腦認知、機器感知與模式識別、自然語言處理與理解、知識工程、機器人與智能系統(tǒng))之一,一直備受科學(xué)界關(guān)注。中國人工智能學(xué)會理事長李德毅就認為知識工程才是人工智能時代最有意義的課題之一。
知識發(fā)現(xiàn)(Knowledge Discovery,KD)則是一門來源于人工智能、知識工程和機器學(xué)習(xí)等眾多學(xué)科新興交叉的學(xué)科。具體來看,知識發(fā)現(xiàn)就是一次完整的從大量的異構(gòu)、復(fù)雜數(shù)據(jù)或數(shù)據(jù)集、數(shù)據(jù)平臺中提取出隱含的、未知的、潛在有用的并能被人們理解的規(guī)則與模式,并檢查趨勢、發(fā)掘出事實的高級處理過程[2]。
1.2 知識發(fā)現(xiàn)的實現(xiàn)與發(fā)展
1989年,在“知識工程(Knowledge Engineering)”被提出12年之后,“知識發(fā)現(xiàn)”這一概念在第11屆國際聯(lián)合人工智能學(xué)術(shù)會議上出現(xiàn)。但由于當(dāng)時的數(shù)據(jù)主要以數(shù)據(jù)庫的形式存儲管理,因而當(dāng)初提出的知識發(fā)現(xiàn)主要是指基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展和數(shù)據(jù)來源、數(shù)據(jù)類型的豐富,知識發(fā)現(xiàn)也逐漸從基于數(shù)據(jù)庫的知識發(fā)現(xiàn)向面向大數(shù)據(jù)的知識發(fā)現(xiàn)方向發(fā)展。
1.3 用戶畫像的概念與應(yīng)用
用戶畫像(User portrait)即用戶信息標簽化,就是通過收集與分析用戶的社會屬性、生活習(xí)慣、消費行為等主要信息之后,完美的抽象出一個用戶的信息全貌[3]。目前,由于用戶畫像能夠為服務(wù)提供方進一步精準、快速地分析用戶行為習(xí)慣、商業(yè)意愿、消費需求提供了重要的數(shù)據(jù)基礎(chǔ),進而能夠幫助商業(yè)機構(gòu)快速定位用戶/群體等更為廣泛的商業(yè)信息,基于用戶畫像的個性化推薦服務(wù)系統(tǒng)已經(jīng)處處可見,典型如今日頭條,普通如電子商務(wù)、社交網(wǎng)絡(luò)、影視推送、閱讀推送等。
2 面向大數(shù)據(jù)的圖書館知識發(fā)現(xiàn)服務(wù)
2.1 圖書館知識發(fā)現(xiàn)服務(wù)的發(fā)展現(xiàn)狀
(1)圖書館文獻資源發(fā)現(xiàn)服務(wù)。現(xiàn)代圖書館一直注重用戶的文獻檢索服務(wù),并通過數(shù)據(jù)庫檢索技術(shù)而實現(xiàn)的圖書館書目數(shù)據(jù)檢索系統(tǒng)、主題資源檢索系統(tǒng)、綜合資源登記管理系統(tǒng)等文獻資源的檢索系統(tǒng),向用戶提供館藏數(shù)量、文獻排序等服務(wù)。如經(jīng)國務(wù)院批準的我國高等教育“211工程”“九五”“十五”總體規(guī)劃中三個公共服務(wù)體系之一的中國高等教育文獻保障系統(tǒng)(China Academic Library & Information System,CALIS)可為讀者提供文獻發(fā)現(xiàn)、文獻傳遞、館際互借等服務(wù)。endprint
(2)圖書館知識發(fā)現(xiàn)系統(tǒng)服務(wù)。當(dāng)云計算的概念提出以后,基于云計算的圖書館知識發(fā)現(xiàn)系統(tǒng)也應(yīng)運而生,目前已有Summon、Primo、Worldcat Local與Encore等越來越多的圖書館知識發(fā)現(xiàn)系統(tǒng)被開發(fā),并廣泛的應(yīng)用到了圖書館的資源檢索、信息組織與知識服務(wù)中。此外,還有中國學(xué)術(shù)搜索、超星發(fā)現(xiàn)系統(tǒng)、智立方發(fā)現(xiàn)系統(tǒng)、學(xué)知搜索、百度學(xué)術(shù)等在線知識發(fā)現(xiàn)系統(tǒng)也都在圖書館得到廣泛應(yīng)用。從服務(wù)內(nèi)容來看,圖書館基于這些知識發(fā)現(xiàn)系統(tǒng)的服務(wù)主要有文獻檢索、資源聚合、粒度分析、知識關(guān)聯(lián)、規(guī)律總結(jié)等服務(wù)。
2.2 圖書館讀者的用戶畫像構(gòu)建
根據(jù)用戶畫像的相關(guān)理論[4],基于大數(shù)據(jù)的圖書館讀者用戶畫像的構(gòu)建主要分為基礎(chǔ)數(shù)據(jù)收集、行為建模、構(gòu)建畫像三個階段(見圖1)。其中,數(shù)據(jù)收集大致分為網(wǎng)絡(luò)行為數(shù)據(jù)(如活躍人數(shù)、頁面瀏覽量、訪問時長、激活率、外部觸點、社交數(shù)據(jù)等)、服務(wù)行為數(shù)據(jù)(如瀏覽路徑、頁面停留時間、訪問深度、唯一頁面瀏覽次數(shù)等)、用戶內(nèi)容偏好數(shù)據(jù)(如瀏覽/收藏內(nèi)容、評論內(nèi)容、互動內(nèi)容、生活形態(tài)偏好、品牌偏好等)[5]等三類;行為建模是對基礎(chǔ)數(shù)據(jù)收集階段收集到的大數(shù)據(jù),通過機器學(xué)習(xí)進行用戶行為建模,以抽象出圖書館用戶的標簽,并運用數(shù)學(xué)算法模型對用戶的行為、偏好等進行預(yù)測;在行為建模階段的標簽抽象和特征計算后,根據(jù)用戶的基本屬性(如身份證號、年齡、性別、地域等)、行為特征(如Cookie)、興趣愛好(如URL信息)、心理特征(如社交表情)、社交網(wǎng)絡(luò)(如微信、QQ社交網(wǎng)絡(luò)等)等基礎(chǔ)數(shù)據(jù)不斷修正,則會根據(jù)已知數(shù)據(jù)來抽象出新的標簽,從而使用戶畫像越來越立體和清晰。
2.3 基于用戶畫像的圖書館知識發(fā)現(xiàn)服務(wù)模型構(gòu)建
本研究基于知識發(fā)現(xiàn)的三大階段(數(shù)據(jù)準備、數(shù)據(jù)挖掘、解釋與評估)和基于異構(gòu)、海量、多粒度的大數(shù)據(jù)資源,采用人工智能技術(shù)中的自然語言處理、機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)模型技術(shù)的內(nèi)容信息挖掘、結(jié)構(gòu)信息挖掘、自然語言信息挖掘的知識發(fā)現(xiàn)技術(shù),在上述基于大數(shù)據(jù)的圖書館讀者用戶畫像的基礎(chǔ)上,構(gòu)建了基于用戶畫像的圖書館知識發(fā)現(xiàn)服務(wù)模型(見圖2)。
相較于已有的圖書館知識發(fā)現(xiàn)模型,基于用戶畫像的圖書館知識發(fā)現(xiàn)服務(wù)模型區(qū)別有:(1)在數(shù)據(jù)準備階段,面向大數(shù)據(jù)資源集,突破了原有的由數(shù)據(jù)庫資源,豐富了數(shù)據(jù)的來源和類型,這就對包括啟用機器學(xué)習(xí)的語義自動發(fā)現(xiàn)、智能聯(lián)接、智能分析、層次生成、數(shù)據(jù)沿襲和對各種數(shù)據(jù)源(包括多結(jié)構(gòu)化數(shù)據(jù))的數(shù)據(jù)混合技術(shù)處理提供了新的挑戰(zhàn);(2)在數(shù)據(jù)挖掘階段,增加了面向自然語言信息的知識發(fā)現(xiàn),這也增加了面向大數(shù)據(jù)自然語言信息資源的自動化處理,如相關(guān)性、異常、集群、關(guān)聯(lián)和預(yù)測等;(3)解析與評估階段,增加了圖書館讀者的用戶畫像與知識發(fā)現(xiàn)原型系統(tǒng)的匹配,這就使得在圖書館用戶的知識服務(wù)需求并不一定需要用戶自己來表達,提高了圖書館用戶知識發(fā)現(xiàn)服務(wù)的精準度。
2.4 圖書館知識發(fā)現(xiàn)服務(wù)的創(chuàng)新技術(shù)實現(xiàn)
信息化時代的知識發(fā)現(xiàn)主要是針對結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫知識發(fā)現(xiàn),以及針對非結(jié)構(gòu)化數(shù)據(jù)的基于文獻的(非)相關(guān)文獻知識發(fā)現(xiàn)、全文獻知識發(fā)現(xiàn)兩大分支。從應(yīng)用的技術(shù)來看主要有統(tǒng)計方法(如回歸分析、判別分析、聚類分析、探索性分析、模糊集方法、支持向量機方法、粗糙集等)、機器學(xué)習(xí)方法(如規(guī)則歸納、決策樹、范例推理、遺傳算法等)、神經(jīng)計算方法(如自組織映射網(wǎng)絡(luò)、反傳網(wǎng)絡(luò)等)、語義網(wǎng)技術(shù)(如關(guān)聯(lián)數(shù)據(jù)等)。本文所構(gòu)建的服務(wù)模型,則在上述技術(shù)和用戶畫像技術(shù)的應(yīng)用基礎(chǔ)上借鑒引入了自然語言處理和隱語義模型,以實現(xiàn)對大數(shù)據(jù)資源中自然語言如語音、視頻的智聯(lián)處理,和對用戶畫像與知識發(fā)現(xiàn)的個性化推薦匹配。
(1)面向自然語言信息的知識發(fā)現(xiàn)。自然語言處理技術(shù)短文本相似度度量在信息檢索、新聞推薦和智能客服,文章標簽在個性化推薦、話題聚合,文章分類在個性化推薦、主題劃分等領(lǐng)域的成功應(yīng)用,為本文所設(shè)計的面向自然語言信息的知識技術(shù)拓展提供了借鑒。每一種自然語言處理技術(shù)的豐富模型也為面向不同的視頻、語音、圖片等處理提供了選擇空間,可以根據(jù)語言信息的屬性特征和用戶畫像的需求特征選擇適合的度量模式。如短文本相似度常用的計算方法就有TF-IDF、LSI、LDA等模型算法。其中TF-IDF主要用以評估某一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度,返回過濾掉常見的詞語的重要詞語;LSI主要運用潛在語義索引和SVD降維方法來解決一詞多義和一義多詞問題;LDA是一種文檔主題生成模型(包含詞、主題和文檔三層結(jié)構(gòu)),可以用來識別大規(guī)模文檔集或語料庫中潛藏的主題信息[6]。
(2)基于隱語義模型的推薦服務(wù)匹配實現(xiàn)。本文所構(gòu)建的是一種基于內(nèi)容(圖書館知識發(fā)現(xiàn)應(yīng)用)和用戶畫像的個性化推薦服務(wù)模型(見圖3),模型有兩個實體(內(nèi)容和用戶)和一個關(guān)聯(lián)關(guān)系(標簽),內(nèi)容轉(zhuǎn)換為標簽即為內(nèi)容特征化、用戶則成為用戶特征化。
在這一模型基礎(chǔ)上,采用隱語義模型進行推薦,即通過用戶畫像實時計算用戶對于某一知識發(fā)現(xiàn)內(nèi)容的興趣度(CTR),進而通過人機交互、場景應(yīng)用進行推薦精準知識服務(wù)。
CTR的計算公式[7]為:r=q*m*n
其中i=1…N是知識發(fā)現(xiàn)結(jié)果c具有的標簽,m(ci)指知識發(fā)現(xiàn)結(jié)果c和標簽i的關(guān)聯(lián)度(可以簡單認為是1),n(ui)指的是用戶u的標簽i的權(quán)重值,當(dāng)用戶不具有此標簽時n(ui)=0,q(c)指的是知識發(fā)現(xiàn)結(jié)果c的質(zhì)量,可以使用點擊率(click/pv)表示。
2.5 圖書館知識發(fā)現(xiàn)服務(wù)的內(nèi)容
圖書館大數(shù)據(jù)資源的類型大致可以分為文本、視頻、音頻、圖片、動畫、軟件、中間件、數(shù)據(jù)集、網(wǎng)頁等,大數(shù)據(jù)時代與人工智能時代則主要是在數(shù)據(jù)集(如Cookie數(shù)據(jù)集、用戶行為數(shù)據(jù)集、科學(xué)數(shù)據(jù)集、政府開放數(shù)據(jù)集等)和自然語言信息(如人機交互語音、圖片、音頻等)方面豐富了圖書館的資源結(jié)構(gòu)、內(nèi)容及數(shù)量。針對這些數(shù)字化的資源類型,運用本文所提出的基于用戶畫像的圖書館知識發(fā)現(xiàn)模型方法進行知識挖掘與服務(wù)呈現(xiàn),可在個性化知識資源聚合、個性化愛好推薦圖譜繪制等方面豐富傳統(tǒng)的數(shù)字圖書館服務(wù)范圍。如采用基于關(guān)聯(lián)規(guī)則的知識發(fā)現(xiàn)方法,可以構(gòu)建不同資源、不同概念間的資源聚合體,從而達到發(fā)現(xiàn)連接內(nèi)容和模式匹配用戶畫像即需求的概念實體,以及這些概念實體間的隱性關(guān)聯(lián)關(guān)系;采用基于推導(dǎo)傳遞的知識發(fā)現(xiàn)方法,發(fā)現(xiàn)不同資源內(nèi)容信息中包括引證等關(guān)系在內(nèi)的隱性關(guān)聯(lián),從而達到復(fù)雜數(shù)據(jù)集的隱性知識發(fā)現(xiàn),并通過用戶畫像匹配實現(xiàn)個性化知識推薦;通過分析多粒度大數(shù)據(jù)資源和用戶(群體)的屬性特征,借助引證、合作等關(guān)系來揭示用戶個體間的網(wǎng)絡(luò)社交、科學(xué)研究、愛好興趣關(guān)聯(lián),以及用戶群體之間的研究貢獻、活躍可見度等指數(shù),從而形成不同類型、不同范圍的動態(tài)關(guān)系網(wǎng)絡(luò)圖譜。同時,基于圖書館用戶多種屬性分析和應(yīng)用的用戶畫像構(gòu)建,不但能為知識發(fā)現(xiàn)原型系統(tǒng)的用戶社交網(wǎng)絡(luò)分析提供資源,而且也能為實體分析對象提供幫助。如綜合基于模式 匹配、基于機器推理等多種揭示手段,可以構(gòu)建如資源關(guān)系流動網(wǎng)絡(luò)圖譜、科研用戶知識流動網(wǎng)絡(luò)圖譜、機構(gòu)關(guān)系知識流動網(wǎng)絡(luò)圖譜等,進而形成面向不同服務(wù)對象和群體、具有個性化差異化特征的推理圖譜,讓用戶可以從時間、空間、知識單元追蹤等角度推導(dǎo)和觀察到具有多維度關(guān)系的網(wǎng)絡(luò)演化、知識流動軌跡。
3 結(jié)語
基于內(nèi)容、行為認知和群體協(xié)同建模構(gòu)建的圖書館用戶畫像,不但能夠準確的描繪出基于大數(shù)據(jù)標簽的圖書館用戶屬性特征,以此為基礎(chǔ)表達和傳遞圖書館知識服務(wù)需求,而且能讓圖書館基于大數(shù)據(jù)的知識發(fā)現(xiàn)系統(tǒng)更深層次地挖掘數(shù)據(jù)資源價值,最終為圖書館用戶提 供個性化知識發(fā)現(xiàn)服務(wù)。
參考文獻:
[1] 一步步教你看懂大數(shù)據(jù)時代下的“用戶畫像”[EB/OL].[2017-11-26].https://www.sohu.com/a/69687539_353595.
[2] 苗蔚,李后卿.知識發(fā)現(xiàn)及其實現(xiàn)技術(shù)的研究概述[J].現(xiàn)代情報,2005(1):12-15.
[3] 楊雙亮.用戶畫像在內(nèi)容推送的研究與應(yīng)用[D].北京:北方工業(yè)大學(xué),2017.
[4] 牛溫佳,劉吉強,石川,等.用戶網(wǎng)絡(luò)行為畫像——大數(shù)據(jù)中的用戶網(wǎng)絡(luò)行為畫像分析與內(nèi)容推薦應(yīng)用[M].北京:電子工業(yè)出版社,2016.
[5] 基于大數(shù)據(jù)的用戶畫像構(gòu)建(理論篇)[EB/OL].[2017-11-26].https://www.jianshu.com/p/0d77238771ef.
[6] 自然語言處理入門(1)——文本相似度計算[EB/OL].[2017-11-26].http://blog.csdn.net/flysky1991/article/details/72786820.
[7] 王爾昕.基于隱語義模型和聚類算法的電子商務(wù)個性化推薦系統(tǒng)的研究與實現(xiàn)[D].北京:北京郵電大學(xué),2017.
作者簡介:張鈞,男,鄧小平圖書館副研究館員。endprint