亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于用戶畫像的數(shù)字人文服務(wù)策略

        2019-04-27 02:10:50張紅偉解素芳王春梅
        中華醫(yī)學圖書情報雜志 2019年12期
        關(guān)鍵詞:畫像數(shù)據(jù)處理學者

        張紅偉,邢 丹,陳 玲,解素芳,王春梅

        隨著大數(shù)據(jù)、云計算等新興數(shù)字技術(shù)的發(fā)展,人文研究出現(xiàn)了革命性的轉(zhuǎn)變,數(shù)據(jù)密集型研究不斷加劇?!皵?shù)字人文”的出現(xiàn)不僅為傳統(tǒng)人文研究帶來了新方法,注入了新活力,還拓展了人文研究領(lǐng)域[1]。李泉在《數(shù)字人文:開創(chuàng)人文研究的新紀元》一文中指出:“數(shù)字人文堪稱人文研究的‘開天辟地’與‘創(chuàng)世紀’,能夠開創(chuàng)人文研究的新紀元”[2]。數(shù)字人文研究在世界各地如火如荼地展開,“大數(shù)據(jù)視域下數(shù)字人文研究”入選2018年度“中國十大學術(shù)熱點”,數(shù)字人文的高熱狀態(tài)在近幾年將一直持續(xù)下去[3]。圖情界如何為數(shù)字人文學者提供個性化的服務(wù)成為當前的棘手問題,畫像技術(shù)的發(fā)展為數(shù)字人文服務(wù)提供了新思路。

        1 數(shù)字人文個性化服務(wù)

        當前數(shù)字人文服務(wù)主要從基礎(chǔ)設(shè)施建設(shè)、技術(shù)體系框架及科研服務(wù)內(nèi)容等宏觀層面進行,如何進行數(shù)字人文個性化服務(wù)等以微觀層面研究較少[4]。針對個性化研究,周謙豪等設(shè)計了一款數(shù)字人文工具——inBooks,該工具不僅能通過紙本圖書的圖像獲取數(shù)字人文資源,還可以構(gòu)建個性化知識網(wǎng)絡(luò)[5];曾子明和秦思琪采用深度學習方法和哈希方法構(gòu)建了面向數(shù)字人文的移動視覺搜索模型,探討了圖像語義特征提取和檢索流程,為獲取數(shù)字人文視覺資源提供了新思路[6-7];上海圖書館推出家譜知識服務(wù)平臺,該平臺實現(xiàn)了基于概念的精確查詢,以“時間軸”“地圖”等為用戶提供可視化家譜數(shù)據(jù)展示[8]。以上研究從不同側(cè)面探討了數(shù)字人文領(lǐng)域的個性化服務(wù),然而這些研究遠遠無法滿足數(shù)字人文學者的個性化需求。針對數(shù)字人文特點及學者不同的研究興趣,如何提供優(yōu)質(zhì)的個性化服務(wù)仍是圖情界急需探索的難題。

        2 用戶畫像技術(shù)

        用戶畫像是一種刻畫用戶信息模型的技術(shù),在挖掘用戶真實數(shù)據(jù)的基礎(chǔ)上,按照需求提煉出用戶信息,呈現(xiàn)虛擬的用戶信息全貌,以此為基礎(chǔ)為用戶提供精準個性化服務(wù)[9]。用戶畫像技術(shù)近年引起了電子商務(wù)、金融、社交網(wǎng)絡(luò)等各界的廣泛關(guān)注和研究。圖情領(lǐng)域為了提供更貼合用戶需求的個性化服務(wù),也引入了用戶畫像。李丹等利用顯式和隱式相結(jié)合的方法獲取讀者信息,構(gòu)建讀者畫像,采用協(xié)同過濾的方法向讀者推薦興趣度排名靠前的N項內(nèi)容[10];劉海鷗等將情景興趣應用于讀者畫像,通過計算與當前情景相似的歷史情景獲取讀者感興趣的內(nèi)容[11];何娟在畫像模型中構(gòu)建了個人畫像和群體畫像,綜合二者的閱讀特征對讀者進行個性化推薦[12];張海濤等通過對中國知網(wǎng)和Web of Science中有關(guān)用戶畫像的文章進行定量和定性分析后,指出用戶畫像研究雖然取得了一些成果,但主要集中于社會化問答社區(qū)、數(shù)字圖書館和輿情傳播等主題,其他主題的研究比較薄弱[13]。隨著數(shù)字人文研究的快速發(fā)展,數(shù)字人文研究學者隊伍不斷壯大,成果數(shù)量急劇增多,學者對數(shù)據(jù)處理的技術(shù)服務(wù)需求進一步增強。如何利用用戶畫像刻畫出數(shù)字人文學者信息,針對具體需求提升數(shù)字人文學者的個性化服務(wù)水平值得深入研究。

        3 數(shù)字人文視域下學者畫像系統(tǒng)構(gòu)建

        數(shù)字人文學者在研究過程中經(jīng)常需要用到一些軟件工具,如SPSS、Eviews等[14],并且在數(shù)據(jù)管理計劃、元數(shù)據(jù)、數(shù)據(jù)倉儲與保存、數(shù)據(jù)出版、數(shù)據(jù)分析可視化等數(shù)據(jù)處理環(huán)節(jié)中,不同學者的關(guān)注點也不盡相同[15]。針對數(shù)字人文的特點,本文設(shè)計了一個數(shù)字人文學者畫像系統(tǒng),旨在從研究內(nèi)容、常用科研工具和所關(guān)注的數(shù)據(jù)處理環(huán)節(jié)等方面刻畫出數(shù)字人文學者特點,在此基礎(chǔ)上實現(xiàn)更貼合需求的數(shù)字人文個性化服務(wù)。

        3.1 數(shù)據(jù)的采集和處理

        學者數(shù)據(jù)信息是構(gòu)建畫像系統(tǒng)的基礎(chǔ)。學者數(shù)據(jù)主要包括基本信息、發(fā)表論文、內(nèi)容偏好、常用科研工具和所關(guān)注數(shù)據(jù)處理環(huán)節(jié)等5方面的內(nèi)容。其中基本信息包括學者姓名、年齡、性別、機構(gòu)、專業(yè)等,發(fā)表論文包括論文題目、發(fā)表期刊、發(fā)表時間等;內(nèi)容偏好是根據(jù)發(fā)表論文提取出的研究興趣與方向;常用科研工具包括SPSS、Eviews、SAS、ACCESS、Ucinet、CiteSpace、VOSviewer、Gephi等,數(shù)據(jù)處理環(huán)節(jié)包括數(shù)據(jù)管理計劃、元數(shù)據(jù)、數(shù)據(jù)倉儲與保存、數(shù)據(jù)出版、數(shù)據(jù)分析可視化等。

        本文采用改進的爬蟲技術(shù)從中國知網(wǎng)和學者主頁爬取學者的基本信息、論文、常用工具、關(guān)注的數(shù)據(jù)處理環(huán)節(jié)等信息。獲取的論文在經(jīng)過去重、去停用詞等預處理后,將論文用向量空間模型(Vector Space Model,VSM)表示,利用TF-IDF算法進行特征提取并賦予相應的權(quán)值,提取出論文的特征向量,將論文轉(zhuǎn)化為可以計算彼此相似度的向量。一篇論文可表示為:

        d=(t1,t2,…tn;w1,w2,…,wn)

        式中,n表示向量維度,tk表示論文第k個特征項,wk是tk(1≤k≤n)相應的權(quán)值。兩篇論文的相似度可以表示為:

        (公式1)

        sim()的取值范圍是[0,1],sim()越大,表示兩篇論文的相似度越高;相反,sim()越小,表示兩篇論文的相似度越低。在提取論文信息的基礎(chǔ)上分析得出學者的研究偏好,并對常用工具和關(guān)注的數(shù)據(jù)處理環(huán)節(jié)等內(nèi)容進行補充。

        3.2 數(shù)據(jù)聚類

        本文采用Single-Pass算法對論文進行聚類。按照論文到達的次序,將第一個到達的論文設(shè)為一個類簇C1,然后將后續(xù)到達的論文di與現(xiàn)有的類簇C計算相似度,選擇相似度最大的類簇Ci。如果相似度大于閾值θ,則把論文di歸入Ci,并更新Ci的向量;否則,將論文di設(shè)為一個新的類簇,直到將所有的論文都歸入相應類簇為止。

        本文以常用科研工具為依據(jù)對學者進行聚類。數(shù)據(jù)采集處理后,系統(tǒng)將保存常用工具信息表,該表列出所有的人文學者與其常用科研工具,如果學者使用該工具則用1表示,不使用則用0表示。如學者0001常使用SPSS和SAS而不使用Eviews,學者00002常使用Eviews和SAS而不使用SPSS(表1)。該表對每個學者使用的科研工具進行聚類。此外,每個科研工具對使用學者進行聚類,統(tǒng)計出每個科研工具的使用者(表2)。學者Si與學者Sj關(guān)于常用工具的相似度用公式(2)表示。

        sim(Si,Sj)=n/N

        (公式2)

        式中,n表示學者Si常用科研工具與學者Sj重復的數(shù)量,N表示學者Si常用科研工具的總數(shù)。對數(shù)據(jù)處理環(huán)節(jié)也進行類似聚類。

        表1 學者─常用科研工具對應表

        表2 常用工具─學者倒排表

        4 個性化服務(wù)

        4.1 興趣相近學者查詢

        為了促進科研交流合作,學者需要尋找與自己研究內(nèi)容相近的學者。本文設(shè)計了以下查詢途徑:第一,學者可以根據(jù)研究興趣相似度大小,直接從相應類簇中提取一定數(shù)量的學者;第二,學者可以根據(jù)同時使用的某一個或幾個常用科研工具尋找相應學者,也可以根據(jù)常用工具的相似程度尋找相應學者;第三,學者可以根據(jù)所關(guān)注的不同數(shù)據(jù)處理環(huán)節(jié)尋找相應學者。此外,學者還可以綜合權(quán)衡以上3種因素的相似度尋找相應學者,計算方法如公式(3)所示。

        sim(Si,Sj)=αsim1+βsim2+γsim3

        (公式3)

        式中,sim1表示學者Si和Sj的研究興趣相似度,sim2表示常用科研工具相似度,sim3表示關(guān)注數(shù)據(jù)處理環(huán)節(jié)相似度。系統(tǒng)根據(jù)用戶對3種因素的重視程度設(shè)置α、β和γ的值,其中0≤α,β,γ≤1,并且α+β+γ=1。系統(tǒng)根據(jù)學者需求,利用公式(3)提取一定數(shù)量的學者進行推送。

        4.2 文獻精準推送

        現(xiàn)有文獻根據(jù)Single-Pass算法形成穩(wěn)定的類簇。當有新文獻出現(xiàn)時,該文獻根據(jù)Single-Pass算法進行聚類,歸入類簇Ci,Ci中所有文獻都是圍繞同一主題展開的研究,存在強相關(guān)性,所有作者也具有相同的研究興趣。因此,系統(tǒng)將新文獻推送給類簇Ci中其他文獻的作者。

        4.3 其他推送內(nèi)容

        在學者根據(jù)研究興趣、常用科研工具及數(shù)據(jù)處理環(huán)節(jié)進行聚類后,系統(tǒng)根據(jù)具體需求進行精準推送。當舉行某個科研工具的培訓時,將培訓信息推送給使用該工具的所有學者;當舉行有關(guān)某個數(shù)據(jù)處理環(huán)節(jié)的會議時,將會議信息推送給關(guān)注該數(shù)據(jù)處理環(huán)節(jié)的學者;當需要尋找某個工具或數(shù)據(jù)處理環(huán)節(jié)的專家時,直接根據(jù)學者畫像推出相關(guān)專家名單。

        4.4 嵌入式服務(wù)

        數(shù)字人文館員嵌入科研過程,根據(jù)學者畫像,分析數(shù)字人文學者及團隊在科研過程中可能遇到的困難及需求,隨著科研進程的不斷推進,提供全方位的知識獲取、數(shù)據(jù)管理及科研工具支持等高層次服務(wù)。同時注重對學者數(shù)字人文研究素質(zhì)的培養(yǎng),特別是不斷提升其數(shù)據(jù)處理及科研工具使用的能力,營造數(shù)字人文研究的濃郁氛圍。

        5 結(jié)語

        針對數(shù)字人文個性化服務(wù)能力不足問題,本文提出了一種基于用戶畫像的個性化服務(wù)策略,從研究內(nèi)容、常用科研工具和所關(guān)注的數(shù)據(jù)處理環(huán)節(jié)等方面提取數(shù)字人文學者信息,構(gòu)建學者畫像,采用Single-Pass算法對論文進行聚類。分別以常用科研工具和所關(guān)注數(shù)據(jù)處理環(huán)節(jié)為依據(jù)對學者進行聚類。在此基礎(chǔ)上,為數(shù)字人文學者提供了興趣相近學者查詢、精準文獻服務(wù)及嵌入科研過程等個性化服務(wù),使數(shù)字人文學者從繁雜的資料收集和數(shù)據(jù)處理工作中解脫出來,將精力集中在解決科研問題本身上,有助于數(shù)字人文研究的快速發(fā)展。

        猜你喜歡
        畫像數(shù)據(jù)處理學者
        威猛的畫像
        學者介紹
        管子學刊(2022年2期)2022-05-10 04:13:10
        學者簡介
        認知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
        心理學報(2022年4期)2022-04-12 07:38:02
        學者介紹
        管子學刊(2022年1期)2022-02-17 13:29:10
        ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
        “00后”畫像
        畫像
        學者介紹
        基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應用
        一区二区免费电影| 中国丰满熟妇av| 美女午夜福利视频网址| 白浆高潮国产免费一区二区三区| 久久精品综合国产二区| 亚洲AV小说在线观看| 亚洲五月七月丁香缴情| 无码8090精品久久一区| 日本中文字幕人妻精品| 亚洲一区二区三区亚洲| 婷婷丁香开心五月综合| 日本久久精品视频免费| 91精品久久久老熟女91精品| 国产婷婷成人久久av免费| 久久精品国产99久久久| 色天使久久综合网天天| 国产一精品一av一免费爽爽| 日日摸日日碰人妻无码| 国产如狼似虎富婆找强壮黑人| 久久久无码精品亚洲日韩按摩| 又嫩又硬又黄又爽的视频| 婷婷色香五月综合激激情| 午夜毛片不卡免费观看视频| 欧洲精品免费一区二区三区| 国产国语熟妇视频在线观看 | 久久国产精品亚洲我射av大全 | 麻豆国产av在线观看| 熟妇人妻精品一区二区视频免费的| 亚洲精品一品区二品区三区| 免费看又色又爽又黄的国产软件| 777精品出轨人妻国产| 无码人妻少妇久久中文字幕蜜桃| 少妇熟女天堂网av| 3d动漫精品一区二区三区| 狠狠色噜噜狠狠狠狠888奇禾| 国内精品久久久久久中文字幕 | 亚洲精品久久麻豆蜜桃| 亚洲一区二区三区高清在线| 极品美女一区二区三区免费| 成在线人av免费无码高潮喷水| 一本色道久久综合狠狠躁篇|