亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于用戶畫像的數(shù)字人文服務(wù)策略

        2019-04-27 02:10:50張紅偉解素芳王春梅
        中華醫(yī)學圖書情報雜志 2019年12期
        關(guān)鍵詞:畫像數(shù)據(jù)處理學者

        張紅偉,邢 丹,陳 玲,解素芳,王春梅

        隨著大數(shù)據(jù)、云計算等新興數(shù)字技術(shù)的發(fā)展,人文研究出現(xiàn)了革命性的轉(zhuǎn)變,數(shù)據(jù)密集型研究不斷加劇?!皵?shù)字人文”的出現(xiàn)不僅為傳統(tǒng)人文研究帶來了新方法,注入了新活力,還拓展了人文研究領(lǐng)域[1]。李泉在《數(shù)字人文:開創(chuàng)人文研究的新紀元》一文中指出:“數(shù)字人文堪稱人文研究的‘開天辟地’與‘創(chuàng)世紀’,能夠開創(chuàng)人文研究的新紀元”[2]。數(shù)字人文研究在世界各地如火如荼地展開,“大數(shù)據(jù)視域下數(shù)字人文研究”入選2018年度“中國十大學術(shù)熱點”,數(shù)字人文的高熱狀態(tài)在近幾年將一直持續(xù)下去[3]。圖情界如何為數(shù)字人文學者提供個性化的服務(wù)成為當前的棘手問題,畫像技術(shù)的發(fā)展為數(shù)字人文服務(wù)提供了新思路。

        1 數(shù)字人文個性化服務(wù)

        當前數(shù)字人文服務(wù)主要從基礎(chǔ)設(shè)施建設(shè)、技術(shù)體系框架及科研服務(wù)內(nèi)容等宏觀層面進行,如何進行數(shù)字人文個性化服務(wù)等以微觀層面研究較少[4]。針對個性化研究,周謙豪等設(shè)計了一款數(shù)字人文工具——inBooks,該工具不僅能通過紙本圖書的圖像獲取數(shù)字人文資源,還可以構(gòu)建個性化知識網(wǎng)絡(luò)[5];曾子明和秦思琪采用深度學習方法和哈希方法構(gòu)建了面向數(shù)字人文的移動視覺搜索模型,探討了圖像語義特征提取和檢索流程,為獲取數(shù)字人文視覺資源提供了新思路[6-7];上海圖書館推出家譜知識服務(wù)平臺,該平臺實現(xiàn)了基于概念的精確查詢,以“時間軸”“地圖”等為用戶提供可視化家譜數(shù)據(jù)展示[8]。以上研究從不同側(cè)面探討了數(shù)字人文領(lǐng)域的個性化服務(wù),然而這些研究遠遠無法滿足數(shù)字人文學者的個性化需求。針對數(shù)字人文特點及學者不同的研究興趣,如何提供優(yōu)質(zhì)的個性化服務(wù)仍是圖情界急需探索的難題。

        2 用戶畫像技術(shù)

        用戶畫像是一種刻畫用戶信息模型的技術(shù),在挖掘用戶真實數(shù)據(jù)的基礎(chǔ)上,按照需求提煉出用戶信息,呈現(xiàn)虛擬的用戶信息全貌,以此為基礎(chǔ)為用戶提供精準個性化服務(wù)[9]。用戶畫像技術(shù)近年引起了電子商務(wù)、金融、社交網(wǎng)絡(luò)等各界的廣泛關(guān)注和研究。圖情領(lǐng)域為了提供更貼合用戶需求的個性化服務(wù),也引入了用戶畫像。李丹等利用顯式和隱式相結(jié)合的方法獲取讀者信息,構(gòu)建讀者畫像,采用協(xié)同過濾的方法向讀者推薦興趣度排名靠前的N項內(nèi)容[10];劉海鷗等將情景興趣應用于讀者畫像,通過計算與當前情景相似的歷史情景獲取讀者感興趣的內(nèi)容[11];何娟在畫像模型中構(gòu)建了個人畫像和群體畫像,綜合二者的閱讀特征對讀者進行個性化推薦[12];張海濤等通過對中國知網(wǎng)和Web of Science中有關(guān)用戶畫像的文章進行定量和定性分析后,指出用戶畫像研究雖然取得了一些成果,但主要集中于社會化問答社區(qū)、數(shù)字圖書館和輿情傳播等主題,其他主題的研究比較薄弱[13]。隨著數(shù)字人文研究的快速發(fā)展,數(shù)字人文研究學者隊伍不斷壯大,成果數(shù)量急劇增多,學者對數(shù)據(jù)處理的技術(shù)服務(wù)需求進一步增強。如何利用用戶畫像刻畫出數(shù)字人文學者信息,針對具體需求提升數(shù)字人文學者的個性化服務(wù)水平值得深入研究。

        3 數(shù)字人文視域下學者畫像系統(tǒng)構(gòu)建

        數(shù)字人文學者在研究過程中經(jīng)常需要用到一些軟件工具,如SPSS、Eviews等[14],并且在數(shù)據(jù)管理計劃、元數(shù)據(jù)、數(shù)據(jù)倉儲與保存、數(shù)據(jù)出版、數(shù)據(jù)分析可視化等數(shù)據(jù)處理環(huán)節(jié)中,不同學者的關(guān)注點也不盡相同[15]。針對數(shù)字人文的特點,本文設(shè)計了一個數(shù)字人文學者畫像系統(tǒng),旨在從研究內(nèi)容、常用科研工具和所關(guān)注的數(shù)據(jù)處理環(huán)節(jié)等方面刻畫出數(shù)字人文學者特點,在此基礎(chǔ)上實現(xiàn)更貼合需求的數(shù)字人文個性化服務(wù)。

        3.1 數(shù)據(jù)的采集和處理

        學者數(shù)據(jù)信息是構(gòu)建畫像系統(tǒng)的基礎(chǔ)。學者數(shù)據(jù)主要包括基本信息、發(fā)表論文、內(nèi)容偏好、常用科研工具和所關(guān)注數(shù)據(jù)處理環(huán)節(jié)等5方面的內(nèi)容。其中基本信息包括學者姓名、年齡、性別、機構(gòu)、專業(yè)等,發(fā)表論文包括論文題目、發(fā)表期刊、發(fā)表時間等;內(nèi)容偏好是根據(jù)發(fā)表論文提取出的研究興趣與方向;常用科研工具包括SPSS、Eviews、SAS、ACCESS、Ucinet、CiteSpace、VOSviewer、Gephi等,數(shù)據(jù)處理環(huán)節(jié)包括數(shù)據(jù)管理計劃、元數(shù)據(jù)、數(shù)據(jù)倉儲與保存、數(shù)據(jù)出版、數(shù)據(jù)分析可視化等。

        本文采用改進的爬蟲技術(shù)從中國知網(wǎng)和學者主頁爬取學者的基本信息、論文、常用工具、關(guān)注的數(shù)據(jù)處理環(huán)節(jié)等信息。獲取的論文在經(jīng)過去重、去停用詞等預處理后,將論文用向量空間模型(Vector Space Model,VSM)表示,利用TF-IDF算法進行特征提取并賦予相應的權(quán)值,提取出論文的特征向量,將論文轉(zhuǎn)化為可以計算彼此相似度的向量。一篇論文可表示為:

        d=(t1,t2,…tn;w1,w2,…,wn)

        式中,n表示向量維度,tk表示論文第k個特征項,wk是tk(1≤k≤n)相應的權(quán)值。兩篇論文的相似度可以表示為:

        (公式1)

        sim()的取值范圍是[0,1],sim()越大,表示兩篇論文的相似度越高;相反,sim()越小,表示兩篇論文的相似度越低。在提取論文信息的基礎(chǔ)上分析得出學者的研究偏好,并對常用工具和關(guān)注的數(shù)據(jù)處理環(huán)節(jié)等內(nèi)容進行補充。

        3.2 數(shù)據(jù)聚類

        本文采用Single-Pass算法對論文進行聚類。按照論文到達的次序,將第一個到達的論文設(shè)為一個類簇C1,然后將后續(xù)到達的論文di與現(xiàn)有的類簇C計算相似度,選擇相似度最大的類簇Ci。如果相似度大于閾值θ,則把論文di歸入Ci,并更新Ci的向量;否則,將論文di設(shè)為一個新的類簇,直到將所有的論文都歸入相應類簇為止。

        本文以常用科研工具為依據(jù)對學者進行聚類。數(shù)據(jù)采集處理后,系統(tǒng)將保存常用工具信息表,該表列出所有的人文學者與其常用科研工具,如果學者使用該工具則用1表示,不使用則用0表示。如學者0001常使用SPSS和SAS而不使用Eviews,學者00002常使用Eviews和SAS而不使用SPSS(表1)。該表對每個學者使用的科研工具進行聚類。此外,每個科研工具對使用學者進行聚類,統(tǒng)計出每個科研工具的使用者(表2)。學者Si與學者Sj關(guān)于常用工具的相似度用公式(2)表示。

        sim(Si,Sj)=n/N

        (公式2)

        式中,n表示學者Si常用科研工具與學者Sj重復的數(shù)量,N表示學者Si常用科研工具的總數(shù)。對數(shù)據(jù)處理環(huán)節(jié)也進行類似聚類。

        表1 學者─常用科研工具對應表

        表2 常用工具─學者倒排表

        4 個性化服務(wù)

        4.1 興趣相近學者查詢

        為了促進科研交流合作,學者需要尋找與自己研究內(nèi)容相近的學者。本文設(shè)計了以下查詢途徑:第一,學者可以根據(jù)研究興趣相似度大小,直接從相應類簇中提取一定數(shù)量的學者;第二,學者可以根據(jù)同時使用的某一個或幾個常用科研工具尋找相應學者,也可以根據(jù)常用工具的相似程度尋找相應學者;第三,學者可以根據(jù)所關(guān)注的不同數(shù)據(jù)處理環(huán)節(jié)尋找相應學者。此外,學者還可以綜合權(quán)衡以上3種因素的相似度尋找相應學者,計算方法如公式(3)所示。

        sim(Si,Sj)=αsim1+βsim2+γsim3

        (公式3)

        式中,sim1表示學者Si和Sj的研究興趣相似度,sim2表示常用科研工具相似度,sim3表示關(guān)注數(shù)據(jù)處理環(huán)節(jié)相似度。系統(tǒng)根據(jù)用戶對3種因素的重視程度設(shè)置α、β和γ的值,其中0≤α,β,γ≤1,并且α+β+γ=1。系統(tǒng)根據(jù)學者需求,利用公式(3)提取一定數(shù)量的學者進行推送。

        4.2 文獻精準推送

        現(xiàn)有文獻根據(jù)Single-Pass算法形成穩(wěn)定的類簇。當有新文獻出現(xiàn)時,該文獻根據(jù)Single-Pass算法進行聚類,歸入類簇Ci,Ci中所有文獻都是圍繞同一主題展開的研究,存在強相關(guān)性,所有作者也具有相同的研究興趣。因此,系統(tǒng)將新文獻推送給類簇Ci中其他文獻的作者。

        4.3 其他推送內(nèi)容

        在學者根據(jù)研究興趣、常用科研工具及數(shù)據(jù)處理環(huán)節(jié)進行聚類后,系統(tǒng)根據(jù)具體需求進行精準推送。當舉行某個科研工具的培訓時,將培訓信息推送給使用該工具的所有學者;當舉行有關(guān)某個數(shù)據(jù)處理環(huán)節(jié)的會議時,將會議信息推送給關(guān)注該數(shù)據(jù)處理環(huán)節(jié)的學者;當需要尋找某個工具或數(shù)據(jù)處理環(huán)節(jié)的專家時,直接根據(jù)學者畫像推出相關(guān)專家名單。

        4.4 嵌入式服務(wù)

        數(shù)字人文館員嵌入科研過程,根據(jù)學者畫像,分析數(shù)字人文學者及團隊在科研過程中可能遇到的困難及需求,隨著科研進程的不斷推進,提供全方位的知識獲取、數(shù)據(jù)管理及科研工具支持等高層次服務(wù)。同時注重對學者數(shù)字人文研究素質(zhì)的培養(yǎng),特別是不斷提升其數(shù)據(jù)處理及科研工具使用的能力,營造數(shù)字人文研究的濃郁氛圍。

        5 結(jié)語

        針對數(shù)字人文個性化服務(wù)能力不足問題,本文提出了一種基于用戶畫像的個性化服務(wù)策略,從研究內(nèi)容、常用科研工具和所關(guān)注的數(shù)據(jù)處理環(huán)節(jié)等方面提取數(shù)字人文學者信息,構(gòu)建學者畫像,采用Single-Pass算法對論文進行聚類。分別以常用科研工具和所關(guān)注數(shù)據(jù)處理環(huán)節(jié)為依據(jù)對學者進行聚類。在此基礎(chǔ)上,為數(shù)字人文學者提供了興趣相近學者查詢、精準文獻服務(wù)及嵌入科研過程等個性化服務(wù),使數(shù)字人文學者從繁雜的資料收集和數(shù)據(jù)處理工作中解脫出來,將精力集中在解決科研問題本身上,有助于數(shù)字人文研究的快速發(fā)展。

        猜你喜歡
        畫像數(shù)據(jù)處理學者
        威猛的畫像
        學者介紹
        管子學刊(2022年2期)2022-05-10 04:13:10
        學者簡介
        認知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
        心理學報(2022年4期)2022-04-12 07:38:02
        學者介紹
        管子學刊(2022年1期)2022-02-17 13:29:10
        ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
        “00后”畫像
        畫像
        學者介紹
        基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應用
        成人免费xxxxx在线观看| 精品国产污黄网站在线观看| 亚洲av在线观看播放| 久久久久国色av免费观看性色| 少妇特黄a一区二区三区| 亚洲一区二区三区av在线免费| 中文字幕人妻久久一区二区三区| 日本少妇又色又爽又高潮| 国产成人精品一区二区不卡| 无码人妻少妇久久中文字幕蜜桃| 国产精品成人久久a级片| 精品综合一区二区三区| 日日摸天天摸人人看| 人妻无码一区二区在线影院 | 欧美在线三级艳情网站| 淫欲一区二区中文字幕| 国产乱码精品一区二区三区久久| 久久精品黄aa片一区二区三区| 欧洲中文字幕| 内射中出后入内射极品女神视频| 久久国语露脸国产精品电影| 青青草原精品99久久精品66| 亚洲国产成人精品激情资源9| 日韩在线精品免费观看| 成年免费a级毛片免费看无码| 亚洲日本va午夜在线电影| 538亚洲欧美国产日韩在线精品| av高潮一区二区三区| 成午夜精品一区二区三区| 久久久精品3d动漫一区二区三区| 日韩精品av在线一区二区| 麻豆精品国产av在线网址| 亚洲男人第一无码av网站| www.91久久| 成人性生交大片免费5| 免费看黑人男阳茎进女阳道视频| 欧美成人久久久| 最全精品自拍视频在线| 免费无码不卡视频在线观看| 呻吟国产av久久一区二区| 有码中文字幕一区二区|