袁 莎 唐 杰 顧曉韜
1(清華大學(xué)計算機(jī)科學(xué)與技術(shù)系 北京 100084) 2 (伊利諾伊大學(xué)厄巴納-香檳分校計算機(jī)科學(xué)系 伊利諾伊州厄巴納-香檳 61801) (yuansha@tsinghua.edu.cn)
用戶畫像是指通過獲取構(gòu)成用戶模型的不同維度屬性信息(如人口統(tǒng)計學(xué)特征、興趣偏好和行為模式等)進(jìn)行信息挖掘和分析應(yīng)用的過程.在互聯(lián)網(wǎng)時代,用戶畫像是實(shí)現(xiàn)精準(zhǔn)化推薦和個性化服務(wù)的基石,在電子商務(wù)、社會網(wǎng)絡(luò)分析以及互聯(lián)網(wǎng)服務(wù)等眾多領(lǐng)域有著廣泛的應(yīng)用.例如在電子商務(wù)系統(tǒng)中,用戶的歷史購物習(xí)慣和偏好對商品的定向推薦和營銷有著極其重要的作用;在社會網(wǎng)絡(luò)中,用戶的個人信息和社交交互數(shù)據(jù)能被用于好友推薦和社群發(fā)現(xiàn);電信網(wǎng)絡(luò)服務(wù)類行業(yè)依托用戶屬性實(shí)現(xiàn)個性化的訂制服務(wù).
雖然在不同的應(yīng)用中,實(shí)現(xiàn)用戶畫像的具體參數(shù)有所不同,但是實(shí)現(xiàn)用戶畫像的基礎(chǔ)技術(shù)是通用的.為了表述的準(zhǔn)確與清晰,以學(xué)者畫像為例進(jìn)行用戶畫像相關(guān)基礎(chǔ)理論與技術(shù)要點(diǎn)的闡述與分析.面向科研學(xué)者的用戶畫像技術(shù)為學(xué)術(shù)同行分類、專家推薦等功能提供了關(guān)鍵支持,科研學(xué)者畫像問題已經(jīng)受到了廣泛的關(guān)注,以研究學(xué)者為中心的學(xué)術(shù)智庫在國家自然科學(xué)基金委、科技部、中國工程院等權(quán)威部門展開應(yīng)用.
傳統(tǒng)的用戶畫像通常被當(dāng)作是一個工程問題,構(gòu)成用戶模型的屬性值是由人工收集的,或者是由用戶主動提供的.然而,人工數(shù)據(jù)收集往往需要花費(fèi)大量時間和資源,對人工資源要求高的同時,數(shù)據(jù)獲取的效率極其低下.此外,用戶通常不愿意花費(fèi)時間和精力填寫構(gòu)建用戶模型需要的屬性信息,由用戶輸入的信息很多情況下是不完整的或者不一致的.傳統(tǒng)用戶畫像面臨的這些問題使得建立大規(guī)模高質(zhì)量的用戶畫像數(shù)據(jù)庫成為難題.
近年以來,通過先進(jìn)的計算機(jī)技術(shù)進(jìn)行自動信息抽取逐漸取代手工方法成為主流.這類方法首先收集大規(guī)模的電子文檔,然后分別利用預(yù)定義的規(guī)則或者特定的機(jī)器學(xué)習(xí)模型抽取各項(xiàng)信息.例如,使用交互式信息提取方法幫助用戶將非結(jié)構(gòu)化數(shù)據(jù)(如網(wǎng)頁文檔或電子郵件)輸入數(shù)據(jù)庫[1],協(xié)助用戶填寫數(shù)據(jù)庫字段,減少用戶負(fù)擔(dān)的同時保證輸入數(shù)據(jù)的完整性;通過級聯(lián)混合模型從簡歷中自動抽取結(jié)構(gòu)化信息,實(shí)現(xiàn)了簡歷數(shù)據(jù)庫的自動構(gòu)建[2].然而,這類分別抽取不同屬性信息的方法非常低效,原因有2點(diǎn):1)對于每一個屬性,必須定義一個特定的規(guī)則,或者通過監(jiān)督學(xué)習(xí)訓(xùn)練一個特定的機(jī)器學(xué)習(xí)模型,屬性的增多導(dǎo)致規(guī)則和模型的增多,大量不同的規(guī)則和模型非常難以維護(hù);2)獨(dú)立的各種規(guī)則或模型不能充分利用不同屬性之間的依賴關(guān)系.此外,在開放互聯(lián)網(wǎng)中,這類方法雖然能自動抽取信息,然而卻難以應(yīng)對真實(shí)數(shù)據(jù)的動態(tài)變化.僅以著名社交網(wǎng)絡(luò)Twitter為例,其每日活躍用戶量達(dá)到2.5億以上,高峰期能夠產(chǎn)生每秒14萬條信息的數(shù)據(jù)量,通過線下數(shù)據(jù)庫動態(tài)追蹤、實(shí)時更新網(wǎng)絡(luò)信息是非常困難的,難以保證數(shù)據(jù)的時效性[3].
開放互聯(lián)網(wǎng)中的數(shù)據(jù),尤其是萬維網(wǎng)網(wǎng)頁數(shù)據(jù)(Web數(shù)據(jù))以指數(shù)級的速度迅猛增長.第41次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》指出,截至2017年12月,我國網(wǎng)民規(guī)模達(dá)7.72億,移動互聯(lián)網(wǎng)接入流量比上年同期累計增長158.2%,呈現(xiàn)指數(shù)增長趨勢[4].目前,基于Web的用戶畫像研究旨在從非結(jié)構(gòu)化的Web網(wǎng)頁文本中發(fā)現(xiàn)和挖掘結(jié)構(gòu)化的用戶信息.例如,文獻(xiàn)[5]基于GATE系統(tǒng)進(jìn)行Web網(wǎng)頁的分割和信息抽??;文獻(xiàn)[6]提出一種無監(jiān)督Web用戶畫像框架,在不依賴人工標(biāo)注的情況下實(shí)現(xiàn)自動抽取.然而,這些方法在當(dāng)今網(wǎng)頁數(shù)據(jù)的快速增長下仍然面臨著大規(guī)模數(shù)據(jù)帶來的存儲和計算壓力.
海量網(wǎng)絡(luò)數(shù)據(jù)易于獲取,并且蘊(yùn)含著豐富的信息,這為大規(guī)模用戶信息抽取提供了新的渠道和機(jī)遇,同時也面臨3個特點(diǎn)和挑戰(zhàn):
1) 數(shù)據(jù)量大.CINIC的統(tǒng)計數(shù)據(jù)表明:截至2017年12月,中國互聯(lián)網(wǎng)中Web網(wǎng)頁數(shù)達(dá)到2 604億個.即使在大型分布式系統(tǒng)的支持下,抓取、下載、索引這些網(wǎng)頁數(shù)據(jù)需要耗費(fèi)大量的存儲和網(wǎng)絡(luò)資源,傳統(tǒng)的數(shù)據(jù)挖掘和信息抽取算法在如此巨大的搜索計算空間中面臨著效率瓶頸,甚至無法有效運(yùn)行.在開放互聯(lián)網(wǎng)環(huán)境下,面對大規(guī)模真實(shí)數(shù)據(jù)的動態(tài)變化,如何進(jìn)行高效的信息抽取是亟需研究的問題.
2) 數(shù)據(jù)噪音.Web數(shù)據(jù)中除了蘊(yùn)含豐富的信息外,還混雜著大量的噪聲數(shù)據(jù),這些噪聲數(shù)據(jù)會干擾用戶畫像的質(zhì)量,這是伴隨大數(shù)據(jù)量而來的必然問題.例如,采用搜索引擎的查詢結(jié)果進(jìn)行信息抽取時,特定查詢詞的搜索結(jié)果往往包含了一些無關(guān)的詞條,錯誤的信息抽取結(jié)果會影響抽取精度.數(shù)據(jù)噪音是開放互聯(lián)網(wǎng)中信息抽取系統(tǒng)面臨的主要精度瓶頸.
3) 數(shù)據(jù)冗余.開放互聯(lián)網(wǎng)中,數(shù)據(jù)存在著大量的冗余信息,這些冗余信息蘊(yùn)含著隱含的關(guān)系模式.重要的信息在不同信息源中通常會重復(fù)出現(xiàn),充分利用冗余信息之間的關(guān)聯(lián)關(guān)系能充分挖掘更多的有用信息,同時幫助提升抽取信息的準(zhǔn)確度.
Fig.1 An example of scholar profiling圖1 學(xué)者畫像示例
雖然用戶畫像理論及相關(guān)技術(shù)已經(jīng)得到了較為廣泛的研究,但是在開放互聯(lián)網(wǎng)中的用戶畫像具有獨(dú)特性,其所面臨的數(shù)據(jù)量大、數(shù)據(jù)噪音和數(shù)據(jù)冗余等新挑戰(zhàn)致使傳統(tǒng)的用戶畫像理論、模型和方法均無法直接無縫地移植到開放互聯(lián)網(wǎng)中的用戶畫像系統(tǒng).近年來,許多研究人員都致力于開放互聯(lián)網(wǎng)中的用戶畫像研究,在理論、模型和方法等多個研究領(lǐng)域都進(jìn)行了開拓性的探索,并提出了創(chuàng)造性的研究成果.本文正是以此為背景,對開放互聯(lián)網(wǎng)中用戶畫像的現(xiàn)有研究成果進(jìn)行回顧,對相關(guān)的研究思路進(jìn)行溯源和比較,并給出了學(xué)者畫像系統(tǒng)的實(shí)現(xiàn)案例.
科學(xué)技術(shù)的發(fā)展帶來了大量的學(xué)術(shù)數(shù)據(jù),對于學(xué)術(shù)數(shù)據(jù)的挖掘越來越受到研究者的關(guān)注,很多學(xué)術(shù)系統(tǒng)都致力于學(xué)術(shù)信息挖掘的研究,如Libra,Rexa,DBLife等.學(xué)術(shù)信息挖掘的主要研究內(nèi)容有各種學(xué)術(shù)數(shù)據(jù)的結(jié)構(gòu)化組織,用元數(shù)據(jù)記錄各種數(shù)據(jù),如論文、研究者、會議等,學(xué)術(shù)信息的結(jié)構(gòu)化組織中論文的結(jié)構(gòu)化組織相對容易,技術(shù)也比較成熟,例如Citeseer,DBLP都提供論文的結(jié)構(gòu)化數(shù)據(jù),列出了論文的作者、題目、發(fā)表的會議、引用的參考文獻(xiàn)等.研究學(xué)者也是學(xué)術(shù)信息的重要數(shù)據(jù),是學(xué)術(shù)數(shù)據(jù)挖掘的重要研究方向,同時也是搭建學(xué)術(shù)社會網(wǎng)絡(luò)的基石.
學(xué)者畫像的例子如圖1所示.學(xué)者畫像的基本目標(biāo)是為每個學(xué)者建立檔案,包含學(xué)者的各種屬性:基本信息(如名字、照片、工作單位、職位等)、聯(lián)系信息(如電話、通信地址、Email等)、教育經(jīng)歷(如畢業(yè)學(xué)校、所獲學(xué)位的專業(yè)和時間等)、發(fā)表的論文以及研究興趣.對于學(xué)者畫像而言,有些畫像信息(如基本信息、聯(lián)系信息、教育經(jīng)歷)可以從其主頁或者Web網(wǎng)頁中獲取,有些畫像信息(如發(fā)表的論文)需要從在線數(shù)字圖書館(如DBLP,ACM等)整合得到,其他信息(如研究興趣)需要從已收集的信息中挖掘分析得到.
學(xué)者畫像的數(shù)據(jù)模式如圖2所示.完成學(xué)者畫像的數(shù)據(jù)標(biāo)注需要從非結(jié)構(gòu)化的數(shù)據(jù)中抽取目標(biāo)信息,如地址、職位、所在機(jī)構(gòu)、聯(lián)系方式等不同類別的屬性信息.經(jīng)過統(tǒng)計分析發(fā)現(xiàn),學(xué)者信息的各個屬性之間有依賴關(guān)系,有的屬性之間存在強(qiáng)依賴關(guān)系.舉例來說,科研學(xué)者的名字可以幫助識別其照片,因?yàn)檎掌拿瞧浔救说男栈蛎?在描述個人的教育經(jīng)歷時,比如科研學(xué)者獲得了博士學(xué)位 (PhD),那么獲得博士學(xué)位的專業(yè)(PhDmajor),獲得博士學(xué)位的日期(PhDdate)很可能出現(xiàn)在同一句話中,或者一個列表中.
Fig.2 Data pattern example of scholar profile圖2 學(xué)者畫像數(shù)據(jù)模式示例
由于Web數(shù)據(jù)本身的特性,針對Web用戶的信息抽取任務(wù)需要解決3個問題:
1) 快速信息檢索.對于不同類型的抽取任務(wù)構(gòu)造合適的方法從Web中快速找到盡可能多的相關(guān)網(wǎng)頁數(shù)據(jù),從而避免遺漏有效信息.
2) 排除數(shù)據(jù)噪音.Web數(shù)據(jù)中除了豐富的有效信息外,同時混雜著許多噪音數(shù)據(jù).噪音數(shù)據(jù)提供了錯誤的信息,影響抽取精度.在整合多源數(shù)據(jù)時,我們需要對噪音數(shù)據(jù)進(jìn)行識別和篩除.
3) 利用冗余數(shù)據(jù).Web數(shù)據(jù)中存在著大量冗余信息,其中又存在著隱含的關(guān)系模式.例如,重要的信息會在不同信息源中重復(fù)出現(xiàn).利用冗余數(shù)據(jù)之間的關(guān)系能夠捕捉到更多證據(jù),幫助我們對所抽取信息的真?zhèn)芜M(jìn)行更為準(zhǔn)確的判斷.
用戶畫像需要從非結(jié)構(gòu)化數(shù)據(jù)中抽取目標(biāo)信息,如地址、職位、所在機(jī)構(gòu)、聯(lián)系方式等,這往往依賴信息抽取方法及相關(guān)模型來實(shí)現(xiàn).信息抽取方法與模型是實(shí)現(xiàn)學(xué)者畫像的理論基礎(chǔ),本文將在第2節(jié)詳細(xì)介紹.實(shí)現(xiàn)學(xué)者畫像的3項(xiàng)基本任務(wù)將在第3節(jié)詳細(xì)介紹,主要包括3個方面:
1) 學(xué)者信息標(biāo)注.學(xué)者信息標(biāo)注需要基于開源異構(gòu)數(shù)據(jù)自動提取學(xué)者的相關(guān)描述信息,標(biāo)注學(xué)者信息并建立學(xué)者個人檔案,是實(shí)現(xiàn)學(xué)者畫像的一項(xiàng)最基本的任務(wù).學(xué)者信息標(biāo)注包括基本信息抽取和隱含屬性預(yù)測,用戶的隱含屬性指難以從表層文本中直接抽取的屬性數(shù)據(jù),如性別、年齡等.
2) 研究興趣挖掘.用戶興趣挖掘是指從用戶數(shù)據(jù)中獲取用戶的偏好信息以及和用戶相關(guān)的主題關(guān)鍵詞,從而挖掘出用戶興趣.研究興趣挖掘主要應(yīng)用于學(xué)者的研究方向發(fā)現(xiàn),可用于學(xué)術(shù)合作推薦.
3) 學(xué)術(shù)影響力預(yù)測.論文被引數(shù)是評估學(xué)者學(xué)術(shù)影響力的重要指標(biāo)之一,預(yù)測論文未來的被引數(shù)對學(xué)者科研水平評估及資助決策具有重要意義.
信息抽取方法是實(shí)現(xiàn)用戶畫像的基礎(chǔ)理論,根據(jù)實(shí)現(xiàn)原理可將其劃分為基于規(guī)則學(xué)習(xí)的方法、基于分類模型的方法和基于序列標(biāo)注的方法.
基于規(guī)則學(xué)習(xí)的方法認(rèn)為從大規(guī)模的自然語言數(shù)據(jù)中能夠提煉和學(xué)習(xí)出頻繁的規(guī)則或文本模式,并以此進(jìn)行信息抽取.例如“牛頓生于1643.”這句例句中能夠提取出“〈某人〉生于〈某年〉.”這樣的模式.將其與新的語料匹配時,即可從符合該模式的語料中抽取用戶的生日信息.依據(jù)具體實(shí)現(xiàn)方式的不同,基于規(guī)則學(xué)習(xí)的方法一般可劃分為基于詞典的方法和基于規(guī)則的方法.
2.1.1 基于詞典的方法
早期傳統(tǒng)的信息抽取系統(tǒng)采用基于詞典的方法進(jìn)行信息抽取,這類方法首先構(gòu)建模式詞典,然后利用詞典從未標(biāo)記的新文本中提取所需信息.基于詞典的方法實(shí)現(xiàn)的典型系統(tǒng)有AutoSlog[7],AutoSlog-TS[8]和CRYSTAL[9]等.實(shí)現(xiàn)這類系統(tǒng)的關(guān)鍵是如何習(xí)得模式詞典,然后將其用于識別新文本中的相關(guān)信息.
AutoSlog是第1個實(shí)現(xiàn)從文本訓(xùn)練集中學(xué)習(xí)模式詞典的系統(tǒng).AutoSlog系統(tǒng)使用預(yù)定義的13種語法模式,例如下述句法“主語、直接賓語,或名詞”是其中一種模式.AutoSlog系統(tǒng)需要使用語法解析器生成句子的語法元素(例如主語、動詞、介詞短語),然后將生成的語法元素與給定的語法模式匹配,利用最佳匹配構(gòu)建模式詞典.AutoSlog需要在提取模式前對文本進(jìn)行標(biāo)注,AutoSlog-TS系統(tǒng)改進(jìn)了這一缺點(diǎn).AutoSlog-TS不需要對輸入數(shù)據(jù)進(jìn)行完整的標(biāo)注,只需要標(biāo)注數(shù)據(jù)是否與主題相關(guān).CRYSTAL系統(tǒng)對少量已標(biāo)記文本(稱為種子詞語)采用自助抽樣法Bootstrapping從而生成詞典.具體地,CRYSTAL基于Bootstrapping利用種子詞典學(xué)習(xí)模式,然后使用已知模式標(biāo)記更多同類的種子詞語,這樣就能持續(xù)增量地得到模式詞典.
2.1.2 基于規(guī)則的方法
隨后出現(xiàn)利用一般規(guī)則替代詞典對文本進(jìn)行信息抽取的系統(tǒng),例如(LP)2[10],DIPRE[11]和Snowball[12]等.(LP)2是經(jīng)典的規(guī)則學(xué)習(xí)算法,基于(LP)2實(shí)現(xiàn)的自動標(biāo)注工具Amilcare能夠從訓(xùn)練數(shù)據(jù)里自動學(xué)習(xí)規(guī)則.早期很多標(biāo)注系統(tǒng)都是基于Amilcare實(shí)現(xiàn)的,如S-CREAM[13],MnM[14]和Melita[15].這些系統(tǒng)能夠在特定模板的網(wǎng)頁上取得較好的標(biāo)注效果,但是不能同時標(biāo)注多種類型的信息.如果需要標(biāo)注多種不同類型的信息,針對每一種新類型的信息,都需要重新學(xué)習(xí)一組規(guī)則,不能用于大規(guī)模的數(shù)據(jù)標(biāo)注.
DIPRE系統(tǒng)基于給定的已知事實(shí)例句,通過最長公共子句的方式歸納出規(guī)則,然后搜索與規(guī)則相關(guān)的更多例句,繼續(xù)歸納和擴(kuò)展規(guī)則.通過這種迭代式的半監(jiān)督框架,DIPRE系統(tǒng)能根據(jù)有限訓(xùn)練數(shù)據(jù)集自動搜索和擴(kuò)展模式庫,但是其嚴(yán)格的文本匹配方式會導(dǎo)致高遺漏率,并且迭代歸納過程中引入的錯誤種子數(shù)據(jù)會導(dǎo)致錯誤累積.Snowball系統(tǒng)延續(xù)了DIPRE的半監(jiān)督學(xué)習(xí)框架,但是放寬了模式匹配的條件,使得文本匹配的適用性大大提高.同時,其提出一系列方法以衡量學(xué)習(xí)到的模式與抽取到的目標(biāo)信息的可信度,及時篩除數(shù)據(jù)噪音,從而減少迭代過程中的錯誤累積問題.后續(xù)工作StatSnowball[16]則引入了更多統(tǒng)計與機(jī)器學(xué)習(xí)的技巧,進(jìn)一步提升效果.在數(shù)據(jù)驅(qū)動的模式學(xué)習(xí)基礎(chǔ)上,PATTY[17]引入文本解析樹等語言學(xué)特征進(jìn)行文本模式發(fā)現(xiàn).
這些經(jīng)典方法為文本模式學(xué)習(xí)提供了范式,然而也面臨著標(biāo)注數(shù)據(jù)不足、文本模式可擴(kuò)展性不高的問題.近年來,隨著Freebase等大規(guī)模知識圖譜的發(fā)展,許多工作轉(zhuǎn)而研究如何利用知識圖譜進(jìn)行遠(yuǎn)程監(jiān)督學(xué)習(xí).典型代表是Riedel等人在2013年提出的 Universal Schema方法[18].他們借鑒協(xié)同過濾算法,將目標(biāo)實(shí)體對看做用戶,將實(shí)體關(guān)系看做商品,將信息抽取轉(zhuǎn)化成商品推薦問題,即尋找目標(biāo)實(shí)體對最有可能符合的實(shí)體關(guān)系.他們將文本模式與知識圖譜中已有的實(shí)體關(guān)系共同作為學(xué)習(xí)目標(biāo),通過矩陣分解算法建立文本模式與目標(biāo)實(shí)體的向量表達(dá),從而更為廣泛地衡量文本模式和目標(biāo)實(shí)體間的隱含關(guān)系,以及文本模式間、文本模式與知識圖譜關(guān)系間的隱含相似度,從而取得了很好的效果.
綜合來說,基于規(guī)則學(xué)習(xí)的方法能夠從大規(guī)模語料庫中得到目標(biāo)信息實(shí)體在文本中的頻繁模式,并通過較為嚴(yán)格的文本匹配從目標(biāo)文本中抽取信息,從而具有較高的抽取精度,但在查全率上表現(xiàn)較差,缺乏可擴(kuò)展性,不適于大規(guī)模數(shù)據(jù)的信息抽取.
近年來,機(jī)器學(xué)習(xí)理論在信息抽取領(lǐng)域得到了成功的應(yīng)用,監(jiān)督機(jī)器學(xué)習(xí)方法為學(xué)者畫像中的信息抽取任務(wù)提供了強(qiáng)有力的工具.基于分類模型的信息抽取方法將信息抽取轉(zhuǎn)化為關(guān)系分類問題,即判斷2個目標(biāo)實(shí)體間是否滿足目標(biāo)關(guān)系,并給出判決結(jié)果.例如判斷“牛頓”與“1643年”之間是否存在“ 〈出生于〉”關(guān)系.依據(jù)信息抽取方法的發(fā)展趨勢,基于分類模型的方法可分為基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法.
2.2.1 基于機(jī)器學(xué)習(xí)的方法
傳統(tǒng)經(jīng)典的分類模型有邏輯斯蒂回歸(logistic regression, LR)、支持向量機(jī)(support vector machine, SVM)、決策樹(decision tree, DT)和樸素貝葉斯(Na?ve Bayes, NB)等.分類模型包含學(xué)習(xí)和預(yù)測2個階段.在學(xué)習(xí)階段,分類模型依據(jù)訓(xùn)練數(shù)據(jù)集訓(xùn)練模型;在預(yù)測階段,訓(xùn)練出的模型被用于預(yù)測一個未標(biāo)記的實(shí)例屬于正例或負(fù)例.在二分類場景下,這些模型接受一個數(shù)據(jù)點(diǎn)的特征向量,并給出其屬于正例或負(fù)例的預(yù)測.二分類模型可以通過對多個類別標(biāo)簽進(jìn)行“屬于/不屬于”的二值判斷擴(kuò)展成多分類模型.
將這類模型用于解決文本信息抽取問題時,首先通過命名實(shí)體識別等預(yù)處理過程得到候選實(shí)體,然后從上下文文本中抽取特征,并通過分類模型預(yù)測該候選實(shí)體是否是正確的信息.特征的構(gòu)造是影響分類模型識別準(zhǔn)確率的重要因素.用于文本信息抽取的特征主要分為語義特征和語法特征.語義特征指句子各成分間的依賴關(guān)系,取決于目標(biāo)實(shí)體在句子的依賴解析樹中的依賴路徑;語法特征指句子和實(shí)體上下文的淺層特征,常見的包括:目標(biāo)實(shí)體間的語序、目標(biāo)實(shí)體的詞表示、目標(biāo)實(shí)體的實(shí)體類型、目標(biāo)實(shí)體的 POS 標(biāo)簽、整句句子的詞袋表示、目標(biāo)實(shí)體間的解析樹路徑、目標(biāo)實(shí)體上下文的n-gram和skip-gram特征.
分類模型首先將這些特征處理成數(shù)值化的特征向量,然后利用有標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練,對無標(biāo)簽的數(shù)據(jù)進(jìn)行預(yù)測.其不足在于仍然依賴于人工定義的特征集合,使得其難以捕捉全部有用特征.同時,分類模型使用的函數(shù)簇也往往比較簡單,難以建模復(fù)雜的非線性關(guān)系.
2.2.2 基于深度學(xué)習(xí)的方法
深度學(xué)習(xí)方法利用神經(jīng)網(wǎng)絡(luò)模型和詞的分布式表達(dá)解決分類任務(wù).與基于特征的分類模型相比,深度學(xué)習(xí)模型有兩大優(yōu)勢.首先,深度學(xué)習(xí)模型中,單詞通過word2vec[19]等詞嵌入技術(shù)轉(zhuǎn)化為詞向量,包含了更多語義層面的隱含信息,從而使得模型能夠捕捉到詞語層面的相似關(guān)系;更重要的是,深度學(xué)習(xí)模型能夠進(jìn)行表示學(xué)習(xí),從原始數(shù)據(jù)中自動學(xué)習(xí)得到有用的特征,避免了人工特征構(gòu)造,同時能夠產(chǎn)生更為有效的特征表示.深度學(xué)習(xí)方法在信息抽取問題上主要應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò).
卷積神經(jīng)網(wǎng)絡(luò)將句子中的單詞以詞向量的形式疊加成句子矩陣,通過卷積和池化的操作捕捉詞與詞之間的語義特征,并且能夠應(yīng)對句子中詞語交換的問題.文獻(xiàn)[20]在槽填充任務(wù)上比較了卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)分類模型.其中,卷積神經(jīng)網(wǎng)絡(luò)將句子以目標(biāo)實(shí)體為分隔拆分成3個部分,對每個部分分別進(jìn)行卷積操作,從而得到上下文的特征表示,并對目標(biāo)實(shí)體進(jìn)行分類.結(jié)果顯示,卷積神經(jīng)網(wǎng)絡(luò)的性能要高于傳統(tǒng)分類模型.
遞歸神經(jīng)網(wǎng)絡(luò)為每個詞學(xué)習(xí)一個隱層表示,同時將上一個詞的隱層作為下一個詞的輸入,從而捕捉上下文關(guān)系.全局最后一個詞的隱層中包含了全句的語義信息.文獻(xiàn)[21]提出將長短時記憶機(jī)制加入遞歸神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行信息抽取,使得模型能夠適時地忽略一些信息,從而取得更好的效果.文獻(xiàn)[22]在此基礎(chǔ)上做了改進(jìn).他們在預(yù)處理時首先通過遞歸神經(jīng)網(wǎng)絡(luò)得到全句的向量表示,并將其加入模型的初始輸入,從而在學(xué)習(xí)單個詞語時考慮全句信息,提高了信息抽取的精度.
較之基于規(guī)則學(xué)習(xí)的方法,分類學(xué)習(xí)模型能夠自動學(xué)習(xí)特征與標(biāo)簽間的關(guān)系,避免了模式匹配帶來的高遺漏率,從而在效果上有較大提升.然而,這些模型沒有考慮目標(biāo)實(shí)體之間的關(guān)系這一重要信息,同時難以像規(guī)則學(xué)習(xí)那樣加入先驗(yàn)知識幫助求解.
信息抽取領(lǐng)域常用的序列標(biāo)注模型有最大熵Markov模型(maximum entropy Markov mode, MEMM)[23]、條件隨機(jī)場 (conditional random fields, CRFs)[24]、動態(tài)條件隨機(jī)場(dynamic conditional random fields, DCRFs)[25]和樹狀條件隨機(jī)場(tree conditional random fields, TCRFs)[26]等.基于序列標(biāo)注的方法一般基于條件概率模型.條件概率模型指給定觀察值序列X,找出其對應(yīng)的狀態(tài)序列Y,使得P(Y|X)最大.比較流行的條件概率模型包括最大熵模型(maximum entropy, ME)[27],由最大熵模型和序列模型結(jié)合引申出了MEMM和CRFs.
2.3.1 最大熵Markov模型MEMM
在最大熵Markov模型MEMM中,定義某個狀態(tài)的概率為p(yi|x)=p(yi|yi-1,x).該公式表明,某個序列的第i個觀察值取某個狀態(tài)的條件概率僅僅與該序列中前一個狀態(tài)的取值有關(guān).圖3畫出了MEMM的圖形結(jié)構(gòu).
Fig.3 The structure diagram of MEMM圖3 MEMM結(jié)構(gòu)圖
依據(jù)MEMM的定義,給定觀察值序列X,定義在該觀察值上的狀態(tài)值序列Y的條件概率為
MEMM的模型定義為
其中,Z(y,x)是歸一化函數(shù),它使得每個節(jié)點(diǎn)取所有狀態(tài)的概率之和為1;λk是待估計的參數(shù);fk是特征函數(shù).我們可以用通用迭代算法(generalized iterative scaling, GIS)算法或改進(jìn)迭代尺度算法(improved iterative scaling, IIS)從訓(xùn)練集合學(xué)習(xí)參數(shù)的值[23].特征函數(shù)一般定義為謂詞公式,也就是二值函數(shù),或者叫布爾函數(shù).在測試階段,對于序列模型,通常用Viterbi解碼這種動態(tài)規(guī)劃方法求解最可能的狀態(tài)序列.
2.3.2 條件隨機(jī)場CRFs
MEMM對于序列中每個節(jié)點(diǎn)都?xì)w一化,這會導(dǎo)致label-bias問題[24].為了解決該問題,研究者們提出了條件隨機(jī)場CRFs模型[24].
定義2.條件隨機(jī)場.令G=(V,E)為無向圖,其中V是節(jié)點(diǎn)集合,E是邊集合,X={Xv|v∈V}表示G中所有節(jié)點(diǎn)的值,Y={Yv|v∈V}表示對X的標(biāo)注結(jié)果.如果(X,Y)滿足Markov性質(zhì)[28]:
p(Yv|X,Yu,u≠v,{u,v}∈V)≡p(Yv|X,
Yu,{u,v}∈E),
即每個隨機(jī)變量相對于G中所有變量的條件概率等價于它相對于G中所有相鄰節(jié)點(diǎn)變量的條件概率,則稱(X,Y)為條件隨機(jī)場.
根據(jù)最大熵原理,可將CRFs中的條件概率定義為
pλ(y|x)=
其中:Zλ是歸一化因子,計算為
其中,fk是以y和x為參數(shù)的特征函數(shù),λk是模型需要學(xué)習(xí)的參數(shù)(可以看作對應(yīng)特征的權(quán)重).序列模型的學(xué)習(xí),即是從訓(xùn)練樣本中估計參數(shù)λk的值.用學(xué)習(xí)到的模型進(jìn)行標(biāo)注時,選擇條件概率最大的標(biāo)注序列y*,這與最大熵Markov模型類似,即:
很多方法都可以用來求解這個優(yōu)化問題,傳統(tǒng)的求解最大熵模型的算法如IIS,GIS都可以用來獲得CRF模型的參數(shù)[29].共軛梯度法算法(conjugate gradient, CG)[30]和L-BFGS算法(limited-memory quasi-Newton)[31]能取得比較好的訓(xùn)練效果,投票感知器算法(voted perceptron, VP)算法[32]也能夠有效地訓(xùn)練出CRFs模型的參數(shù).由于CRFs的求解代價較大,目前仍然有很多研究者探討求解CRFs的有效方法,如不采用Maximum Likelihood來求解CRFs,而采用Pseudo-Likelihood[33]求解CRFs,對于復(fù)雜的CRFs模型,又有研究者利用Piecewise的方法[34],或者采用Piecewise結(jié)合Pseudo-Likelihood的方法求解復(fù)雜的CRFs模型.
CRFs引入歸一化標(biāo)注因子,解決了MEMM中存在的label-bias問題.CRFs克服了MEMM模型的缺點(diǎn),它對整個序列做歸一化,而不是對序列中的某一狀態(tài)做歸一化.用CRFs進(jìn)行信息抽取實(shí)質(zhì)上是將信息抽取問題轉(zhuǎn)化為句子各部分的序列標(biāo)注問題,即在觀察到句子的各個實(shí)體部分情況下,推測它們對應(yīng)的標(biāo)簽值.
2.3.3 其他條件概率模型及小結(jié)
事實(shí)上像CRFs的定義一樣,任何具有Markov性的圖模型都可以稱為條件隨機(jī)場,目前有很多不同的條件隨機(jī)場模型,它們不僅能模擬序列數(shù)據(jù),而且能夠模擬各種復(fù)雜結(jié)構(gòu)的數(shù)據(jù),如網(wǎng)格狀數(shù)據(jù),樹狀數(shù)據(jù)、甚至一般的圖狀數(shù)據(jù).
動態(tài)的條件隨機(jī)場DCRFs推廣了線性的條件隨機(jī)場.在DCRFs中,每一個片都是一個小型的貝葉斯網(wǎng)絡(luò),片與片之間的交互相當(dāng)于線性CRFs的狀態(tài)轉(zhuǎn)移.樹狀條件隨機(jī)場Tree-CRF(TCRFs)可以描述信息之間的層次依賴關(guān)系.該模型是無環(huán)結(jié)構(gòu),求解起來相對容易.
表1列出了各種序列標(biāo)注模型、圖形表示以及求解算法.其中,MEMM是最大熵框架下的序列模型;CRFs最簡單的形式是線性CRFs;CRFs還包含一般的圖模型,例如DCRFs和TCRFs刻畫了數(shù)據(jù)的多種依賴關(guān)系,能夠更好地模擬數(shù)據(jù),但求解更為復(fù)雜,可用貝葉斯網(wǎng)絡(luò)里的Belief Propagation算法求解.
Table 1 Comparison of Conditional Probability Model表1 條件概率模型比較
Notes: The hollow circles represent the input, the solid circles represent the output.
較之規(guī)則學(xué)習(xí)和分類模型,基于序列標(biāo)注的方法能夠?qū)?shí)體間的關(guān)系進(jìn)行建模,可以描述目標(biāo)信息之間的依賴關(guān)系,有助于捕捉到更多信息,提高信息提取的準(zhǔn)確性.
信息抽取方法是實(shí)現(xiàn)學(xué)者畫像的基礎(chǔ),有了基礎(chǔ)理論的支持,本節(jié)對用戶畫像的3項(xiàng)基本任務(wù):學(xué)者信息標(biāo)注、研究興趣挖掘以及未來影響力預(yù)測的相關(guān)工作進(jìn)行概述.其中,學(xué)者信息標(biāo)注分為基本信息標(biāo)注和隱含屬性預(yù)測,例如主頁、郵箱、職位及辦公地址等信息為基本信息,此類基本信息可以從文本數(shù)據(jù)中顯式抽取,性別和國籍則可能是需要預(yù)測的隱含屬性;研究興趣可以由學(xué)者主頁提取,或者由學(xué)者發(fā)表的論文內(nèi)容提取;學(xué)者的學(xué)術(shù)影響力通常由H-index值和論文引用數(shù)體現(xiàn).
研究學(xué)者的信息大多包含在學(xué)者的個人主頁或者介紹性網(wǎng)頁中,包含在其發(fā)表的論文中.信息來源的復(fù)雜性和信息格式的多樣性使學(xué)者的個人信息標(biāo)注成為學(xué)術(shù)信息挖掘的一個重大挑戰(zhàn).
根據(jù)標(biāo)注方法的自動化程度,可以將信息的語義標(biāo)注分為手工標(biāo)注、半自動標(biāo)注和自動標(biāo)注.手工標(biāo)注研究學(xué)者的基本信息非常繁瑣,并且耗時耗力.已有研究工作表明自動標(biāo)注能夠從網(wǎng)頁中提取有效信息,驗(yàn)證了自動標(biāo)注的可行性和有效性.半自動標(biāo)注利用一個預(yù)先制定的模板,或者針對每個屬性學(xué)習(xí)出一個特定的模型來解決各個屬性值的提取問題.但是,采用分別提取各個屬性的技術(shù)效率很低.半自動標(biāo)注技術(shù)先天上存在2個缺點(diǎn):針對個人信息的每一個屬性,都必須定義一個特定模板,或者學(xué)習(xí)一個特定模型,屬性的增多導(dǎo)致模板和模型的增多,這些模板和模型比較難維護(hù),訓(xùn)練時間也會很長;分散的規(guī)則或者模型不能夠利用各個屬性之間的依賴關(guān)系,而開放互聯(lián)網(wǎng)中的Web數(shù)據(jù)特點(diǎn)是各個屬性之間存在很強(qiáng)的依賴關(guān)系.自動標(biāo)注模型需要利用屬性間的相互依賴關(guān)系去提高識別各個屬性的準(zhǔn)確度.
定義3.學(xué)者信息自動標(biāo)注模型.模型由2部分組成:學(xué)習(xí)和標(biāo)注.學(xué)習(xí)模塊的輸入是已標(biāo)注好的文檔(即訓(xùn)練文檔集{D1,D2,…,Dn}和其對應(yīng)的標(biāo)注結(jié)果{y1,y2,…,yn}),學(xué)習(xí)模塊通過分析訓(xùn)練樣本中標(biāo)注信息的分布,學(xué)習(xí)輸出標(biāo)注模型;標(biāo)注模塊的輸入是待標(biāo)注文檔集(即測試文檔集{Dn+1,Dn+2,…,Dn+m}),標(biāo)注系統(tǒng)利用標(biāo)注模型識別測試文檔中的語義信息,并利用本體進(jìn)行描述,最后輸出標(biāo)注結(jié)果{yn+1,yn+2,…,yn+m}.
3.1.1 問題描述
學(xué)者信息標(biāo)注指基于本體對包含個人信息的文檔進(jìn)行語義描述,生成本體的實(shí)例.圖4給出了學(xué)者信息語義標(biāo)注的實(shí)例.本體定義了:個人的名字(Name)、地址(Address)、聯(lián)系電話(Phone)等.語義標(biāo)注根據(jù)本體從文檔中抽出相應(yīng)信息,實(shí)例中的標(biāo)注輸出基于本體的語義內(nèi)容.例如:在輸出的標(biāo)注結(jié)果中,“+8610-62788788-20”被標(biāo)注為Phone,也稱為本體元數(shù)據(jù)電話號碼(Phone)的標(biāo)注實(shí)例.
Fig.4 An example of semantic annotation for scholars圖4 學(xué)者信息語義標(biāo)注示例
3.1.2 相關(guān)工作
早期研究工作集中在從特定結(jié)構(gòu)的文檔中抽取信息,例如借助交互式信息提取方法從電子郵件中抽取用戶聯(lián)系方式,協(xié)助用戶構(gòu)建數(shù)據(jù)庫[1];Yu等人通過級聯(lián)混合模型從簡歷中自動抽取結(jié)構(gòu)化信息[2],首先將簡歷分割成連續(xù)的區(qū)塊并標(biāo)注其類型,然后利用機(jī)器學(xué)習(xí)方法從特定的信息塊中抽取特定信息,比如從聯(lián)系信息塊中抽取地址和電話等.這些研究集中于特定格式的文檔,對源數(shù)據(jù)的格式有很大的限制,無法用于開放互聯(lián)網(wǎng)環(huán)境中.當(dāng)數(shù)據(jù)量增大時,這類方法面臨著存儲和計算的壓力,可擴(kuò)展性差.同時,這種被動抽取的方式只能從給定的數(shù)據(jù)中進(jìn)行抽取,無法應(yīng)對主動查詢的要求,無法做到在線的信息抽取.
科研學(xué)者的信息大多包含在其個人主頁或介紹性網(wǎng)頁中,目前許多工作開始關(guān)注于從更廣泛的Web數(shù)據(jù)中抽取用戶信息.例如信息抽取系統(tǒng)Artequakt[5]利用基于規(guī)則的抽取工具GATE[35]從Web網(wǎng)頁中抽取命名實(shí)體和它們之間的關(guān)系.文獻(xiàn)[6]提出了從Web數(shù)據(jù)中以無監(jiān)督的方式抽取信息.文獻(xiàn)[36]提出了利用搜索引擎進(jìn)行研究者畫像的框架,首先通過分類模型從搜索引擎中找到用戶的個人主頁,然后從相對結(jié)構(gòu)化的個人主頁中抽取不同類別的文本信息.針對鏈?zhǔn)綏l件隨機(jī)場無法建模層次化的HTML數(shù)據(jù)的問題,利用樹形條件隨機(jī)場模型TCRF進(jìn)行網(wǎng)頁內(nèi)容的識別.通過將HTML文檔轉(zhuǎn)化成DOM樹結(jié)構(gòu),利用HTML的層次化標(biāo)簽數(shù)據(jù)信息進(jìn)行更精確的數(shù)據(jù)劃分和預(yù)測,在電子郵件地址、機(jī)構(gòu)信息等抽取問題上取得了85%以上的F1分?jǐn)?shù)(F1 Score),是目前相關(guān)問題的前沿方法.
除了個人基本信息外,也有一些工作研究用戶隱含屬性的抽取.用戶隱含屬性是指難以從表層文本中直接抽取的人口學(xué)信息,例如性別、年齡等.這些用戶屬性對用戶行為和用戶之間的交互有著深刻的影響,也是我們理解用戶行為的關(guān)鍵信息,對于許多線上系統(tǒng)有著重要價值.然而,高質(zhì)量的用戶屬性信息卻非常難以獲取,成為稀缺資源,也由此催生了許多嘗試自動預(yù)測用戶屬性的研究工作.大多數(shù)相關(guān)工作在特定類型的用戶數(shù)據(jù)領(lǐng)域開展,例如文獻(xiàn)[37]嘗試從用戶的瀏覽行為中推測用戶性別;文獻(xiàn)[38]和文獻(xiàn)[39]分別從游戲中的社交行為和搜索引擎的查詢習(xí)慣2個角度出發(fā)預(yù)測用戶性別.
在社會網(wǎng)絡(luò)研究中,也有許多工作從年齡[40]、地理位置[41-42]、身份識別[43]等多個角度嘗試?yán)蒙缃痪W(wǎng)絡(luò)信息預(yù)測用戶屬性.文獻(xiàn)[44]細(xì)致地在移動網(wǎng)絡(luò)中對用戶屬性的預(yù)測和觀察,在大規(guī)模的語音電話、短信網(wǎng)絡(luò)上,基于用戶的通信行為利用概率因子圖模型同時對用戶的年齡和性別進(jìn)行預(yù)測,同時提出了用戶行為模式和隱含屬性之間的關(guān)聯(lián).然而,他們的方法都是針對特殊數(shù)據(jù)高度訂制的,擴(kuò)展性較差,無法整合多源數(shù)據(jù).一些工作意識到了多源數(shù)據(jù)的重要性,嘗試通過整合多個數(shù)據(jù)源提高預(yù)測精度.例如文獻(xiàn)[41]和文獻(xiàn)[45-46]中的工作嘗試整合Facebook,Google Plus以及Twitter的數(shù)據(jù)進(jìn)行多源屬性預(yù)測,取得了顯著的精度提升.
基于名字的性別預(yù)測方法[47]具有較好的效果,該方法從Facebook中抽取大量用戶信息,根據(jù)他們的姓名和性別生成詞典,從而計算每個名字的用戶從屬于某個性別的概率.此方法簡單有效,在實(shí)際實(shí)驗(yàn)中取得了近90%的精度,并被應(yīng)用于Genderize等性別預(yù)測系統(tǒng)中.該方法的性能完全依賴于姓名-性別詞典的質(zhì)量和覆蓋率,系統(tǒng)需要維護(hù)和擴(kuò)充一個巨大的詞典,卻仍然難以保證高覆蓋率.
目前針對Web數(shù)據(jù)的信息抽取工作中,層次化基本信息標(biāo)注存在錯誤累積的缺陷.利用用戶的行為數(shù)據(jù)進(jìn)行隱含屬性預(yù)測的研究工作,揭示了隱含屬性與行為模式之間的相關(guān)關(guān)系,但在單向的隱含屬性預(yù)測任務(wù)上依賴于用戶屬性與用戶行為的關(guān)聯(lián)度,難以保證預(yù)測精度.
研究興趣是學(xué)者畫像的重要組成部分,其不僅是學(xué)者本身的研究心得或研究拓展方向的集中體現(xiàn),也能從中窺視不同背景的學(xué)者對研究熱點(diǎn)領(lǐng)域或?qū)W科研究趨勢的關(guān)注度和敏感度.研究興趣挖掘指從學(xué)者數(shù)據(jù)中獲取學(xué)者研究的偏好信息以及和學(xué)者研究相關(guān)的主題關(guān)鍵詞.
3.2.1 問題描述
研究表明僅有21.3%的學(xué)者會在其主頁中給出研究興趣[36],現(xiàn)有工作通常由學(xué)者本人發(fā)表的論文著作中提取其研究興趣,采用概率話題模型求解.
定義4.學(xué)者研究興趣.論文z由一系列的詞語wi以及該詞語在文中出現(xiàn)的概率p(wi|z)來表示,也即z={(w1,p(w1|z)),(w2,p(w2|z)),…,(wN,p(wN|z))},則研究學(xué)者x的研究興趣可表示為{p(z|x)}x.
3.2.2 相關(guān)工作
用戶興趣挖掘指從用戶數(shù)據(jù)中獲取用戶的偏好信息以及和用戶相關(guān)的主題關(guān)鍵詞.許多早期的研究工作嘗試從用戶相關(guān)的文檔中挖掘用戶興趣.例如,文獻(xiàn)[48]收集用戶對感興趣網(wǎng)頁的評價結(jié)果用于構(gòu)建用戶畫像,依據(jù)用戶畫像信息推測用戶對網(wǎng)站主題的偏好,由此使用搜索引擎可以快速獲取用戶感興趣的特定主題頁面.此外,他們發(fā)現(xiàn)當(dāng)訓(xùn)練數(shù)據(jù)較少時,引入詞典信息會增加用戶興趣挖掘的準(zhǔn)確度,但是當(dāng)數(shù)據(jù)量增大時提升效果不再明顯.文獻(xiàn)[49]開發(fā)了個性化的網(wǎng)頁瀏覽器,能夠自動學(xué)習(xí)用戶信息,并用于幫助用戶尋找感興趣的網(wǎng)頁;文獻(xiàn)[50]研究了如何用啟發(fā)式的方法獲取用戶興趣關(guān)鍵詞,將機(jī)器學(xué)習(xí)方法應(yīng)用于用戶畫像.
近年來的研究工作更多地探索了用戶行為數(shù)據(jù)與用戶興趣主題之間的關(guān)聯(lián).文獻(xiàn)[51]提出了從Twitter數(shù)據(jù)中挖掘用戶的興趣關(guān)鍵詞,基于上下文特征和行為特征,采用遠(yuǎn)程監(jiān)督方法對政黨候選人發(fā)布的內(nèi)容進(jìn)行建模,預(yù)測Twitter用戶的政治偏好;文獻(xiàn)[52]從用戶行為軌跡數(shù)據(jù)出發(fā)挖掘用戶偏好,將非平穩(wěn)的、時間異構(gòu)的用戶軌跡在隱含隨機(jī)環(huán)境中分解成短的隨機(jī)步長,分解后的軌跡在短時間尺度上是平穩(wěn)的,可使用Markov隨機(jī)過程進(jìn)行建模挖掘用戶在不同時間的興趣偏好; 文獻(xiàn)[53]通過一個統(tǒng)一的概率模型對用戶行為背后的用戶偏好以及他們的社會網(wǎng)絡(luò)鏈接進(jìn)行了研究,發(fā)現(xiàn)用戶的興趣與社會網(wǎng)絡(luò)信息之間是互利的關(guān)系.
評估科學(xué)家過去和未來的潛在影響是人才招聘和資助決策的關(guān)鍵,論文引用數(shù)一直是評價學(xué)術(shù)影響力的重要指標(biāo).目前科技論文的數(shù)量飛速增長,預(yù)測學(xué)者已有論文的未來引用數(shù)對學(xué)者科研水平評估及資助決策具有重要意義.
3.3.1 問題描述
3.3.2 相關(guān)工作
信息爆炸時代,隨著科技文獻(xiàn)數(shù)量的迅猛增長,只有很少部分文獻(xiàn)獲得廣泛關(guān)注[54].用一種動態(tài)評估的方法預(yù)測單個項(xiàng)目的流行度的能力,在營銷、政策制定和風(fēng)險管理等領(lǐng)域都具有重要意義.早期對未來流行度的預(yù)測可主要分為2類方法,每類都有已知的優(yōu)勢和局限性.1)側(cè)重于在項(xiàng)目集合上再現(xiàn)某些統(tǒng)計量[55],這類模型已經(jīng)成功地理解了流行動態(tài)的基本機(jī)制,然而沒有提供獲取具體參數(shù)的方法,這些模型缺乏對個人行為的動態(tài)預(yù)測能力;2)將人氣動態(tài)視為時間序列,通過時間相關(guān)性來進(jìn)行預(yù)測流行度[56],盡管這類方法在某些領(lǐng)域取得了初步的成功,但是這些模型是確定性的,流行動態(tài)建模忽略了注意力的下降過程.
Yan等人[57]引入引文數(shù)預(yù)測任務(wù),基于科學(xué)出版物的內(nèi)容、作者、地點(diǎn)和出版年設(shè)計特征.為了獲得作者排名,計算每個作者以前年份的平均引用數(shù),并根據(jù)其他作者的數(shù)量確定排名;Yan等人[58]擴(kuò)大了特征空間,但結(jié)果仍然表明,作者排名是特征空間中影響最大的因素;Livne等人[59]從Microsoft Academic Search中提取大量不同的數(shù)據(jù)集.這個數(shù)據(jù)集包含3 800萬篇論文,分為七大學(xué)術(shù)領(lǐng)域.對于引文統(tǒng)計問題,他們根據(jù)作者的姓名、作者機(jī)構(gòu)、地點(diǎn)、參考文獻(xiàn)和論文內(nèi)容構(gòu)建特征.通過使用SVR發(fā)現(xiàn)最重要的一組特征是基于引用網(wǎng)絡(luò)的特征,即出版社和參考文獻(xiàn)的影響因子是文獻(xiàn)計量最顯著的決定因素.
Shen等人[60]提出了一個生成概率框架,基于加強(qiáng)泊松過程明確地建立了單個項(xiàng)目獲得普及的過程,預(yù)測流行動態(tài).該模型結(jié)合了流行動力學(xué)的3個關(guān)鍵要素:表征內(nèi)在吸引力的恰當(dāng)參數(shù)、解釋注意力老化效應(yīng)的時間松弛函數(shù),以及與流行動力學(xué)中“富者更富”效應(yīng)對應(yīng)的強(qiáng)化機(jī)制.該模型的優(yōu)點(diǎn)體現(xiàn)在3個方面:1)直接模擬個體關(guān)注的到達(dá)過程;2)漸進(jìn)概率模型可以很容易地納入貝葉斯框架來解釋外部因素,從而提高預(yù)測能力;3)選擇特定松弛函數(shù)的靈活性使其成為一個通用的框架,可以用來調(diào)整不同領(lǐng)域的人際動態(tài).
Pobiedina等人[61]依據(jù)圖挖掘技術(shù),將引文計數(shù)預(yù)測任務(wù)作為引文網(wǎng)絡(luò)中鏈接預(yù)測問題,其中,論文的引用次數(shù)等于網(wǎng)絡(luò)節(jié)點(diǎn)的入度,其出度對應(yīng)于參考文獻(xiàn)的數(shù)量,由于出度在過去幾年中保持不變,因此出現(xiàn)新的鏈接意味著相應(yīng)論文的引用次數(shù)增加.在引用網(wǎng)絡(luò)中利用頻繁的圖模式挖掘,基于挖掘模式計算新特征GERscore,解決引文數(shù)預(yù)測問題.
AMiner[62]是一個學(xué)術(shù)科技大數(shù)據(jù)分析與挖掘系統(tǒng).AMiner自動從開放互聯(lián)網(wǎng)中抽取學(xué)者信息,建立了1.36億的學(xué)者檔案及科技智庫,為科研人員及機(jī)構(gòu)提供學(xué)者搜索/推薦、專家發(fā)現(xiàn)、成果評價、技術(shù)發(fā)展趨勢分析等知識服務(wù)及核心技術(shù)支持.
AMiner系統(tǒng)的核心模型與算法包括:基于話題的影響力分析模型,自動生成實(shí)體之間基于不同話題層次的影響力強(qiáng)度;概率因子圖模型用于識別網(wǎng)絡(luò)中不同類型的關(guān)系(如師生關(guān)系,合作關(guān)系等);基于社會知識圖譜的學(xué)者研究興趣分析;學(xué)者多維度評價等核心算法.AMiner系統(tǒng)的應(yīng)用層提供了多種知識服務(wù),包括:支持按權(quán)威度、地域、語種、性別等過濾條件的專家發(fā)現(xiàn),按H-Index、論文數(shù)、引用數(shù)、活躍度、社交性、領(lǐng)域多樣性等學(xué)者成果多維評價,學(xué)者歷年研究興趣發(fā)展變化趨勢分析,以及學(xué)者語義信息抽取、學(xué)者檔案管理,權(quán)威機(jī)構(gòu)搜索、話題發(fā)現(xiàn)與趨勢分析、基于話題的社會影響力分析、即時社會關(guān)系圖搜索、文獻(xiàn)與審稿人推薦、學(xué)者的線上社交以及交互式文獻(xiàn)閱讀等多種功能及知識服務(wù).
鑒于AMiner在學(xué)者畫像領(lǐng)域的權(quán)威性,本節(jié)介紹AMiner系統(tǒng)里學(xué)者畫像模塊3個基本任務(wù)的實(shí)現(xiàn)機(jī)理.
AMiner發(fā)布的研究成果顯示約有85.62%的研究學(xué)者來自于大學(xué)或科研機(jī)構(gòu),14.38%的研究學(xué)者來自公司.對于來自同一個公司的研究者,他們的網(wǎng)頁可能共享相同的模板,基于規(guī)則學(xué)習(xí)的信息標(biāo)注方法可能很有效.但是,不同的公司有不同的模板,很難定義一個統(tǒng)一的模板,有效地提取各種信息.對于來自學(xué)校的研究者,由于研究者各自的喜好不同,網(wǎng)頁的布局和內(nèi)容都千差萬別.約71.88%是個人主頁,其余的網(wǎng)頁是介紹性網(wǎng)頁.這2種網(wǎng)頁具有不同的特點(diǎn),比如個人主頁可能聯(lián)系方式等信息以列表的方式給出,而介紹性網(wǎng)頁多以自然語言給出研究者的各種信息,有可能缺失聯(lián)系信息.此外,個人信息的各個屬性的實(shí)例(各個屬性相應(yīng)的值)中,約40%的屬性以表格或列表形式給出,約60%的屬性則隱含在自然語言中.
在AMiner系統(tǒng)中,學(xué)者信息標(biāo)注采用的是統(tǒng)一標(biāo)注模型,包括3個主要步驟:主頁查找,預(yù)處理和信息標(biāo)注.在主頁查找中,給定研究學(xué)者的名字,通過搜索引擎得到一系列網(wǎng)頁,而后訓(xùn)練一個分類器來判定這些網(wǎng)頁是否是個人主頁或者包含很多研究者信息的介紹性網(wǎng)頁,最后把確認(rèn)的網(wǎng)頁的URL作為個人信息的屬性Homepage的值.
AMiner采用條件隨機(jī)場作為標(biāo)注模型.條件隨機(jī)場模型CRFs的目標(biāo)函數(shù)為
pλ(y|x)=
其中,x代表觀察值,即網(wǎng)頁中的token,y代表觀察值相應(yīng)的標(biāo)簽,即本文定義的研究者個人信息的各種屬性.f代表數(shù)據(jù)的特征,λ是各特征的系數(shù),需要通過訓(xùn)練數(shù)據(jù)學(xué)到.
進(jìn)一步地,AMiner引入先驗(yàn)知識進(jìn)一步提高抽取精度.基于Markov邏輯因子圖模型,通過關(guān)系因子建模候選實(shí)體間的冗余關(guān)系,利用一階邏輯知識庫引入先驗(yàn)知識,篩除不符合常識的錯誤實(shí)體,從而提高抽取系統(tǒng)的準(zhǔn)確性.AMiner設(shè)計了3種關(guān)系因子:局部屬性因子、局部邏輯因子和關(guān)系邏輯因子.
局部屬性因子定義了特征向量xi和標(biāo)簽值yi間的數(shù)值關(guān)系,局部屬性因子表達(dá)式為
其中,F(xiàn)為所有特征函數(shù)的集合,Zf將函數(shù)值歸一化成概率值,即給定xi的情況下對應(yīng)標(biāo)簽值為yi的概率.局部邏輯因子由一階邏輯知識庫中僅涉及單實(shí)體的局部邏輯給出,記第m條局部邏輯的示性函數(shù)為um,當(dāng)xi和yi滿足該邏輯時um的值為1,否則為0,類比局部屬性因子,局部邏輯因子的表達(dá)式為
關(guān)系邏輯因子由一階邏輯知識庫中描述實(shí)體之間關(guān)系的關(guān)系邏輯給出,記第k條關(guān)系邏輯的示性函數(shù)為rk,當(dāng)yi和yj滿足該邏輯時rk的值為1,否則為0,類比局部邏輯因子,關(guān)系邏輯因子的表達(dá)式為
引入Markov假設(shè),即圖模型中的任一變量獨(dú)立于所有非鄰節(jié)點(diǎn)的其他變量.在給定包含所有變量節(jié)點(diǎn)和因子節(jié)點(diǎn)的圖模型G時,標(biāo)簽值Y的條件概率為
通過Markov邏輯因子圖模型,得以在基于分類模型的信息抽取方法基礎(chǔ)上加入先驗(yàn)知識和冗余實(shí)體間的關(guān)系,提高信息抽取精度.
相對于各類單獨(dú)的方法,統(tǒng)一標(biāo)注模型有2個優(yōu)勢:1)對于個人信息的各個不同屬性的標(biāo)注是相互關(guān)聯(lián)的,而不是獨(dú)立的.基于規(guī)則學(xué)習(xí)的方法和基于分類模型的方法都要針對每個屬性單獨(dú)學(xué)習(xí)規(guī)則或訓(xùn)練模型,它們不能同時標(biāo)注各個屬性.而統(tǒng)一模型能夠克服這一缺點(diǎn),在統(tǒng)一框架下同時標(biāo)注個人信息的各個屬性,并且達(dá)到更高的標(biāo)注精度.2)個人信息有很多特定的屬性和屬性值,如果利用基于規(guī)則學(xué)習(xí)的方法或者基于分類模型的方法,我們必須學(xué)習(xí)特定的規(guī)則和分類器去處理各種不同的情況,這會導(dǎo)致模型個數(shù)增多,難以管理、控制.大規(guī)模標(biāo)注采用這些方法是不可行的.相反,統(tǒng)一模型能夠訓(xùn)練一個模型去標(biāo)注不同類型的屬性,一次就能夠解決所有的標(biāo)注子任務(wù).
與其他用戶信息不同,興趣關(guān)鍵詞很難區(qū)分正確與否,多個關(guān)鍵詞保留了用戶不同角度的特征.學(xué)者研究興趣沒有準(zhǔn)確的評判標(biāo)準(zhǔn),多數(shù)情況依賴于人工標(biāo)注.AMiner系統(tǒng)采用主題模型對抽取到的興趣關(guān)鍵詞進(jìn)行聚類,以期找出用戶的興趣主題.
AMiner采用文檔主題生成模型(latent Dirichlet allocation, LDA)作為生成模型.LDA是一個用于描述離散數(shù)據(jù)的生成模型[63].LDA假定文本中的每個單詞是由一些混合的話題產(chǎn)生的,每個話題都有一定的權(quán)重,即:
而p(z)又由一個Dirichlet分布產(chǎn)生.LDA是潛在語義分析(latent semantic analysis, LSA)[64]和概率潛在語義分析(probabilistic latent semantic analysis, PLSA)[65]的延伸.這些模型都是為了分析文本的潛在結(jié)構(gòu),比如話題.話題能夠捕獲文本的語義信息,幫助找到文本里意思相同或相近的單詞,這使得信息檢索時能夠找到和查詢中的單詞語義相關(guān)的文檔而不只是包含查詢單詞的文檔.
LDA的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,圖5中K為主題個數(shù),M為文檔總數(shù),V是給定某個文檔中的單詞總數(shù),α和β分別是每個Topic下詞的多項(xiàng)式分布和每個文檔下Topic的多項(xiàng)分布的Dirichlet先驗(yàn)參數(shù).LDA模型中的變量總結(jié)于表2.
Fig.5 An example of semantic annotation for scholars圖5 LDA結(jié)構(gòu)圖
Table 2 Notations in LDA表2 LDA模型中的變量和標(biāo)記
根據(jù)LDA的圖模型,給出LDA中的聯(lián)合概率分布:
p(w,z|α,β)=p(w|z,β)p(z|α)=
LDA模型中有一組隱含變量z,要估計的參數(shù)是θ和Φ.LDA模型有多種求解方法,常用的有變分期望最大化算法(variational expectation-maximi-zation, VEM)[63]、吉布斯采樣(Gibbs sampling)[66]和期望傳播方法(expectation propagation)[67].由于Gibbs sampling方法比較容易實(shí)現(xiàn),AMiner系統(tǒng)中采用了它.Gibbs sampling使用采樣的方法,構(gòu)建Markov鏈,逼近目標(biāo)概率分布.Gibbs sampling需要求解條件概率p(zi|z-i,w),從這個概率可以為當(dāng)前單詞抽樣出一個topic.利用聯(lián)合概率公式,可以得到條件概率的計算公式:
(1)
其中,nw,k,-i表示單詞w被指派到topick的次數(shù),不包含當(dāng)前這一次.“·”表示對這列求和,那么n·,k,-i表示語料庫中被指派到topick的所有類別的個數(shù),不包含當(dāng)前這一次.類似地可以理解nd,k,-i和nd,·,-i.從式(1),直觀上可以看出第1項(xiàng)表示p(w|z),第2項(xiàng)表示p(z|d).事實(shí)上,得到每個單詞的topic之后,這些信息可以用于計算計算模型中的參數(shù)θ和Φ:
有了這些參數(shù)后,我們可以用于計算:
可以把查詢拆成一個個單詞,p(q|d)就可以表示成這些p(w|d)的乘積[68].
AMiner中的論文引用數(shù)預(yù)測模型同時考慮了4個現(xiàn)象:1)內(nèi)在質(zhì)量,即論文本身的質(zhì)量;2)老化效應(yīng),即論文的新穎度會隨著時間的推移而降低;3)馬太效應(yīng),即“富者越富”現(xiàn)象;4)近因效應(yīng),最新研究成果容易獲得更多關(guān)注.基于這4個方面的考慮,AMiner采用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)[69]和長短時記憶單元(long short term memory, LSTM)[70].
Fig.6 Diagram of the citation count prediction model圖6 論文引用數(shù)預(yù)測模型框架
Fig.7 Formulation of the LSTM unit圖7 LSTM單元的公式化
LSTM單元的公式化如圖7所示,其中LSTM的長期記憶單元為ct,當(dāng)前信息記憶由短時記憶單元存儲ht=Γtr×tanh(ct).當(dāng)前工作單元的信息讀取速度高于長期存儲單元,模擬了近因效應(yīng).最終,論文d在時刻t的引用數(shù)f(d|X,t)=softmax(ht)給出.
開放互聯(lián)網(wǎng)帶來的海量數(shù)據(jù)為研究者畫像問題帶來了新的機(jī)遇,同時也帶來了數(shù)據(jù)噪音、數(shù)據(jù)冗余等問題.開放互聯(lián)網(wǎng)中的學(xué)者畫像研究取得了一定的進(jìn)展,目前仍然是一個充滿挑戰(zhàn)和機(jī)遇的新興研究領(lǐng)域.
在開放互聯(lián)網(wǎng)中,學(xué)者畫像信息抽取方法主要面臨3方面的技術(shù)挑戰(zhàn):
1) 億級網(wǎng)頁抓取的工程實(shí)現(xiàn).針對開放互聯(lián)網(wǎng)中的海量學(xué)術(shù)資源網(wǎng)頁和鏈接,需要設(shè)計高效網(wǎng)頁讀寫技術(shù)和鏈接抽取技術(shù);針對億級網(wǎng)頁設(shè)計并行化爬取方法,需要實(shí)現(xiàn)高效的網(wǎng)頁抓取和網(wǎng)頁入庫,網(wǎng)頁前后鏈接發(fā)現(xiàn)和屬性入庫,相關(guān)的網(wǎng)頁及鏈接庫讀寫支持?jǐn)?shù)百萬級每秒查詢率(query per second, QPS).
2) 智能學(xué)術(shù)實(shí)體與關(guān)系抽取.實(shí)現(xiàn)基于監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)結(jié)合的學(xué)術(shù)實(shí)體抽取技術(shù);設(shè)計基于規(guī)則和先驗(yàn)知識的特定關(guān)系抽取方法,包括基于核函數(shù)、邏輯回歸句法解析增強(qiáng)等機(jī)器學(xué)習(xí)手段;實(shí)現(xiàn)基于遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的開放學(xué)術(shù)關(guān)系抽取技術(shù).
3) 基于關(guān)鍵特征的實(shí)體聚合.利用學(xué)術(shù)成果中作者名、電子郵箱、單位、研究領(lǐng)域關(guān)鍵詞等關(guān)鍵特征,基于概率模型的學(xué)術(shù)成果聚合技術(shù);利用合作者網(wǎng)絡(luò),基于復(fù)雜網(wǎng)絡(luò)技術(shù)的學(xué)術(shù)作者命名消歧技術(shù),基于深度神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)與實(shí)體相關(guān)的隱藏特征,學(xué)術(shù)成果特征自適應(yīng),提升聚合的準(zhǔn)確度.
構(gòu)建高精度學(xué)者畫像庫主要面臨4個方面挑戰(zhàn):
1) 高精準(zhǔn)學(xué)者畫像庫的構(gòu)建方法.需要基于多源異構(gòu)科研行為數(shù)據(jù)構(gòu)建出多維、立體的學(xué)術(shù)畫像模型,完善科研人員與科研專家的畫像庫,此外,學(xué)者畫像數(shù)據(jù)庫的構(gòu)建需要考慮基本屬性維度、文獻(xiàn)維度、時間維度、機(jī)構(gòu)維度、地理位置維度、事件維度、主題維度、興趣維度、行為維度、群體屬性維度、心理維度等維度.
2) 多維度標(biāo)簽化技術(shù).需要解決科研人員、科技專家及科研行為關(guān)系的標(biāo)簽化方法,精確刻畫科研人員、科技專家與科研行為的靜態(tài)屬性特征、動態(tài)行為特征、科研社群特征,此外,需要解決標(biāo)簽度量計算,引入畫像可信度量打分機(jī)制,通過統(tǒng)計、排比、相似度計算等方法,構(gòu)建〈用戶,標(biāo)簽,可信度〉三元組,提高標(biāo)簽刻畫精度.自動化的高效標(biāo)簽化算法也面臨著實(shí)現(xiàn)大規(guī)??蒲腥藛T及行為高效畫像的挑戰(zhàn).
3) 科研學(xué)者畫像樣本驗(yàn)證數(shù)據(jù)集.用戶畫像數(shù)據(jù)主要是通過計算機(jī)采集數(shù)據(jù)進(jìn)行計算推演的方式獲取,缺乏一個準(zhǔn)確的結(jié)果判定標(biāo)準(zhǔn),需要研究測試判定樣本的構(gòu)造模型和機(jī)制,制作標(biāo)準(zhǔn)的測試樣本集構(gòu)造模型以及數(shù)據(jù)采集策略,所獲取的測試樣本應(yīng)該具有典型的代表性和廣泛性,形成科學(xué)、客觀的科研學(xué)者畫像樣本驗(yàn)證數(shù)據(jù)集,用于客觀評價學(xué)者畫像的準(zhǔn)確程度.
4) 畫像的增量更新與溯源技術(shù).針對科研學(xué)者畫像數(shù)據(jù)的增量更新頻率,需要構(gòu)建高效的觸發(fā)器機(jī)制與傳播更新機(jī)制,提升畫像的時效性.針對科研學(xué)者畫像中數(shù)據(jù)溯源模型的構(gòu)建方法,設(shè)計數(shù)據(jù)溯源機(jī)制,通過對經(jīng)典的數(shù)據(jù)溯源模型進(jìn)行分析研究,需要制定適合科研行為畫像溯源的模型及方法.
開放互聯(lián)網(wǎng)中的學(xué)者畫像研究取得了一定的進(jìn)展,目前仍然是一個充滿挑戰(zhàn)和機(jī)遇的新興研究領(lǐng)域,可以進(jìn)行開拓式創(chuàng)新或繼承式研究并取得成果的方向有很多,主要存在于4個方面:
1) 面向多源信息的中文知識圖譜實(shí)體與關(guān)系抽取.基于面向多源信息的學(xué)術(shù)知識圖譜實(shí)體、屬性和關(guān)系抽取技術(shù),建立一個科學(xué)完整的科研行為命名實(shí)體分類體系,一方面用于指導(dǎo)算法研究,另一方面便于對抽取得到的實(shí)體數(shù)據(jù)進(jìn)行管理.在此基礎(chǔ)上,基于深度語義模型和半監(jiān)督學(xué)習(xí)算法從相關(guān)語料中提取出科研行為實(shí)體之間的關(guān)聯(lián)關(guān)系.可以考慮利用自然語言處理領(lǐng)域的深度神經(jīng)網(wǎng)絡(luò)語言模型、句法分析方法、篇章分析方法以及語言的可計算性理論等工具,特別是基于深度語義模型來獲取數(shù)據(jù)源中實(shí)體的潛在語義表示,以及實(shí)體間關(guān)系的潛在語義空間,抽取復(fù)雜關(guān)系.
2) 面向多源信息的科研行為實(shí)體對齊[71]與多尺度融合.基于半監(jiān)督機(jī)器學(xué)習(xí)的自適應(yīng)選擇局部集體對齊和全局集體對齊的技術(shù),基于概率模型(如貝葉斯網(wǎng)絡(luò)、LDA模型、Markov邏輯網(wǎng)等)來學(xué)習(xí)實(shí)體間屬性和結(jié)構(gòu)的相似性去提高實(shí)體對齊的準(zhǔn)確率和召回率,解決多源數(shù)據(jù)中科研行為實(shí)體命名規(guī)則、定義粒度、判別能力不同導(dǎo)致的數(shù)據(jù)質(zhì)量問題.基于深度語義模型的科研行為實(shí)體融合技術(shù),以直接優(yōu)化消歧任務(wù)為訓(xùn)練目標(biāo),自動學(xué)習(xí)上下文和實(shí)體的特征表示和“上下文-實(shí)體定義”相似度度量,對上下文多個實(shí)體同時消歧,實(shí)現(xiàn)多尺度知識融合.
3) 學(xué)術(shù)知識圖譜關(guān)系擴(kuò)展與推理.基于深度表示學(xué)習(xí)方法的知識圖譜三元組編碼技術(shù),將它們的語義信息映射到低維的潛層特征表示空間(語法、語義空間),以推測知識圖譜中存在的隱式知識.同時,基于一階謂詞邏輯為基礎(chǔ)的符號邏輯知識表示方法,基于W3C標(biāo)準(zhǔn)知識描述系統(tǒng),從大規(guī)模、半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)源自動提取科研行為概念及其上下文關(guān)系,將符號邏輯模型中的推理機(jī)制應(yīng)用于表示學(xué)習(xí)中,不斷擴(kuò)充和優(yōu)化關(guān)系推理技術(shù),提升大數(shù)據(jù)環(huán)境下科研行為知識表示學(xué)習(xí)的能力[72].
4) 時、空多尺度場景下的知識圖譜[73]主題演化與更新技術(shù).根據(jù)實(shí)時采集的多源科研行為數(shù)據(jù)的動態(tài)變化,實(shí)時更新對應(yīng)的學(xué)術(shù)知識圖譜內(nèi)容及網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)學(xué)術(shù)知識圖譜中各類主題信息的實(shí)時更新.主要通過知識庫語義模型得到實(shí)體和關(guān)系在知識圖譜空間的潛層特征表示,并基于多模態(tài)的深度神經(jīng)網(wǎng)絡(luò)模型框架,實(shí)現(xiàn)多源異構(gòu)學(xué)術(shù)數(shù)據(jù)的共享語義分析和動態(tài)更新.
本文對學(xué)者畫像的相關(guān)概念及方法深入研究的基礎(chǔ)上,總結(jié)了實(shí)現(xiàn)學(xué)者畫像的基本方法——信息抽取方法,以及3個基本任務(wù)包括學(xué)者信息抽取、研究興趣挖掘以及學(xué)術(shù)影響力預(yù)測,給出了學(xué)者畫像系統(tǒng)實(shí)現(xiàn)的實(shí)例分析.隨著開放互聯(lián)網(wǎng)規(guī)模的不斷增長,開放互聯(lián)網(wǎng)中的學(xué)者畫像研究將會面臨更多的問題和挑戰(zhàn).本文最后探討了學(xué)者畫像研究中值得探索的方向,供相關(guān)學(xué)者參考.