亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識(shí)圖譜的社交網(wǎng)絡(luò)用戶(hù)行為研究進(jìn)展

        2021-02-26 02:56:36楊曉暉孫瑩
        關(guān)鍵詞:可視化用戶(hù)信息

        楊曉暉,孫瑩

        (河北大學(xué) 網(wǎng)絡(luò)空間安全與計(jì)算機(jī)學(xué)院,河北 保定 071002)

        隨著Web技術(shù)的不斷發(fā)展,人類(lèi)先后經(jīng)歷了以文檔互聯(lián)為特征的“Web 1.0”時(shí)代與數(shù)據(jù)互聯(lián)為特征的“Web 2.0”時(shí)代,邁向基于知識(shí)互聯(lián)的嶄新“Web 3.0”時(shí)代.知識(shí)互聯(lián)將特定數(shù)據(jù)輸入到特定情境中,其中DBpedia項(xiàng)目[1],是目前最具有代表性的大規(guī)模開(kāi)放域鏈接數(shù)據(jù).2012年,Google正式推出稱(chēng)為知識(shí)圖譜的搜索引擎服務(wù),目的在于使用語(yǔ)義檢索從多種來(lái)源收集信息,提高Google搜索的質(zhì)量[2].知識(shí)圖譜描述各種實(shí)體及關(guān)系,構(gòu)成一張巨大的語(yǔ)義網(wǎng)絡(luò)圖,具有“圖”和“譜”雙重特點(diǎn),緊密的數(shù)據(jù)關(guān)聯(lián)性與強(qiáng)大的語(yǔ)義處理力是對(duì)語(yǔ)義網(wǎng)絡(luò)的全面總結(jié)與升華[3].

        國(guó)內(nèi)提及“知識(shí)語(yǔ)義網(wǎng)絡(luò)”的文章于2005年發(fā)表,從數(shù)據(jù)格式及存取、數(shù)據(jù)分析算法、可視化和互動(dòng)設(shè)計(jì)、科學(xué)計(jì)量學(xué)等方面闡述知識(shí)圖譜,將這個(gè)極其重要、擁有廣闊應(yīng)用前景的交叉領(lǐng)域稱(chēng)作“Mapping Knowledge Domains”.劉則淵教授將知識(shí)圖譜引入國(guó)內(nèi)并創(chuàng)建WISE實(shí)驗(yàn)室,開(kāi)拓了國(guó)內(nèi)知識(shí)計(jì)量學(xué)與科學(xué)知識(shí)圖譜研究的新方向[4].由于中文知識(shí)圖譜的構(gòu)建對(duì)中文信息處理和檢索具有重要的研究和應(yīng)用價(jià)值[5-6],近年國(guó)內(nèi)推出了大量以中文為主語(yǔ)言的知識(shí)圖譜,主要基于百度百科和維基百科的結(jié)構(gòu)化信息構(gòu)建.上海交通大學(xué)的zhishi.me,SPARQL終端用于用戶(hù)查詢(xún)操作,以HTML的形式給出返回結(jié)果[7];清華大學(xué)的Xlore,是第一個(gè)大規(guī)模中英文知識(shí)平衡的知識(shí)圖譜[8];復(fù)旦大學(xué)的CN-pedia,從純文本頁(yè)面中提取信息,由過(guò)濾、融合、推斷等操作,形成了高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)[9].官賽萍等[10]討論了知識(shí)圖譜上的推理方法與技術(shù).王鑫等[11]以數(shù)據(jù)模型的結(jié)構(gòu)和操作兩大要素為主線,研究知識(shí)圖譜多方面數(shù)據(jù).

        社交網(wǎng)絡(luò)是知識(shí)圖譜應(yīng)用較廣的垂直領(lǐng)域之一,在用戶(hù)行為分析、信息智能化處理等方面知識(shí)圖譜有著很好的發(fā)展前景.朱世玲[12]采用網(wǎng)絡(luò)“基因”圖譜來(lái)唯一標(biāo)識(shí)實(shí)體及其身份屬性和行為屬性.目前,社交網(wǎng)絡(luò)中各式知識(shí)圖譜應(yīng)運(yùn)而生,社交圖譜思想源自 FOAF ( 即朋友的朋友)[13],用于維護(hù)并挖掘用戶(hù)社交關(guān)系,動(dòng)態(tài)獲取用戶(hù)網(wǎng)絡(luò)行為信息,隨新出現(xiàn)的用戶(hù)、事物及關(guān)系動(dòng)態(tài)更新的用戶(hù)真實(shí)社交關(guān)系圖譜.當(dāng)前網(wǎng)絡(luò)社交應(yīng)用眾多,社交用戶(hù)數(shù)據(jù)豐富但知識(shí)匱乏,而智能化社交關(guān)系網(wǎng)絡(luò)需要基于知識(shí)圖譜,可視化表示社交網(wǎng)絡(luò)中的用戶(hù)行為,以此分析社交用戶(hù)行為關(guān)系,實(shí)現(xiàn)用戶(hù)行為關(guān)系數(shù)據(jù)從“數(shù)據(jù)-信息-知識(shí)”的轉(zhuǎn)化,完善社交關(guān)系體系.

        1 知識(shí)圖譜

        知識(shí)圖譜是運(yùn)用結(jié)構(gòu)化語(yǔ)言,描述現(xiàn)實(shí)世界中存在的實(shí)體或概念間關(guān)系的知識(shí)庫(kù)集合.基于三元組是知識(shí)圖譜的一種通用表示方式,以“實(shí)體-關(guān)系-實(shí)體”或“實(shí)體-屬性-屬性值”為基本形式呈現(xiàn)[14].知識(shí)圖譜可被看作一張具有知識(shí)結(jié)構(gòu)的網(wǎng)圖,圖中的節(jié)點(diǎn)表示實(shí)體或概念,邊表示關(guān)系或?qū)傩裕举|(zhì)上是一種語(yǔ)義網(wǎng)絡(luò),通過(guò)關(guān)鍵詞映射到語(yǔ)義知識(shí)庫(kù)的概念上,核心是利用知識(shí)庫(kù)進(jìn)行語(yǔ)義推演.

        基于圖的數(shù)據(jù)結(jié)構(gòu),知識(shí)圖譜的存儲(chǔ)方式有2種:RDF存儲(chǔ)格式和圖數(shù)據(jù)庫(kù)(graph database)[15].實(shí)際研究中,所需實(shí)體及關(guān)系較為復(fù)雜,大多以圖數(shù)據(jù)庫(kù)為存儲(chǔ)介質(zhì),例如開(kāi)源的Neo4j、Twitter的FlockDB等.知識(shí)圖譜的構(gòu)建以知識(shí)庫(kù)為主,存儲(chǔ)社交用戶(hù)的行為數(shù)據(jù)及關(guān)系數(shù)據(jù),知識(shí)庫(kù)是以事實(shí)為基本單位組成的知識(shí)集合,如表1所示.

        表1 大規(guī)模知識(shí)圖譜庫(kù)匯總

        續(xù)表1Continued Tab.2

        2 行為可視化

        2.1 行為表示

        社交網(wǎng)絡(luò)擁有龐大的用戶(hù)群,用戶(hù)的行為關(guān)系數(shù)據(jù)存在于非結(jié)構(gòu)化的文本數(shù)據(jù)、半結(jié)構(gòu)化的網(wǎng)頁(yè)及部分用戶(hù)信息系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)中.知識(shí)圖譜用來(lái)描述關(guān)系網(wǎng)絡(luò),直觀的表示方法能夠高效地分析復(fù)雜關(guān)系網(wǎng)絡(luò)中潛在的行為數(shù)據(jù).

        面向社交網(wǎng)絡(luò),基于知識(shí)圖譜描述用戶(hù)行為關(guān)系信息,抽取大量計(jì)算機(jī)可讀的行為關(guān)系數(shù)據(jù)[16],根據(jù)社交行為形成網(wǎng)狀結(jié)構(gòu),結(jié)構(gòu)為有向有環(huán)圖,每個(gè)點(diǎn)代表每個(gè)用戶(hù)的數(shù)據(jù)信息,點(diǎn)與點(diǎn)間的路徑看作用戶(hù)間的行為關(guān)系.實(shí)際應(yīng)用中,根據(jù)真實(shí)需求挖掘用戶(hù)間行為聯(lián)系這一問(wèn)題可描述為在有向有環(huán)圖中尋找相鄰節(jié)點(diǎn)問(wèn)題,或路徑導(dǎo)航問(wèn)題.

        三元組是知識(shí)圖譜的通用表示方式,借助三元組描述社交用戶(hù)的行為關(guān)系信息,由2個(gè)具有關(guān)聯(lián)關(guān)系的用戶(hù)實(shí)體和實(shí)體間關(guān)系組成,直觀表示用戶(hù)行為,即G=(head,relation,tail),其中head為三元組中頭實(shí)體,tail為三元組中尾實(shí)體,relation={r1,r2,…,r|R|}是用戶(hù)知識(shí)庫(kù)中的關(guān)系集合,包含|R|種不同行為關(guān)系.三元組的基本形式包括實(shí)體1、關(guān)系、實(shí)體2和概念、屬性、屬性值等.實(shí)體是行為圖譜的最基本元素,如用戶(hù)、網(wǎng)絡(luò)平臺(tái)等;關(guān)系存在于不同實(shí)體間,如用戶(hù)自發(fā)行為、點(diǎn)贊轉(zhuǎn)發(fā)行為、評(píng)論文字、@提及等;概念主要指集合、對(duì)象類(lèi)型、事物種類(lèi)等,如大V用戶(hù)、活躍用戶(hù)、安全用戶(hù)等;屬性指對(duì)象可能具有的特征,如用戶(hù)基本信息、地理定位、在線時(shí)間等;屬性值指對(duì)象特定屬性的值,如用戶(hù)資料完整度、用戶(hù)安全指數(shù)、屬性相似度等.通過(guò)全局唯一的ID標(biāo)識(shí)用戶(hù)實(shí)體,實(shí)體間內(nèi)在特征通過(guò)用戶(hù)屬性-屬性值表示,外在關(guān)聯(lián)通過(guò)用戶(hù)關(guān)系表示,三元組描述已有事實(shí).

        2.2 可視化關(guān)鍵技術(shù)

        可視化表示社交用戶(hù)的行為關(guān)系為一個(gè)有向有環(huán)圖,建立以行為關(guān)系為核心,帶有語(yǔ)義性的用戶(hù)知識(shí)庫(kù),旨在實(shí)現(xiàn)從語(yǔ)義理解社交用戶(hù)意圖,根據(jù)實(shí)際情況及用戶(hù)需求狀況反映用戶(hù)的行為關(guān)聯(lián),為數(shù)據(jù)分析的準(zhǔn)確性提供保障.

        運(yùn)用知識(shí)圖譜技術(shù)可視化表示社交用戶(hù)的行為關(guān)系,構(gòu)建過(guò)程主要包括數(shù)據(jù)源選取、數(shù)據(jù)采集與處理、可視化表示等步驟,其中,可視化表示是重中之重,由行為知識(shí)抽取、行為知識(shí)表示、行為知識(shí)加工3部分組成.

        2.2.1 行為知識(shí)抽取

        行為知識(shí)抽取面向開(kāi)放的社交網(wǎng)絡(luò)用戶(hù),通過(guò)自動(dòng)化技術(shù)從半結(jié)構(gòu)或無(wú)結(jié)構(gòu)數(shù)據(jù)中抽取可用的行為知識(shí)單元,包括用戶(hù)實(shí)體、行為關(guān)系及屬性等知識(shí)要素,形成本體化的高質(zhì)量知識(shí)表達(dá).涉及的關(guān)鍵技術(shù)包括實(shí)體抽取、關(guān)系抽取、屬性抽取.

        實(shí)體抽取,從原始數(shù)據(jù)源中自動(dòng)識(shí)別用戶(hù)實(shí)體.英文語(yǔ)境中,Wu等[18]提出WOE系統(tǒng),使用wikipedia中信息框的內(nèi)容標(biāo)記語(yǔ)義內(nèi)容.Surdeanu等[19]提出MIML模型,將同一用戶(hù)實(shí)體在不同網(wǎng)絡(luò)環(huán)境中呈現(xiàn)不同行為關(guān)系.Liu等[20]運(yùn)用K-近鄰算法和條件隨機(jī)場(chǎng)模型識(shí)別文本數(shù)據(jù).Ling等[21]借鑒Freebase的實(shí)體分類(lèi)歸納112種實(shí)體類(lèi)別,基于條件隨機(jī)場(chǎng)模型進(jìn)行用戶(hù)實(shí)體識(shí)別,采用自適應(yīng)感知機(jī)算法對(duì)用戶(hù)實(shí)體自動(dòng)分類(lèi).漢語(yǔ)文本中王莉峰[22]提出領(lǐng)域自適應(yīng)的中文實(shí)體關(guān)系抽取,針對(duì)文本內(nèi)容提取用戶(hù)知識(shí).王志超[23]面向知識(shí)圖譜設(shè)計(jì)了一種基于開(kāi)放域抽取的實(shí)體行為抽取框架.秦兵等[24]提出面向大規(guī)模網(wǎng)絡(luò)文本無(wú)指導(dǎo)的中文開(kāi)放式實(shí)體關(guān)系抽取模型UnCORE,采用全局排序和類(lèi)型排序方法挖掘行為關(guān)系指示詞,運(yùn)用行為關(guān)系指示詞和句式規(guī)則過(guò)濾關(guān)系三元組,抽取用戶(hù)間行為關(guān)聯(lián).

        關(guān)系抽取,以關(guān)系聯(lián)系用戶(hù)實(shí)體形成網(wǎng)狀知識(shí)結(jié)構(gòu),解決用戶(hù)的實(shí)體語(yǔ)義鏈接問(wèn)題.Wu等[18]通過(guò)自監(jiān)督學(xué)習(xí)得到抽取器,較TextRunner系統(tǒng)[25]提高了準(zhǔn)確率.Schmitz等[26]提出了第3代OIE系統(tǒng)OLLIE,彌補(bǔ)并擴(kuò)展OIE的模型及相應(yīng)的系統(tǒng).Akbik等[27]提出可抽取任意語(yǔ)句中實(shí)體行為關(guān)系的方法KPAKEN,適用于小規(guī)模開(kāi)放域語(yǔ)料.隨后,實(shí)體間關(guān)系模型替代了人工構(gòu)建的語(yǔ)義規(guī)則.Domingos等[28]提出簡(jiǎn)易的馬爾可夫邏輯TML,分解用戶(hù)知識(shí),利用社交網(wǎng)絡(luò)中豐富的用戶(hù)屬性數(shù)據(jù)、行為數(shù)據(jù)等推理用戶(hù)實(shí)體間關(guān)聯(lián),實(shí)驗(yàn)表明,TML能夠表示用戶(hù)實(shí)體間的行為關(guān)聯(lián),具有較強(qiáng)的行為表達(dá)能力.

        屬性抽取,對(duì)用戶(hù)實(shí)體而言,如用戶(hù)基本信息、地理定位、在線時(shí)間等,通過(guò)屬性完整刻畫(huà)用戶(hù)實(shí)體.屬性抽取的目標(biāo)是從數(shù)據(jù)源中選取用戶(hù)實(shí)體的屬性信息,為每個(gè)本體構(gòu)造用戶(hù)屬性列表,屬性值為用戶(hù)實(shí)體的附加屬性值,以此形成完整用戶(hù)實(shí)體的行為圖譜維度[29].Suchanek等[30]提出基于規(guī)則與啟發(fā)式算法的屬性抽取方法可從半結(jié)構(gòu)化數(shù)據(jù)中抽取用戶(hù)屬性信息,擴(kuò)展為用戶(hù)知識(shí)庫(kù).

        2.2.2 行為知識(shí)表示

        近年人工智能、機(jī)器學(xué)習(xí)等表示學(xué)習(xí)技術(shù)的發(fā)展,實(shí)體的語(yǔ)義信息可以表示為低維實(shí)數(shù)值的向量,對(duì)用戶(hù)知識(shí)庫(kù)的構(gòu)建有重要意義[31].

        知識(shí)表示學(xué)習(xí),將對(duì)象投影到統(tǒng)一的低維空間,一方面通過(guò)分布式模型刻畫(huà)用戶(hù)行為關(guān)系的語(yǔ)義關(guān)聯(lián)程度,有效緩解數(shù)據(jù)稀疏性問(wèn)題[32];另一方面建立統(tǒng)一表示空間,融合社交用戶(hù)信息.行為知識(shí)表示學(xué)習(xí)代表模型包括單層神經(jīng)網(wǎng)絡(luò)模型[33- 34]、雙線性模型[35-36]、神經(jīng)張量網(wǎng)絡(luò)模型[37]、矩陣分解模型[38]及翻譯模型[39]等,如表2所示.各模型的效率對(duì)比通過(guò)時(shí)間復(fù)雜度和空間復(fù)雜度說(shuō)明,其中n和m分別表示用戶(hù)和行為關(guān)系的數(shù)量,d和k分別表示用戶(hù)的維數(shù)和行為關(guān)系嵌入空間的維數(shù),如表3所示.此外,Wang等[40]提出了一種將多模態(tài)自動(dòng)編碼器與TransE模型相結(jié)合的新的表示學(xué)習(xí)方法TransAE,不僅將結(jié)構(gòu)知識(shí)編碼,而且還可以將多模態(tài)知識(shí)編碼為最終表示形式,在鏈接預(yù)測(cè)和三元組分類(lèi)上可以顯著提高性能.明等[41]研究卷積神經(jīng)模型構(gòu)建細(xì)粒度關(guān)系描述的表示,提出關(guān)系文本的知識(shí)表示學(xué)習(xí)方法,采用關(guān)系描述作為表示學(xué)習(xí)的輔助信息,實(shí)驗(yàn)表明此方法具有較優(yōu)性能.Seo等[42]提出基于路徑的知識(shí)圖表示學(xué)習(xí)方法RKRL,將中間實(shí)體的表示形式和關(guān)系路徑上的關(guān)系進(jìn)行組合,以學(xué)習(xí)更多的知識(shí)表示形式.Sun等[43]利用關(guān)系路徑的語(yǔ)義信息,提高知識(shí)表示學(xué)習(xí)的辨別力,并在投影實(shí)體時(shí)添加了與關(guān)系類(lèi)型相關(guān)的權(quán)重以區(qū)分關(guān)系類(lèi)型.Zhang等[44]提出利用實(shí)體屬性信息,運(yùn)用深度卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)屬性信息進(jìn)行編碼,并利用屬性信息和三元結(jié)構(gòu)信息學(xué)習(xí)知識(shí)表示,生成基于屬性的實(shí)體表示.

        表2 知識(shí)表示學(xué)習(xí)代表模型

        表3 模型在時(shí)空復(fù)雜度上的對(duì)比

        2.2.3 行為知識(shí)加工

        行為知識(shí)加工,融合、推理與更新用戶(hù)知識(shí)庫(kù)內(nèi)容,消除實(shí)體、屬性及關(guān)系之間的歧義,增強(qiáng)用戶(hù)知識(shí)庫(kù)內(nèi)部的邏輯性和表達(dá)力,并在已有知識(shí)基礎(chǔ)上推理用戶(hù)行為關(guān)聯(lián),更新用戶(hù)知識(shí)庫(kù),不斷完善新產(chǎn)生的行為關(guān)系數(shù)據(jù)[45].Song等[46]將不同來(lái)源獲得的知識(shí)有效地組織和整合到知識(shí)庫(kù)中,并對(duì)知識(shí)加工涉及到的方法進(jìn)行研究.行為知識(shí)加工的關(guān)鍵技術(shù)包括實(shí)體對(duì)齊、本體構(gòu)建、知識(shí)推理和知識(shí)更新.

        實(shí)體對(duì)齊,歸并具有不同標(biāo)識(shí)但表示同一用戶(hù)的實(shí)體,使其擁有全局唯一標(biāo)識(shí),創(chuàng)建大規(guī)模的統(tǒng)一用戶(hù)知識(shí)庫(kù).社交網(wǎng)絡(luò)中存在重復(fù)屬性數(shù)據(jù),相似行為數(shù)據(jù)及孤立數(shù)據(jù)等,用戶(hù)數(shù)據(jù)質(zhì)量不一,計(jì)算復(fù)雜度較大,用戶(hù)知識(shí)庫(kù)規(guī)模對(duì)實(shí)體對(duì)齊產(chǎn)生影響.從用戶(hù)知識(shí)庫(kù)體系差異角度出發(fā),Parundekar等[47]和Jain等[48]針對(duì)Linked Open Data取得高效的實(shí)體對(duì)齊效果.從知識(shí)庫(kù)的內(nèi)容差異角度出發(fā), Volz等[49]提出Silk采用索引的方式管理數(shù)據(jù)資源,降低計(jì)算條目間“SameAs”關(guān)系的時(shí)間復(fù)雜度.Chen等[50]利用屬性值對(duì)作為特征模板,運(yùn)用擴(kuò)展向量空間模型對(duì)文本內(nèi)容歧義識(shí)別;Niu等[51]提出Zhishi.me利用實(shí)體名稱(chēng)歸一化進(jìn)行實(shí)體對(duì)齊.

        本體構(gòu)建,對(duì)社交網(wǎng)絡(luò)中用戶(hù)及行為關(guān)系的形式化表達(dá),本體是包含用戶(hù)行為關(guān)系的集合,用來(lái)描述現(xiàn)實(shí)世界的用戶(hù)知識(shí)模型.社交網(wǎng)絡(luò)中常見(jiàn)的本體構(gòu)成要素包括

        1)個(gè)體:基礎(chǔ)對(duì)象,即社交用戶(hù).

        2)類(lèi):集合、概念及對(duì)象類(lèi)型等,即用戶(hù)類(lèi)別,如大V用戶(hù)、活躍用戶(hù)、安全用戶(hù)等.

        3)屬性:實(shí)體的屬性,即用戶(hù)資料、地理位置、在線時(shí)間等.

        4)關(guān)系:類(lèi)與個(gè)體間關(guān)聯(lián)或個(gè)體與個(gè)體間關(guān)聯(lián),即用戶(hù)行為間關(guān)聯(lián)關(guān)系.

        5)函數(shù)術(shù)語(yǔ):在聲明語(yǔ)句中,代替具體術(shù)語(yǔ)的特定關(guān)系構(gòu)成的復(fù)雜結(jié)構(gòu).

        6)約束:采用形式化方式聲明,以用戶(hù)需求為輸入且合理的情況描述.

        7)規(guī)則:用于描述依據(jù)特定形式,某種需求能夠得出的邏輯推論,如用戶(hù)個(gè)人資料等屬性信息用if-then式語(yǔ)句形式的聲明.

        8)公理:采取特定邏輯形式構(gòu)成的本體.有別于形式邏輯中的“公理”.在行為圖譜的本體構(gòu)建過(guò)程中,公理僅包括確定為用戶(hù)先驗(yàn)知識(shí)的聲明.

        9)事件:用戶(hù)屬性或行為關(guān)系的變化.

        知識(shí)推理,在已有用戶(hù)知識(shí)庫(kù)基礎(chǔ)上進(jìn)一步挖掘知識(shí),擴(kuò)展用戶(hù)知識(shí)庫(kù),形成完善的用戶(hù)知識(shí)體系.統(tǒng)一管理用戶(hù)知識(shí),將動(dòng)態(tài)演化的行為關(guān)系擴(kuò)充到用戶(hù)知識(shí)庫(kù),對(duì)提高用戶(hù)知識(shí)庫(kù)的覆蓋能力十分重要.知識(shí)推理能夠完成用戶(hù)數(shù)據(jù)收集、明確用戶(hù)行為安全性、行為關(guān)聯(lián)關(guān)系分析等.知識(shí)推理分為基于符號(hào)邏輯的推理和基于圖特征模型的推理.基于符號(hào)邏輯的推理,基于一階謂詞邏輯和描述邏輯等,利用規(guī)則推理出新的用戶(hù)間行為關(guān)系,還可進(jìn)行邏輯的沖突檢測(cè).

        知識(shí)更新,社交網(wǎng)絡(luò)用戶(hù)人數(shù)不斷增加,用戶(hù)屬性及行為關(guān)系信息不斷增長(zhǎng),行為知識(shí)需不斷更新完善.從邏輯層面講,包括數(shù)據(jù)層更新與模式層更新.數(shù)據(jù)層更新指用戶(hù)、行為關(guān)系及屬性的更新.模式層更新指本體中元素的更新,其中行為關(guān)系的更新影響到有直接或間接關(guān)系的子關(guān)系和用戶(hù)[52].

        2.3 候選行為識(shí)別

        與高質(zhì)量的常識(shí)性行為知識(shí)相比,數(shù)據(jù)挖掘抽取的行為知識(shí)更能反映當(dāng)前用戶(hù)需求,及時(shí)發(fā)現(xiàn)最新的實(shí)體或事實(shí),但質(zhì)量相對(duì)較差,需要對(duì)候選行為知識(shí)進(jìn)行識(shí)別,評(píng)估知識(shí)的置信度,提高社交用戶(hù)的行為關(guān)系可視化表示的準(zhǔn)確性.

        將得到的候選行為知識(shí)表示為知識(shí)圖,名為提取圖(extraction graph, EG),提取圖中節(jié)點(diǎn)表示用戶(hù),與節(jié)點(diǎn)具有關(guān)聯(lián)的標(biāo)簽表示用戶(hù)屬性類(lèi)別,節(jié)點(diǎn)間的有向邊用戶(hù)行為關(guān)系.由關(guān)聯(lián)數(shù)據(jù)和語(yǔ)義組成的提取圖中的概率推理具有重要意義.因此,運(yùn)用概率軟邏輯(probabilistic soft logic, PSL)這一識(shí)別技術(shù)修正提取圖[53],結(jié)合聚合分類(lèi)和基于本體信息的規(guī)則等,完成對(duì)候選行為知識(shí)的識(shí)別.

        概率軟邏輯是在關(guān)系域集體概率推理,將相似度與關(guān)系結(jié)構(gòu)的概率推理有機(jī)結(jié)合,具有關(guān)系結(jié)構(gòu)的概率模型.運(yùn)用PSL識(shí)別提取圖,引入概率建模框架,對(duì)連續(xù)值的隨機(jī)變量進(jìn)行概率推理,其中的推理是高度可擴(kuò)展的凸優(yōu)化問(wèn)題,能夠在幾分鐘內(nèi)處理數(shù)以百萬(wàn)計(jì)的事實(shí).該方法的強(qiáng)大之處在于,面向社交網(wǎng)絡(luò)的用戶(hù)關(guān)系和相似行為信息,高效地聲明各種行為集合標(biāo)準(zhǔn).PSL程序由具有連接體和單文字頭的一階邏輯規(guī)則組成,規(guī)則被標(biāo)記為非負(fù)權(quán)值,PSL使用規(guī)則來(lái)捕獲域的依賴(lài)結(jié)構(gòu),構(gòu)建聯(lián)合概率模型.每條規(guī)則都有相關(guān)的非負(fù)權(quán)值,捕獲規(guī)則的相對(duì)重要性.此外,PSL將一階邏輯規(guī)則作為圖模型的模板語(yǔ)言,使用區(qū)間[0;1]中的連續(xù)性真值而不是0或1布爾值.

        3 典型應(yīng)用

        知識(shí)圖譜將復(fù)雜數(shù)據(jù)信息表示為易于人類(lèi)理解的形式.探索應(yīng)用場(chǎng)景時(shí),應(yīng)充分考慮以下優(yōu)勢(shì):1)對(duì)異構(gòu)、動(dòng)態(tài)的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的有效組織與表達(dá)能力;2)依托于強(qiáng)大知識(shí)庫(kù)的深度知識(shí)推理能力;3)與深度學(xué)習(xí)等領(lǐng)域相結(jié)合,擴(kuò)展的認(rèn)知能力.在對(duì)知識(shí)圖譜技術(shù)有豐富積累的基礎(chǔ)上感知用戶(hù)需求,為大規(guī)模知識(shí)圖譜找到更廣泛的應(yīng)用之處.

        面向社交網(wǎng)絡(luò)構(gòu)建的網(wǎng)狀結(jié)構(gòu)作為新型社交關(guān)系可視化方式,改變傳統(tǒng)用戶(hù)知識(shí)的表達(dá)與獲取方式,加速用戶(hù)數(shù)據(jù)、信息到知識(shí)的轉(zhuǎn)換,給出局部知識(shí)到全局知識(shí)的統(tǒng)一表現(xiàn)形式,以直觀的方式呈現(xiàn)社交網(wǎng)絡(luò)中的用戶(hù)及行為關(guān)系,旨在維護(hù)用戶(hù)社交關(guān)系,挖掘社交網(wǎng)絡(luò)深層的用戶(hù)價(jià)值,是解決社交用戶(hù)的行為關(guān)系問(wèn)題的新一代用戶(hù)分析工具,為研究社交網(wǎng)絡(luò)的用戶(hù)行為信息提供新思路.

        基于知識(shí)圖譜,可視化表示社交用戶(hù)行為關(guān)系,為海量、異構(gòu)、動(dòng)態(tài)的用戶(hù)數(shù)據(jù)的表達(dá)與分析提供有效方式,將復(fù)雜的行為數(shù)據(jù)以直觀的方式表示為易于理解的形式,根據(jù)各種社交網(wǎng)絡(luò)中的用戶(hù)行為分析其中的潛在行為,對(duì)相關(guān)用戶(hù)主體(如親友、陌生人等)及關(guān)聯(lián)行為進(jìn)行挖掘,如圖3所示.目前主要可用于用戶(hù)信息檢索、用戶(hù)安全評(píng)測(cè)、行為關(guān)聯(lián)推理等方面.

        圖3 知識(shí)圖譜數(shù)據(jù)處理過(guò)程Fig.3 Knowledge graph data processing

        3.1 用戶(hù)信息檢索

        針對(duì)大量社交用戶(hù)數(shù)據(jù)檢索用戶(hù)信息是一項(xiàng)復(fù)雜的任務(wù).用戶(hù)信息檢索時(shí),基于知識(shí)圖譜,可視化表示用戶(hù)各項(xiàng)信息,建立大規(guī)模用戶(hù)知識(shí)庫(kù)對(duì)用戶(hù)屬性及文本內(nèi)容進(jìn)行語(yǔ)義標(biāo)注,從中檢查相關(guān)用戶(hù)實(shí)體對(duì)、實(shí)體關(guān)系及屬性并進(jìn)行擴(kuò)展.可利用用戶(hù)名稱(chēng)檢索用戶(hù)屬性,采用文本匹配、關(guān)鍵字匹配的檢索方法將文本內(nèi)容轉(zhuǎn)換為本體定義的用戶(hù)概念,提升用戶(hù)信息檢索精度,從而提高查詢(xún)、檢索用戶(hù)各項(xiàng)信息的準(zhǔn)確性及用戶(hù)信息檢索的效率.

        3.2 用戶(hù)安全評(píng)測(cè)

        社交用戶(hù)行為關(guān)系的可視化表示能夠輔助安全領(lǐng)域的用戶(hù)安全評(píng)測(cè)問(wèn)題,根據(jù)用戶(hù)屬性、行為、關(guān)系等數(shù)據(jù)對(duì)用戶(hù)自身進(jìn)行智能化分析,依托巨大的用戶(hù)知識(shí)庫(kù)并使用自然語(yǔ)言和基于證據(jù)的學(xué)習(xí)能力為用戶(hù)安全評(píng)測(cè)提供支持,供安全人員參考.以用戶(hù)知識(shí)庫(kù)為基礎(chǔ),綜合多個(gè)用戶(hù)本體資源,包括社交平臺(tái)、自媒體等相關(guān)本體,通過(guò)專(zhuān)家知識(shí)規(guī)則,運(yùn)用正則表達(dá)式、隱馬爾可夫模型等人工智能技術(shù)解決社交網(wǎng)絡(luò)中用戶(hù)安全評(píng)測(cè)問(wèn)題.

        3.3 行為關(guān)聯(lián)推理

        行為關(guān)聯(lián)推理是用戶(hù)行為研究的一種高級(jí)形式,可視化表示社交用戶(hù)的行為關(guān)系,將行為關(guān)聯(lián)問(wèn)題分為若干個(gè)用戶(hù)知識(shí)問(wèn)題,從用戶(hù)知識(shí)庫(kù)中抽取匹配信息,并檢測(cè)匹配信息在時(shí)間和空間上的吻合度,最后將用戶(hù)知識(shí)問(wèn)題合并為用戶(hù)行為關(guān)聯(lián)問(wèn)題.

        4 總結(jié)與展望

        知識(shí)圖譜是建立在多學(xué)科領(lǐng)域研究成果基礎(chǔ)上的一門(mén)實(shí)用技術(shù),是信息檢索、人工智能、自然語(yǔ)言處理等交叉領(lǐng)域的理論研究熱點(diǎn)和應(yīng)用技術(shù)的集合,不僅是一門(mén)實(shí)用技術(shù),更是一種戰(zhàn)略思想.就社交網(wǎng)絡(luò)而言,由于用戶(hù)和行為關(guān)系數(shù)據(jù)具有復(fù)雜性、多樣性等特點(diǎn),可視化表示用戶(hù)的行為關(guān)系,建立用戶(hù)知識(shí)庫(kù)便十分重要.運(yùn)用此技術(shù)挖掘用戶(hù)行為信息,推進(jìn)數(shù)據(jù)挖掘、網(wǎng)絡(luò)圖論等領(lǐng)域的研究,將其廣泛應(yīng)用到用戶(hù)信息檢索、用戶(hù)安全評(píng)測(cè)、行為關(guān)聯(lián)分析等方面.目前雖有很多進(jìn)行知識(shí)圖譜的研究,但基于知識(shí)圖譜,可視化表示社交網(wǎng)絡(luò)的行為關(guān)系仍面臨巨大挑戰(zhàn).

        1)社交網(wǎng)絡(luò)用戶(hù)行為挖掘

        真實(shí)社會(huì)中的同一個(gè)人在不同的社交網(wǎng)絡(luò)中所在位置和所起作用不同,異構(gòu)網(wǎng)絡(luò)無(wú)共同特征,網(wǎng)絡(luò)規(guī)模千差萬(wàn)別.社交網(wǎng)絡(luò)中,聚合不同社交平臺(tái)中身份不同的同一現(xiàn)實(shí)用戶(hù)是社交網(wǎng)絡(luò)用戶(hù)行為挖掘的難點(diǎn),也是實(shí)現(xiàn)可視化表示社交用戶(hù)行為關(guān)系的關(guān)鍵.

        2)文本抽取難度大

        行為知識(shí)抽取時(shí),面向社交網(wǎng)絡(luò)開(kāi)放數(shù)據(jù)源的知識(shí)抽取方法研究處于起步階段,部分研究成果雖在特定數(shù)據(jù)集上有較好效果,但應(yīng)用于社交用戶(hù)行為關(guān)系的可視化時(shí)普遍存在準(zhǔn)確率低、限制條件多、擴(kuò)展性差等問(wèn)題,尤其在抽取用戶(hù)發(fā)布博文內(nèi)容涉及的純文本抽取時(shí)面臨挑戰(zhàn).

        3)實(shí)體對(duì)齊準(zhǔn)確率低

        行為知識(shí)加工階段的主要挑戰(zhàn)是實(shí)現(xiàn)有較高準(zhǔn)確率的實(shí)體對(duì)齊.雖然相關(guān)研究已有很長(zhǎng)歷史,但由于社交用戶(hù)的行為知識(shí)來(lái)源的異構(gòu)性、多樣性及復(fù)雜性導(dǎo)致用戶(hù)在不同數(shù)據(jù)源中存在多源指代問(wèn)題,目前的研究對(duì)可視化表示社交用戶(hù)的行為關(guān)系的幫助較少.如何在跨語(yǔ)境,跨社交平臺(tái)的條件下準(zhǔn)確地將文本中抽取的社交用戶(hù)進(jìn)行同一現(xiàn)實(shí)用戶(hù)的實(shí)體歸并是當(dāng)前的重要問(wèn)題.

        猜你喜歡
        可視化用戶(hù)信息
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        基于CGAL和OpenGL的海底地形三維可視化
        “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        關(guān)注用戶(hù)
        關(guān)注用戶(hù)
        關(guān)注用戶(hù)
        如何獲取一億海外用戶(hù)
        展會(huì)信息
        中文字幕被公侵犯的漂亮人妻| 偷窥偷拍一区二区三区| 日韩精品在线一二三四区| 久久久亚洲精品一区二区三区 | 狠狠色噜噜狠狠狠777米奇| 国产真实夫妇交换视频| 日本手机在线| 国产成人高清视频在线观看免费 | 亚洲区福利视频免费看| 国产一区二区三区亚洲avv| 国产免费av片无码永久免费| 91视频88av| 亚洲国产精品色一区二区| 国产精品蝌蚪九色av综合网| 亚洲狠狠婷婷综合久久久久图片| 亚洲永久精品ww47永久入口| 最新国产一区二区三区| 无码专区人妻系列日韩精品| 中文字幕亚洲欧美日韩2019| 国产一区二区三区爆白浆| 日韩精品人妻视频一区二区三区| 亚洲国产美女精品久久久久∴| 国产精品久久久久久人妻精品| 国产桃色精品网站| 亚洲视频在线观看一区二区三区 | 国产成人无码a区在线观看视频| 国产成人精品三级在线影院| 国产黄色三级三级三级看三级| 粉嫩小泬无遮挡久久久久久| 成人国产精品免费视频| 国内精品九九久久精品小草| 久久在一区二区三区视频免费观看| 色 综合 欧美 亚洲 国产| 亚洲AV无码一区二区二三区我| 人妻体体内射精一区中文字幕| 久久96国产精品久久久| 亚洲中文字幕第一页在线| 青青草免费在线手机视频| 丰满人妻一区二区三区视频| 亚洲欧美日韩中文在线制服| 国产高清天干天天视频|