亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)與圖數(shù)據(jù)庫(kù)構(gòu)建中文商業(yè)知識(shí)圖譜的探索研究

        2016-03-29 07:22:46王仁武袁毅袁旭萍
        圖書(shū)與情報(bào) 2016年1期
        關(guān)鍵詞:知識(shí)圖譜深度學(xué)習(xí)

        王仁武 袁毅 袁旭萍

        摘 要: 將知識(shí)圖譜應(yīng)用到商業(yè)領(lǐng)域是大數(shù)據(jù)時(shí)代企業(yè)的迫切需求。文章通過(guò)引入深度學(xué)習(xí)算法中的深度置信網(wǎng)絡(luò),自動(dòng)提取領(lǐng)域信息中蘊(yùn)含的知識(shí)單元及單元之間的關(guān)系,以此解決知識(shí)單元提取這一難點(diǎn)。同時(shí),采用Neo4j圖形數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)知識(shí)圖譜中包含的知識(shí)單元及其關(guān)系。當(dāng)需要對(duì)知識(shí)圖譜中包含的知識(shí)單元進(jìn)行查詢時(shí),可以采用該圖形數(shù)據(jù)庫(kù)的Cypher查詢語(yǔ)言進(jìn)行查詢。文章的研究方法可為商業(yè)領(lǐng)域快速構(gòu)建知識(shí)圖譜提供借鑒。

        關(guān)鍵詞:知識(shí)圖譜;深度學(xué)習(xí);圖數(shù)據(jù)庫(kù);深度置信網(wǎng)絡(luò)

        中圖分類(lèi)號(hào): G203 文獻(xiàn)標(biāo)識(shí)碼: A DOI:10.11968/tsyqb.1003-6938.2016017

        Study on the Construction of Chinese Knowledge Graph Based on Deep Learning and Graph Database

        Abstract Application of Knowledge graph to business areas is the urgent need of the enterprises in big data era. In order to solve the knowledge element extraction difficulties, the author tries to automatically extract the knowledge units and its relationships contained in the given field by introducing the deep belief network learning algorithm. At the same time, the knowledge unit and its relationship in the knowledge graph are stored by using the Neo4j graphics database. When you need to query the knowledge unit in the knowledge graph, the Cypher query language of the graph database can be used. The research method of this paper can provide reference for the rapid construction of knowledge graph in the commercial field.

        Key words knowledge graph; deep learning; graph database; deep belief networks

        1 引言

        近些年,隨著大數(shù)據(jù)時(shí)代的到來(lái),傳統(tǒng)的用于學(xué)科研究的科學(xué)知識(shí)圖譜[1]也開(kāi)始在其他領(lǐng)域有所應(yīng)用。Google早在2012年就發(fā)布了其知識(shí)圖譜產(chǎn)品—Google Knowledge Graph[2]。2013年2月,百度也推出了自己的知識(shí)圖譜。“打開(kāi)手機(jī)百度,用戶搜索‘王菲的時(shí)候不僅可以查到她的歌曲,還能知道她的前夫是李亞鵬,李亞鵬的前女友是周迅,周迅和湯唯恰好是同鄉(xiāng)”,這就是基于大數(shù)據(jù)技術(shù)的知識(shí)圖譜,百度為用戶編織了三維知識(shí)網(wǎng)絡(luò),滿足其對(duì)日益增長(zhǎng)的知識(shí)獲取需求。近年來(lái),還涌現(xiàn)了一些較有影響的知識(shí)圖譜,包括YAGO[3] 、DBpedia[4] 、NELL[5] 、Freebase[6] 等,這些知識(shí)圖譜包含數(shù)以百萬(wàn)計(jì)的節(jié)點(diǎn)和數(shù)十億的邊。另外,在社交網(wǎng)絡(luò)領(lǐng)域,F(xiàn)acebook和Twitter則推出了社交圖譜和興趣圖譜。知識(shí)圖譜在商業(yè)領(lǐng)域的應(yīng)用,擴(kuò)展了原先科學(xué)知識(shí)圖譜的內(nèi)涵,也使得它的應(yīng)用場(chǎng)景得到了延伸。

        商業(yè)領(lǐng)域中的信息不同于學(xué)科領(lǐng)域的信息,以往對(duì)學(xué)科領(lǐng)域的知識(shí)圖譜研究多基于文獻(xiàn)來(lái)進(jìn)行研究,關(guān)鍵詞、摘要等信息可以作為繪制知識(shí)圖譜的重要信息來(lái)源。而商業(yè)領(lǐng)域中的信息相比學(xué)科領(lǐng)域要更加雜亂無(wú)序,因此,對(duì)這些信息進(jìn)行語(yǔ)義分析,提取出能用于繪制知識(shí)圖譜的知識(shí)單元并找出知識(shí)單元之間的聯(lián)系就顯得極為重要。

        提取用于繪制知識(shí)圖譜的知識(shí)單元可以映射為對(duì)大量信息的命名實(shí)體進(jìn)行識(shí)別,而尋找知識(shí)單元之間的關(guān)系也可以映射為對(duì)命名實(shí)體關(guān)系的抽取,兩者都可以通過(guò)機(jī)器學(xué)習(xí)的方法進(jìn)行。以往在對(duì)命名實(shí)體的識(shí)別和實(shí)體關(guān)系抽取的時(shí)候,人們通常會(huì)選擇SVM(支持向量機(jī))或CRF(條件隨機(jī)場(chǎng))之類(lèi)的淺層學(xué)習(xí)方法,系統(tǒng)還需要融入大量適用于特定學(xué)習(xí)任務(wù)的人工特征,從而會(huì)導(dǎo)致部分特征的丟失。

        深度學(xué)習(xí)作為一種模擬人類(lèi)認(rèn)知行為的算法,它會(huì)像人類(lèi)的大腦一樣按照層次來(lái)對(duì)概念進(jìn)行組織。它會(huì)學(xué)習(xí)最簡(jiǎn)單的概念,然后根據(jù)這些簡(jiǎn)單的概念組成更加抽象的概念,逐層深入,通過(guò)對(duì)低層特征的組合,形成越來(lái)越抽象的深層表示,從而能達(dá)到更準(zhǔn)確的認(rèn)知。將深度學(xué)習(xí)用到對(duì)知識(shí)單元和單元之間的關(guān)系的提取中,可以為知識(shí)圖譜的繪制提供良好的基礎(chǔ);同時(shí),圖數(shù)據(jù)庫(kù)是使用節(jié)點(diǎn)、邊、屬性等圖數(shù)據(jù)結(jié)構(gòu)來(lái)表示和存儲(chǔ)信息,比較適合知識(shí)圖譜的存儲(chǔ)。

        2 知識(shí)圖譜構(gòu)建的相關(guān)研究概述

        2.1 商業(yè)知識(shí)圖譜的構(gòu)建方法

        目前商業(yè)領(lǐng)域知識(shí)圖譜構(gòu)建方法根據(jù)知識(shí)圖譜數(shù)據(jù)來(lái)源劃分,可以分為以下幾種:

        (1)基于網(wǎng)絡(luò)百科資源的知識(shí)圖譜構(gòu)建方法。以維基百科為例,可以通過(guò)它的文章頁(yè)面的關(guān)系來(lái)采集各類(lèi)實(shí)體、實(shí)體的同義詞、同音異義詞以及實(shí)體的概念及其上下文關(guān)系和實(shí)體對(duì)應(yīng)的類(lèi)別。AVP 知識(shí)抽取(Attribute-value Pairs Mining)是一種知識(shí)圖譜信息提取的重要方法,采用這種方法可以提取出百科類(lèi)資源中包含的屬性-值對(duì)信息[7]。

        (2)基于結(jié)構(gòu)化數(shù)據(jù)的知識(shí)圖譜構(gòu)建方法。RDF是一種資源描述框架,可以形式化地表示結(jié)構(gòu)信息,它一般用來(lái)描述網(wǎng)絡(luò)資源,例如某個(gè)Web頁(yè)面的內(nèi)容、作者等。采用RDF可以對(duì)知識(shí)進(jìn)行結(jié)構(gòu)化組織,進(jìn)而采用圖形化的方式展示出來(lái)[8]。

        (3)基于半結(jié)構(gòu)化數(shù)據(jù)的知識(shí)圖譜構(gòu)建方法。主要是一些中文百科類(lèi)的站點(diǎn)中,數(shù)據(jù)的結(jié)構(gòu)化程度遠(yuǎn)比不上維基百科,許多屬性隱藏在一些半結(jié)構(gòu)化的表格或列表中,可以采用模式學(xué)習(xí)的方法構(gòu)建一個(gè)或多個(gè)模式來(lái)實(shí)現(xiàn)自動(dòng)化的信息抽取,但是需要通過(guò)人工調(diào)整或新增模式等方法來(lái)進(jìn)行改進(jìn)與提高[9] 。

        (4)基于非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)圖譜構(gòu)建方法。許多特定領(lǐng)域缺乏結(jié)構(gòu)化和半結(jié)構(gòu)化的知識(shí)來(lái)源,此時(shí)非結(jié)構(gòu)化數(shù)據(jù)是主要的知識(shí)數(shù)據(jù)來(lái)源。它比較復(fù)雜,目前應(yīng)用并不廣泛。前面提到的NELL(Never-Ending Language Learning)系統(tǒng)旨在從數(shù)億的網(wǎng)頁(yè)中根據(jù)輸入的本體抽取知識(shí)實(shí)體以及這些知識(shí)間的聯(lián)系。

        2.2 商業(yè)知識(shí)圖譜的構(gòu)建過(guò)程

        在知識(shí)圖譜的構(gòu)建方面,葉六奇等[10]將知識(shí)圖譜的構(gòu)建分為3個(gè)部分:要素識(shí)別、關(guān)聯(lián)分析、結(jié)構(gòu)化展示。此外楊思洛等[11]也給出了知識(shí)圖譜的構(gòu)建流程,這些流程雖然各有差異,但都提到了知識(shí)圖譜繪制中最重要的環(huán)節(jié):構(gòu)建知識(shí)單元、構(gòu)建單元關(guān)系、知識(shí)圖譜的結(jié)構(gòu)化展示。

        在構(gòu)建商業(yè)知識(shí)圖譜時(shí),由于信息來(lái)源具有多樣性,如何對(duì)半結(jié)構(gòu)化、非結(jié)構(gòu)化的信息進(jìn)行處理,抽取出有效的知識(shí)單元是一個(gè)重要的議題。當(dāng)前采用較多的技術(shù)主要是利用文本挖掘?qū)χR(shí)單元進(jìn)行抽取。Hao等[12]通過(guò)TF-IDF算法抽取出文本中重要的單元,從而構(gòu)建出某個(gè)領(lǐng)域的知識(shí)地圖。Ong等[13]利用詞頻統(tǒng)計(jì)和PAT-tree等技術(shù)從文本中抽取出重要的知識(shí)單元,隨后采用SOM神經(jīng)網(wǎng)絡(luò)算法將知識(shí)單元進(jìn)行分類(lèi),針對(duì)中文的金融和健康領(lǐng)域的在線新聞提供了一種可視化的圖形展示。Liu等[14]抽取復(fù)合電子服務(wù)的屬性元數(shù)據(jù)作為知識(shí)單元,通過(guò)主題圖的方法構(gòu)建知識(shí)圖譜。張靜[15]認(rèn)為可以采用自動(dòng)標(biāo)引技術(shù)解決這一問(wèn)題。

        為發(fā)現(xiàn)知識(shí)間的關(guān)系,更好地展示各單元,則需要樣本數(shù)據(jù)的進(jìn)一步處理,即簡(jiǎn)化分析。當(dāng)前采用較多的方式有關(guān)聯(lián)分析、因子分析、多維尺度分析、自組織映射圖(SOM)、尋址網(wǎng)絡(luò)圖譜(PTNET)、聚類(lèi)分析、潛在語(yǔ)義分析、最小生成樹(shù)法等。

        在知識(shí)圖譜的存儲(chǔ)研究中,目前主要是RDF數(shù)據(jù)庫(kù)和圖數(shù)據(jù)庫(kù),從頂向下設(shè)計(jì)的RDF數(shù)據(jù)庫(kù)沒(méi)有從底向上設(shè)計(jì)的圖數(shù)據(jù)庫(kù)成功,圖形數(shù)據(jù)庫(kù)在存儲(chǔ)知識(shí)圖譜的知識(shí)單元和單元關(guān)系上效果最佳。目前,圖形數(shù)據(jù)庫(kù)并沒(méi)有一套完整的標(biāo)準(zhǔn),但是大部分圖形數(shù)據(jù)庫(kù)都包含了節(jié)點(diǎn)、關(guān)系、屬性這三個(gè)元素。節(jié)點(diǎn)可以用來(lái)存儲(chǔ)知識(shí)單元,關(guān)系可以用來(lái)展示知識(shí)單元之間的聯(lián)系,屬性可以表征知識(shí)單元的相關(guān)特性。目前使用較多的圖形數(shù)據(jù)庫(kù)主要有Neo4j[16]、FlockDB[17]、TAO等。

        3 基于深度置信網(wǎng)絡(luò)的中文知識(shí)單元及其關(guān)系識(shí)別

        在知識(shí)圖譜的構(gòu)建中,最重要的三個(gè)環(huán)節(jié)就是知識(shí)單元的抽取、知識(shí)單元間關(guān)系的識(shí)別,以及知識(shí)圖譜的存儲(chǔ)與使用。其中尤以知識(shí)單元抽取和知識(shí)單元間關(guān)系的識(shí)別最為關(guān)鍵。本文為了研究方便,將知識(shí)單元的抽取、知識(shí)間關(guān)系的識(shí)別映射為命名實(shí)體的識(shí)別和實(shí)體關(guān)系的識(shí)別。命名實(shí)體識(shí)別是指識(shí)別文本中包含的以名稱為標(biāo)識(shí)的命名實(shí)體,包括人名、組織名、地名等基于深度學(xué)習(xí)算法的商業(yè)知識(shí)圖譜構(gòu)建流程(見(jiàn)圖1)。

        這個(gè)流程中在命名實(shí)體識(shí)別階段,由于中文文本沒(méi)有明確的分詞邊界,需要首先對(duì)文本進(jìn)行分詞,然后針對(duì)特定的場(chǎng)景,選擇適當(dāng)?shù)奶卣鞑?gòu)建特征向量用于后續(xù)模型的學(xué)習(xí)與測(cè)試,之后便是模型的訓(xùn)練與測(cè)試。在實(shí)體關(guān)系識(shí)別階段,仍然需要選擇合適的特征并構(gòu)建特征向量,然后進(jìn)行模型訓(xùn)練與測(cè)試。

        3.1 深度置信網(wǎng)絡(luò)

        深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)是深度學(xué)習(xí)領(lǐng)域的經(jīng)典算法之一。它通常由多個(gè)受限玻爾茲曼機(jī)(RBM)和一層反向傳播網(wǎng)絡(luò)(BP)組成,其中受限玻爾茲曼機(jī)是無(wú)監(jiān)督的,而反向傳播網(wǎng)絡(luò)則是有監(jiān)督的。

        在深度置信網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,首先會(huì)無(wú)監(jiān)督地訓(xùn)練每一層RBM網(wǎng)絡(luò),以將數(shù)據(jù)樣本的內(nèi)在特征映射到不同的特征空間中,然后利用BP網(wǎng)絡(luò)有監(jiān)督地訓(xùn)練,將之前學(xué)習(xí)到的特征組合進(jìn)行分類(lèi),并且通過(guò)反向傳播對(duì)參數(shù)進(jìn)行調(diào)整,最終獲取深度置信網(wǎng)絡(luò)的最優(yōu)參數(shù)(見(jiàn)圖2)。

        其中,深度置信網(wǎng)絡(luò)包括3個(gè)RBM層和1個(gè)BP層。其中V0是輸入層,接受原始的樣本數(shù)據(jù),H0是第一層的隱藏層。樣本輸入至輸入層后,模型會(huì)先學(xué)習(xí)V0和H0層之間的參數(shù)W0。第一層訓(xùn)練好后,第一層的隱藏層H0會(huì)作為第二層RBM網(wǎng)絡(luò)的可視層V1,V1和H1一起組成第二層的RBM網(wǎng)絡(luò),此時(shí)模型會(huì)訓(xùn)練第二層RBM的參數(shù)W1。假設(shè)以n代表RBM的層數(shù),則第n-1層的輸出會(huì)作為n層的輸入,模型會(huì)學(xué)習(xí)第n層RBM網(wǎng)絡(luò)的參數(shù)Wn-1。結(jié)束所有的RBM網(wǎng)絡(luò)訓(xùn)練后,深度置信網(wǎng)絡(luò)進(jìn)入反向傳播階段,此時(shí),BP網(wǎng)絡(luò)會(huì)根據(jù)輸出與期望輸出的誤差對(duì)參數(shù)進(jìn)行調(diào)整,以達(dá)到深度置信網(wǎng)絡(luò)的最優(yōu)參數(shù)。

        3.2 中文命名實(shí)體識(shí)別

        (1) 命名實(shí)體識(shí)別。目前,命名實(shí)體識(shí)別主要采用的有基于實(shí)體詞典的方法,基于實(shí)體規(guī)則的方法,以及基于機(jī)器學(xué)習(xí)的方法。與前兩種方法相比,機(jī)器學(xué)習(xí)的方法能夠利用標(biāo)注過(guò)的語(yǔ)料來(lái)學(xué)習(xí),學(xué)習(xí)后的模型可以直接應(yīng)用到該領(lǐng)域的命名實(shí)體識(shí)別中。

        (2) 命名實(shí)體識(shí)別中的特征選擇。深度置信網(wǎng)絡(luò)對(duì)命名實(shí)體進(jìn)行識(shí)別時(shí),需要輸入命名實(shí)體的特征向量??梢赃x取的命名實(shí)體的特征有字特征、詞特征、詞性特征、上下文窗口特征等。本文選擇詞特征、詞性特征、上下文窗口特征、詞典特征、其他統(tǒng)計(jì)特征來(lái)對(duì)命名實(shí)體進(jìn)行描述。

        ①詞特征:將分詞后的所有詞組成字符表D={d_1,d_2,…,d_n},其中d_i表示一個(gè)詞,i∈[1,n]。將每個(gè)詞E的詞特征向量表示為V(E)={v_1,v_2,…,v_n},其中v_i代表該詞是否對(duì)應(yīng)字符表D中的d_i,v_i的計(jì)算方式如下:

        ②詞性特征:詞性特征的構(gòu)建與詞特征的構(gòu)建方式一致。首先構(gòu)建詞性表D={d_1,d_2,…,d_m},假設(shè)該詞E的詞性為p,則該詞的詞性特征向量為V(E)={v_1,v_2,…,v_m},其中v_i代表該詞的詞性是否對(duì)應(yīng)詞性表D中的d_i,v_i的計(jì)算方式如下:

        ③上下文窗口特征:在一段文本中,連續(xù)多個(gè)詞組成的上下文窗口有時(shí)也會(huì)存在一定的規(guī)律,如新聞中闡述某個(gè)人的觀點(diǎn)時(shí),通常會(huì)使用“陌陌CFO張曉松表示”類(lèi)似的表述方式,此時(shí)分析該詞的上下文窗口就可以為該詞的識(shí)別提供依據(jù)。通過(guò)“張曉松”后面的“表示”一詞可以初步判定“張曉松”為人名,而通過(guò)“陌陌”后面的“CFO”可以初步判定“陌陌”為公司名。上下文窗口可以根據(jù)具體場(chǎng)景進(jìn)行設(shè)置,如設(shè)置為3,則表示選擇該詞的前一個(gè)詞和后一個(gè)詞納入到分析中,如設(shè)置為5,則表示選擇該詞的前兩個(gè)詞和后兩個(gè)詞納入分析。

        詞典特征可以選擇與實(shí)體相關(guān)的詞組成詞典,如人物的稱謂、組織機(jī)構(gòu)的后綴等組成詞典。同樣采用上文提到的特征向量構(gòu)造方式構(gòu)造每個(gè)詞的特征向量,假設(shè)詞典為D={d_1,d_2,…,d_n},將每個(gè)詞E的詞特征向量表示為V={v_1,v_2,…,v_n},其中v_i代表該詞是否對(duì)應(yīng)詞典D中的d_i,v_i的計(jì)算方式見(jiàn)公式(1)。

        其他統(tǒng)計(jì)特征在命名實(shí)體識(shí)別時(shí),同樣可以增加一些統(tǒng)計(jì)特征進(jìn)行計(jì)算,如自然語(yǔ)言處理中經(jīng)常使用的TF-IDF。

        3.3 中文命名實(shí)體的關(guān)系識(shí)別

        (1)實(shí)體關(guān)系識(shí)別。實(shí)體關(guān)系是指實(shí)體間存在的語(yǔ)義關(guān)系,其中這些語(yǔ)義關(guān)系可以是顯性的,也可以是隱性的。例如從“阿里巴巴負(fù)責(zé)人馬云”這個(gè)描述中可以看出,“阿里巴巴”和“馬云”是兩個(gè)實(shí)體,其中,“阿里巴巴”是組織機(jī)構(gòu)名,“馬云”是人名,他們之間的聯(lián)系屬于角色關(guān)系,“馬云”隸屬于“阿里巴巴”。ACE(Automatic Content Extraction)是一個(gè)全球性的信息抽取項(xiàng)目,該項(xiàng)目主要解決信息抽取中的實(shí)體抽取、關(guān)系識(shí)別和事件識(shí)別。它將實(shí)體關(guān)系分為了以下幾類(lèi):Role(角色關(guān)系)、Part(整體與部分的關(guān)系)、At(位置關(guān)系)、Near(鄰近關(guān)系)、Social(社交關(guān)系)等。除了ACE列出的實(shí)體關(guān)系,還可以根據(jù)不同的情況定義不同的實(shí)體關(guān)系,如作者與著作之間的從屬關(guān)系等。

        目前,實(shí)體關(guān)系識(shí)別主要采用三種方法:基于模式匹配的方法、基于特征的方法和基于核函數(shù)的方法?;谔卣鞯姆椒ú捎镁浞ǚ治黾霸~法分析將關(guān)系實(shí)例轉(zhuǎn)化為特征向量,繼而可采用機(jī)器學(xué)習(xí)模型進(jìn)行處理,計(jì)算特征向量的相似度,并對(duì)實(shí)例關(guān)系進(jìn)行分類(lèi)。采用基于特征的方法,一般需要基于大量的數(shù)據(jù)構(gòu)造完整的特征,常用的特征包括詞特征、詞性特征、語(yǔ)義特征、實(shí)體屬性特征等。這些特征的提取又依賴于對(duì)語(yǔ)料的預(yù)處理工作,一般預(yù)處理效果越好,實(shí)體識(shí)別效果越好。本文采用基于特征的方法,通過(guò)深度置信網(wǎng)絡(luò)算法對(duì)中文實(shí)體之間的關(guān)系進(jìn)行識(shí)別,采用這種方法可減少大量的人工參與,使特征的提取更加簡(jiǎn)單有效。

        (2) 實(shí)體關(guān)系識(shí)別中的特征選擇。在實(shí)體關(guān)系識(shí)別中,將實(shí)體對(duì)作為分析的數(shù)據(jù),一般選擇字符特征、實(shí)體的類(lèi)型特征、實(shí)體對(duì)的相對(duì)位置、上下文窗口特征等特征進(jìn)行判別。目前大部分實(shí)體關(guān)系識(shí)別的研究都是基于句子級(jí)的,即研究同一個(gè)句子中兩個(gè)實(shí)體之間是否存在關(guān)系。而對(duì)于一句話中研究的是兩個(gè)實(shí)體之間的關(guān)系還是兩個(gè)以上實(shí)體之間的關(guān)系沒(méi)有一個(gè)統(tǒng)一的規(guī)范[18]。本文也采用句子級(jí)的粒度,研究一句話中任意兩個(gè)實(shí)體之間是否存在聯(lián)系。

        本文對(duì)實(shí)體對(duì)的定義如下:假設(shè)一個(gè)句子中包含實(shí)體集SE={E_1,E_2,…,E_n},若存在E_i∈SE,E_j∈SE,且i≠j,則{E_i,E_j}為一個(gè)實(shí)體對(duì)。

        本文選擇實(shí)體特征、實(shí)體類(lèi)型特征、實(shí)體對(duì)相對(duì)位置特征、實(shí)體間距離特征、上下文窗口特征作為實(shí)體關(guān)系識(shí)別的特征。

        實(shí)體特征在命名實(shí)體識(shí)別階段,曾經(jīng)構(gòu)造了詞特征。這里的實(shí)體特征與命名實(shí)體識(shí)別的詞特征相似,只不過(guò)將基于詞的字符表改成了基于實(shí)體的字符表。加載實(shí)體特征中,字符表D存儲(chǔ)所有的實(shí)體字符。D={d_1,d_2,…,d_n},其中d_i代表一個(gè)實(shí)體。每個(gè)實(shí)體對(duì)E1和E2的特征向量為V={v_1,v_2,…,v_n,v_(n+1),v_(n+2),…,v_2n}。特征向量的維數(shù)為D的兩倍。v_i的計(jì)算方式如下:

        實(shí)體類(lèi)型特征:實(shí)體類(lèi)型特征代表該實(shí)體屬于哪個(gè)命名實(shí)體類(lèi)別,如人名、機(jī)構(gòu)名、地名等。對(duì)于一些特定的實(shí)體關(guān)系,實(shí)體的類(lèi)別對(duì)于實(shí)體關(guān)系識(shí)別非常重要。如判斷某人與某機(jī)構(gòu)能否構(gòu)成角色(Role)關(guān)系時(shí),實(shí)體對(duì)必須滿足有一個(gè)實(shí)體為人名類(lèi)型實(shí)體,另一個(gè)實(shí)體為機(jī)構(gòu)名類(lèi)型實(shí)體。該特征能夠描述實(shí)體對(duì)中的實(shí)體分別屬于哪個(gè)類(lèi)別,為實(shí)體關(guān)系的判別提供依據(jù)。

        實(shí)體對(duì)相對(duì)位置特征:實(shí)體對(duì)的相對(duì)位置特征能夠描述該實(shí)體對(duì)里的兩個(gè)實(shí)體之間的位置關(guān)系。按照常識(shí)而言,實(shí)體之間的位置關(guān)系越靠近,這兩個(gè)實(shí)體越有可能存在語(yǔ)義關(guān)系。實(shí)體間的相對(duì)位置關(guān)系一般有三種:嵌套、相鄰以及分離。其中嵌套代表某個(gè)實(shí)體嵌套在另一實(shí)體中,相鄰代表兩個(gè)實(shí)體之間是相鄰的,沒(méi)有字符相隔,分離代表兩實(shí)體之間由其他字符隔開(kāi)了。

        實(shí)體間距離特征:當(dāng)兩個(gè)實(shí)體之間是分離狀態(tài)時(shí),可以通過(guò)計(jì)算它們之間的距離來(lái)衡量它們分離的程度。實(shí)體間的距離特征主要計(jì)算兩個(gè)實(shí)體間由多少個(gè)詞隔開(kāi)。

        上下文窗口特征在實(shí)體關(guān)系識(shí)別中,上下文窗口特征仍然是一個(gè)重要的識(shí)別特征。尤其是兩個(gè)實(shí)體中間的內(nèi)容,往往對(duì)于識(shí)別實(shí)體間的關(guān)系具有重要的參考價(jià)值。如“河貍家創(chuàng)始人孟醒”這個(gè)表述中,“河貍家”和“孟醒”分別為一個(gè)公司實(shí)體和一個(gè)人名實(shí)體。這兩個(gè)實(shí)體中間的“創(chuàng)始人”一詞就描述了這兩個(gè)實(shí)體之間的關(guān)系。因此,上下文窗口特征對(duì)于實(shí)體關(guān)系識(shí)別也有著重要意義。針對(duì)不同場(chǎng)景,可以建立不同的上下文窗口特征。

        4 實(shí)驗(yàn)及結(jié)果分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)源及領(lǐng)域詞典構(gòu)建

        實(shí)驗(yàn)采集了鳳凰網(wǎng)科技頻道下“移動(dòng)互聯(lián)”子頻道的2014年1月1日到2014年3月31日5017條新聞文本,希望能準(zhǔn)確識(shí)別出這些文本中包含的人名、公司名這兩種命名實(shí)體,繼而通過(guò)實(shí)體關(guān)系識(shí)別將形成角色關(guān)系的人名與公司名實(shí)體對(duì)識(shí)別出來(lái)。為了達(dá)到這個(gè)目的。實(shí)驗(yàn)對(duì)這5017條新聞文本進(jìn)行分詞,并人工標(biāo)注分詞后的實(shí)體,為模型訓(xùn)練和評(píng)估提供依據(jù)。

        實(shí)驗(yàn)環(huán)境為Windows7操作系統(tǒng),采用MySQL和Neo4j進(jìn)行數(shù)據(jù)存儲(chǔ),其中MySQL用于存儲(chǔ),用來(lái)進(jìn)行命名實(shí)體識(shí)別和實(shí)體關(guān)系識(shí)別的語(yǔ)料及特征數(shù)據(jù),Neo4j存放識(shí)別后的命名實(shí)體和實(shí)體關(guān)系。數(shù)據(jù)預(yù)處理和建模工作采用Python進(jìn)行。其中采用Python的Theano模塊用來(lái)進(jìn)行深度置信空間算法的訓(xùn)練和測(cè)試。

        因移動(dòng)互聯(lián)網(wǎng)領(lǐng)域是個(gè)新興領(lǐng)域,目前并沒(méi)有完整的領(lǐng)域詞典,實(shí)驗(yàn)對(duì)該領(lǐng)域詞典進(jìn)行了構(gòu)建,以提高分詞的準(zhǔn)確性。詞典的構(gòu)建過(guò)程如下:首先對(duì)百度百科的詞條標(biāo)簽進(jìn)行分析,選擇了“互聯(lián)網(wǎng)”、“移動(dòng)互聯(lián)網(wǎng)”、“電子商務(wù)”、“科技”、“電子產(chǎn)品”、“數(shù)碼”等56個(gè)標(biāo)簽;然后采用Python編寫(xiě)爬蟲(chóng),爬取這56個(gè)標(biāo)簽下的詞條,并對(duì)采集到的詞條進(jìn)行去重,得到32380個(gè)詞條;最后由于采集的是百度百科的Tag頁(yè)面下的詞條,而Tag頁(yè)面中最多只列出了76頁(yè)詞條,那些沒(méi)有列出的詞條沒(méi)有辦法通過(guò)程序直接采集。基于這個(gè)原因,實(shí)驗(yàn)通過(guò)人工查看數(shù)據(jù)集中的內(nèi)容,補(bǔ)充沒(méi)有采集到的詞條,人工添加的詞條共有346個(gè)。

        加入自建的詞典,對(duì)數(shù)據(jù)集進(jìn)行分詞。5017篇新聞分詞及去停用詞后得到257059個(gè)詞。這些詞用來(lái)進(jìn)行命名實(shí)體識(shí)別。

        4.2 命名實(shí)體識(shí)別

        (1) 命名實(shí)體識(shí)別。主要是構(gòu)建前面提到的詞特征、詞典特征等。構(gòu)建這些特征需要大量的數(shù)據(jù)預(yù)處理過(guò)程,具體的數(shù)據(jù)預(yù)處理過(guò)程如下:

        ①語(yǔ)料的清洗?;赪eb新聞采集下來(lái)的文本語(yǔ)料的分段與分句。在上下文窗口特征中,由于跨句子的上下文窗口詞中包含的信息量較少,所以對(duì)每個(gè)詞的上下文窗口詞進(jìn)行提取時(shí),只提取該詞所在句子中的前兩個(gè)詞和后兩個(gè)詞。這就要求對(duì)語(yǔ)料進(jìn)行分句,每一句進(jìn)行單獨(dú)存儲(chǔ)。分句后的數(shù)據(jù)存儲(chǔ)至MySQL數(shù)據(jù)庫(kù)中。

        ②提取每個(gè)詞的上下文窗口詞。其中,句子中的第一個(gè)詞沒(méi)有上文窗口詞,故將其上文窗口詞都設(shè)為空值,句子末尾的詞的下文窗口詞也設(shè)為空值。

        ③計(jì)算詞特征、詞性特征、詞典特征。在計(jì)算上下文窗口特征時(shí),為了盡可能多地獲取詞的上下文特征,將窗口設(shè)為5,提取該句子中當(dāng)前詞的前兩個(gè)詞和后兩個(gè)詞進(jìn)行分析。并對(duì)每個(gè)詞的上下文窗口詞建立基于計(jì)算詞特征與詞性特征的詞表和詞性表的特征向量。最后再計(jì)算每個(gè)詞對(duì)應(yīng)與該新聞文本的TF-IDF值。

        ④本次實(shí)驗(yàn)采取有監(jiān)督的學(xué)習(xí)方法,因此在實(shí)驗(yàn)前,需要人工對(duì)實(shí)體類(lèi)型進(jìn)行標(biāo)注,經(jīng)過(guò)標(biāo)注和審查后,得到人名類(lèi)的實(shí)體共3678個(gè),公司名類(lèi)的實(shí)體共5316個(gè)。

        (2)實(shí)驗(yàn)結(jié)果分析。實(shí)驗(yàn)采用Python中的深度學(xué)習(xí)Theano包編寫(xiě)了基于深度置信網(wǎng)絡(luò)(DBN)的命名實(shí)體識(shí)別程序,模型共包括三個(gè)隱藏層,各層節(jié)點(diǎn)均為1000個(gè)。采用70%的數(shù)據(jù)進(jìn)行訓(xùn)練,30%的數(shù)據(jù)進(jìn)行測(cè)試。并將實(shí)驗(yàn)結(jié)果(見(jiàn)表1)與人工神經(jīng)網(wǎng)絡(luò)(ANN)作了對(duì)比后發(fā)現(xiàn),實(shí)驗(yàn)中深度置信網(wǎng)絡(luò)的結(jié)果均高于采用淺層學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò),體現(xiàn)了深度學(xué)習(xí)的優(yōu)勢(shì)。

        4.3 命名實(shí)體關(guān)系的識(shí)別

        (1)命名實(shí)體的關(guān)系識(shí)別。基于命名實(shí)體識(shí)別部分識(shí)別出來(lái)的人名和公司名,在實(shí)體關(guān)系識(shí)別中,希望能將人名與公司名對(duì)應(yīng)上,找出實(shí)體關(guān)系中的角色(Role)關(guān)系。需要做以下的數(shù)據(jù)預(yù)處理工作:

        ①實(shí)體對(duì)提取。提取語(yǔ)料中所有的實(shí)體對(duì)。每一個(gè)句子中出現(xiàn)的任意兩個(gè)實(shí)體都標(biāo)為一個(gè)實(shí)體對(duì)。每個(gè)實(shí)體對(duì)保存為如下格式:

        其中,Sid代表該實(shí)體對(duì)所在的句子編號(hào),Wid1 和Wid2代表這兩個(gè)實(shí)體在分詞后的詞編號(hào),Eid1 和Eid2代表這兩個(gè)實(shí)體的實(shí)體標(biāo)號(hào),E1 和E2則存儲(chǔ)這兩個(gè)實(shí)體的具體內(nèi)容,Etype1 和Etype2代表這兩個(gè)實(shí)體的實(shí)體類(lèi)別。

        ②計(jì)算實(shí)體特征、實(shí)體類(lèi)型特征、實(shí)體對(duì)相對(duì)位置特征、實(shí)體間距離特征、上下文窗口特征。

        (2)實(shí)驗(yàn)結(jié)果分析。實(shí)驗(yàn)仍然采用Python中的Theano深度學(xué)習(xí)包構(gòu)建深度置信網(wǎng)絡(luò)算法,仍然采用準(zhǔn)確率、召回率和F-值衡量測(cè)試效果。從實(shí)驗(yàn)結(jié)果(見(jiàn)表2)數(shù)據(jù)上看,深度置信網(wǎng)絡(luò)算法與人工神經(jīng)網(wǎng)絡(luò)算法相比,在召回率和F-值上都取得了相對(duì)較好的結(jié)果。

        表2 實(shí)體關(guān)系識(shí)別效果對(duì)比

        4.4 知識(shí)圖譜的存儲(chǔ)與使用

        實(shí)驗(yàn)得到命名實(shí)體和實(shí)體關(guān)系后,將其存儲(chǔ)在Neo4j圖形數(shù)據(jù)庫(kù)中,以便知識(shí)圖譜的繪制和查詢。Neo4j是一個(gè)穩(wěn)定且成熟的,具有較高性能的圖形數(shù)據(jù)庫(kù)。具有完整的ACID支持、高可用性、可擴(kuò)展性,通過(guò)Neo4j的遍歷工具可以高速檢索數(shù)據(jù)。Neo4j的查詢語(yǔ)言是一種可以對(duì)圖形數(shù)據(jù)庫(kù)進(jìn)行查詢和更新的圖形查詢語(yǔ)言Cypher,它類(lèi)似于關(guān)系數(shù)據(jù)庫(kù)的SQL語(yǔ)言。Cypher的語(yǔ)法并不復(fù)雜,然而它的功能卻非常強(qiáng)大,它可以實(shí)現(xiàn)SQL難以實(shí)現(xiàn)的功能。例如,六度分割理論中曾指出任何兩個(gè)人之間所間隔的人不會(huì)超過(guò)六個(gè)。只要數(shù)據(jù)足夠完整,采用Cypher可以很容易地找到任何兩個(gè)人之間是通過(guò)哪些人聯(lián)系起來(lái)的,而這一點(diǎn)SQL很難實(shí)現(xiàn)。

        一段完整的Cypher查詢通常是由一些子句組成的,Cypher的常用子句如下:

        ①M(fèi)ATCH子句:MATCH子句通常用來(lái)對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行匹配,從而獲取滿足查詢條件的數(shù)據(jù)。

        ②WHERE子句:WHERE嚴(yán)格意義上不能算是一個(gè)子句,它一般作為MATCH子句的一部分,指定查詢需要滿足的條件。這與SQL中的WHERE也是相似的。

        ③RETURN子句:RETURN子句指定查詢需要返回哪些內(nèi)容。

        ④CREATE子句:CREATE子句可以用來(lái)創(chuàng)建節(jié)點(diǎn)、關(guān)系或?qū)傩缘取?/p>

        假設(shè)我們需要?jiǎng)?chuàng)建一個(gè)名為“阿里巴巴”的節(jié)點(diǎn),可以在查詢區(qū)域輸入“CREATE(n:Company {name:“阿里巴巴”});”。創(chuàng)建成功后,輸入“MATCH(company:Company{name:“阿里巴巴”}) RETURN company”既可以將該節(jié)點(diǎn)展示出來(lái)。

        圖3展示了基于部分實(shí)驗(yàn)數(shù)據(jù)所繪制的知識(shí)圖譜。其中圖的左上角采用圖示標(biāo)注了不同顏色節(jié)點(diǎn)代表的實(shí)體類(lèi)型,圖形區(qū)域展示了company類(lèi)型實(shí)體、person類(lèi)型實(shí)體及兩類(lèi)實(shí)體之間的角色關(guān)系。

        圖4是知識(shí)圖譜的一個(gè)查詢實(shí)例。假設(shè)我們需要獲取“中國(guó)手游”這個(gè)公司的公司成員,可以在Neo4j的查詢頁(yè)面輸入“MATCH (a:company{name:"中國(guó)手游"})<-[r:Role_of]-(p) return a,r,p”,從而獲得該公司的公司成員。從圖4中可以看出,“應(yīng)書(shū)嶺”、“孫晶藝”、“肖健”與“中國(guó)手游”都有Role_of的關(guān)系,即這三個(gè)人都是“中國(guó)手游”公司的成員。

        5 結(jié)語(yǔ)

        商業(yè)知識(shí)圖譜與學(xué)科知識(shí)圖譜在構(gòu)建方面存在很大的區(qū)別,在商業(yè)知識(shí)圖譜構(gòu)建中,如何自動(dòng)地提取大量文本中隱藏的知識(shí)單元和知識(shí)單元之間的關(guān)系一直是有待解決的技術(shù)難題。為了解決這兩大難題,本文將深度學(xué)習(xí)算法引入到商業(yè)知識(shí)圖譜的構(gòu)建中,采用命名實(shí)體識(shí)別和實(shí)體關(guān)系識(shí)別這兩大機(jī)器學(xué)習(xí)的任務(wù)來(lái)解決知識(shí)單元抽取和知識(shí)單元關(guān)系抽取這兩個(gè)難題。此外,本文還將圖形數(shù)據(jù)庫(kù)納入到構(gòu)建商業(yè)知識(shí)圖譜的體系中來(lái),采用圖形數(shù)據(jù)庫(kù)對(duì)知識(shí)單元進(jìn)行存儲(chǔ)及展示,為商業(yè)知識(shí)圖譜的繪制提供了一種思路。進(jìn)一步的研究工作可以將深度學(xué)習(xí)用于商業(yè)領(lǐng)域的中文分詞及業(yè)務(wù)命名實(shí)體及其關(guān)系識(shí)別上,研究不同深度學(xué)習(xí)框架的應(yīng)用效果;同時(shí)圖數(shù)據(jù)庫(kù)在商業(yè)知識(shí)圖譜構(gòu)建上應(yīng)有較大的空間,本文只是作了一些探索,深入研究還有待展開(kāi)。

        參考文獻(xiàn):

        [1] 梁秀娟. 科學(xué)知識(shí)圖譜研究綜述[J]. 圖書(shū)館雜志, 2009 (6): 58-62.

        [2] A.Singhal,“Introducing the Knowledge Graph:things,not strings,”[EB/OL].[2015-11-20].http://googleblog.blogspot.com/2012/05/introducing-knowledge-graph-things-not.html.

        [3] F. M. Suchanek, G. Kasneci, and G. Weikum,“Yago:A Core of Semantic Knowledge,” in Proceedings ofthe 16th International Conference on World Wide Web[C].New York, NY, USA:ACM, 2007:697-706.

        [4] S. Auer, C. Bizer, G. Kobilarov, J. Lehmann,R. Cyganiak, and Z. Ives,“DBpedia: A Nucleus for a Web of Open Data,” in The Semantic Web[M]. Springer Berlin Heidelberg, 2007:722-735.

        [5] A. Carlson, J. Betteridge, B. Kisiel, B. Settles, E. R. H.Jr, and T. M. Mitchell,“Toward an Architecture for Never-Ending Language Learning,” in Proceedings of the Twenty-Fourth Conference on Artificial Intelligence(AAAI 2010)[C].AAAI Press, 2010:1306-1313.

        [6] K. Bollacker, C. Evans, P. Paritosh, T. Sturge, and J. Tay-lor, “Freebase: a collaboratively created graph database for structuring human knowledge,” in Proceedings of the 2008 ACM SIGMOD international conference on Management of data[C]. ACM,2008:1247-1250.

        [7] Wu F, Weld D S. Autonomously semantifying wikipedia[C].Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. ACM, 2007: 41-50.

        [8] 項(xiàng)靈輝. 基于圖數(shù)據(jù)庫(kù)的海量RDF數(shù)據(jù)分布式存儲(chǔ)[D].武漢:武漢科技大學(xué), 2013.

        [9] 王昊奮.知識(shí)圖譜技術(shù)原理介紹[EB/OL].[2015-11-25].http://wenku.baidu.com/view/b3858227c5da50e2534d7f08.html.

        [10] 葉六奇,石晶. 知識(shí)地圖的構(gòu)建方法論研究[J].圖書(shū)情報(bào)工作,2012(10):30-34.

        [11] 楊思洛,韓瑞珍. 國(guó)外知識(shí)圖譜繪制的方法與工具分析[J].圖書(shū)情報(bào)知識(shí),2012(6):101-109.

        [12] Hao J, Yan Y, Gong L, et al. Knowledge map-based method for domain knowledge browsing[J].Decision Support Systems, 2014(61): 106-114.

        [13] Ong T H, Chen H, Sung W, et al. Newsmap: a knowledge map for online news[J].Decision Support Systems, 2005, 39(4): 583-597.

        [14] Liu D R, Ke C K, Lee J Y, et al. Knowledge maps for composite e-services: A mining-based system platform coupling with recommendations[J].Expert Systems with applications,2008,34(1):700-716.

        [15] 張靜. 自動(dòng)標(biāo)引技術(shù)的回顧與展望[J].現(xiàn)代情報(bào),2009(4):221-225.

        [16] Baranov D, Fender W R, Hamstra A N. Graph-based system and method of information storage and retrieval:,US8954441[P]. 2015.

        [17] Klint Finley, 五個(gè)值得關(guān)注的圖形數(shù)據(jù)庫(kù)[EB/OL].[2015-12-10].http://www.csdn.net/article/2012-03-14/313107.

        [18] 王晶. 無(wú)監(jiān)督的中文實(shí)體關(guān)系抽取研究[D]. 上海:華東師范大學(xué), 2012.

        猜你喜歡
        知識(shí)圖譜深度學(xué)習(xí)
        有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
        國(guó)內(nèi)圖書(shū)館嵌入式服務(wù)研究主題分析
        國(guó)內(nèi)外政府信息公開(kāi)研究的脈絡(luò)、流派與趨勢(shì)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
        近十五年我國(guó)小學(xué)英語(yǔ)教學(xué)研究的熱點(diǎn)、問(wèn)題及對(duì)策
        基于知識(shí)圖譜的產(chǎn)業(yè)集群創(chuàng)新績(jī)效可視化分析
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        基于知識(shí)圖譜的智慧教育研究熱點(diǎn)與趨勢(shì)分析
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        亚洲AV综合久久九九| 亚洲一区二区三区影院| 被黑人猛躁10次高潮视频| 91精选视频在线观看| 无码三级国产三级在线电影| 区一区二区三免费观看视频| 免费无码不卡视频在线观看 | 国产欧美日本亚洲精品一5区| 女人18毛片aa毛片免费| 成 人 免 费 黄 色| 小12萝8禁在线喷水观看| 亚洲色欲色欲www成人网| 丝袜美腿精品福利在线视频| 久久精品国产亚洲av麻豆图片| 欧美性猛交xxxx乱大交丰满| 亚洲国产精品综合福利专区| 偷拍韩国美女洗澡一区二区三区 | 在线观看一区二区蜜桃| 欧美丰满熟妇性xxxx| 青青草国产成人99久久| 蜜桃av观看亚洲一区二区| 在线观看国产白浆一区三区| 国产精品永久免费| 加勒比一本heyzo高清视频| 国产av无码专区亚洲av蜜芽| 天天av天天爽无码中文| 日韩精品一区二区三区四区五区六 | 女人高潮被爽到呻吟在线观看| 日本亚洲欧美在线观看| 亚洲av午夜福利一区二区国产 | 不卡日韩av在线播放| 特级做a爰片毛片免费看108| 久久婷婷色香五月综合激情| 日本不卡不二三区在线看| 无码国产色欲xxxx视频| a毛片全部免费播放| 91在线观看国产自拍| 美女视频黄是免费| 日产精品久久久久久久性色 | 色狠狠色狠狠综合一区| 久久精品人妻嫩草av蜜桃|