亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于實體對齊的知識圖譜構建研究

        2018-06-28 09:04:54,
        關鍵詞:信息

        ,

        ( 1. 安徽科技學院信息與網(wǎng)絡工程學院,安徽 滁州 233100; 2.北京郵電大學計算機學院,北京 100876 )

        0 引 言

        知識圖譜自2012年由谷歌提出后,引起了人們的廣泛關注。如Knowledge Graph[1],DBpedia[2]、百度知心,以及清華大學和上海交通大學建立的XLORE[3]和Zhishi.me[4]。這些知識圖譜大都是利用群體智能在已有的結構化知識上建立的,對非結構化的文本信息覆蓋比較少。由于大部分的實體都沒有結構化的信息,在使用時僅覆蓋少數(shù)領域。因此面向領域的知識圖譜的研究逐漸引起人們的注意,清華大學的楊玉基[5]等人提出通過“四步法”,基于領域本體、語義標注和互聯(lián)網(wǎng)數(shù)據(jù)準確高效的構建地理學科知識圖譜,為構建領域知識圖譜提供新的思路。杜亞軍[6]等為了擴大微博搜索的效率,通過提取微博社區(qū)中的人物、事件、地點、話題和事件等概念及概念之間的組合關系構建微博社區(qū)知識圖譜,并對圖譜進行分析。熊晶[7]等為了提高甲骨文信息共享率,基于MKD知識圖譜和甲骨文中隱含的語義關系,重點解決甲骨文知識圖譜構建過程中的實體發(fā)現(xiàn)問題。唐詩是中國文學史上的燦爛明珠,作品量比較多,如果利用知識圖譜技術建立唐詩、作者和地點等關系圖譜,可以幫助學習者從多個方面研究唐詩文化,從而挖掘其中深層次的知識。但是,關于詩詞知識圖譜的研究還處于初期,由于現(xiàn)在可依賴的詩詞書籍和網(wǎng)絡資源比較豐富,百科類的數(shù)據(jù)如維基百科和互動百科中關于詩詞和詩人介紹的也比較多,因此在分析各種數(shù)據(jù)源的基礎上,探討基于實體對齊的知識圖譜構建方法,系統(tǒng)技術路線如圖1所示,共分為三個部分。分別是數(shù)據(jù)來源、知識圖譜構建的關鍵技術和知識圖譜存儲。其中,數(shù)據(jù)來源部分主要自動抓取百科和垂直網(wǎng)站中的詩人相關的數(shù)據(jù);知識圖譜構建的關鍵技術包含構建本體模型,抽取實體和屬性相關數(shù)據(jù)并通過實體對齊技術對數(shù)據(jù)進行融合;最后把融合后的知識圖譜存儲到數(shù)據(jù)庫中為查詢和推理提供技術支持。

        圖1 系統(tǒng)技術路線圖

        1 數(shù)據(jù)來源

        1.1 百科類數(shù)據(jù)

        百科類網(wǎng)站以圖的結構存儲大量的用戶生成數(shù)據(jù),覆蓋面比較廣,各個領域的數(shù)據(jù)都會涉及,因此可做為面向領域的知識圖譜的數(shù)據(jù)來源之一。在中文領域,比較知名的是維基百科、百度百科和互動百科,它們都含有詩人、古詩和地點的結構化數(shù)據(jù),每個頁面具體包括標題、類別標簽、信息框和摘要等信息。標題一般對應實體的名字。類別標簽表示實體所屬的類別,比如,在百度百科中,實體“李白”的標簽有“詩人”,“文學家”,“文化人物”和“歷史人物”。信息框可以作為實體屬性和實體關系的來源,摘要主要是描述實體的文本信息。

        1.2 其他數(shù)據(jù)源

        面向領域的網(wǎng)站上的數(shù)據(jù)是半結構化,描述的也是特定領域的知識,很多站點都是把保存在數(shù)據(jù)庫中某些領域的知識展示出來。雖然范圍比較窄,但是專業(yè)性比較強,是構建知識圖譜中比較好的數(shù)據(jù)來源。目前關于詩詞的網(wǎng)站比較多,古詩文網(wǎng)作為傳承經(jīng)典的網(wǎng)站,專注于古詩文的服務,包括各個朝代的作者簡介,詩詞和古籍信息等,數(shù)據(jù)比較集中和完備,所以從該網(wǎng)站爬取了42153條唐代所有作者的詩詞信息來補充和擴充從百科中爬取的數(shù)據(jù)。

        2 關鍵技術

        2.1 本體構建

        知識圖譜的構建可采用自頂向下和自底向上的方法,自頂向下主要是先構建本體[8],為知識圖譜提煉模式,定義領域內的概念、關系后,再把實體一個個添加進去。自底向上的方法則是從實體開始進行歸納底層的概念,然后逐步抽象上層的概念。這里采用自頂向下的方法構建知識圖譜,統(tǒng)計在相關資料中出現(xiàn)頻率相對較高的術語作為領域內的核心概念,如“地點”、“詩人”和“古詩”等,每個概念下都有若干實體,如“詩人”這個概念下就包含“李白”、“杜甫”、“白居易”等實體。另一方面,關系也是知識圖譜的核心要素,他描述了領域內的概念、實體之間的相互作用,關系越多知識圖譜越豐富。關系的類型參考百科的標簽、實體的信息框及在文本中抽取的關系來確定,其中最主要的是上下位關系。

        2.2 信息抽取

        信息抽取主要是自動的從多數(shù)據(jù)源中抽取出實體、關系及屬性等信息。抽取實體是指從文本集中抽取人命、地名或組織結構名等,它是信息抽取的基礎,這里利用斯坦福的實體識別工具進行抽取。而實體之間的關系可分為上下位關系、屬性關系及開放式關系。上下位關系是描述實體間包含與被包含的語義關系,上位詞是指比較廣泛的概念,下位詞是指比較窄的概念。如上例中“李白”就是其標簽“詩人”的下位詞,可以通過百科中的描述信息獲得。同樣屬性關系可以通過百科中的信息框得到,它包含大量的屬性關系元組,比如“李白”的信息框中有屬性“去世地”是“安徽馬鞍山市當涂縣”,通過這個關系就把詩人和地點信息建立了關聯(lián)。利用Selenium爬取百科類的數(shù)據(jù),并對同一實體的屬性值進行整合。如圖2所示,從百度百科、互動百科和維基百科中獲取的“白居易”的信息框,對姓名屬性,各百科中的描述是不一樣的,在構建圖譜前需要整合。但是百科中的信息畢竟有限,在非結構化的文本集中也存在大量的關系元組,因為該領域的關系類型比較稀少,因此這里采用人工定義關系類型,然后自動抽取“實體-關系-實體”元組來擴充知識圖譜。

        圖2 實體屬性整合

        圖3 CBOW模型結構圖

        圖4 詩人知識圖譜展示

        2.3 實體對齊

        不同的網(wǎng)站可能包含對同一實體的描述數(shù)據(jù),當基于多數(shù)據(jù)源來構建知識圖譜時,需要對實體對齊,找出不同來源的實體是否描述的是現(xiàn)實世界中的同一實體,以便把開放領域抽取的三元組添加到知識圖譜中,對知識圖譜進行擴充。如 “王維”可能指唐朝詩人、畫家,也可能指清華大學教授、博士生導師和北京兒童醫(yī)院副主任醫(yī)師等。因此,當我們擴充知識圖譜時,首先要進行實體對齊。主要基于詞向量來表示實體的上下文,通過文本相似性完成對齊。Mikolov提出的詞向量主要是將字詞轉為計算機可以理解的稠密向量[9],包括CBOW和Skim-Gram兩種模式,CBOW主要是根據(jù)上下文來預測目標字詞,適用于小語料,而Skip-Gram則是根據(jù)目標字詞預測上下文,在大型語料上表現(xiàn)比較好。由于主要是對唐代詩人數(shù)據(jù),因此這里主要采用CBOW模型來訓練數(shù)據(jù)。模型結構如圖3所示,給定一個單詞wt的上下文序列wt-2,wt-1,…,wt+1,wt+2,采用層次softmax算法,并結合Huffman編碼,讓要預測詞的二進制編碼概率最大。

        訓練好詞向量后,實體所在的上下文就可以通過其含有的所有詞的詞向量相加并取平均值的方式表示,公式如下所示:

        (1)

        其中,wt表示特征詞t的詞向量,N(c)表示上下文c中的詞數(shù),v(c)是上下文c的向量表示。同樣,知識圖譜中的實體也可以用上述公式把它的描述信息k的向量表示為v(k),然后通過余弦相似度公式計算兩個實體的相似性,當余弦值大于0.7時,認為它們是同一實體,把它添加到知識圖譜中。

        3 知識圖譜存儲

        構建好知識圖譜后,需要進行合理的存儲,以便高效的查詢和展示。在唐代詩人知識圖譜中,概念、實體之間存在非常復雜的關聯(lián),所有的節(jié)點構成一張圖,因此,可使用圖數(shù)據(jù)庫進行存儲和展示。常用的圖數(shù)據(jù)庫Neo4j,F(xiàn)lockDB,InfoGrid等,其中Neo4j是一個高性能的圖形數(shù)據(jù)庫,它將結構化數(shù)據(jù)存儲在網(wǎng)絡上而不是表中。實現(xiàn)了圖結構中的節(jié)點,邊以及屬性來進行圖數(shù)據(jù)的存儲,比較適合知識圖譜的存儲和展示。這個使用Neo4j來存儲構建好的圖譜,圖4展示了唐代詩人知識圖譜的一部分。這里單個節(jié)點表示實體,實體之間的連線表示存在一點的關系。比如“送人東游”、“臨洞庭上張丞相”和“望月懷遠”和“荊州”之間都存在寫作地點這樣的關系,這就可以為按地點的詩詞查詢和推薦提供服務。

        4 結 語

        知識圖譜可以從海量的數(shù)據(jù)中提取結構化的知識,因此為多源數(shù)據(jù)的組織提供了一種更為有效的方式。目前,知識圖譜已在智能搜索、深度問答、社交網(wǎng)絡以及一些垂直行業(yè)中有所應用。但許多領域的應用也只是處于初級階段,古詩詞是中華民族的瑰寶,可以熏陶人的文學素養(yǎng)和言行舉止。但是,現(xiàn)在古詩詞的數(shù)據(jù)分布比較廣,類型多樣,基于實體對齊技術,以唐詩為例,獲取大量的地點、詩人和古詩相關的信息,構建唐代詩人知識圖譜,為有效的組織詩詞數(shù)據(jù)以及探索知識圖譜在行業(yè)領域的應用提供了新思路。

        參考文獻:

        [1] Singhal A. Introducing the knowledge graph: things, not strings. Official Google Blog, 2012-5.

        [2] Bizer C, Lehmann J, Kobilarov G, et al. DBpedia-A crystallization point for the Web of Data. Web Semantics: science, services and agents on the world wide web, 2009, 7(3): 154-165.

        [3] Wang Z, Li J, Wang Z, et al. XLore: A Large-scale English-Chinese Bilingual Knowledge Graph[C]//International semantic web conference (Posters & Demos). 2013, 1035: 121-124.

        [4] Niu X, Sun X, Wang H, et al. Zhishi. me-weaving chinese linking open data[C]//International Semantic Web Conference. Springer, Berlin, Heidelberg, 2011: 205-220.

        [5] 楊玉基,許斌,胡家威,等.一種準確高效的領域知識圖譜構建方法.軟件學報,2018,29(10).

        [6] 杜亞軍,吳越.微博知識圖譜構建方法研究[J].西華大學學報 (自然科學版), 2015,34(1): 27-35.

        [7] 熊晶,鐘珞,王愛民.甲骨文知識圖譜構建中的實體關系發(fā)現(xiàn)研究[J].計算機工程與科學,2015, 37(11): 2188-2194.

        [8] Studer R, Benjamins V R, Fensel D. Knowledge engineering: principles and methods[J]. Data & knowledge engineering,1998, 25(1-2): 161-197.

        [9] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean.Efficient estimation of word representations in vector space. ICLR Workshop, 2013.

        猜你喜歡
        信息
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        信息超市
        展會信息
        展會信息
        展會信息
        展會信息
        展會信息
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        中文字幕成人乱码亚洲| 射死你天天日| 午夜精品久久久| 国产不卡一区二区三区视频| 日本高清视频在线观看一区二区| 国产av无码国产av毛片| 亚洲中文字幕无码一区| 2021国产最新无码视频| 亚洲av综合色区久久精品| 国产激情久久久久影院小草| 欧美成人免费全部| 亚洲动漫成人一区二区| 亚洲一区二区日韩在线| 久久午夜av一区二区三区| 黑人巨大av在线播放无码| 亚洲AV无码一区二区二三区我| 午夜精品人妻中字字幕| 精品一区二区三区在线视频| 在线亚洲午夜理论av大片| 国产精品亚洲片夜色在线| 亚洲一区亚洲二区中文字幕| 伦伦影院午夜理论片| 1000部夫妻午夜免费| 在线成人tv天堂中文字幕| 日本免费一区二区久久久| 久久天天躁夜夜躁狠狠| 亚洲中文字幕无码永久在线| 亚洲国产剧情一区在线观看| 三上悠亚亚洲精品一区| 少妇厨房愉情理伦bd在线观看| 亚洲区在线| 久久夜色精品国产九色| 国产精品激情自拍视频| 国产白丝无码视频在线观看| 欧美日本视频一区| 美腿丝袜在线观看视频| 中文字幕久久熟女蜜桃| 五月天国产精品| 久久精品国产亚洲av专区| 最新国产毛2卡3卡4卡| 最新亚洲av日韩av二区|