亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于本體的媒資知識圖譜研究與實現(xiàn)

        2018-06-28 06:42:34唐兆琦
        傳播與版權 2018年5期
        關鍵詞:文本信息

        唐兆琦

        國內(nèi)的廣電文化傳媒行業(yè),從20世紀90年代開始逐步實施媒體內(nèi)容資產(chǎn)的數(shù)據(jù)庫管理,經(jīng)過20多年的發(fā)展和積累,產(chǎn)生了海量的編目和使用信息。如何有效地分析這些“媒資大數(shù)據(jù)”的內(nèi)部關系,幫助用戶快速準確全面地檢索到自己所需要的信息,甚至從知識層面提供關聯(lián)信息的發(fā)掘和推薦等,有著重要的意義和應用前景。

        基于知識地圖的媒資檢索研究能對海量媒資庫進行更為智能化的知識管理,從而實現(xiàn)多維度的、自動化的知識整合。該研究在互聯(lián)網(wǎng)視音頻和圖文內(nèi)容呈現(xiàn)爆炸式增長的當下,具有很好的理論研究意義和廣泛的應用推廣價值。

        一、知識圖譜技術

        (一)知識圖譜的定義

        知識圖譜(Knowledge Graph)最早是由Google推出的產(chǎn)品名稱,利用知識圖譜可以為查詢詞賦予豐富的語義信息,建立與現(xiàn)實世界實體的關系,從而幫助用戶更快找到所需的信息。在Google之后,Bing、百度、搜狗等搜索引擎公司也都紛紛推出了自己的知識圖譜產(chǎn)品?,F(xiàn)在,知識圖譜已經(jīng)被用來泛指各種大規(guī)模的知識庫。

        知識圖譜旨在描述真實世界中存在的各種實體或概念,以及它們彼此之間的關系或關聯(lián)。其中,每個實體或概念用一個全局唯一確定的ID來標識,稱為它們的標識符(identifier);若干屬性-值對(attribute-value pair,又稱AVP)用來刻畫實體的內(nèi)在特性;而關系(relation)用來連接兩個實體,刻畫它們之間的關聯(lián)。

        (二)本體與知識圖譜的構建

        知識圖譜的構建對文本信息處理和信息檢索具有重要的價值,而構建知識圖譜,就是獲取大規(guī)模結構化數(shù)據(jù)并在其中進行實體發(fā)現(xiàn)和關系映射的過程。

        構建知識圖譜有以下七個步驟:

        (1)確定本體的專業(yè)領域和范疇;

        (2)考查復用現(xiàn)有本體的可能性;

        (3)列出本體中的重要術語;

        (4)定義類和類的等級體系(完善等級體系可行的方法有:自頂向下法、自低向上法和綜合法);

        (5)定義類的屬性;

        (6)定義屬性的分面;

        (7)創(chuàng)建實例。

        二、項目技術方案與實施

        本文對媒資知識圖譜的建立方法是采用“自頂向下”和“自底向上”相結合的方式。其中,自頂向下的方式是通過本體編輯器預先構建本體,它依賴于從媒資百科和結構化數(shù)據(jù)得到的高質(zhì)量知識中所提取的模式信息;而自底向上的方式則通過前面介紹的各種實體和關系的抽取技術,將這些置信度高的模式合并到知識圖譜中。

        (一)定義領域相關的知識本體

        本文基于上海廣播電視臺從二十世紀八十年代至今的媒資內(nèi)容,尤其是其中的編目信息(側(cè)重在“娛樂”和“體育”這兩個領域),建立本體和媒資知識地圖。

        這些編目信息中的純文本的標引數(shù)據(jù)是獲取知識圖譜的主要數(shù)據(jù)源。這些文本描述數(shù)據(jù)需要通過分詞、實體抽取技術來分離出其中的實體,借助媒資標引(XML文件)提供的輔助信息和SMG的媒體百科鏈接信息,從標引的文本描述中抽取實體類型和關系,判別其所對應的本體概念,建立圖譜知識庫。

        本文以媒資庫中的編目文件作為實驗數(shù)據(jù)源,它們都是以XML格式保存的。這些以XML格式標注的媒資素材,提供了半結構化的數(shù)據(jù),但其中關鍵的分鏡頭內(nèi)容描述基本上為純文本的數(shù)據(jù),因此需要對這些數(shù)據(jù)通過自然語言處理和文本挖掘的技術進行自動實體抽取、實體對齊,屬性值決策,才能獲取知識地圖所需的實體關系。

        對標注數(shù)據(jù)的信息抽取是本項目的關鍵問題之一。本文先對XML格式文檔進行預處理,包括:去除冗余、重復、不規(guī)范的信息;依據(jù)現(xiàn)有文檔結構獲取初始的分類信息;獲取待處理的正文主體。

        對媒資數(shù)據(jù)的進一步加工處理方式與基于互聯(lián)網(wǎng)的搜索引擎對可用數(shù)據(jù)的處理原則略有不同?;ヂ?lián)網(wǎng)上來自于網(wǎng)頁的原始數(shù)據(jù)不僅有標題等,許多還包括各種詳盡的內(nèi)容,而媒資資源的數(shù)據(jù)內(nèi)容通常只有標題句或大段的描述文字組成。所以,若直接借鑒互聯(lián)網(wǎng)公司建立知識圖譜模型的方法,會導致出現(xiàn)大量的空關聯(lián)。因此本文必須在現(xiàn)有媒資編目數(shù)據(jù)的基礎上,統(tǒng)計出常見的、有價值的關聯(lián)關系,從而建立“可用”的知識圖譜。

        本文把實體對的上下文中可以用來描述實體之間關系的一般動詞和名詞稱作“特征詞”。另外,把特定實體類型在文本庫中的高頻實體稱作種子實體,如經(jīng)常出現(xiàn)在娛樂資訊中的“章子怡”“成龍”“劉德華”等,即屬于人名實體類型的種子實體。種子實體可以用于后續(xù)特征詞的抽取。

        本文首先以實體對類型(如“人名-人名”和“人名-機構名”代表兩個不同的實體對類型)為單位,采用基于大規(guī)模語料庫統(tǒng)計的方法抽取與特定實體對類型相關度較大的候選特征詞集;然后,采用啟發(fā)式通用過濾規(guī)則對候選特征詞集進行過濾;最后,借助語義詞典計算候選特征詞之間的相似度,對候選特征詞聚類,完成關系類型的自動發(fā)現(xiàn),此時每類即為自動發(fā)現(xiàn)的一個關系類型。

        具體處理過程如下:

        (1)正文抽?。簩φ奈谋舅夭?,取出其中的編目信息中的大段描述文字部分;

        (2)文本處理:對原始文本進行斷句、中文分詞、詞性標注、依存句法分析、命名實體識別等底層自然語言處理操作;

        (3)特征詞抽?。鹤x取句子的處理結果,計算實體出現(xiàn)頻率,選取種子實體,進而,從與種子實體形成實體對的句子集中統(tǒng)計抽取特征詞集,它們將用于描述實體關系;

        (4)特征詞聚類:由于不同的特征詞可以表達相同的實體關系,所以,進一步利用語義詞典計算特征詞之間的相似度,通過聚類,得到自動發(fā)現(xiàn)的實體關系類型。

        (二)知識圖譜的生成

        通過之前的方法,已從媒資編目的正文文本中抽取構建了知識圖譜所需的各種候選實體(概念)及其屬性關聯(lián),但這些信息是彼此孤立的,為了形成一個真正的知識圖譜,需要將這些信息孤島集成在一起。

        其中實體融合的目的在于發(fā)現(xiàn)具有不同標識卻代表真實世界中同一對象的那些實體,并將這些實體歸并為一個具有全局唯一標識的實體對象,然后添加到知識圖譜中。

        當融合來自不同數(shù)據(jù)源構成知識圖譜時,有一些實體會同時屬于兩個互斥的類別(如男女)或某個實體所對應的一個屬性(如性別)對應多個值,這就是不一致性。由于不一致性的檢測要面對大規(guī)模的實體及相關事實,純手工的方法不完全可行。一個簡單有效的方法是充分考慮數(shù)據(jù)源的可靠性以及不同信息在各個數(shù)據(jù)源中出現(xiàn)的頻度等因素來決定,再輔以人工的校對,以決定最終選用哪個類別或哪個屬性值。

        這里采用的是利用該實體詞所出現(xiàn)的上下文的概率,通過大規(guī)模語料篩選以及人工校對,對特定的實體詞分別定義一些正向詞和反向詞。例如當成龍作為明星實體詞出現(xiàn)時,給它定義的正向詞包括成龍曾經(jīng)出演過的電影名、房祖名(成龍的兒子)、功夫、受傷、公益等與他的工作、生活、社會活動密切相關的詞匯,而給它定義的反向詞包括望子(望子成龍這個成語的前半部分)、學校、教育等相關的詞匯,這樣根據(jù)與該實體詞協(xié)同出現(xiàn)的正向詞或反向詞的概率,就可確定將它映射到哪個實體ID上了。

        之后的實體關系抽取則采用前面提到的特征詞聚類,以及基于預定義的規(guī)則模板匹配的方法來實現(xiàn)。

        (三)原型系統(tǒng)描述

        在上述研究和實驗的基礎上,本文開發(fā)了基于媒資知識地圖的查詢應用原型系統(tǒng)(如圖1所示),用于展示知識搜索在媒資領域的應用場景。

        圖1:查詢應用系統(tǒng)原型的組成結構

        大體上,該系統(tǒng)分為“離線”和“在線”兩個部分,離線部分主要用于構建領域相關的本體和知識圖譜(媒資知識地圖),形成媒資知識庫,供在線搜索系統(tǒng)使用。

        其基礎數(shù)據(jù)來源包括SMG的媒資百科(如人工整理的結構化的詞條)、SMG的媒體資源庫(如人工編目的媒資內(nèi)容對應的元數(shù)據(jù)XML),以及第三方資源(如中文詞匯表和文法分析規(guī)則庫),采用手工或半自動的方法,利用文本分析、語義分析等NLP工具對上述資源進行清洗、預處理和整理,然后通過實體發(fā)現(xiàn)、消歧、實體關系抽取等步驟,構建了娛樂領域和體育領域的本體,并進一步生成媒資知識圖譜。

        在線部分主要實現(xiàn)了基于知識的查詢應用原型系統(tǒng),它采用離線部分生成的媒資知識庫,以B/S(Browser/Server)模式運行。其前端采用瀏覽器界面(HTML5),后端采用J2EE架構實現(xiàn)。

        它從PC前端的瀏覽器接收用戶輸入的查詢請求(可以是短語,也可以是關鍵詞列表),送到后端的知識查詢引擎中后,進行必要的預處理(包括NLP文本分析和語法分析),然后在媒資知識圖譜(或領域相關本體)中對實體、關系、屬性等進行匹配或推理,最后對得到的候選資源(即指向相應詞條或媒資編目文件的鏈接)按相關性進行排序,并輸出到結果呈現(xiàn)界面(網(wǎng)頁)上。

        經(jīng)過實測統(tǒng)計,該原型系統(tǒng)對于一般的查詢請求,均可以在2秒以內(nèi)返回結果,這其中包括了分析、查詢、讀取數(shù)據(jù)庫,以及格式化頁面等動作。

        三、總結與展望

        本文在基于本體的媒資地圖的研究與實現(xiàn)方面進行了非常有成效的探索,但仍有很多細節(jié)有可改進或完善的空間。例如,在構造本體和知識圖譜過程中,如何盡可能地提高自動化程度、減少人工干預或校對的工作量,將是非常有意義的工作。

        此外,目前個別領域進行了探索,將來可嘗試將該方法應用到其它更多的領域,基于更大規(guī)模的數(shù)據(jù)進行建模、應用,并在此過程中發(fā)現(xiàn)和改善原方法的不足之處,從規(guī)模上、應用效果等方面向?qū)嵱没M一步。

        猜你喜歡
        文本信息
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        日韩女优在线一区二区| 精品亚洲成a人在线观看青青| 三级日韩视频在线观看| 中国美女a级毛片| 少妇人妻偷人精品视蜜桃| 日本口爆吞精在线视频| 伊人狼人激情综合影院| 80s国产成年女人毛片| 久久亚洲私人国产精品va| 狼人国产精品亚洲| 国产美女高潮流的白浆久久| 久久红精品一区二区三区| 欧美黑人性暴力猛交喷水| 手机看片1024精品国产| 国产一区二区av男人| 美腿丝袜诱惑一区二区| v一区无码内射国产| 精品亚洲午夜久久久久| 国产高清在线精品一区不卡| 精品偷自拍另类在线观看| 国产内射在线激情一区| 国产国拍亚洲精品永久69| 国产人妖视频一区二区| 国产69精品久久久久777| 国产v视频| 亚洲成人色黄网站久久| 99精品久久99久久久久| 女人扒开下面无遮挡| 久久久久久岛国免费网站| 午夜视频一区二区三区四区| 一区二区三区中文字幕| 国产男女猛烈无遮挡免费视频| 四虎影视国产884a精品亚洲| 日韩一二三四区在线观看| 五月天中文字幕mv在线| 亚洲羞羞视频| 一本色道久久88综合亚洲精品| av手机免费在线观看高潮| 国产又粗又黄又爽的大片| 国产午夜在线观看视频播放| 漂亮人妻被强中文字幕乱码 |