亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        命名實體識別在數(shù)字人文中的應(yīng)用
        ——基于ETL的實現(xiàn)*

        2020-05-12 07:51:06朱武信夏翠娟
        圖書館論壇 2020年5期
        關(guān)鍵詞:知識庫命名詞典

        朱武信,夏翠娟

        0 引言

        命名實體識別NER(Named Entity Recognition)是自然語言處理NLP(Natural Language Processing)組成部分,是指從文本中提取出命名實體,而命名實體是指人名、地名、時間等信息。圖書館用NER進行數(shù)據(jù)挖掘,從摘要、正文提取大量的命名實體,為構(gòu)建知識圖譜、支持數(shù)字人文研究和服務(wù)打下了基礎(chǔ)。學界在命名實體應(yīng)用方面做了很多研究,提出了規(guī)則提取、關(guān)系提取、正則提取、神經(jīng)網(wǎng)絡(luò)、機器學習等方法。

        上海圖書館(以下簡稱“上圖”)有大量數(shù)字化館藏資源,其挖掘離不開NER技術(shù)的推動。上圖在構(gòu)建數(shù)字人文平臺初期,便使用了各種工具與方法進行數(shù)據(jù)加工,包括OpenRefine、基于Python的正則提取等,解決了一些問題,但也存在不足:一是識別效率低、人工成本高;二是識別的內(nèi)容僅僅是文本,后續(xù)若要和其他數(shù)據(jù)進行關(guān)聯(lián),還需投入更多人力、物力和時間。為解決上述問題,本研究研發(fā)基于數(shù)字人文與漢語言處理包HANLP(Han Language Processing)技術(shù)的命名實體識別工具。HANLP是一個在github平臺上開放的NLP開源工具包,開發(fā)語言是JAVA,提供中文分詞、詞性標注、命名實體識別、依存句法分析等功能。本研究主要采用隱馬爾夫(HMM)模型進行分詞模型訓練、最短路分詞和依存句法分析中基于神經(jīng)網(wǎng)絡(luò)的高性能依存句法分析器。

        命名實體識別工具的詞典源于上圖的數(shù)字人文知識庫。選用之有3個原因:(1)NER要提取的實體信息與數(shù)字人文所定義的人名、地名、時間、事件不謀而合。(2)2014年以來,上圖通過本體建模方法搭建了多個數(shù)字人文平臺與知識庫,有大量的數(shù)據(jù)基礎(chǔ)。上圖數(shù)字人文平臺在功能上分為兩類:一類是家譜知識服務(wù)平臺、盛宣懷檔案知識庫等以提供文獻服務(wù)為主的文獻知識庫;另一類是人名、地名、時間、事件為一體的基礎(chǔ)知識庫。本研究選擇作為詞典的知識庫指的是上圖數(shù)字人文基礎(chǔ)知識庫。(3)上圖的數(shù)據(jù)是關(guān)聯(lián)數(shù)據(jù),具有語義性,將其作為詞典,則命名實體識別的結(jié)果也具有關(guān)聯(lián)數(shù)據(jù)的特性,可以通過本體獲取更多相關(guān)信息。

        本研究結(jié)合數(shù)字人文與NER,研發(fā)基于關(guān)聯(lián)數(shù)據(jù)的命名實體識別工具,并對文本進行數(shù)據(jù)挖掘,提取相關(guān)人名、地名等實體信息,優(yōu)化上圖ETL流程。

        1 現(xiàn)狀調(diào)研

        關(guān)聯(lián)數(shù)據(jù)概念于2006年由蒂姆·伯納斯-李提出[1],其時互聯(lián)網(wǎng)上已發(fā)布大量數(shù)據(jù)集。國內(nèi)外大學、圖書館通過數(shù)字人文構(gòu)建了知識庫與知識圖譜,比較著名的有哈佛大學中國歷代人物傳記資料庫(CBDB)、基于維基百科的DBpedia、OCLC的虛擬國際規(guī)范檔、復旦大學中國歷史地理信息(CHGIS)系統(tǒng)、上海圖書館數(shù)字人文開放平臺等。上圖在數(shù)字人文領(lǐng)域的探索取得較多成果,比如構(gòu)建家譜知識服務(wù)平臺,提供人物、地名、時間相關(guān)的基礎(chǔ)知識平臺。2017 年上圖搭建人名規(guī)范知識庫,運用關(guān)聯(lián)數(shù)據(jù)技術(shù)發(fā)布了近130 萬人名實體;地名基礎(chǔ)數(shù)據(jù)包含1,800余個縣與縣級以上的地名;2019年發(fā)布上海地名志信息,包括2,264條馬路三元組。目前這些實體已經(jīng)對外開放服務(wù)。

        命名實體識別技術(shù)在數(shù)字人文中的應(yīng)用,國外起步較早,2011年研發(fā)了名為DBpedia Spotlight的 NER 工具。Palo 基于 DBpedia Spotlight 工具,通過質(zhì)量測量方法與DBpedia本體進行文本自動標注[2],驗證了利用實體進行命名實體識別的可行性,該工具在互聯(lián)網(wǎng)上開放給大眾使用。Ferragina等發(fā)布基于TagMe算法,以維基百科實體為基礎(chǔ),實現(xiàn)快速標注文本短語的工具,標注結(jié)果信息豐富且與維基百科信息互相關(guān)聯(lián)[3],但所用知識庫僅支持英語。Usbeck 等提出將AGDISTIS 方法用于命名實體識別,以標簽與HITS 算法進行提取[4]。Speck等研發(fā)FOX 工具,通過實體關(guān)聯(lián)技術(shù)與EL 算法,實現(xiàn)文本轉(zhuǎn)換,提取出RDF(Resource Descripition Framework)數(shù)據(jù),F(xiàn)值(F-Measure)達95.23%[5]。張海楠、Lample 等提出運用神經(jīng)網(wǎng)絡(luò)來解決NER 問題,通過非監(jiān)督學習進行識別,以降低人工成本[6-7],此方法雖然識別度高,但提取的文本僅是字符串,缺少語義性與關(guān)聯(lián)性。

        上述命名實體識別工具雖然識別效果較好,具有借鑒作用,但無法滿足上圖所需場景:一是上述工具的詞典與上圖需要加工的歷史人文數(shù)據(jù)不匹配;二是識別工具要根據(jù)人名、地名、時間、事件、自定義標簽等進行識別;三是識別結(jié)果應(yīng)是關(guān)聯(lián)數(shù)據(jù),與上圖已有關(guān)聯(lián)數(shù)據(jù)形成關(guān)聯(lián)。

        2 命名實體識別工具需求與設(shè)計

        2.1 命名實體識別系統(tǒng)需求

        上圖在眾多基礎(chǔ)知識庫與服務(wù)平臺的建設(shè)實施過程中,通過OpenRefine工具與人工處理的方法,對大量文本進行數(shù)據(jù)加工與實體提取,取得了一定成果,但需要耗費大量人力、時間,尤其是在處理新數(shù)據(jù)時,人名、地名實體重復出現(xiàn),需要再次加工。為優(yōu)化數(shù)據(jù)處理流程,降低成本,加快數(shù)據(jù)處理速度,快速將識別結(jié)果轉(zhuǎn)為關(guān)聯(lián)數(shù)據(jù),本研究基于上圖基礎(chǔ)語義知識庫,在ETL加工環(huán)節(jié)增加命名實體識別功能。其主要特征有:對中文文本進行實體識別,命名實體識別詞典基于上圖數(shù)字人文基礎(chǔ)知識庫;識別實體與上圖數(shù)字人文知識庫的關(guān)聯(lián)數(shù)據(jù)實現(xiàn)關(guān)聯(lián);可識別不同類別的實體,包括人名、地名、機構(gòu)、姓氏等,可自定義新的分類。

        圖1 命名實體識別系統(tǒng)架構(gòu)圖

        2.2 系統(tǒng)架構(gòu)設(shè)計

        本研究開發(fā)的命名實體識別系統(tǒng)以上圖已有關(guān)聯(lián)數(shù)據(jù)作為識別詞典,通過命名實體識別算法對文本中的內(nèi)容進行識別,識別結(jié)果與上圖關(guān)聯(lián)數(shù)據(jù)進行對應(yīng)。系統(tǒng)架構(gòu)見圖1。

        (1)輸入層。輸入層以需識別的文本為輸入?yún)?shù),通常是文獻中的摘要、正文信息。在輸入層對識別內(nèi)容的標簽進行預選擇,如人名、地名、姓氏,以此根據(jù)不同需求進行特定內(nèi)容的識別。

        (2)識別層。識別層是命名實體識別的核心模塊,通過關(guān)聯(lián)技術(shù)的本體模塊與命名實體識別算法模塊的結(jié)合,實現(xiàn)對輸入文本的識別。由于識別結(jié)果是關(guān)聯(lián)數(shù)據(jù),一定程度上解決部分命名實體識別工具識別結(jié)果僅是字符串的問題,具有關(guān)系發(fā)現(xiàn)的特性。由于是在上圖已知數(shù)據(jù)源中識別,精準的識別對命名實體消歧起到了改善作用。

        (3)輸出層。輸出層包括識別結(jié)果的展示與下載。當識別完成后,會展示文本的識別結(jié)果,展示結(jié)果添加了關(guān)聯(lián)數(shù)據(jù)的URI。通過URI,此文本與上圖的數(shù)據(jù)形成關(guān)聯(lián),可通過上圖API接口獲取更多的內(nèi)容信息。

        2.3 識別詞典設(shè)計

        本研究使用的識別詞典主要來自上圖,包括人名規(guī)范庫、地理名詞表、上海歷史文化年譜,3個知識庫分別對應(yīng)數(shù)據(jù)中的人名、地名、事件。使用上圖知識庫的主要原因包括:(1)上圖知識庫數(shù)據(jù)采用語義網(wǎng)RDF框架,通過三元組形式構(gòu)建本體。正因為以本體作為詞典進行識別,識別結(jié)果也是本體。(2)上圖人名規(guī)范庫的人名本體有130萬個,來源于上圖館藏。因為上圖搭建了大數(shù)據(jù)級別的人名關(guān)聯(lián)數(shù)據(jù),所以能作為命名實體識別的詞典。(3)上圖知識庫是開放的,提供通用API接口,支持JSON、XML等格式,調(diào)用方便,兼容性好。關(guān)聯(lián)數(shù)據(jù)的特征是每個本體都有一個URI標示,數(shù)據(jù)以三元組形式進行描述。將本體作為識別詞典,當識別的實體與本體形成關(guān)聯(lián),則能通過關(guān)聯(lián)數(shù)據(jù)的本體結(jié)構(gòu),獲取文本之外的信息。例如,識別出一個人名實體,通過關(guān)聯(lián)數(shù)據(jù)就可以獲取此人的籍貫、朝代、年齡等信息。通過關(guān)聯(lián)獲取的信息,一方面豐富了識別內(nèi)容,另一方面也為識別結(jié)果的消歧提供了依據(jù)。

        2.4 命名實體識別功能設(shè)計

        本研究命名實體識別流程見圖2。下文結(jié)合樣例對上述過程進行說明。

        (1)定義詞典。識別前,首先引入2部詞典作為語料:1998 年的人民日報語料庫和上圖關(guān)聯(lián)數(shù)據(jù)詞典。上圖關(guān)聯(lián)數(shù)據(jù)詞典包含人名、機構(gòu)、姓氏3部分,其中人名詞典收錄近130萬個人名、607個姓氏、42個機構(gòu)。

        (2)中文分詞。中文分詞通過HANLP提供的基于隱馬爾可夫模型的HMM-Bigram模型對輸入文本進行分詞。使用HANLP 的主要原因是,其對命名實體識別、機器學習算法進行封裝,使用便捷。例如,“長江劇場位于黃河路35號,原名卡爾登大戲院”這段話,通過分詞得到的結(jié)果是“長江劇場/名詞……卡爾登大戲院/名詞”。

        (3)句法分析。句法分析使用HANLP提供的基于神經(jīng)網(wǎng)絡(luò)的高性能依存句法分析器,依存句法分析是對文本的內(nèi)容進行關(guān)系標注。語文關(guān)系有15種,包括主謂關(guān)系、動賓關(guān)系、間賓關(guān)系等。引入句法分析主要是為了進行過濾操作。例如,“長江劇場位于黃河路35號”在未引入詞典的情況下,通過中文分詞會提取到“長江,劇場”,通過依存句法分析可知,“長江”與“劇場”是定中關(guān)系,排除了“長江”這個識別結(jié)果。

        (4)結(jié)果處理。結(jié)果處理包含結(jié)果過濾與數(shù)據(jù)關(guān)聯(lián)。結(jié)果過濾主要是將中文分詞的結(jié)果與句法分析的結(jié)果進行過濾,進一步提高實體結(jié)果準確性。數(shù)據(jù)關(guān)聯(lián)是將識別的結(jié)果與上圖本體一一匹配與關(guān)聯(lián),可通過上圖API接口獲取更多相關(guān)信息[8]。

        圖2 命名實體識別流程圖

        圖3 關(guān)聯(lián)數(shù)據(jù)詞典轉(zhuǎn)換實現(xiàn)圖

        圖4 命名實體識別偽代碼

        3 命名實體識別工具的實現(xiàn)

        3.1 命名實體識別的實現(xiàn)

        (1)關(guān)聯(lián)數(shù)據(jù)詞典轉(zhuǎn)換實現(xiàn)。關(guān)聯(lián)數(shù)據(jù)詞典轉(zhuǎn)換方法的實現(xiàn)見圖3。圖3以人名為例,首先從RDF數(shù)據(jù)中提取人名的名稱與URI,將其按詞典的要求進行轉(zhuǎn)換,再通過HANLP提供的自定義詞典方法將命名實體添加到詞典。提取人名的作用是使其成為詞典的語料,URI的作用是保留關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián)性,最終的識別結(jié)果可以通過URI來獲取關(guān)聯(lián)數(shù)據(jù)的其他信息。

        (2)命名實體識別實現(xiàn)。其偽代碼見圖4。以文本A的輸入為例,先加載關(guān)聯(lián)數(shù)據(jù)詞典,通過詞典識別方法對輸入文本進行命名實體識別,得到基于詞典的命名實體識別結(jié)果B;再通過依存句法分析文本A獲得結(jié)果C,結(jié)果C主要記錄的是定中名詞與狀中名詞,以此在結(jié)果B中排除狀中名詞與定中名詞,最終生成的就是經(jīng)命名實體識別得到的實體。

        3.2 NER工具效果

        圖5展示的是基于年華人名詞典的NER識別結(jié)果。該詞典包含出身年月介于1840-1950年的7萬多個名人。選用年華人名詞典的主要原因是其時間與輸入事件的時間吻合,通過此詞典可提高結(jié)果的準確率與召回率。圖5中,以橙色標注的是識別出的實體,其中數(shù)字代表識別對應(yīng)的個數(shù),通過單擊實體,可以跳轉(zhuǎn)到上圖人名規(guī)范庫的對應(yīng)實體,從而獲取此實體更詳細的信息。

        圖5 實體識別功能展示圖

        3.3 實體識別工具效果對比

        對上圖命名實體識別工具(簡稱“上圖識別工具”)、人工方法、BosonNLP工具的處理結(jié)果進行比較,共用10組數(shù)據(jù)。綜合來看,上圖識別工具在降低少量準確率的前提下,可以對文本進行快速處理,這是人工方法無法比擬的。上圖識別工具識別的結(jié)果是關(guān)聯(lián)數(shù)據(jù),其豐富性、關(guān)聯(lián)性、可挖掘性遠勝于人工與BosonNLP所識別的結(jié)果。三者的識別效果見表1。

        表1 實體識別效果對比

        4 結(jié)論及展望

        上圖研發(fā)的命名實體識別工具在ETL數(shù)據(jù)處理過程中起到了很大作用,彌補了上圖沒有命名實體識別的短板,主要特色包括:(1)實現(xiàn)了基于數(shù)字人文詞典的命名實體識別,識別的實體不再是簡單的字符串,而是關(guān)聯(lián)數(shù)據(jù)。關(guān)聯(lián)技術(shù)與命名實體識別技術(shù)形成互補,使命名實體識別可以在更多文本中挖掘關(guān)聯(lián)數(shù)據(jù),提升了識別結(jié)果的質(zhì)量。(2)命名實體識別加強了ETL功能,數(shù)據(jù)處理效果得到改善。在大量文本中,通過NER工具可以快速識別其中的實體,在其識別的基礎(chǔ)上加入部分人工,可以更高效率地獲得高質(zhì)量數(shù)據(jù)。

        本研究的命名實體識別工具也有需要改進的地方:(1)基于已知數(shù)據(jù)進行挖掘,把不在詞典中的命名實體過濾了,在今后的功能設(shè)計中應(yīng)引入新的工作流來處理這些被過濾的命名實體。這樣既能對這些命名實體進行發(fā)現(xiàn),又能將其轉(zhuǎn)換成關(guān)聯(lián)數(shù)據(jù)。(2)中文詞性分析上有欠缺,文本挖掘中實體的詞性分析還需要重新梳理,縮小范圍,以提高實體識別的準確度。

        猜你喜歡
        知識庫命名詞典
        命名——助力有機化學的學習
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應(yīng)用
        有一種男人以“暖”命名
        東方女性(2018年3期)2018-04-16 15:30:02
        為一條河命名——在白河源
        散文詩(2017年17期)2018-01-31 02:34:08
        評《現(xiàn)代漢語詞典》(第6版)
        詞典例證翻譯標準探索
        高速公路信息系統(tǒng)維護知識庫的建立和應(yīng)用
        基于Drupal發(fā)布學者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
        圖書館研究(2015年5期)2015-12-07 04:05:48
        《胡言詞典》(合集版)刊行
        當代修辭學(2013年4期)2013-01-23 06:43:10
        亚洲AV无码秘 蜜桃1区| 真人抽搐一进一出视频| 国产女人的高潮国语对白| 少妇内射视频播放舔大片| 久久久久成人精品免费播放网站| 日韩亚洲国产中文字幕| 亚洲大尺度无码无码专区| 亚洲精品乱码久久久久久蜜桃不卡 | 伊人狼人影院在线视频| 看日本全黄色免费a级| 人妻av鲁丝一区二区三区| 国产午夜久久久婷婷| 区久久aaa片69亚洲| 久久亚洲国产欧洲精品一| 极品少妇一区二区三区四区视频| 女人的精水喷出来视频| 日日碰狠狠躁久久躁9| 欧美成人精品福利在线视频 | 久久精品国产亚洲av成人文字| 美女网站免费福利视频| 欧美末成年videos在线观看| 国产精品亚洲av网站| 国产av在线观看一区二区三区 | 国产激情视频在线观看的 | 中文在线√天堂| 精品人妻一区二区蜜臀av| 亚洲不卡高清av网站| 国内露脸少妇精品视频| 欧美人与禽交zozo| 一区二区三区四区国产亚洲| 亚洲αv在线精品糸列| 久久精品人妻无码一区二区三区| 中文字幕免费观看视频| 亚洲一区二区女优视频| 亚洲乱码一区二区三区在线观看 | 久久亚洲春色中文字幕久久久综合 | 久久精品成人91一区二区| av毛片亚洲高清一区二区| 18禁黄污吃奶免费看网站| 在线视频一区色| 精品国产一区二区三广区|