亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向數(shù)字人文的館藏方志古籍地名自動識別模型構(gòu)建*

        2018-05-24 11:10:36
        圖書館 2018年5期
        關(guān)鍵詞:物產(chǎn)自動識別方志

        李 娜 包 平

        (1.南京林業(yè)大學(xué)人文社會科學(xué)學(xué)院 南京 210037;2.南京農(nóng)業(yè)大學(xué)中華農(nóng)業(yè)文明研究院 南京210095;3.南京農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院 南京 210095)

        1 引言

        數(shù)字人文(Digital Humanities)由計算人文和人文計算領(lǐng)域演變而來[1],是針對計算工具與所有文化產(chǎn)品交叉領(lǐng)域的研究[2]。作為一個跨學(xué)科的領(lǐng)域,數(shù)字人文涉及了文學(xué)、計算機科學(xué)、歷史學(xué)、語言學(xué)等多個學(xué)科,新的研究方法和研究范式在文獻(xiàn)與技術(shù)的結(jié)合中重疊創(chuàng)新[3],增加了人文學(xué)科研究的廣度和深度[4]。近年來,國內(nèi)外相繼成立了數(shù)字人文聯(lián)盟、協(xié)會、學(xué)會等組織,一些高校創(chuàng)設(shè)了數(shù)字人文研究中心,為人文研究提供技術(shù)和數(shù)據(jù)支撐,有效地推動了新興交叉學(xué)科的發(fā)展。

        圖書館作為人文研究所需原始資料的保存和服務(wù)機構(gòu),經(jīng)過20余年的數(shù)字化建設(shè),積累了大量的數(shù)字資源和高度結(jié)構(gòu)化、規(guī)范化的元數(shù)據(jù)記錄,為數(shù)字人文項目的開展奠定了數(shù)據(jù)基礎(chǔ)[5]。

        作為圖書館館藏古籍文獻(xiàn)的大宗,地方志是按照一定體例記載特定時空下自然和社會各個方面歷史與現(xiàn)狀的綜合性著述,是我國傳統(tǒng)歷史文獻(xiàn)中具有代表性的資料。它起源早、持續(xù)久、類型全,客觀地反映不同時期的思想文化、自然開發(fā)、科學(xué)技術(shù)等社會和生活狀況,被譽為“一方之全史”,是中國乃至世界文化遺產(chǎn)的重要組成部分,為后世提供取之不竭的史料資源。白壽彝提出要善于利用歷史文獻(xiàn),把大量的歷史文獻(xiàn)聯(lián)系起來,觀察規(guī)律性的東西,發(fā)現(xiàn)至今仍有生命力的內(nèi)容[6]。在信息化背景下,地方志開發(fā)利用應(yīng)引入數(shù)字人文的新方法,輔助傳統(tǒng)的手工研究,對資料進(jìn)行深入加工和整理,提高利用效率,實現(xiàn)價值最大化。

        面對結(jié)構(gòu)化和非結(jié)構(gòu)化的信息,如何從中抽取人們感興趣的內(nèi)容,發(fā)現(xiàn)內(nèi)在規(guī)律,越來越受到學(xué)術(shù)界關(guān)注,命名實體識別在這一過程中發(fā)揮著關(guān)鍵作用。近年來,作為命名實體識別三大任務(wù)之一的地名識別研究得到了有效推動,催生了一系列學(xué)術(shù)成果。

        關(guān)于中文地名的自動識別,前人的研究主要集中在現(xiàn)代漢語語料上。唐旭日等以北大語料庫為對象,基于條件隨機場模型,構(gòu)建了以篇章為單位的中文地名識別系統(tǒng),封閉和開放測試的F值分別達(dá)到了92.87%和89.76%[7];孫虹和陳俊杰基于雙層條件隨機場模型識別地名,再使用規(guī)則對識別結(jié)果進(jìn)行過濾,在MSRA語料上進(jìn)行開放測試,獲得了較好的識別效果[8];邱莎等人以《人民日報》為語料,使用條件隨機場模型在字一級粒度上構(gòu)建了中文地名識別模型,多次閉合和開放測試的結(jié)果F值均達(dá)到了90%左右[9];李麗雙等以MSRA語料為例,采用遞增式學(xué)習(xí)策略對條件隨機場的特征模板進(jìn)行優(yōu)化,結(jié)合基于規(guī)則的方法,實現(xiàn)了統(tǒng)計與規(guī)則相結(jié)合的中文地名識別系統(tǒng),提高了識別性能[10];黃德根以《人民日報》為語料,通過規(guī)則統(tǒng)計,計算地名構(gòu)詞和接續(xù)的可信度,完成了中文地名的識別[11-12];李穎等以作戰(zhàn)文書為研究對象,通過分析語料的特點歸納和句類分析,基于規(guī)則的方法對地名進(jìn)行了識別[13];鄔倫等從中文地名用字特征出發(fā),采用傳統(tǒng)地名與通名結(jié)合的方法,將詞素特征融入條件隨機場模型,完成了《人民日報》標(biāo)注語料中地名的識別[14]。

        以古代漢語為語料的中文地名識別研究較少。肖磊以先秦語料《左傳》為研究對象,設(shè)計了基于條件隨機場模型的地名識別流程,構(gòu)建了地名知識庫[15];黃水清等以《春秋左氏傳》為語料庫,分別構(gòu)建了最大熵模型和條件隨機場模型,完成了地名自動識別,并在《國語》文本集合上進(jìn)行測試,結(jié)果顯示,CRF模型優(yōu)于ME模型,基于人工標(biāo)注語料構(gòu)建CRF模型能取得較好的識別效果[16];王錚將條件隨機場模型應(yīng)用到《三國演義》的地名識別中,識別結(jié)果的準(zhǔn)確率為99.16%[17];朱鎖玲等以《方志物產(chǎn)》為語料,通過基于規(guī)則的方法,完成了方志古籍中地名的識別,準(zhǔn)確率為63.38%[18-19]。

        從上述文獻(xiàn)梳理發(fā)現(xiàn),地名自動識別研究主要采用命名實體識別技術(shù)中基于統(tǒng)計的方法?,F(xiàn)階段,基于統(tǒng)計的方法比較常用的模型有三種,即隱馬爾科夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy,ME)和條件隨機場模型(Conditional Random Field,CRF)。其中,條件隨機場模型是J.Lafferty等[20]在隱馬爾科夫模型和最大熵模型的基礎(chǔ)上提出的,突破了隱馬爾科夫模型的嚴(yán)格獨立性假設(shè)限制,優(yōu)化了最大熵模型的歸一化處理,從而解決了標(biāo)注偏差的問題,能夠靈活地融合上下文的多種特征,基于條件概率處理序列標(biāo)注問題,有成熟的開源工具,在中文分詞領(lǐng)域有著良好的性能和廣泛的應(yīng)用。

        方志古籍語料在行文結(jié)構(gòu)和時空范圍等方面具有獨特性,其數(shù)字化整理尚處于起步階段,面向數(shù)字人文領(lǐng)域的新方法應(yīng)用具有積極的探索意義。本文以《方志物產(chǎn)》山西分卷為語料,在全文人工標(biāo)注的基礎(chǔ)上,基于條件隨機場和標(biāo)注語料庫構(gòu)建地名自動識別模型;采用10次交叉驗證方法測試模型的識別性能,尋找最優(yōu)方案。本研究通過探討條件隨機場模型在方志古籍地名自動識別的應(yīng)用前景,以期為方志古籍整理與利用提供新的途徑。

        2 語料庫介紹及地名特征分析

        2.1 語料庫介紹

        目前,有關(guān)古漢語地名自動識別的研究成果相對較少,且使用的語料庫在規(guī)模、類型上各有不同,尚未發(fā)現(xiàn)基于全文手工標(biāo)注的方志古籍地名自動識別研究。方志古籍是我國古籍文獻(xiàn)的大宗,據(jù)《中國地方志聯(lián)合目錄》統(tǒng)計,保存至今的宋至民國時期的方志多達(dá)8 264種,11萬余卷,約占中國古籍的十分之一。20世紀(jì)50年代,我國著名農(nóng)史學(xué)家、農(nóng)史學(xué)科創(chuàng)始人之一萬國鼎先生,組織數(shù)十人前往全國40多個大中型城市的100多個文史單位,從近7 000部地方志中手工摘抄物產(chǎn)部分,編纂成《方志物產(chǎn)》叢書,藏于南京農(nóng)業(yè)大學(xué)圖書館。目前,《方志物產(chǎn)》是國內(nèi)外唯一一套手工整理的方志農(nóng)業(yè)專題資料,全文共431卷、3 000余萬字,包含省志、府州志、縣志、鄉(xiāng)志、邊關(guān)志、山川志等多種類型的志書,記載從宋熙寧九年(1076)至民國三十八年(1949)全國范圍內(nèi)動物、植物、貨物等物產(chǎn)信息,尤其以品種資源和種植、飼養(yǎng)、利用技術(shù)為主,為農(nóng)業(yè)史、區(qū)域史等人文學(xué)科研究提供了豐富的資料[21]375?!斗街疚锂a(chǎn)》語料樣例見圖1。

        2.2 語料庫數(shù)字化整理概況

        近年來,借助現(xiàn)代信息技術(shù),《方志物產(chǎn)》數(shù)字化整理研究取得了一定進(jìn)展。王思明教授研究團(tuán)隊完成了《方志物產(chǎn)》從紙質(zhì)手抄本到電子文本的數(shù)字化工作,解決了資料多形態(tài)保存的問題,促進(jìn)了資源的檢索、傳播和利用[22];衡中青以《方志物產(chǎn)》廣東分卷為語料,探索了基于規(guī)則的命名實體識別方法在別名、引書自動識別上的應(yīng)用,開辟了《方志物產(chǎn)》數(shù)字化整理的先河[23]。黃建年以包括《方志物產(chǎn)》廣東分卷在內(nèi)的13種農(nóng)業(yè)古籍為數(shù)據(jù)來源,進(jìn)行了自動分詞研究,《方志物產(chǎn)》,分詞正確率達(dá)到了92%[24];朱鎖玲以廣東、福建、臺灣三省的《方志物產(chǎn)》為研究對象,在地名識別的基礎(chǔ)上,嘗試引入GIS技術(shù),可視化展示物產(chǎn)在地域上的分布和傳播,進(jìn)一步推動了《方志物產(chǎn)》的數(shù)字化整理工作[25]。筆者以《方志物產(chǎn)》山西分卷為例,在梳理和分析物產(chǎn)的分類信息特征的前提下,重構(gòu)了一套物產(chǎn)分類體系,并實現(xiàn)了物產(chǎn)分類信息的自動化完善,為基于分類的物產(chǎn)信息處理打下了基礎(chǔ)[26]。

        《方志物產(chǎn)》手抄紙本數(shù)字化工作為本研究的開展提供了堅實的數(shù)據(jù)基礎(chǔ),基于文本內(nèi)容的數(shù)字化整理探索為本文進(jìn)行研究方法的選擇和研究思路的設(shè)計提供了借鑒。

        2.3 語料庫中地名分析

        中文地名起源早、類型多,處于不斷的發(fā)展演變進(jìn)程中,具有明顯的普遍性、地域性、民族性、穩(wěn)定性、時代性等特征[27],且數(shù)量龐大、用字自由、長度不一、結(jié)構(gòu)復(fù)雜,導(dǎo)致中文地名的識別難度較大?,F(xiàn)代漢語中地名自動識別可以參考地名庫、前綴介詞以及結(jié)束詞等內(nèi)容,其中,地名庫收錄了絕大部分的現(xiàn)用地名,有助于識別結(jié)果的判別;前綴介詞如“去、在”等,有助于地名起始位置的判斷;結(jié)束詞為“省、市、區(qū)、縣、鄉(xiāng)、鎮(zhèn)、村、莊”等,有助于地名結(jié)束位置的判斷。

        相比較而言,古漢語地名自動識別要復(fù)雜得多,沒有成熟的地名庫為參照,正異體字或者訛字等現(xiàn)象的存在導(dǎo)致識別難度更大。尤其是方志古籍,時間跨度大、空間范圍廣,時代性和地域性較為突出,地名特征呈現(xiàn)多樣化。

        (1)舊名為主。文中出現(xiàn)的地名多為舊稱,與現(xiàn)代地名有著很大的差別,例如市級行政單位,山西省如今有“大同市、朔州市、忻州市、呂梁市、太原市、陽泉市、臨汾市、晉中市、長治市、晉城市、運城市”等11個,而方志古籍中對應(yīng)級別的府州有19個,分別是“大同府、朔平府、保德州、寧武府、代州、忻州、平定州、太原府、遼州、汾州、沁州、隰州、霍州、潞安州、平陽府、澤州府、絳州、蒲州、解州”。

        (2)范圍多樣。方志古籍中包含的地名表示的地域范圍大小不一,有些地名表示的范圍較大,有國家級單位如“西域、頗陵國、大宛國”等,有省級單位如“山西、河南”等、有府州級單位如“太原府、平陽府、保德州”等、有縣級單位如“陽曲縣、河津縣”等、有村級單位如“下石門村、翟家橋村”等,也有特定的山川河流寺廟如“汾州眾香寺、石姑山、晉祠”等,還有一些泛指的地名如“河?xùn)|山谷、北鄉(xiāng)近水村落、北山一帶”等。

        (3)簡、全并存。在方志古籍的記載中,地名表達(dá)的完善程度不統(tǒng)一,有些地名記述的比較完整,如“太原縣、廣昌縣”等,有些地名則是使用的簡稱,如“澤、潞”等,這種現(xiàn)象導(dǎo)致一部分地名有特定的結(jié)尾詞,而另一部分則沒有,如“府、州、縣、村、山”等。

        (4)左右邊界。經(jīng)過文本分析,部分地名在上下文中有一定的規(guī)律性,即有著比較明顯的前后綴詞,如“出……、俱……出、產(chǎn)于……、……貢”等。

        (5)出現(xiàn)方式。地名出現(xiàn)的方式有多種,有單獨出現(xiàn),如“冬瓜 出太原縣”,有多個地名組合出現(xiàn),如“丁香 左云馬邑有”。

        除了上述幾種典型的情況,方志古籍中地名還有其他類型特征??偠灾?,古今地名的差異大,無法參照現(xiàn)有地名庫進(jìn)行結(jié)果判別;語料書寫采用繁體字,夾雜著大量的正異體字、訛字、組成字等,復(fù)雜程度高;文本中沒有任何句讀,分析難度大。所以,方志古籍中地名自動識別相對困難。已有研究使用基于規(guī)則的方法進(jìn)行了地名自動抽取探索,準(zhǔn)確率、召回率和F值分別為63.38%、82.89%、71.83%[25]95,識別效果還有很大的提升空間。

        3 語料預(yù)處理及地名內(nèi)外部特征分析

        3.1 人工標(biāo)注

        本文以《方志物產(chǎn)》山西分卷作為研究語料。語料庫共13卷,約43萬字,記載了自明成化二十一年(1485)至民國二十九年(1940)山西境內(nèi)的51 545條物產(chǎn)信息,分為植物、動物、貨物三大類別。山西,又稱“三晉”,地處中原,位于黃河之濱,是中華民族的發(fā)祥地之一,有文字記載的歷史達(dá)三千余年,自古以來,農(nóng)業(yè)發(fā)達(dá),物產(chǎn)豐富,被譽為“華夏文明搖籃”,有“中國古代文化博物館”之稱。因此,以山西分卷為例進(jìn)行地名自動識別研究,能夠代表黃河流域甚至更廣范圍的情況,為全國范圍內(nèi)《方志物產(chǎn)》中命名實體識別提供借鑒。

        進(jìn)行地名人工標(biāo)注的過程中,首先,要從語料庫中篩選出具有備注信息的物產(chǎn),共得到9 085條語料。然后,制定標(biāo)注規(guī)范,“L”標(biāo)注類型為地名,“【”與“】 ”表示地名的左右邊界,因此,完整的地名標(biāo)注方式為“……【L地名】……”,如“桐出【L汾陽】【L介休】【L孝義】一名白桐體最輕虛不生蟲蛀斲琴最良一名青桐即梧桐也其子可炒作果立秋日必墜一葉詩云梧桐一葉落天下盡知秋”。最終,與物產(chǎn)“桐”相關(guān)的地名標(biāo)注結(jié)果為“汾陽”“介休”“孝義”,所有語料中共標(biāo)注出地名2 287次。

        3.2 標(biāo)注集的生成

        在進(jìn)行地名識別模型的構(gòu)建和自動識別之前,要先對標(biāo)注語料進(jìn)行預(yù)處理,把語料拆分成單字并添加標(biāo)識符,生成標(biāo)注集。為了區(qū)分地名和非地名用字的差別,本文采用四位標(biāo)注集,即P={B,M,E,S},其中,B代表地名的初始字,M代表地名的中間字,E代表地名的結(jié)束字,S代表地名以外的字,M位于B、E之間,S位于B、E之外,可以是B之前,也可以是E之后。如經(jīng)過手工標(biāo)記的語料“五靈脂 即寒號蟲糞出【L太原諸山】 ”,標(biāo)注集的生成結(jié)果如表1所示:

        表1 方志古籍地名標(biāo)注集樣例

        經(jīng)過標(biāo)注集的生成,將標(biāo)注語料處理成具有特定標(biāo)識符的單字,能夠為地名左右邊界特征的統(tǒng)計提供便利,左右邊界是特征模板的重要組成部分,影響地名自動識別模型的功能完善和識別效果。

        3.3 地名內(nèi)外部特征分析

        在人工標(biāo)注和標(biāo)注集的基礎(chǔ)上,對地名的外部特征進(jìn)行統(tǒng)計分析,將結(jié)果作為參數(shù)融入模型構(gòu)建中,以保證地名自動識別模型的準(zhǔn)確率和召回率。本研究中,地名的內(nèi)部特征主要是指地名的長度和出現(xiàn)的頻次,外部特征主要是指地名的左右一元邊界詞。

        (1)地名的內(nèi)部特征分析

        地名的長度就是組成地名的漢字個數(shù)。通過地名長度的統(tǒng)計分析,可以幫助確定識別序列的跨度。標(biāo)注語料中共提取出人工標(biāo)注的地名2 287個。經(jīng)過長度統(tǒng)計,地名的長度有“1、2、3、4、5、6、7、11”等八種類型。從詞頻統(tǒng)計結(jié)果看,長度為1的地名有226個,約占全部地名的9.88%;長度為2的地名數(shù)量最多,有1 635個,約占全部地名的71.49%;長度為3的地名有307,約占全部地名的13.42%;長度為7和11的地名最少,分別只有3個和2個,如“芮城北山地黃村”“壽陽縣西南六十里建工村”。可見,地名的長度主要集中在1、2、3上,共有2 168個,約占地名總數(shù)的94.80%,涵蓋了絕大多數(shù)的地名。地名長度的統(tǒng)計分析有助于識別過程中地名長度的判斷。

        地名的頻次是指地名的記載次數(shù)。對語料庫中人工標(biāo)注的地名進(jìn)行去重處理,得到430個不同的地名,平均每個地名出現(xiàn)約5.32次。其中,出現(xiàn)次數(shù)高于15的地名共有27個,出現(xiàn)次數(shù)最高的為“太原”,共出現(xiàn)了93次,其次是“平陽”,出現(xiàn)了89次,第三是“安邑”和“夏縣”各出現(xiàn)了20次。這27個高頻地名共出現(xiàn)了926次,約占整個地名的40.49%。高頻地名的準(zhǔn)確識別,是地名自動識別模型性能的基本保證。

        (2)地名的外部特征分析

        假設(shè)我們把一條語料表示成“SLn,…,SLi,…,SL1,【R,R1,…Rn】,SR1,…,SRj,…,SRn”,其中【R,R1,…Rn】表示地名,SLi表示地名的左邊界,SRj表示地名的右邊界,如SL1、SR1分別為地名的左右一元邊界詞,SL1、SL1和SR1、SR1分別為地名的左二元邊界詞。本研究使用的機器學(xué)習(xí)模型主要參考左右一元邊界詞。方志古籍中地名的左右一元邊界詞,即SL1、SR1,可以運用公式(1)獲取和分析。

        其中,為在語料中出現(xiàn)的頻率,為邊界詞在邊界詞位置上出現(xiàn)的次數(shù),為邊界詞在語料庫中出現(xiàn)的總次數(shù)。經(jīng)過計算統(tǒng)計,地名高頻左右一元邊界詞的分布情況如表2所示。

        表2 地名的左、右一元邊界詞統(tǒng)計結(jié)果

        統(tǒng)計結(jié)果顯示,地名的左一元邊界詞比較集中,頻次最高的10個左一元邊界詞占所有左一元邊界詞的比例為55.94%,其中,“出”的出現(xiàn)次數(shù)最多,如“出太原縣”等,而“載”的出現(xiàn)概率最高,如“即馬藺子也俗呼馬揀子平陽出本草載冀州”等;地名的右一元邊界詞相對分散,頻次最高的10個右一元邊界詞占所有右一元邊界詞的比例僅為39.71%,其中,仍然是“出”的出現(xiàn)次數(shù)最多,如“五臺山出”等,而“境”的出現(xiàn)頻次最高,如“出太原府境”等。

        4 地名自動識別模型的構(gòu)建與測評

        4.1 模型構(gòu)建

        條件隨機場是一種判別式的概率圖模型,主要用于在給定需要標(biāo)記的觀察序列的條件下,定義標(biāo)簽序列的概率分布。設(shè)圖G=(V,E)是一個無向圖,Y為標(biāo)注序列,X為待標(biāo)注序列,令如果服從馬爾科夫?qū)傩?,則(X,Y)構(gòu)成一個條件隨機場,滿足表示是相鄰的節(jié)點。

        在構(gòu)建CRF模型時,語料中上下文的特征都應(yīng)該加進(jìn)去,以提高模型的性能。本研究的模型中主要加入上文所分析的地名內(nèi)外部特征,即長度、頻次、邊界詞等。

        (1)地名長度。如上所述,方志古籍語料中,最常見的地名長度為2,如“酸棗仁 【L太原】【L迤南】【L平陽】【L汾】【L沁】【L澤州】俱出本草載【L河?xùn)|】”,絕大多數(shù)的地名長度都在1至3的范圍內(nèi),長度為1的如“兔絲子 【L蒲】 【L絳】二州出”,長度為3的如“銅出【L鳳游峪】并出蟾酥”。地名長度用阿拉伯?dāng)?shù)字表示,作為一個重要特征加入識別模型。

        (2)一元邊界詞。地名的識別過程中,一旦確定了左右一元邊界詞,地名的具體位置就鎖定了,地名也就被識別出來了。因此,地名的左右一元邊界詞是模型構(gòu)建中一個極為重要的特征。在前文的統(tǒng)計中,地名的左一元邊界詞和右一元邊界詞的前10名分別為“出、有、者、平、俱、馬、貢、境、等、潞”和“出、有、者、平、俱、馬、貢、境、等、潞”。在模型訓(xùn)練時,標(biāo)注出左右一元邊界詞,左一元邊界詞標(biāo)注為L,右一元邊界詞標(biāo)注為R,非一元邊界詞則標(biāo)注為N,并作為特征加入模型之中,例如語料“棗 史記雲(yún)【L安邑】千樹棗其人與千戶侯等”,語料訓(xùn)練結(jié)果如表3所示。

        表3 一元邊界詞的標(biāo)注樣例

        4.2 模型測評

        命名實體識別采用三個指標(biāo)對模型的識別效果進(jìn)行綜合評價,分別是精確率P、召回率R和調(diào)和平均數(shù)F[28]。見公式(2)-(4):

        其中,Correct是機器識別正確的地名數(shù)量,Incorrect是機器識別錯誤的地名數(shù)量,Unrecognized是機器沒有識別出來的地名數(shù)量。

        為了得到更加科學(xué)和合理的測試結(jié)果,本研究采用10次交叉法驗證模式的識別性能。將語料打亂順序隨機排列后,平均分成10等份,每次選取其中的9份作為訓(xùn)練語料,用于構(gòu)建地名自動識別模型,將剩余的1份作為測試語料,對模型的性能進(jìn)行訓(xùn)練和評價,共進(jìn)行10次實驗,以獲得最優(yōu)的地名自動識別模型。實驗結(jié)果見表4。

        整體而言,基于CRF模型識別的精確率最高,平均值達(dá)到了95.48%,召回率相對較低,為86.04%,調(diào)和平均值達(dá)到了90%以上,即模型的識別結(jié)果中地名正確率較高,但是占全部應(yīng)識別出的地名比例稍低。就單次測試結(jié)果而言,第9份測試的整體效果最好,該測試語料中,地名的內(nèi)外部特征與識別模型的特征模板吻合度最高,為更大規(guī)模、更多類型的語料庫進(jìn)行更加精準(zhǔn)的人工標(biāo)注、語料劃分和模型構(gòu)建提供了研究基礎(chǔ)和借鑒。

        表4 地名自動識別模型的測試結(jié)果

        對錯誤的識別結(jié)果進(jìn)行分析,發(fā)現(xiàn)錯誤的原因主要集中在以下幾個方面。一是非常規(guī)地名,如“惟西山中間有之”,句中“西山中間”不是一個具體的地名;二是不常見地名,如“訓(xùn)峪後溝等十?dāng)?shù)村均産”,句中“訓(xùn)峪後溝等十?dāng)?shù)村”屬于較少出現(xiàn)的小級別行政單位;三是長度較大地名,如“產(chǎn)縣西石明村藺相如墓上俗言童子入學(xué)佩之多聰慧”,句中“縣西石明村藺相如墓”為長度較長的地名,以上三種屬于容易漏識的情況。還有容易錯識的情況,一種情況是單字地名并列出現(xiàn),如“忻代岢嵐遼州翼城縣諸山上出”,句中“忻代”被錯誤地作為一個地名識別出來;另一種情況是長度判斷偏差,如“一統(tǒng)志出代州鳳游峪今閉塞”,模型僅識別出“代州”,而不是完整地名“代州鳳游峪”。在未來的研究中,要降低甚至消除錯誤情況的影響,不斷提升模型的識別性能。

        5 結(jié)語

        本文以《方志物產(chǎn)》山西分卷為例,在全文人工標(biāo)注的基礎(chǔ)上,統(tǒng)計分析地名特征,基于條件隨機場構(gòu)建了方志古籍地名自動識別模型,并通過10次交叉方法,測試了模型的識別性能。結(jié)果顯示,本研究能夠取得較好的識別效果,其中,準(zhǔn)確率、召回率和F值分別為98.16%、91.55%、94.57%的模型為方志古籍地名識別的最佳模型,相較于已有研究中基于規(guī)則的方法平均提高了20%以上。

        方志古籍類型多、規(guī)模大,本文僅以山西一省語料為例完成探索,語料規(guī)模和地域范圍較小,識別效果仍有提升的空間,可以從以下幾個方面逐步完善識別模型。

        (1)提高人工標(biāo)注的準(zhǔn)確度。人工標(biāo)注是地名自動識別模型構(gòu)建的基礎(chǔ)工作,其準(zhǔn)確程度影響特征模板內(nèi)容、模型功能和測試結(jié)果,因此,要盡可能地減少錯標(biāo)、漏標(biāo)的次數(shù),保證標(biāo)注的準(zhǔn)確率。

        (2)提高地名長度判斷功能。方志古籍中,地名的表述不統(tǒng)一,同一個地名有時會以不同的稱呼出現(xiàn),有些是因為名稱變遷,有些是因為全稱和簡稱的使用,例如“潞安府”就有“潞安”“潞安府”“潞州”“潞”等不同的名稱,因此,在地名識別的過程中,如何更加準(zhǔn)確地判斷一個地名的長度,是一項仍需加強的研究。

        (3)提高邊界區(qū)分能力。在描述一個多處均有產(chǎn)出的物產(chǎn)時,往往會連續(xù)記載一系列地名,而且不同地名之間沒有明顯的字符隔開,難以判斷左右邊界,如“柘 【L太原】【L平陽】【L潞安】【L汾】【L沁】【L遼】【L澤】境內(nèi)俱出惟【L高平縣】有萬條桑”,并列出現(xiàn)的地名之中,長短不一,識別難度大,需要更加深入的探索。

        (4)擴大語料庫規(guī)模。《方志物產(chǎn)》山西分卷作為本研究的語料,包含地名信息的物產(chǎn)信息僅有1 308條,規(guī)模相對較小。隨著研究的逐步深入,逐步擴大研究的地域范圍,在更大規(guī)模人工標(biāo)注的語料上,基于條件隨機場的方志古籍地名自動識別模型將會取得更好的效果。

        多年來圖書館數(shù)字化建設(shè)成果,為數(shù)字人文的開展奠定了數(shù)據(jù)基礎(chǔ),各種數(shù)字人文方法和工具的不斷成熟,為館藏資源的開發(fā)利用提供了技術(shù)保障。在數(shù)字人文研究不斷探索的過程中,圖書館要做好館藏資料的保護(hù)開發(fā)和開放利用,逐漸拓展研究視野和研究方法,更要重視文獻(xiàn)之間的關(guān)聯(lián)性和多學(xué)科融合合作,逐步提升服務(wù)和創(chuàng)新能力,成為人和社會全面發(fā)展的知識庫和信息源。

        (來稿時間:2017年9月)

        參考文獻(xiàn):

        1.Digital humanities [EB/OL].[2017-05-29].https://en.wikipe dia.org/wiki/Digital_humanities.

        2.Library and information science and digital humanities: two disciplines, joint future? [EB/OL].[2017-05-29].https://core.ac.uk/download/pdf/30446946.pdf.

        3.Dalbello M.A genealogy of digital humanities [J].Journal of Documentation, 2011, 67(3):480-506.

        4.李啟虎,尹力,張全.信息時代的人文計算[J].科學(xué),2015, 67(1):35-39.

        5.吳建中.再議圖書館發(fā)展的十個熱門話題[J].中國圖書館學(xué)報, 2017, 43(4):4-17.

        6.白壽彝.中國通史(第1卷)導(dǎo)論[M].上海:上海人民出版社,1989:292-294.

        7.唐旭日,陳小荷,許超,等.基于篇章的中文地名識別研究[J].中文信息學(xué)報,2010, 24(2):24-33.

        8.孫虹,陳俊杰.雙層CRF與規(guī)則相結(jié)合的中文地名識別方法研究[J].計算機應(yīng)用與軟件, 2014, 31(11):175-177.

        9.邱莎,阿圓,王付艷,等.基于統(tǒng)計的中文地名自動識別研究[J].計算機技術(shù)與發(fā)展,2011, 21(11):35-38.

        10.李麗雙,黨延忠,廖文平,等.CRF與規(guī)則相結(jié)合的中文地名識別[J].大連理工大學(xué)學(xué)報,2012, 52(2):285-289.

        11.黃德根,岳廣玲,楊元生.基于統(tǒng)計的中文地名識別[J].中文信息學(xué)報,2003, 17(2):37-42.

        12.黃德根,孫迎紅.中文地名的自動識別[J].計算機工程,2006, 32(3):220-222.

        13.李穎,王青海,池毓煥.句類分析準(zhǔn)則在作戰(zhàn)文書地名識別中的應(yīng)用[J].計算機工程與設(shè)計,2013, 34(8):2903-2907.

        14.鄔倫,劉磊,李浩然,等.基于條件隨機場的中文地名識別方法[J].武漢大學(xué)學(xué)報·信息科學(xué)版,2017, 42(2):150-156.

        15.肖磊.先秦地名知識庫構(gòu)建[D].南京師范大學(xué),2010.

        16.黃水清,王東波,何琳.基于先秦語料庫的古漢語地名自動識別模型構(gòu)建研究[J].圖書情報工作,2015(12):135-140.

        17.王錚.基于CRF的古籍地名自動識別研究[D].廣西民族大學(xué),2008.

        18.朱鎖玲,包平.方志類古籍地名識別及分析研究——以《 方志物產(chǎn)》(廣東分卷)為例[J].圖書館論壇,2012, 32(4):171-176.

        19.朱鎖玲,包平.方志類古籍地名識別及系統(tǒng)構(gòu)建[J].中國圖書館學(xué)報,2011, 37(3):118-124.

        20.Lafferty J D, Mccallum A, Pereira FCN.Conditional Random Fields: Probabilistic Models For Segmenting And Labeling Sequence Data [C].2001:282-289.

        21.王思明,陳少華.萬國鼎文集[M].北京:中國農(nóng)業(yè)科學(xué)技術(shù)出版社,2005:375.

        22.胡以濤,宋葉.抄寫本方志古籍?dāng)?shù)字化整理與實踐[J].圖書館理論與實踐,2014(8):101-103.

        23.衡中青.地方志知識組織及內(nèi)容挖掘研究[D].南京農(nóng)業(yè)大學(xué),2007.

        24.黃建年.農(nóng)業(yè)古籍的計算機斷句標(biāo)點與分詞標(biāo)引研究[D].南京農(nóng)業(yè)大學(xué),2009.

        25.朱鎖玲.命名實體識別在方志內(nèi)容挖掘中的應(yīng)用研究[D].南京農(nóng)業(yè)大學(xué),2011.

        26.李娜,包平.基于《方志物產(chǎn)》的物產(chǎn)分類體系智能化研究——以《方志物產(chǎn)》山西分卷為例[J].中國農(nóng)史,2016,35(4):31-38.

        27.董曉曉.中國地名的人文地理特征及其空間分布研究[D].山西師范大學(xué),2012.

        28.Atterer M, Schütze H.Prepositional phrase attachment without oracles [J].Computational Linguistics, 2007, 33(4):469-476.

        猜你喜歡
        物產(chǎn)自動識別方志
        飛速發(fā)展的順平縣物產(chǎn)有限公司
        Effects of O2 addition on the plasma uniformity and reactivity of Ar DBD excited by ns pulsed and AC power supplies
        物產(chǎn)環(huán)能:凈利潤兩版本 業(yè)績陷“羅生門”
        黑龍江民國方志所刊名家墨跡選
        書法賞評(2019年2期)2019-07-02 12:10:50
        自動識別系統(tǒng)
        特別健康(2018年3期)2018-07-04 00:40:18
        嘉絨藏族地區(qū)的舊方志編纂
        西藏研究(2017年1期)2017-06-05 09:26:11
        金屬垃圾自動識別回收箱
        物產(chǎn)美食
        基于IEC61850的配網(wǎng)終端自動識別技術(shù)
        電測與儀表(2016年6期)2016-04-11 12:06:38
        Average Incremenral Correlarion Analysis Model and Irs Applicarion in Faulr Diagnosis
        精品久久久久久久久久中文字幕| 国内a∨免费播放| 人人做人人妻人人精| 日韩成人免费一级毛片| 精品无吗国产一区二区三区av| 91久久国产情侣真实对白| 日本最新在线一区二区| 亚洲av一二三四五区在线| 亚洲一区二区三区蜜桃| 人妻精品久久久久中文字幕69| 热久久美女精品天天吊色| 久久亚洲精品成人av| 久久麻豆精品国产99国产精| 国产女奸网站在线观看| 亚洲视频中文字幕更新| 国产性感午夜天堂av| 国产 一二三四五六| 熟妇激情内射com| 尤物视频一区二区| 日本高清二区视频久二区| 精彩视频在线观看一区二区三区| 99久久婷婷国产亚洲终合精品| 人人爽久久久噜人人看| 亚洲国色天香卡2卡3卡4| 亚洲成在人线av| 亚洲区精品久久一区二区三区女同| 国产精品女人一区二区三区| 日本成人精品在线播放| 一边做一边说国语对白| 40岁大乳的熟妇在线观看 | 五月色丁香婷婷网蜜臀av| 少妇高潮惨叫久久久久久电影| 亚洲男人的天堂在线aⅴ视频 | 色88久久久久高潮综合影院| 国产97在线 | 亚洲| 少妇三级欧美久久| 黄页国产精品一区二区免费| 国产自拍视频在线观看免费| 潮喷失禁大喷水aⅴ无码| 18禁超污无遮挡无码免费游戏 | 福利一区二区三区视频午夜观看 |