李 娜 白振田 包 平
(南京農(nóng)業(yè)大學(xué)人文社會(huì)科學(xué)學(xué)院,江蘇 南京 210095)
基于《方志物產(chǎn)》的古籍知識(shí)組織路徑探析
李 娜 白振田 包 平
(南京農(nóng)業(yè)大學(xué)人文社會(huì)科學(xué)學(xué)院,江蘇 南京 210095)
方志類古籍作為古籍范疇中的大類,歷來被研究者重視?!斗街疚锂a(chǎn)》匯集了方志類古籍中與物產(chǎn)相關(guān)的著述,為農(nóng)史研究提供了寶貴的資料。通過《方志物產(chǎn)》內(nèi)容的閱讀和分析,總結(jié)其行文特點(diǎn),包括大篇幅、無句讀、采用繁體字以及文本內(nèi)容結(jié)構(gòu)有一定規(guī)律但是書寫格式呈現(xiàn)多樣化等。在此基礎(chǔ)上,結(jié)合最新信息技術(shù)的發(fā)展與應(yīng)用,對(duì)適用于《方志物產(chǎn)》知識(shí)組織的相關(guān)技術(shù)進(jìn)行了探討,包括用于文本內(nèi)容格式化的、用于命名實(shí)體識(shí)別的、用于知識(shí)發(fā)現(xiàn)的、用于組織結(jié)果展示的技術(shù)等,為本領(lǐng)域的研究者提供較為深入的路徑分析。
方志物產(chǎn);古籍整理;數(shù)據(jù)挖掘;可視化
中國方志類古籍起源早、持續(xù)久、類型全、數(shù)量多,是文化遺產(chǎn)中的一個(gè)重要組成部分,既具有豐富堅(jiān)實(shí)的史料基礎(chǔ),更具備取之不盡、足資參證的史料價(jià)值。據(jù)《中國地方志聯(lián)合目錄》的統(tǒng)計(jì),僅保存至今的宋至民國時(shí)期的方志就有8264種,11萬余卷,占中國古籍的1/10左右。[1]
《方志物產(chǎn)》是我國著名農(nóng)學(xué)家、中國農(nóng)史學(xué)科的主要?jiǎng)?chuàng)始人萬國鼎先生,在20世紀(jì)50年代組織數(shù)十人歷時(shí)六年,先后前往40多個(gè)大、中城市的100多個(gè)文史單位,從8000多部地方志中人工摘抄整理的專題性資料,內(nèi)容涉及農(nóng)業(yè)生產(chǎn)的各個(gè)方面,而以動(dòng)植物品種資源和相關(guān)的種植飼養(yǎng)技術(shù)為主,具有極高的農(nóng)業(yè)科技、經(jīng)濟(jì)史料價(jià)值,受到國內(nèi)外相關(guān)學(xué)者的高度重視。[2]
隨著計(jì)算機(jī)和信息技術(shù)的發(fā)展和應(yīng)用,古籍?dāng)?shù)字化整理逐漸興起,給古籍整理注入了新的活力。
本文在《方志物產(chǎn)》數(shù)字化的基礎(chǔ)上,綜合分析其行文結(jié)構(gòu)等方面的特點(diǎn),針對(duì)《方志物產(chǎn)》自身特點(diǎn)及數(shù)字化整理需要,厘清整理過程中可能用到的數(shù)字挖掘技術(shù),并結(jié)合內(nèi)容進(jìn)行一定的可行性分析,以期為《方志物產(chǎn)》的內(nèi)容數(shù)字化整理提供路徑選擇。
(一)工作與研究基礎(chǔ)
20世紀(jì)80年代開始,隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展,人們嘗試將計(jì)算機(jī)應(yīng)用于方志史料的整理和利用。方志書目數(shù)據(jù)庫、方志索引、方志全文數(shù)據(jù)庫和專題數(shù)據(jù)庫、地情網(wǎng)等一系列數(shù)字化成果不斷涌現(xiàn)。中華農(nóng)業(yè)文明研究院在這方面的研究與開發(fā)成果豐碩,以王思明教授為首的研究團(tuán)隊(duì)對(duì)《方志物產(chǎn)》這一珍貴古籍資源進(jìn)行了數(shù)字化建設(shè),將3000余萬字的《方志物產(chǎn)》文獻(xiàn)掃描成圖像文件,并逐字輸入電腦,轉(zhuǎn)換成電子文檔,同時(shí)進(jìn)行文獻(xiàn)標(biāo)引和元數(shù)據(jù)編目,發(fā)布了《方志物產(chǎn)》的在線管理系統(tǒng),實(shí)現(xiàn)了在線瀏覽與檢索等相關(guān)功能。這一成果不僅解決了《方志物產(chǎn)》的長久保存問題,同時(shí)也通過資源共享的方式促進(jìn)了學(xué)術(shù)研究。
隨著《方志物產(chǎn)》數(shù)字化程度的日益成熟和深入,基于內(nèi)容挖掘的數(shù)字化整理逐漸被提上日程,這就要求除了實(shí)現(xiàn)文本數(shù)字化,使其具有方便的瀏覽閱讀環(huán)境和強(qiáng)大的檢索功能外,還需要基于其內(nèi)容的深入研究,使其具有研究支持功能,即能夠提供有關(guān)方志內(nèi)容本身科學(xué)、準(zhǔn)確的統(tǒng)計(jì)與計(jì)量信息,提供與方志內(nèi)容相關(guān)的參考數(shù)據(jù)、輔助工具,進(jìn)一步推動(dòng)學(xué)術(shù)研究的進(jìn)展。
近年來,有學(xué)者嘗試將信息技術(shù)與傳統(tǒng)內(nèi)容相結(jié)合,進(jìn)行方志類古籍相關(guān)內(nèi)容的挖掘和研究,積累了一些成果。例如衡中青的《地方志知識(shí)組織及內(nèi)容挖掘研究》[3]、朱鎖玲的《方志類古籍地名識(shí)別及分析研究——以〈方志物產(chǎn)·廣東分卷〉為例》[2]等。
(二)存在的局限
現(xiàn)有的成果為進(jìn)一步研究提供了一定的基礎(chǔ)和思路,但仍然存在一些不足之處和提升的空間。
從研究對(duì)象來看,已有成果或側(cè)重對(duì)方志外在形式的加工和整理,或側(cè)重對(duì)方志整理的智能化技術(shù)研究,都沒有基于《方志物產(chǎn)》內(nèi)容本身作相關(guān)整理研究,缺乏對(duì)方志內(nèi)容的深度開發(fā)與利用,未能充分發(fā)掘《方志物產(chǎn)》這一珍貴古籍的史料價(jià)值。
從研究范圍來看,有研究通過識(shí)別《方志物產(chǎn)》中的引書和地名,探索《方志物產(chǎn)》的內(nèi)容挖掘,但他們僅從3000多萬字的《方志物產(chǎn)》中抽取了其中的廣東分卷作為研究對(duì)象進(jìn)行嘗試性研究,缺乏全國范圍內(nèi)的完整性和系統(tǒng)性。而在命名實(shí)體識(shí)別技術(shù)應(yīng)用的過程中,通過模式識(shí)別出來的物產(chǎn)和地名的對(duì)應(yīng)關(guān)系只是《方志物產(chǎn)》中的一部分,還有很多物產(chǎn)因?yàn)椴环夏J降母袷蕉鴽]有識(shí)別出來,因此還需要更全面的方法更完整地實(shí)現(xiàn)物產(chǎn)的識(shí)別。另外,除了物產(chǎn)于地名的對(duì)應(yīng)關(guān)系以外,還有其他一些關(guān)系,例如物產(chǎn)-別名、物產(chǎn)-功效、物產(chǎn)-分類等,也可以通過命名實(shí)體識(shí)別技術(shù)加以整理,為研究提供新的思路和范疇。
從研究技術(shù)來看,將命名實(shí)體識(shí)別技術(shù)應(yīng)用到《方志物產(chǎn)》內(nèi)容挖掘的過程中,無疑是一種開拓創(chuàng)新的方式,但是已有的研究主要是從文本中找到規(guī)律,根據(jù)文中的規(guī)律構(gòu)建模式庫,導(dǎo)入文本,根據(jù)模式庫中統(tǒng)計(jì)出來的確定的規(guī)律對(duì)文本進(jìn)行分析,找出地名與物產(chǎn)名的對(duì)應(yīng)關(guān)系,但是《方志物產(chǎn)》的書寫并不是統(tǒng)一的,有的物產(chǎn)有產(chǎn)地描述性的注釋,有的沒有,而且沒有注釋的占了很大的比例,因此根據(jù)模式庫識(shí)別出來的地名與物產(chǎn)知識(shí)僅占整個(gè)《方志物產(chǎn)》中一部分,并不是全部。只有從理念上認(rèn)清和技術(shù)上突破,才能用更強(qiáng)大的挖掘技術(shù),更全面地挖掘其內(nèi)容。
中文在文字結(jié)構(gòu)和書寫方式上都與其他文字有著很大的區(qū)別,古籍中的文字結(jié)構(gòu)和書寫方式與現(xiàn)代文獻(xiàn)也大相徑庭,《方志物產(chǎn)》屬于古籍的范疇,又具有自身鮮明的特點(diǎn)。
(一)篇幅大,無句讀,采用繁體字
簡(jiǎn)體中文是20世紀(jì)50年代開始在中國大陸推廣使用的中文文字,而《方志物產(chǎn)》記載的多是明、清及民國時(shí)期的各地物產(chǎn),因此書寫時(shí)采用繁體字,由于古籍的書寫多不加標(biāo)點(diǎn),沒有斷句,而《方志物產(chǎn)》在摘抄整理的過程中,嚴(yán)格忠于原著,所以,文中沒有句讀,例如“物產(chǎn)略者計(jì)其地上所出因以覘一邑之息耗焉襄垣古稱巨縣較之大江以南為財(cái)賦所自出或有不逮而地當(dāng)太行之麓則物產(chǎn)亦有可誌者縣地生產(chǎn)向以五榖煤礦為大宗自改革以來舉國注意實(shí)業(yè)而農(nóng)桑樹畜交換種類非復(fù)昔日之舊日新月異舉凡日用之所需供給罔缺故臚列亦如舊志不復(fù)另為一類云”①山西分卷第十本民國時(shí)期襄垣縣志,諸如此類的記載《方志物產(chǎn)》文中比較常見,不曾出現(xiàn)標(biāo)點(diǎn)符號(hào),繁體字的運(yùn)用由此可見一斑。
《方志物產(chǎn)》內(nèi)容涉及地域范圍廣,包括遼寧、河南、河北、安徽、山東、山西、陜西、四川、廣東等多個(gè)省份,從多省、市、自治區(qū)的地方志中摘抄了物產(chǎn)相關(guān)的內(nèi)容,共431卷,總計(jì)3000多萬字,因此,字?jǐn)?shù)多、篇幅大、范圍廣也是其突出的特點(diǎn)。(二)文獻(xiàn)結(jié)構(gòu)有規(guī)律可循
方志的編纂從宋代開始逐漸成熟起來,后代的方志編纂也越來越完備,《大元一統(tǒng)志》就是一部非常具有代表性的志書,清朝是方志編纂的鼎盛時(shí)期,重修周期都有明確的要求,行文也有一定的規(guī)范性,因此,雖然文中沒有句讀,但是通讀全文,還是能從文章結(jié)構(gòu)上找到一些行文規(guī)律。
(1)每本志書的開始都是目錄部分,包括序號(hào)、縣志名稱、記錄年代的年號(hào)(含公元紀(jì)年)以及頁碼,如圖1所示,就是山西分卷第十一本的目錄部分。
圖1 《方志物產(chǎn)》山西分卷第十一本目錄(部分)
(2)內(nèi)容是按照先總后分的框架編寫的,即先寫出何時(shí)何地何主題,再對(duì)該主題進(jìn)行二級(jí)分類,最后在每一級(jí)分類下面羅列這個(gè)類別的物產(chǎn)名。例如“康熙潞城縣志物產(chǎn)榖屬黍(軟硬二種)稷(大小二種)梁 粟 麥(大小二種)秫(軟硬二種)蕎麥 小豆 豌豆 菉豆 匾豆 黑豆(大小二種又有麥查豆)黃豆 豇豆 蔴子 胡麻
蔬屬 芹 茄 瓠蒜 芥 蔥 韮 白菜 菠菜 蘿蔔(有紅白水三種)蔓菁 葫蘆 莙薘 萵苣 芫荽 藤蒿 馬齒 瓜屬王瓜 南瓜 冬瓜北瓜菜瓜甜瓜……”②山西分卷第十一本康熙年間潞城縣志,先交代志書記載的是康熙年間潞城縣這個(gè)地方的物產(chǎn),再對(duì)物產(chǎn)進(jìn)行分類,分為谷屬、菜屬、瓜屬、果屬、木屬、花屬、草屬、藥屬、畜屬、毛屬、羽屬、蟲屬、物貨屬等十三個(gè)類別,最后列出每個(gè)類別下的物產(chǎn)名,例如菜屬下面有芹、茄、瓠、蒜、芥、蔥、韭、白菜、菠菜、羅葡、蔓菁、葫蘆、莙篷、萵苣、芫荽、藤蒿、馬齒等十七個(gè)品種,瓜屬下面有王瓜、南瓜、冬瓜、北瓜、菜瓜、甜瓜等六個(gè)品種。
(3)物產(chǎn)名后面有注釋文字,用以說明該物產(chǎn)的產(chǎn)地、分類、別名、用途、引書等信息,例如“薥秫(齊民要術(shù)云莖高丈許穗大如帚其子可作米可食稭桿可織箔元扈先生曰北方地不宜稻麥者種此可濟(jì)荒俗名千歲榖)”①山西分卷第十一本光緒年間陵川縣志,括號(hào)中內(nèi)容就是對(duì)物產(chǎn)薥秫的注釋,說明《齊民要術(shù)》記載了物產(chǎn)“薥秫”的生物學(xué)特征,元扈先生評(píng)價(jià)了其適宜種植地區(qū)以及救荒價(jià)值,另外還說明了其別名叫“千歲榖”。
(4)結(jié)構(gòu)上一般是某地志書開始處有序言,結(jié)尾處有結(jié)語,用以標(biāo)志這個(gè)地方志書的開始和結(jié)束。序言部分主要是對(duì)當(dāng)?shù)氐奈锂a(chǎn)及地理氣候概況,結(jié)語部分主要用來總結(jié)物產(chǎn)現(xiàn)況及變化。例如康熙黎城縣志的序言部分為“李吉曰洪範(fàn)三八政一曰食二曰貨食謂菽類貨謂布帛之類二者民所恃以為生王政之也周禮職方氏曰冀州其利松柏畜宜牛羊榖宜黍稷并州其利布帛畜宜五櫌榖宜五種黎右冀并地也無他奇產(chǎn)其土宜與夫所產(chǎn)者槩與昔同而食貨之外備物以利用凡可以厚民之生者不得以精粗巨細(xì)而有所遺也”②山西分卷第十一卷康熙年間黎城縣志,結(jié)語部分為“程大夏曰黎山高土瘠菽麥瓜果而外更無他產(chǎn)故其民習(xí)於農(nóng)桑終歲勤苦而不敢少休若山澤之利商賈之業(yè)黎未之有也舊志所載半屬子虛然物產(chǎn)無常有昔有而今無有今無而後有者故備列之而未敢意為去取云”③山西分卷第十一卷康熙年間黎城縣志。
(三)行文格式多樣性
由于《方志物產(chǎn)》涉及的地域比較廣,幾乎全國各省都有記載,而我國地大物博,人口眾多,且不同地域都形成了獨(dú)特的文化和習(xí)俗,因此,志書的書寫風(fēng)格也隨著各地的風(fēng)俗文化的差異而有所不同,呈現(xiàn)了行文格式多樣化的特征。
(1)不是所有的志書都有序言和結(jié)語部分。從結(jié)構(gòu)上看,一本志書的完整結(jié)構(gòu)應(yīng)該是由序言、物產(chǎn)、結(jié)語三個(gè)部分組成,但并非所有志書皆如此,除物產(chǎn)部分是不可或缺的,序言和結(jié)語都不是必須的,如表1所示是幾種常見的文本結(jié)構(gòu)形式。
表1 《方志物產(chǎn)》中常見文本結(jié)構(gòu)
(2)《方志物產(chǎn)》的主要內(nèi)容是物產(chǎn)部分,記載了物產(chǎn)名稱及其屬性,書寫格式多樣化。第一種,不同的物產(chǎn)名之間有空格隔開,例如“蜂蝶蟬蛙蟋蟀蜻蜓蛇蜘蛛蚯蚓蝎”④山西分卷第十本乾隆年間襄垣縣志,這種以空格隔開的書寫方式比較多見;第二種,一個(gè)或者數(shù)個(gè)物產(chǎn)名稱單獨(dú)成一行,例如“光緒陵川縣志 絲/光緒陵川縣志 麻(出陵川者佳用作船攬以其從外朽也)/光緒陵川縣志 蜜”⑤安徽分卷第三本光緒年間陵川縣志⑥“/”標(biāo)示換行;第三種,物產(chǎn)名之間用特殊字符如“曰”“有”隔開,例如“草之屬曰芭蕉曰雁來紅曰映山紅曰藍(lán)曰莎曰苔曰鳯尾曰翠云曰吉祥曰萬年青曰虎耳曰蓼曰蘋曰荇”①安徽分卷第一本道光年間安徽通志鳳陽府物產(chǎn)、“獸之屬有兎有獐有獾有狐有貍有狼有黃鼠”②安徽分卷第五本康熙年間靈璧縣志;第四種,物產(chǎn)名之間沒有任何標(biāo)識(shí),例如“木之屬有有桑柘槐榆柳栢檜椿棠橡楝黃楝梧桐白楊楮桃蠟樹”③安徽分卷第二本康熙年間五河縣志。上述比較常見的格式除可以獨(dú)立使用以外,還可以混合使用,當(dāng)然還存在其他不同的格式。
(3)物產(chǎn)名之后常有文字注釋,但格式不一。首先在書寫格式上的區(qū)別如表2所示,是幾種比較常見的注釋形式,用括號(hào)將注釋內(nèi)容括起來緊跟在物產(chǎn)名的后面,或者用空格將物產(chǎn)名與注釋內(nèi)容分隔開,或者注釋內(nèi)容緊跟在物產(chǎn)名之后,中間沒有任何標(biāo)識(shí),甚至還有雙重注釋的形式,即一部分注釋用括號(hào)的形式緊跟在物產(chǎn)名之后,還有一部分注釋內(nèi)容跟在括號(hào)的后面并另起一行。
其次,注釋除了格式不同以外,內(nèi)容上也有區(qū)別,加括號(hào)的注釋類型最為常見,以此為例分析,有的括號(hào)的注釋內(nèi)容只描述一種特征,有的括號(hào)里的注釋內(nèi)容描述了兩種甚至數(shù)種特征,如表3所示。
表2 《方志物產(chǎn)》中常見注釋類型及其案例④表中內(nèi)容引自《方志物產(chǎn)》
表3 《方志物產(chǎn)》中常見注釋內(nèi)容及其案例⑤表中內(nèi)容引自《方志物產(chǎn)》
針對(duì)目前《方志物產(chǎn)》研究的不足,結(jié)合數(shù)據(jù)挖掘技術(shù)等信息技術(shù)的發(fā)展,對(duì)技術(shù)方法和路徑進(jìn)行系統(tǒng)和深入的梳理,為進(jìn)一步開展《方志物產(chǎn)》內(nèi)容挖掘與研究建立基礎(chǔ)。
(一)適用于文本內(nèi)容格式化的技術(shù)
標(biāo)點(diǎn)符號(hào)在現(xiàn)代漢語中扮演著重要的角色,而古文在書寫行文上,沒有句讀之說,如何將其合理斷句,是一項(xiàng)基礎(chǔ)工作。同時(shí)分詞也是古今中文信息處理的另一難題,對(duì)古籍整理來說,難度更高。目前在古文斷句方面,清華大學(xué)研究人員采用條件隨機(jī)場(chǎng)模型(conditional random field),引入互信息和t-測(cè)試差兩個(gè)統(tǒng)計(jì)量作為模型的特征,通過在《論語》與《史記》兩個(gè)語料庫上進(jìn)行實(shí)驗(yàn),獲得了較好的效果[4]。黃建年等應(yīng)用模式識(shí)別技術(shù)對(duì)自動(dòng)斷句進(jìn)行了研究,通過句法特征詞、反義復(fù)合詞、引書標(biāo)志、時(shí)序、數(shù)量詞、重疊字詞、動(dòng)名結(jié)構(gòu)及比較句法等進(jìn)行斷句嘗試[5]。
在古文分詞方面,主要有詞典法、統(tǒng)計(jì)法等方法。李新福等人基于統(tǒng)計(jì)語言模型,對(duì)《續(xù)資治通鑒長編》進(jìn)行了統(tǒng)計(jì)分析,根據(jù)互信息特征抽取候選字串,并建立了宋史語料庫詞表[6]。蘇勁松、周昌樂、李翼鴻等通過統(tǒng)計(jì)抽詞來抽取結(jié)合程度較強(qiáng)的二字詞,建立了全宋詞切分語料庫[7]。這些都為《方志物產(chǎn)》文本內(nèi)容的格式化提供了參考和借鑒。
(二)適用于命名實(shí)體識(shí)別的技術(shù)
目前,命名實(shí)體識(shí)別方法主要有三種:基于規(guī)則和詞典的方法、基于統(tǒng)計(jì)的方法、基于二者混合方法?;谝?guī)則和詞典的方法是命名實(shí)體識(shí)別中最早使用的方法,多是采用手寫規(guī)則,由語言學(xué)專家手工構(gòu)造規(guī)則模板,包括關(guān)鍵字、指示詞、方向詞、位置詞、中心詞等,只有當(dāng)提取的規(guī)則能精確地反映語言現(xiàn)象時(shí),基于規(guī)則和詞典的方法才具有優(yōu)越性,而基于統(tǒng)計(jì)的方法對(duì)篇幅也有要求,不適用于篇幅過短對(duì)象。[8]
《方志物產(chǎn)》雖然沒有句讀,書寫格式也不統(tǒng)一,但是通讀全文,還是能發(fā)現(xiàn)一定的規(guī)律,用于命名實(shí)體識(shí)別,表4舉例列出了部分已知模式。
表4 《方志物產(chǎn)》部分模式整理①表中模式出自《方志物產(chǎn)》
(三)適用于知識(shí)發(fā)現(xiàn)的技術(shù)
(1)主題聚類和關(guān)聯(lián)技術(shù)
主題聚類技術(shù)是一種無監(jiān)督的機(jī)器學(xué)習(xí)技術(shù),可以根據(jù)文本自身特點(diǎn),將文檔分成用戶可以理解的若干個(gè)簇,簇內(nèi)文檔相似性盡可能大,簇間文檔相似性盡可能小,使用戶可以迅速地把握文檔中的大量信息,加快分析速度和輔助決策。目前,常見的聚類方法包括基于層次的、基于劃分的、基于網(wǎng)格的、基于密度的、基于模型的、以及基于神經(jīng)網(wǎng)絡(luò)和遺傳的算法。[9]
在《方志物產(chǎn)》內(nèi)容挖掘中,可以用來將物產(chǎn)根據(jù)類別歸類,進(jìn)而建立物產(chǎn)類別目錄體系,為進(jìn)一步的分析整理提供參考。例如“瓜品有東瓜有南瓜多王瓜多金瓜多西瓜多脆瓜多絲瓜多菜瓜”,“果品有枰果有柿有核桃有郁李有無花果有蓮子多杏多桃多李多梅多棗多葡萄多梨多沙果多石榴”,“菜有芹芥蔥韮茄瓠菁蒜萵苣藤蒿蕓薹芫荽白菜黃花葫白蘿蔔菠菜莙蓬至於香椿紫蕨菉葵猴頭羊肚藤花木耳則又異於他處”①山西分卷第十三本萬歷年間安邑縣志,以上是比較規(guī)范的書寫方式,因?yàn)椤斗街疚锂a(chǎn)》涉及的范圍比較廣,書寫方式也有所不同,有的志書上的分類就沒有那么清晰,例如“菜 東瓜 西瓜 南瓜 甜瓜 稍瓜 絲瓜 葫蘆
萊菔 蔥 蒜 韭 薤 芥 白菜 菠菜
茼蒿 莙蓬 萵苣 胡荽 茄 芹 薇
蕨 莧 苜蓿 茶豆 刀豆 藤花 山藥
百合 香椿 剌楸 茴香 漆皮頭 蔓菁(子可作油) 荏(子可作油)”②山西分卷第十三本康熙年間芮城縣志,此處分類將瓜類合并到了菜類里面。上述情況,可以使用主題聚類技術(shù),將“東瓜 西瓜 南瓜 甜瓜 稍瓜 絲瓜”從菜類中提取出來,設(shè)置瓜類等。甚至在有的志書中,沒有給物產(chǎn)分類,直接把物產(chǎn)列舉出來,例如山西分卷第八本民國時(shí)期浮山縣志中的物產(chǎn)記載僅僅是羅列出來,而沒有進(jìn)行分類,為了更好地進(jìn)行內(nèi)容整理,使用主題聚類技術(shù)將物產(chǎn)歸類總結(jié)是十分必要且可行的。
關(guān)聯(lián)技術(shù)主要用于物產(chǎn)、地域、時(shí)間三種元素的對(duì)應(yīng)上。這主要通過擴(kuò)大搜索面,將各類物產(chǎn)、地域、時(shí)間拉長,放在一個(gè)較長歷史空間、地域空間中去考察,為今后的物產(chǎn)隨時(shí)間、地域的遷移規(guī)律發(fā)現(xiàn)作準(zhǔn)備。
(2)同義、異名等發(fā)現(xiàn)技術(shù)
在方志物產(chǎn)中,同義、異名詞大量存在。如何發(fā)現(xiàn)這些詞匯,對(duì)后期的知識(shí)發(fā)現(xiàn)、全文檢索、物產(chǎn)遷移分析等具有重要意義。衡中青以廣東方志物產(chǎn)為對(duì)象,通過異名別稱模式、引書模式識(shí)別等方法,自動(dòng)抽取出特產(chǎn)名詞和引書名稱,其中引書識(shí)全率為48.95%,識(shí)準(zhǔn)率為72.88%,具有一定的實(shí)用參考價(jià)值[3]。
(四)適用于挖掘結(jié)果展示的可視化技術(shù)
不管是使用命名實(shí)體識(shí)別技術(shù),還是使用主題聚類、關(guān)聯(lián)技術(shù),以及知識(shí)發(fā)現(xiàn),得到的都是以文字或者表格形式呈現(xiàn)的結(jié)果,無法展現(xiàn)內(nèi)部結(jié)構(gòu),仍需要進(jìn)一步對(duì)其進(jìn)行總結(jié)和分析。人們迫切需要新的展示方法,可視化技術(shù)可以通過靜態(tài)或者動(dòng)態(tài)的圖片更加直觀明了地展現(xiàn)結(jié)果。
可視化(Visualization)是利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或者圖像在屏幕上顯示出來,并進(jìn)行交互處理的理論、方法和技術(shù),是一項(xiàng)涉及到計(jì)算機(jī)圖形學(xué)、圖像處理、計(jì)算機(jī)技術(shù)等多個(gè)領(lǐng)域的綜合技術(shù)。目前,常用的可視化方法包括社會(huì)網(wǎng)絡(luò)分析法和GIS技術(shù)。
社會(huì)網(wǎng)絡(luò)分析法是基于社會(huì)學(xué)的角度,認(rèn)為社會(huì)是由網(wǎng)絡(luò)構(gòu)成的,通過探討網(wǎng)絡(luò)中關(guān)系的分析,探討網(wǎng)絡(luò)的結(jié)構(gòu)和屬性,有助于制定策略,UCNET、Pajek、Citespace等都是目前比較有代表性的社會(huì)網(wǎng)絡(luò)可視化軟件。UCNET是一個(gè)數(shù)據(jù)處理軟件,本身不具有可視化的功能,但是它輸出的數(shù)據(jù)可以導(dǎo)入到Pajek或者Citespace等具有可視化功能的軟件中,實(shí)現(xiàn)可視化。[10][11]
GIS(Geographic Information System)是指地理信息系統(tǒng),又稱“地學(xué)信息系統(tǒng)”或者“資源與環(huán)境信息系統(tǒng)”,是一個(gè)綜合了計(jì)算機(jī)科學(xué)、地理學(xué)、測(cè)量學(xué)、地圖學(xué)等多門學(xué)科的技術(shù),采集、存儲(chǔ)、管理、描述、分析地球表面及空間和地理分布相關(guān)數(shù)據(jù)的信息系統(tǒng)。國外將GIS應(yīng)用于歷史學(xué)領(lǐng)域比較早,大約有二十余年的時(shí)間,開啟了“歷史GIS”分支領(lǐng)域,而國內(nèi)起步甚晚。近年來,有學(xué)者以廣東分卷為語料,嘗試將GIS應(yīng)用于《方志物產(chǎn)》內(nèi)容挖掘中,實(shí)現(xiàn)了物產(chǎn)分布、傳播等相關(guān)數(shù)據(jù)的管理和可視化制圖,并根據(jù)結(jié)果進(jìn)行了史料數(shù)據(jù)的空間分析。[12]可見,GIS技術(shù)是可以并且適用于《方志物產(chǎn)》研究的,在后續(xù)的研究中,要擴(kuò)大應(yīng)用范圍,增強(qiáng)挖掘力度,首先在地理范圍上,從一省向多省份、大地區(qū)延伸,進(jìn)行多個(gè)省份的分析,形成一個(gè)或者數(shù)個(gè)片區(qū),例如東南沿海地區(qū)、長江流域、東北地區(qū)等,最后在全國范圍內(nèi)建立起完整的展示系統(tǒng)。
陳寅恪先生在為陳垣先生所編的《敦煌劫余錄》序中提出:“一時(shí)代之學(xué)術(shù),必有其新材料與新問題。取用此材料以研求問題,則為此時(shí)代學(xué)術(shù)之新潮流。治學(xué)之士,得預(yù)于此潮流者,謂之預(yù)流。其未得預(yù)者,謂之未入流。此古今學(xué)術(shù)史之通義,非彼閉門造車之徒,所能同喻者也?!爆F(xiàn)代社會(huì)是信息社會(huì),信息技術(shù)就是這個(gè)時(shí)代的新潮流。傳統(tǒng)的人工整理能夠保證較高的精確性,但是《方志物產(chǎn)》內(nèi)容龐大,格式多樣,在這樣大數(shù)據(jù)的范圍內(nèi),人工整理就有一定的局限性。而基于計(jì)算機(jī)技術(shù)的機(jī)器學(xué)習(xí)、規(guī)則、統(tǒng)計(jì)等知識(shí)發(fā)現(xiàn)方式正是應(yīng)處理大數(shù)據(jù)的需要而生,數(shù)據(jù)挖掘以及可視化技術(shù)能夠進(jìn)行數(shù)據(jù)分析并直觀展現(xiàn)結(jié)果。隨著應(yīng)用范圍的不斷延伸,各項(xiàng)技術(shù)也日趨成熟和規(guī)范,功能更加完善?;凇斗街疚锂a(chǎn)》的內(nèi)容整理是現(xiàn)在及將來一段時(shí)間研究的重點(diǎn),我們將根據(jù)其自身特點(diǎn),結(jié)合人工干預(yù),繼續(xù)探索如何應(yīng)用數(shù)據(jù)挖掘技術(shù)和可視化技術(shù),提高整理的深度、廣度和精確度,探索一套較為完善的自動(dòng)化內(nèi)容整理方法和手段。[基金項(xiàng)目:1、校人文社科基金重大招標(biāo)項(xiàng)目“方志內(nèi)容挖掘及知識(shí)組織研究”(編號(hào):SKZD201401);2、江蘇省2015年度普通高校研究生科研創(chuàng)新計(jì)劃項(xiàng)目“《方志物產(chǎn)》數(shù)字化整理研究——以山西分卷為例”(編號(hào):KYZZ15_0172)]
[1]朱鎖玲,包平.方志類古籍地名識(shí)別及系統(tǒng)構(gòu)建[J].中國圖書館學(xué)報(bào),2011,03:118-124.
[2]朱鎖玲.命名實(shí)體識(shí)別在方志內(nèi)容挖掘中的應(yīng)用研究[D].南京:南京農(nóng)業(yè)大學(xué),2011.
[3]衡中青.地方志知識(shí)組織及內(nèi)容挖掘研究[D].南京:南京農(nóng)業(yè)大學(xué),2007.
[4]張開旭,夏云慶.基于條件隨機(jī)場(chǎng)的古文自動(dòng)斷句與標(biāo)點(diǎn)方法[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2009(10):163-166.
[5]黃建年.農(nóng)業(yè)古籍?dāng)嗑錁?biāo)點(diǎn)模式研究[J].中文信息學(xué)報(bào),2008(7):32-36.
[6]李新福,趙杰,梁巍.基于互信息的宋史語料庫詞表的提取[J].河北大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,05:557-560.
[7]蘇勁松,周昌樂,李翼鴻.基于統(tǒng)計(jì)抽詞和格律的全宋詞切分語料庫建立[J].中文信息學(xué)報(bào).2007(2).
[8]張曉艷,王挺,陳火旺.命名實(shí)體識(shí)別研究[J].計(jì)算機(jī)科學(xué),2005(04):第44-48頁.
[9]李素建,文本內(nèi)容自動(dòng)處理的相關(guān)研究[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2011(1):43-48.
[10]梁辰,徐健.社會(huì)網(wǎng)絡(luò)可視化的技術(shù)方法與工具研究[J].現(xiàn)代圖書情報(bào)技術(shù),2012, 05:7-15.
[11]顏端武,王曰芬,李飛.國外人際網(wǎng)絡(luò)分析的典型軟件工具[J].現(xiàn)代圖書情報(bào)技術(shù), 2009:6-11.
[12]朱鎖玲,王明峰.GIS在方志類古籍開發(fā)利用中的應(yīng)用初探[J].大學(xué)圖書館學(xué)報(bào), 2013,05:118-121.
Analysis of Knowledge Organization on Ancient Books based on the Chronicles Property
Li Na Bai Zhentian Bao Ping
(College of Humanities and Social Science,Nanjing Agricultural University, Nanjing,Jiangsu 210095)
Ancient books such as local chronicles are always valued by researchers as a big category.Chronicles property collects property-related contents in the ancient books such as local chronicles and provides valuable information for the study of agricultural history. Through reading and analyzing chronicles property,we can find some characters of the writing style including great length,no sentence reading,using complex characters,certain rules in the content structure but diversified in the writing format.On this basis,combining with the development and application of the latest information technology,the relevant technologies applied to chronicles property are discussed such as content formation,named entity recognition,visualization and so on.The research aims at providing a systematic global concept for the researchers.
Chronicles property,Ancient books arrangement,Data mining,Visualization
李娜(1985—),女,南京農(nóng)業(yè)大學(xué)人文社會(huì)科學(xué)學(xué)院2014級(jí)博士研究生;白振田(1971—),男,南京農(nóng)業(yè)大學(xué)副教授;包平(1964—),男,南京農(nóng)業(yè)大學(xué)教授、博士生導(dǎo)師。