摘 要:不少語言學(xué)科研項目需要建設(shè)文獻語料庫,對文獻語料的管理需求越來越強烈,開發(fā)一套面向語言學(xué)者的文獻語料管理系統(tǒng)非常必要。該文以清末民初西南文人白話作品和傳教士文獻的語料處理需求為出發(fā)點,對系統(tǒng)功能需求、系統(tǒng)流程、系統(tǒng)數(shù)據(jù)等進行分析、設(shè)計和實現(xiàn),有效解決文獻語料庫建設(shè)中的語料管理問題。
關(guān)鍵詞:文獻語料庫;語料管理;系統(tǒng)設(shè)計與分析;語言學(xué)者;管理系統(tǒng)
中圖分類號:TN912 文獻標志碼:A 文章編號:2095-2945(2024)27-0143-04
Abstract: Many linguistic research projects require the construction of a literature corpus, and the demand for managing literature corpus is becoming increasingly strong. It is necessary to develop a literature corpus management system for linguists. This paper takes the processing requirements of the vernacular works of literati and missionary literature in the late Qing Dynasty and early Republic of China as the starting point, analyzes, designs, and implements the system functional requirements, system processes, system data, etc., effectively solving the problem of corpus management in the construction of literature corpus.
Keywords: literature corpus; corpus management; system design and analysis; linguists; management system
近年來立項的國家和地方各級社科課題中,有不少項目涉及文獻語料庫建設(shè),早期北京話文獻、客家方言文獻、粵語文獻、閩語文獻、吳語文獻和西南官話文獻等,在不少課題中或多或少被涉及,如莊初升《海內(nèi)外客家方言的語料庫建設(shè)和綜合比較研究》、李藍《中國方志語言資料數(shù)據(jù)平臺建設(shè)及詞典編纂》、林華勇《清末民國漢語五大方言比較研究及數(shù)據(jù)庫建設(shè)》、盛益民《基于文獻考證與歷史比較的吳語語法史研究》等。語料管理系統(tǒng)就是語料庫的后端數(shù)據(jù)管理系統(tǒng),用以管理語料庫的后端數(shù)據(jù)內(nèi)容。如何規(guī)范高效且準確地錄入文獻語料,使文獻語料庫有效地精確地服務(wù)于學(xué)術(shù)界,是語言學(xué)者普遍關(guān)心的問題。因此,開發(fā)一套面向語言學(xué)者的文獻語料管理系統(tǒng)非常必要。本文參考于娜娜[1]、王松[2]、李仁均[3]等,以清末民初西南文人白話作品和傳教士文獻的語料處理需求為出發(fā)點,結(jié)合語言學(xué)界對語料庫的應(yīng)用需求,探析文獻語料庫管理系統(tǒng)的設(shè)計。
1 系統(tǒng)功能需求
參考孟克代力格日《托忒文文獻語料庫及其管理程序設(shè)計》[4]提供的經(jīng)驗,基于清末民初西南文人白話作品和傳教士文獻處理的需要,本文確定文獻語料管理系統(tǒng)最基本的功能需求包括文獻管理、語料管理、生僻字管理、用戶管理和系統(tǒng)管理等5項,以下分別進行介紹。
1.1 文獻管理
文獻語料管理系統(tǒng)是為文獻語料庫的建設(shè)服務(wù)的,文獻語料庫中需要呈現(xiàn)文獻的有關(guān)信息,故文獻管理是文獻管理系統(tǒng)中重要的功能模塊之一。該模塊下包括文獻分類管理、文獻對象管理、文獻目錄管理等。
文獻分類管理。允許用戶根據(jù)研究需要建立自定義的文獻分類,可編輯的信息包括分類名稱、類別備注、排序號等。
文獻對象管理。可編的信息項目包括編號、名稱、分類、著者、出版者、出版時間、內(nèi)容簡介和封面圖片等。
文獻目錄管理。是針對特定文獻對象目錄內(nèi)容而進行的增刪查改操作,可編輯的信息項目包括目錄名稱、上級目錄、所在頁碼范圍等??紤]到實際文獻可能有多級目錄的現(xiàn)象,文獻目錄管理模塊要具備按層級建立目錄的功能。
1.2 語料管理
語料管理是對文獻語句進行的增刪查改操作,基本功能包括新增語料、修改語料、刪除語料及檢索語料等??删庉嫷恼Z料信息包括文獻語句、文獻釋義(可空)、簡體對照(可空)、繁體對照(可空)、外文對照(可空)、普通話對譯(可空)、所在文獻、所在頁碼和所在目錄等。
文獻的語料都要明確歸屬于特定文獻,為避免錯置歸屬,宜將語料管理作為文獻對象管理的子功能模塊來設(shè)計,即在文獻對象操作區(qū)內(nèi)加“文獻語料管理”功能按鈕作為文獻語料管理入口,這樣可以省去選擇語料對應(yīng)文獻的操作,并且有效避免錯置文獻。
1.3 生僻字管理
生僻字是指當前主流輸入法在啟用大字符集的情況下仍不能輸入的漢字。比如,清末傳教士西南官話文獻《華西官話漢法詞典》中的“”(西南官話中形容小孩愛搗亂且不聽招呼),“”(西南官話中指鋪床的動作),“”(‘搊’的簡化,指用手從側(cè)面對人或物體提供支撐的動作)等漢字,在當前主流鍵盤輸入法(比如搜狗輸入法)啟用大字符集或“生僻字”選項情況下仍無法輸出,用逍遙筆手寫輸入法也無法輸出,就宜把它們定為生僻字。對這類生僻字,寇冠等[5]《基于字符集編碼擴展的通用生僻字解決方案探索與實踐》處理思路可以借鑒參考,但考慮到數(shù)據(jù)庫字符集支持等問題,于本文討論的文獻語料庫中暫時難以適用。本文討論的文獻語料庫需要考慮到后端和前端對字符的支持情況,要盡量滿足大部分學(xué)者的檢索應(yīng)用需求,宜盡量用通用字符集解決問題。綜合考慮后,本文確定對生僻字的處理策略為:在數(shù)據(jù)庫中存儲其圖像,建立具有唯一性的編號,文獻語料中該字的位置用其編號占位,用戶在前端檢索時,可以用其編號作為關(guān)鍵詞。為了讓用戶較方便地查檢到生僻字的編號,需要允許用戶在生僻字表中多維度地檢索生僻字,為此,生僻字管理模塊需要編輯生僻字的編碼、讀音、構(gòu)造部件、圖片、來源文獻與備注等信息,以方便用戶選擇不同的字段信息進行檢索。
1.4 用戶管理
用戶管理是指對語料庫用戶的增刪查改操作。根據(jù)系統(tǒng)模塊功能特點,需要對用戶進行權(quán)限管控。用戶數(shù)據(jù)模型預(yù)置系統(tǒng)管理權(quán)、用戶管理權(quán)、文獻管理權(quán)、語料管理權(quán)和生僻字管理權(quán)等,在添加或修改用戶過程中,根據(jù)實際需要對用戶合理賦權(quán)。具有這些管理權(quán)之一的用戶都是管理員,可以進入文獻語料管理系統(tǒng);不具備這些權(quán)限的為語料庫普通用戶,不能進入文獻語料管理系統(tǒng),只能在前端查檢應(yīng)用數(shù)據(jù)。
1.5 系統(tǒng)管理
系統(tǒng)管理是對系統(tǒng)基礎(chǔ)信息的設(shè)置操作,所設(shè)置的信息項目包括語料庫所有權(quán)人及其基本信息、語料網(wǎng)網(wǎng)站名稱、語料庫網(wǎng)站工信部備案號、網(wǎng)站網(wǎng)安備案號及語料庫平臺簡介等。
2 系統(tǒng)流程分析
2.1 系統(tǒng)外部數(shù)據(jù)流圖
文獻語料管理系統(tǒng)的外部數(shù)據(jù)流表現(xiàn)為系統(tǒng)管理員、文獻管理員、語料錄入員、語料審核員和生僻字管理員等角色與文獻語料管理系統(tǒng)之間的關(guān)系,如圖1所示。各角色分別與文獻管理系統(tǒng)發(fā)生數(shù)據(jù)交互。
系統(tǒng)管理員:主要負責(zé)系統(tǒng)設(shè)置、用戶增刪及權(quán)限設(shè)置等操作。文獻管理員:主要負責(zé)文獻分類、文獻對象、文獻頁面和文獻目錄等的管理操作。語料錄入員:主要負責(zé)文獻語料的錄入保存操作。語料審核員:主要負責(zé)語料內(nèi)容的復(fù)核和審核操作。只有審核通過的語料才向前端開放查檢權(quán)限。生僻字管理員:主要負責(zé)文獻生僻字的統(tǒng)一編號和錄入操作。
2.2 文獻管理系統(tǒng)核心數(shù)據(jù)工作流
文獻管理系統(tǒng)核心數(shù)據(jù)是文獻語料,相應(yīng)地,核心操作就是語料的錄入和審核。系統(tǒng)處理流程圖如圖2所示。流程中包括語料錄入員和語料審核員2個角色。語料錄入員錄入語料,提交審核。語料審核員執(zhí)行審核,判斷是否通過,不通過的語料退回語料錄入員界面,語料錄入員修改后重新提交審核。審核通過的語料則入庫待用,可以進入前端查詢應(yīng)用范圍或作進一步研究處理。
圖2 系統(tǒng)處理流程圖
3 數(shù)據(jù)分析
3.1 文獻基礎(chǔ)數(shù)據(jù)
文獻基礎(chǔ)數(shù)據(jù)包括文獻分類、文獻對象、文獻頁面和文獻目錄等,由文獻管理員錄入處理。由于這類數(shù)據(jù)不復(fù)雜,前端應(yīng)用精確度需求并不高,故這類數(shù)據(jù)的處理不需設(shè)置審核流程。
3.2 文獻語料數(shù)據(jù)
文獻語料數(shù)據(jù)是文獻語料庫的核心數(shù)據(jù),是供用戶查檢應(yīng)用的具有科研價值的數(shù)據(jù),有精確度的需求,故語料錄入后需要經(jīng)過一次審核操作才能正式進入待查檢應(yīng)用狀態(tài)。為確保語料有應(yīng)用價值,語料盡量以意義相對完整的句子為基本錄入和存儲單元。由于文獻語料都是以文字形態(tài)存在的,一般沒有對應(yīng)的音頻和視頻,所以都是以文本方式存入數(shù)據(jù)庫。
4 系統(tǒng)實現(xiàn)與應(yīng)用
文獻語料管理系統(tǒng)采用Python服務(wù)器編程語言,基于Django框架而設(shè)計,在張超教育部社科課題“基于百年前西南文人白話作品和傳教士文獻的清末民初西南官話語法研究”、莊初升國家社科課題“海內(nèi)外客家方言的語料庫建設(shè)和綜合比較研究”、林華勇國家社科課題“清末民國漢語五大方言比較研究及數(shù)據(jù)庫建設(shè)”等項目研究中進行了應(yīng)用,系統(tǒng)運轉(zhuǎn)正常,極大地提升了文獻語料錄入處理的效率,并確保了語料的精確度,進而確保了文獻語料的學(xué)術(shù)價值。
以下展示文獻語料管理系統(tǒng)在處理清末民初西南文人白話作品和傳教士文獻的語料過程中的部分界面。圖3為文獻類別列表界面,用戶可以在該界面進行文獻類別的增刪查改操作。
圖4是文獻對象列表界面,用戶在該界面除了進行基本的增刪查改操作之外,還可以對文獻進行目錄、頁面和語料的管理。
圖5展示了《華英捷徑》這部傳教士西南官話文獻后臺目錄管理界面,用戶在此界面可以針對這個文獻進行目錄的增刪查改操作。文獻對象和目錄之間構(gòu)成主子關(guān)系。
圖6展示了《西語譯漢入門》這部文獻的頁面對象管理界面,用戶在該界面可以進行文獻頁面的增刪查改操作,還能看到各頁面下的語料數(shù)量。
圖7為《華西初級官話課程》這部傳教士西南官話的語料管理界面,用戶在該界面可以進行語料的增刪查改操作,也能查看語料對應(yīng)的頁面圖像,方便用戶在處理語料過程中進行數(shù)據(jù)核對。該頁面也支持數(shù)據(jù)導(dǎo)出操作。
5 結(jié)束語
文獻語料庫通常是文獻整理研究類課題項目配套的重要成果之一,而文獻語料管理系統(tǒng)是文獻語料庫的后端管理平臺,是確保文獻語料快速準確錄入和為前端提供數(shù)據(jù)格式的處理工具。本文以清末民初西南文人白話作品和傳教士文獻的語料處理需求為例,分析了文獻語料管理系統(tǒng)的基本功能需求、系統(tǒng)處理流程、系統(tǒng)數(shù)據(jù)等,并采用Python服務(wù)器編程語言,基于Django框架進行了設(shè)計實踐,有效滿足了文獻語料庫建設(shè)中的語料管理的實際需求。
參考文獻:
[1] 于娜娜.基于B/S架構(gòu)的語料庫管理系統(tǒng)[D].哈爾濱:哈爾濱理工大學(xué),2018.
[2] 王松.基于Spark的會話語料庫管理系統(tǒng)[D].石家莊:河北師范大學(xué),2020.
[3] 李仁均.抑郁語料采集與管理系統(tǒng)的研究[D].蘭州:西北師范大學(xué),2023.
[4] 孟克代力格日.托忒文文獻語料庫及其管理程序設(shè)計[D].呼和浩特:內(nèi)蒙古大學(xué),2011.
[5] 寇冠,劉良俊,徐曉劍,等.基于字符集編碼擴展的通用生僻字解決方案探索與實踐[Z].北京市:中信銀行股份有限公司,2021-09-11.