亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向語料庫機助辭書編纂系統(tǒng)的設計與實現(xiàn)

        2021-08-09 08:21:29張永偉顧曰國胡欽諳曹新龍
        辭書研究 2021年4期
        關鍵詞:設計與實現(xiàn)語料庫

        張永偉 顧曰國 胡欽諳 曹新龍

        摘 要 “面向語料庫機助辭書編纂系統(tǒng)”由中國社會科學院語言所和中國多語言多模態(tài)語料庫暨大數據研究中心研發(fā),是一個可以充分地利用各種語料庫、辭書庫和其他相關資源庫輔助漢語辭書編纂的平臺。文章介紹了該系統(tǒng)的研發(fā)背景、目標、系統(tǒng)設計與實現(xiàn)。此外,對系統(tǒng)的技術選型也進行了簡單介紹,為辭書編纂或相關系統(tǒng)的研制提供借鑒。

        關鍵詞 辭書編纂系統(tǒng) 語料庫 設計與實現(xiàn)

        一、 引言

        隨著信息技術的不斷發(fā)展,計算機輔助辭書編纂已經逐漸成為趨勢。辭書編纂系統(tǒng)可以提升辭書編纂效率,縮短辭書編纂周期,節(jié)約辭書編纂成本,提高辭書質量。(張亞斌,趙勝男等2017)近些年來,許多機構都研制了功能豐富的辭書編纂系統(tǒng),但是在有關漢字的處理上仍存在不少問題,不完全適應漢語辭書的編纂需求。如華燁、李亮(2012)對IDM DPS、ABBYY Lingvo Content、TLex等幾款在國際上有影響的辭書輔助編纂系統(tǒng)進行了對比,指出這些系統(tǒng)在漢字處理、漢字樣式設定、漢語界面支持、漢語有關自動化支持以及漢語語料庫支持等方面尚存在許多不足。張永偉(2020)也從漢字錄入、存儲與顯示,漢字樣式設置,漢語條目輔助注音,漢語條目自動排序,漢語條目內容自動檢查等方面對比了TLex、FLEx、Termbases、DEBWrite、Léacslann等國外辭書編纂系統(tǒng),指出這些系統(tǒng)在漢字處理上存在不足。

        為了輔助《現(xiàn)代漢語詞典》《新華字典》等系列語文辭書的編纂,中國社會科學院語言研究所研制了“人機交互式的漢語辭書編纂系統(tǒng)”(傅愛平,吳杰等2013),但是該系統(tǒng)研發(fā)時間較早,在兼容性、功能性、安全性等方面都需要進一步改進。為此,我們又重新研制了“面向語料庫機助辭書編纂系統(tǒng)”(Corpus-Oriented Computer-Assisted Lexicography,簡稱COCAL),期望COCAL能夠充分地利用各種語料庫、辭書庫和其他相關資源庫,輔助進行各種漢語辭書的編纂。

        二、 整體功能架構設計

        COCAL主要由后臺管理、前臺編纂以及公共應用三個系統(tǒng)組成。其中,后臺管理系統(tǒng)包括辭書管理、資源管理、用戶管理、系統(tǒng)管理四個模塊,主要面向辭書管理人員(比如主編)、資源管理人員和系統(tǒng)管理人員。前臺編纂系統(tǒng)包括辭書編纂、語料庫檢索、辭書檢索、詞表檢索和在線資源檢索五個模塊,主要面向辭書編纂和審稿人員。公共應用系統(tǒng)包括輸入助手、修改密碼、登錄/登出三個模塊,面向所有用戶。COCAL整體功能架構設計框圖如圖1所示:

        公共應用系統(tǒng)中修改密碼、登錄/登出等是常見的功能,本文不詳細介紹。輸入助手是本系統(tǒng)實現(xiàn)的關鍵技術之一,本文將在第六部分介紹。為了更直接地展示系統(tǒng)實現(xiàn)結果,我們對重點功能給出了相應的圖示。

        三、 技術選型與數據庫實現(xiàn)

        (一) 技術選型

        COCAL使用了主流MVC[1]框架開發(fā),采用B/S(Browser-Server,瀏覽器服務器)體系架構。用戶無需安裝任何軟件,僅通過瀏覽器就可以使用系統(tǒng)的全部功能。所有數據均保存在中心服務器中。

        COCAL使用Java、FreeMarker、JavaScript、HTML等作為程序主要開發(fā)語言,使用CSS、Bootstrap、JQuery、Ajax等前端網頁樣式顯示和控制技術。COCAL使用的第三方開發(fā)框架主要有SpringMVC 模型視圖控制框架、Hibernate數據庫持久化框架、Apache Lucene全文索引工具包、Apache Shiro權限管理框架、FreeMarker頁面模板等。根據保存數據類型的不同,COCAL使用了兩種數據庫,分別是MySQL關系型數據庫和MongoDB文檔數據庫。

        (二) 數據庫實現(xiàn)

        COCAL管理的數據包括三種類型,分別存儲在不同數據庫中。詞表的詳細信息、條目編纂歷史、操作日志等數據量大、動態(tài)增長速度快、結構復雜多變的數據保存在MongoDB文檔數據庫中;需要全文檢索高級查詢的數據經過分詞等處理后保存在Lucene的索引中;其他數據保存在MySQL關系型數據庫中。MongDB具有更好的伸縮性和靈活性,適用于海量數據的管理;Lucene適用于全文檢索。

        COCAL各類數據在不同數據庫中的存儲的情況如圖2所示:

        四、 后臺管理系統(tǒng)的設計與實現(xiàn)

        (一) 辭書管理

        辭書管理模塊是后臺管理系統(tǒng)的重點,涉及體例、條目與人員分組等管理要素,主要由辭書管理人員操作,具體包括以下6個子模塊:

        1. 模板管理

        模板管理子模塊管理辭書體例。它管理編寫辭書條目時需要填寫哪些內容(例如詞目、拼音、釋義、配例等),這些內容使用什么編輯器編輯,編纂人員編纂條目內容時需要受到怎樣的約束限制以及條目內容如何排版顯示等。每部辭書的體例不同,條目內容和排版顯示均可能存在差異。條目編纂模板和內容顯示模板均可以自定義,使得系統(tǒng)能夠用于編纂各種辭書,并且還能支持這些辭書的個性化內容顯示。模板管理界面如圖3所示。

        模板管理界面包括條目編輯器、條目編纂模板、內容顯示預覽、內容顯示模板等區(qū)域。其中條目編纂模板使用Json語言定義了條目編輯器包括哪些表單元素、表單元素如何排列、編纂人員編纂條目內容時受到哪些約束限制等。COCAL自動解析條目編纂模板的內容,生成條目編輯器。內容顯示模板使用JavaScript語言定義了條目內容應如何排版顯示,JavaScript語言的靈活性決定了條目內容可以被靈活地排版顯示。條目編輯器的輸出是Json格式(由Json語言定義)的條目,COCAL自動執(zhí)行內容顯示模板定義的JavaScript語句,接受Json格式的條目作為輸入,輸出HTML格式或者純文本格式的條目內容,最終顯示在內容顯示預覽區(qū)。

        不難看出,辭書管理人員需要根據辭書體例為新建的辭書項目設計條目編纂模板和內容顯示模板,這雖然對辭書管理人員的操作提出了較高的要求,但也確保了COCAL具備足夠的靈活性。為了降低辭書管理人員設計模板時的難度,我們提供了豐富的參考示例。此外,辭書的條目編纂模板和內容顯示模板一旦設計完畢,后期將無需再頻繁維護,避免了辭書管理人員的持續(xù)投入?;谶@樣的設計,COCAL不僅可以用于編纂漢語辭書,也可以用于編纂各種外語辭書,甚至多語辭書,具備極大的靈活性。

        2. 分類管理

        分類管理子模塊管理辭書條目的類別信息,為任務分工做準備。類別是條目的靜態(tài)屬性,與辭書參編人員的分組一一對應。辭書管理人員需事先定義辭書條目的類別。類別名稱和數量沒有限制,編纂過程中隨時可以進行增刪和修改。比如條目可以分為“A—C母”“D—F母”等類別,也可以分為“語文”“哲社”“科技”等類別。在分類管理界面可以新增、查看、編輯、刪除、查詢條目類別信息。

        3. 參編人員管理

        參編人員管理子模塊管理辭書的編纂人員和審稿人員。辭書管理人員從系統(tǒng)注冊用戶列表中選取參與辭書編纂的工作人員。在參編人員管理界面可以添加、移除參編人員。

        4. 收詞管理

        收詞管理子模塊管理辭書收錄哪些條目,以及各屬于哪些類別。COCAL的條目來源有三種: 完全新增、從系統(tǒng)其他辭書條目中復制和從系統(tǒng)外導入。辭書管理人員通過收詞管理子模塊確定辭書收詞規(guī)模和范圍,為條目指定類別(分配分組)。收詞管理界面如圖4所示:

        在收詞管理界面可以新增、編輯、復制、刪除、恢復、導入、導出(Word和XML兩種格式)、查詢條目,對條目進行分類。為防止誤刪除,我們將刪除分為臨時刪除和永久刪除兩種,臨時刪除的條目可以恢復,永久刪除的條目不可以。臨時刪除的條目依然對編纂人員可見,以文字增加刪除線的形式顯示。收詞管理界面新增、編輯的信息只包含詞目、拼音、分類等基本信息,條目詳細的釋義需要在前端編纂界面進行編纂。

        5. 分工管理

        分工管理子模塊由人員分組和任務分工兩個更小的子模塊組成。辭書管理人員創(chuàng)建條目類別后,系統(tǒng)自動依據條目類別為參編人員創(chuàng)建同名分組,人員分組名稱和條目類別名稱一一對應。在人員分組子模塊中,辭書管理人員可以添加組員,任命或解任組長。組長可以查看、編輯、審核、管理組員承擔的條目,同一個參編人員可以分屬不同分組,也可以同時作為多個分組的組長。人員分組界面如圖5所示:

        在人員分組界面可以添加、移除每個分組的組員,指定、取消組長。任務分工子模塊主要用于為條目分配編纂人員。辭書管理人員可以為每個條目分配具體的編纂人員(我們稱之為分工),取消指定的編纂人員等。任務分工界面如圖6所示:

        在任務分工界面選擇待分工條目后,點擊“分工”按鈕,在條目所屬分組的人員列表中選擇具體的參編人員即可實現(xiàn)條目的分工。條目分工后,辭書編纂人員可以在編纂時看到所分配的條目。

        6. 統(tǒng)計

        統(tǒng)計子模塊統(tǒng)計辭書各分組、參編人員、編纂進度、編纂時長的詳細情況,以圖表形式直觀顯示,便于辭書管理人員隨時掌握辭書收詞的整體狀況、編纂進度,各參編人員的工作狀況等信息。統(tǒng)計界面如圖7所示:

        在統(tǒng)計界面,人員分組(條目分類)、參編人員、編纂進度等作為過濾條件可以自由組合。比如,可以統(tǒng)計整部辭書各分組條目比例,統(tǒng)計某個編纂人員分配的不同條目類別比例,統(tǒng)計某個分組下成員們各自的編纂進度,等等。

        (二) 資源管理

        COCAL的特色之一是集成了豐富的語言資源。資源管理模塊主要由資源管理人員操作,具體包括以下3個子模塊:

        1. 語料庫管理

        辭書編纂越來越離不開語料庫。資源管理人員可以通過語料庫管理子模塊管理辭書編纂時需要參考的文本語料庫,為編纂條目提供參考例句。語料庫管理界面如圖8所示:

        在語料庫管理界面可以新增、編輯、刪除語料庫基本信息(包括語料庫的名稱、版本、來源等),用戶上傳語料后,單擊“重建索引”或“刪除索引”按鈕,為語料庫建立或者刪除索引。

        2. 詞表管理

        這里的詞表并非指詞目列表,而是指供辭書編纂參考的包括詞目、拼音、釋文等內容在內的弱結構化數據。之所以稱為詞表,是為了和利用COCAL系統(tǒng)編纂的辭書相區(qū)分。資源管理人員可以將需要參考的紙本辭書數字化,分離出詞目、拼音、釋文等內容后,使用條目管理子模塊導入系統(tǒng),供編纂條目時參考使用。資源管理人員創(chuàng)建一個詞表后,可以進入該詞表的條目管理界面,管理該詞表內的條目。某詞表的條目管理界面如圖9所示:

        在條目管理界面,可以新增、編輯、刪除和批量導入詞表條目。

        3. 在線資源管理

        辭書編纂需要參考許多互聯(lián)網資源,辭書編纂人員編纂條目時需要在不同的互聯(lián)網資源中反復切換和查詢,耗時耗力。資源管理人員可以在在線資源管理子模塊中添加在線資源,便于編纂人員在編纂條目時參考。在線資源管理界面如圖10所示:

        在在線資源管理界面,可以添加、編輯、刪除在線資源。

        (三) 賬號管理

        賬號管理模塊包括權限管理、角色管理、用戶管理三個子模塊,主要由系統(tǒng)管理人員為不同角色的用戶分配權限。同一角色具有相同權限,每個角色可以擁有多個權限,每個用戶可以分屬不同角色。辭書管理人員、資源管理人員、系統(tǒng)管理人員、辭書編纂人員和審稿人員等都是系統(tǒng)內置的角色,已經為他們分配了相應的權限。COCAL也支持添加新的角色,以及為角色指定不同的權限。權限、角色、用戶分離的設計既保證了系統(tǒng)功能分配的靈活性,又保證了系統(tǒng)的安全性。

        (四) 系統(tǒng)管理

        系統(tǒng)管理模塊包括日志管理、上傳文件管理等子模塊。其中,日志是用戶在系統(tǒng)中操作的記錄。系統(tǒng)管理員可以通過日志管理子模塊查詢自動保存的用戶操作記錄,通過上傳文件管理子模塊查看、刪除或者下載文件。由于系統(tǒng)管理模塊的各項功能較為常見,本文不展開介紹。

        五、 前臺編纂系統(tǒng)的設計與實現(xiàn)

        (一) 資源檢索

        資源檢索模塊包括語料庫檢索、辭書庫檢索、詞表檢索和在線資源檢索四個子模塊。其中,語料庫檢索子模塊用于檢索文本語料庫中的例句,辭書庫檢索子模塊用于檢索系統(tǒng)內在編或已經編纂完成的辭書,詞表檢索子模塊用于檢索詞表中的條目,在線資源檢索子模塊用于檢索常用的互聯(lián)網資源。資源檢索模塊主要為辭書編纂人員編纂條目時提供參考,提高編纂效率。

        (二) 辭書編纂

        辭書編纂模塊是前臺編纂系統(tǒng)的重點,主要包括條目列表和條目編纂兩個子模塊。用戶登錄前臺編纂系統(tǒng)后,首先看到的是待編辭書列表,列表中列出了所有分配了編纂任務的辭書,在辭書列表中選擇某一部辭書后,即可進入條目列表界面。

        1. 條目列表

        條目列表子模塊顯示了所有分配的條目,編纂人員可以新增、刪除、恢復、編纂條目,優(yōu)化條目排序,統(tǒng)計個人編纂情況,批量保存、提交、審閱、退回條目等。其中,組長可以查看或編纂所有組員的條目。條目列表界面如圖11所示:

        編纂人員可以在條目列表界面看到條目內容、分類(分組)、進程、版本等信息。單擊條目后面的“編纂”按鈕就可以進入條目編纂界面。

        2. 條目編纂

        條目編纂子模塊是辭書編纂人員使用最多的功能,辭書編纂的主要工作就在條目編纂界面中完成。條目編纂界面分為條目列表區(qū)、預覽區(qū)、編纂區(qū)以及資料區(qū)四個區(qū)域。辭書編纂人員可以在條目列表區(qū)查看相關條目,在預覽區(qū)查看條目排版后的文本,在編纂區(qū)編纂條目內容,在資料區(qū)查詢和瀏覽參考資料。

        條目編纂進度分為未編、待編、在編、完成、閱畢五種。未分配任務時,條目編纂進度為未編;分配任務后,編纂進度改為待編。在條目編纂界面,編纂人員可以保存、提交編纂結果,組長可以保存、提交、退回或閱畢編纂結果。編纂人員、組長均可編纂待編條目。條目編纂完成后保存,編纂進度改為在編;編纂完成后提交,編纂進度改為完成。組長審閱編纂進度為完成的條目后,決定退回編纂人員或者認可編纂結果并將其進度標記為閱畢。完成或閱畢的條目只有組長有權限再修改提交、退回或者閱畢。編纂人員可以繼續(xù)編纂被退回的條目,編纂完成后再次保存或提交,但不可以修改已經被組長閱畢的條目。條目編纂界面如圖12所示:

        條目列表區(qū)列出了與當前條目相關的條目(比如相同字頭的條目),點擊某條目后即可進入相應條目的編纂界面。編纂區(qū)為條目編輯器,由后臺管理系統(tǒng)的條目編纂模板定義。預覽區(qū)中顯示的條目內容由后臺管理系統(tǒng)的內容顯示模板依據條目編輯器中的內容自動生成。資料區(qū)除了語料庫檢索、辭書庫檢索、詞表檢索、在線資源檢索以外,還包括當前條目的修改記錄。用戶編纂某個條目時,系統(tǒng)自動將詞目作為檢索詞在各個資源庫中搜索,并在資料區(qū)中顯示檢索結果,辭書編纂人員可以直接點擊查看。

        此外,在條目編纂界面,COCAL還提供了許多便捷功能,比如可以快速進入上一組或下一組條目(比如相同字頭條目或者同一個語義類的條目等)的編纂界面,對比條目內容、恢復條目歷史版本、劃詞查詢當前辭書是否收錄該詞目等,這些都是COCAL在使用過程中由編纂人員建議增加的實用功能。

        六、 公共應用功能的設計與實現(xiàn)

        公共應用功能包括輸入助手、修改密碼、登錄/登出等功能。修改密碼、登錄/登出是常見功能,本文不展開介紹。輸入助手用于查詢、輸入缺字,是COCAL的特色功能,也是漢語辭書編纂系統(tǒng)的一個難點。

        缺字(又稱外字)包括Unicode標準已編碼但尚無字體字模支持的漢字以及Unicode標準尚未編碼的漢字。國外辭書編纂系統(tǒng)和一些國內辭書編纂系統(tǒng)對缺字的支持不夠友好(張永偉2020),COCAL解決了這個問題,能夠支持全部漢字的處理。

        缺字的基本信息包括編碼、拼音、筆順、筆畫數、字形圖片等。這些信息是普通語文辭書條目排序需要的基本信息,也是查找缺字所需要的基礎信息。COCAL支持缺字的新增、編輯、刪除、查詢,還會將字形圖片自動轉換為SVG和WOFF字體格式[2]。此外,COCAL還研制了輸入助手,用于查詢和輸入缺字。輸入助手輸入、顯示缺字的原理是: (1) 自動記錄光標在系統(tǒng)表單中的位置,在輸入助手中選擇某個缺字后,將缺字信息(“+缺字編碼+”形式)填入相應位置;(2) 識別所有頁面中“+缺字編碼+”形式的符號串,根據不同頁面的需要,自動將其替換為名為@font-face的CSS@規(guī)則[3]或者缺字字形圖片。

        COCAL界面右側始終顯示“輸入助手”按鈕,單擊后打開或關閉輸入助手。錄入缺字信息后,所有用戶均可以隨時通過輸入助手查詢、輸入缺字。目前,輸入助手支持筆畫數查詢和拼音查詢兩種查詢方式。輸入助手的拼音查詢界面如圖13所示。

        七、 結語

        COCAL提供豐富的語料庫資源,支持協(xié)同編纂各種漢語辭書,提升了辭書編纂效率,提高了辭書質量,初步達到了研發(fā)目的。但是COCAL仍有許多地方需要改進。

        首先,COCAL主要是為編纂原創(chuàng)辭書研發(fā),注重“編”而未強調“查”,COCAL對有相同或類似特征的條目進行有針對性的專項核查尚存在改進空間。其次,COCAL只支持文本語料庫查詢,提供例句,但未利用自然語言處理技術充分挖掘語料,提供諸如詞頻表、搭配列表、語塊列表等功能。最后,人工智能技術已經同許多領域結合,產生了革命性的智能產品和服務,但在包括COCAL在內的辭書編纂系統(tǒng)中的應用相對滯后。利用人工智能技術可以進行義項的自動劃分,“舊詞新義”的自動發(fā)現(xiàn),例句的輔助生成,條目內容自動檢查等。在辭書編纂時集成這些人工智能技術將是COCAL下一階段的目標。

        附 注

        [1]MVC是Model View Controller的縮寫,是一種經典且實用的軟件開發(fā)框架模式。

        [2]之所以選擇SVG和WOFF這兩種字體格式,是因為它們可以被絕大多數瀏覽器支持,具有更好的兼容性。

        [3]CSS的@font-face規(guī)則允許網頁開發(fā)者為其網頁指定自定義的在線字體。

        參考文獻

        1. 傅愛平,吳杰,張弘,等.人機交互式的漢語辭書編纂系統(tǒng).辭書研究,2013(6).

        2. 華燁,李亮.國際計算機輔助詞典編纂系統(tǒng)管窺.辭書研究,2012(5).

        3. 陸汝占.漢語詞典編纂一體化環(huán)境(上).辭書研究,2000a(2).

        4. 陸汝占.漢語詞典編纂一體化環(huán)境(下).辭書研究,2000b(3).

        5. 張亞斌,趙勝男,何朝輝,等.數字化辭書協(xié)同編纂系統(tǒng)的設計.辭書研究,2017(6).

        6. 張永偉. 辭書編纂系統(tǒng)的漢字處理: 挑戰(zhàn)與解決方案.辭書研究,2020(1).

        (張永偉 顧曰國 胡欽諳 中國社會科學院語言研究所/

        辭書編纂研究中心 北京 100732)

        (顧曰國 曹新龍 中國多語言多模態(tài)語料庫暨

        大數據研究中心 北京 100089)

        (責任編輯 馬 沙)

        猜你喜歡
        設計與實現(xiàn)語料庫
        《語料庫翻譯文體學》評介
        基于語料庫“隱秘”的詞類標注初步探究
        把課文的優(yōu)美表達存進語料庫
        配調一體配網自動化系統(tǒng)的設計與實現(xiàn)
        基于嵌入式的陳舊設備上網設計與實現(xiàn)
        價值工程(2016年31期)2016-12-03 00:45:44
        校園電商平臺的設計與實現(xiàn)
        中國市場(2016年41期)2016-11-28 06:09:30
        高校文化建設中視覺識別系統(tǒng)的設計和實現(xiàn)
        藝術科技(2016年9期)2016-11-18 16:03:21
        軟件開發(fā)信息管理系統(tǒng)的設計與實現(xiàn)
        科研院所科研信息化管理系統(tǒng)的設計與應用
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        邻居美少妇张开腿让我爽了一夜 | av免费在线手机观看| 国产一区二区三区在线视频观看| 日本最新免费二区三区| 亚洲色图在线免费视频| 亚洲欧美日韩精品久久| 亚洲日韩精品国产一区二区三区 | 国产成人亚洲精品无码av大片| 国产偷窥熟女精品视频| 成人国产在线播放自拍| 亚洲女同同性一区二区| 国产欧美日韩一区二区三区| 国产av日韩a∨亚洲av电影| 国产男女猛烈无遮挡免费视频网址| 美女免费视频观看网址| 日韩乱码人妻无码中文字幕久久| 午夜成人无码福利免费视频| 超碰日韩AV在线| 三个黑人插一个女的视频| 欧美做受又硬又粗又大视频| 爱情岛论坛亚洲品质自拍hd| 国产亚洲欧美另类久久久| 国产午夜精品视频在线观看| 日本无码欧美一区精品久久 | 中文在线8资源库| 91网站在线看| 日本超骚少妇熟妇视频| 国产av一区二区毛片| 亚洲中文字幕日产无码| 18禁黄网站禁片免费观看| 欧美日韩国产另类在线观看| 日韩av在线亚洲女同| 国产肉体xxxx裸体137大胆| 99久久国产视频| 日本一区二区午夜视频| 成人欧美一区二区三区在线| 又粗又大又黄又爽的免费视频| 麻豆av一区二区天堂| 国产三a级三级日产三级野外| 久久丫精品国产亚洲av不卡| 窄裙美女教师在线观看视频|