艷 紅 特木其樂(lè) 萬(wàn) 福 薩如拉
(內(nèi)蒙古國(guó)際蒙醫(yī)醫(yī)院,內(nèi)蒙古 呼和浩特 010065)
自從書(shū)面語(yǔ)言誕生以來(lái),拼寫(xiě)校對(duì)就一直伴隨著人類。傳統(tǒng)的校對(duì)工作采用人工進(jìn)行,費(fèi)時(shí)又費(fèi)力?;诂F(xiàn)代信息技術(shù)的校對(duì)方法為提高校對(duì)工作效率創(chuàng)造了良好的條件。相比之下,基于現(xiàn)代信息技術(shù)的校對(duì)方法具有極大優(yōu)勢(shì),不僅能節(jié)約人力資本,提升校對(duì)效率,而且校對(duì)準(zhǔn)確性也有明顯的提高。目前許多領(lǐng)域中已經(jīng)應(yīng)用信息化校對(duì)技術(shù),而蒙醫(yī)藥領(lǐng)域中的應(yīng)用較少,本文對(duì)信息化校對(duì)技術(shù)應(yīng)用于蒙醫(yī)藥領(lǐng)域進(jìn)行了研究。
蒙古文的書(shū)寫(xiě)方式與漢文和西文有著很大的不同,它被公認(rèn)為是最難信息化的文字之一[1]。由于蒙古文有同形異音字母和一些字母的變體相同的情況的存在,在用計(jì)算機(jī)輸入蒙古文時(shí)很容易混淆這些形狀,也存在一些人為了更快捷的輸入而有意的用形狀相同的變體代替原字母變體的情況。這些輸入方式都違反了蒙古文正字法和控制符使用規(guī)則[2]。蒙古文正字法是正確書(shū)寫(xiě)蒙古文的基本規(guī)則,是蒙古文語(yǔ)法的重要組成部分。蒙古文正字法自蒙古文誕生之日起不斷的發(fā)展、完善,今天已成為一個(gè)非常完整、嚴(yán)格的規(guī)則體系[3]。
病歷是患者在醫(yī)院診斷治病全程的原始記錄,病歷作為患者信息的載體,集中反映了患者的診斷治療過(guò)程。醫(yī)院信息系統(tǒng)的發(fā)展程度直接反映在對(duì)病歷內(nèi)容的覆蓋范圍上,可以說(shuō)病歷是醫(yī)院信息系統(tǒng)之本。近年來(lái),隨著信息技術(shù)的發(fā)展和計(jì)算機(jī)的廣泛應(yīng)用, 特別是醫(yī)院管理信息系統(tǒng)的建立, 應(yīng)用計(jì)算機(jī)技術(shù),全程管理患者信息的電子病歷得以飛速的發(fā)展。電子病歷及藥品信息管理是醫(yī)院信息管理系統(tǒng)的重要基礎(chǔ),而如何保證記錄的電子病歷及藥品信息文字正確也是非常重要的。目前很多蒙醫(yī)醫(yī)院都在使用蒙古文電子病歷及蒙藥管理系統(tǒng),但是由于使用者的蒙古語(yǔ)言水平不一樣,避免不了出現(xiàn)各類違規(guī)了正字法的錯(cuò)誤。因此,研究設(shè)計(jì)一種蒙醫(yī)藥校對(duì)系統(tǒng)是非常必要的,從而能夠減少蒙古文電子病歷及蒙醫(yī)藥信息中出現(xiàn)的不必要的錯(cuò)誤,提高蒙古文電子病歷及蒙醫(yī)藥信息管理的質(zhì)量。
基于規(guī)則的處理方法是最初的自然語(yǔ)言處理中最普遍使用的方法?;谝?guī)則的處理方法通過(guò)將成詞、成短語(yǔ)和成句的各種情況抽象成規(guī)則,然后對(duì)照規(guī)則庫(kù)對(duì)輸入文本進(jìn)行各種處理[4-5]。基于規(guī)則的方法優(yōu)點(diǎn)是無(wú)需大量的語(yǔ)料,只需要制定一系列規(guī)則,根據(jù)這些規(guī)則判斷是否相匹配。本文將基于規(guī)則的校對(duì)方法應(yīng)用到蒙古文中,設(shè)計(jì)出校對(duì)系統(tǒng),再將這些技術(shù)與醫(yī)院蒙醫(yī)藥相關(guān)信息結(jié)合,實(shí)現(xiàn)了蒙醫(yī)藥校對(duì)系統(tǒng),見(jiàn)圖1所示。
3.1 系統(tǒng)技術(shù)實(shí)現(xiàn) 本系統(tǒng)是基于PHP語(yǔ)言開(kāi)發(fā),使用HTML5作為系統(tǒng)頁(yè)面展現(xiàn)。PHP將程序嵌入到HTML文檔中執(zhí)行,與完全生成HTML標(biāo)記的CGI相比其執(zhí)行的效率高很多,而且可以執(zhí)行編譯后代碼,編譯可以達(dá)到加密和優(yōu)化代碼運(yùn)行,使代碼運(yùn)行速度更快。同時(shí)本系統(tǒng)結(jié)合AJAX技術(shù)即綜合性的瀏覽器端網(wǎng)頁(yè)開(kāi)發(fā)技術(shù)組合開(kāi)發(fā),使用AJAX技術(shù)后使得瀏覽器與 web 服務(wù)器之間的數(shù)據(jù)異步傳輸,減少請(qǐng)求服務(wù)器數(shù)量,提高程序運(yùn)行及響應(yīng)速度。本系統(tǒng)數(shù)據(jù)庫(kù)采用MySQL數(shù)據(jù)庫(kù),它是一種開(kāi)放源代碼的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),使用結(jié)構(gòu)化查詢語(yǔ)言即SQL進(jìn)行數(shù)據(jù)庫(kù)管理。系統(tǒng)采用ThinkPHP框架,分層架構(gòu)采用3層架構(gòu)模式,即包括表現(xiàn)層、業(yè)務(wù)邏輯層和數(shù)據(jù)訪問(wèn)層。服務(wù)器是以模塊化的Apache作為應(yīng)用服務(wù)器。
3.2 功能模塊的實(shí)現(xiàn) 系統(tǒng)功能模塊由系統(tǒng)管理和文本校對(duì)兩大模塊組成。
3.2.1 系統(tǒng)管理模塊
3.2.1.1 蒙醫(yī)藥校對(duì)系統(tǒng)登錄模塊:校對(duì)系統(tǒng)登錄模塊中可以通過(guò)輸入賬號(hào)和密碼登陸系統(tǒng),該賬號(hào)必須通過(guò)系統(tǒng)管理員分配相應(yīng)權(quán)限建立賬號(hào),見(jiàn)圖-2所示。
3.2.1.2 用戶管理模塊 用戶管理模塊具有添加用戶、修改用戶信息、刪除用戶信息和審核賬號(hào)啟用狀態(tài)等功能,見(jiàn)圖-3所示。
3.2.1.3 權(quán)限管理模塊 權(quán)限管理模塊中主要分配用戶權(quán)限。用戶分為超級(jí)管理員、系統(tǒng)管理員和普通用戶等三種,可根據(jù)用戶角色不同,分配不同的權(quán)限,即登陸后看到的菜單不同。超級(jí)管理員具有使用所有菜單的權(quán)限,見(jiàn)圖-4所示。
3.2.1.4 字典管理模塊 字典管理模塊具有維護(hù)常用數(shù)據(jù)的功能。
3.2.2 文本校對(duì)模塊 文本校對(duì)模塊共分5步進(jìn)行處理。
第一步 文本預(yù)處理:通過(guò)程序界面錄入或?qū)胛谋?,讀取原始文本,將文本存入數(shù)據(jù)庫(kù)C_BEFORE字段中,在系統(tǒng)界面“校正前蒙古文”文本編輯器中顯示。
第二步 編碼轉(zhuǎn)換:將C_BEFORE字段中的文字轉(zhuǎn)換成對(duì)應(yīng)的unicode編碼,存入U(xiǎn)_BEFORE字段中,待校對(duì)。
第三步 文本查錯(cuò):根據(jù)已經(jīng)建立好的規(guī)則庫(kù),查找U_BEFORE字段中的錯(cuò)誤。
第四步 文本糾錯(cuò):將通過(guò)文本查錯(cuò)功能查出的錯(cuò)誤結(jié)合建立好的規(guī)則庫(kù)進(jìn)行糾錯(cuò),并將糾正好的文本存儲(chǔ)到數(shù)據(jù)庫(kù)U_AFTER字段中。
第五步 編碼轉(zhuǎn)換:將U_AFTER字段中的unicode編碼轉(zhuǎn)換成對(duì)應(yīng)文字并存入C_AFTER字段中,最終在系統(tǒng)界面“校正后蒙古文”文本編輯器中顯示,見(jiàn)圖-5所示。
本文利用自然語(yǔ)言信息處理技術(shù)的同時(shí)結(jié)合軟件工程相關(guān)理論,設(shè)計(jì)并實(shí)現(xiàn)了蒙醫(yī)藥校對(duì)系統(tǒng),通過(guò)系統(tǒng)的應(yīng)用可以校對(duì)蒙醫(yī)藥信息化系統(tǒng)中文本錯(cuò)誤,從而提高蒙醫(yī)藥信息化管理的質(zhì)量。