范萍
(陜西職業(yè)技術(shù)學(xué)院 陜西 西安710038)
基于電子商務(wù)時代的中文字典數(shù)據(jù)庫生成設(shè)計
范萍
(陜西職業(yè)技術(shù)學(xué)院 陜西 西安710038)
近幾年,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,人們逐漸進入電子商務(wù)時代,在網(wǎng)絡(luò)環(huán)境下必須注意發(fā)展電子字典經(jīng)濟,拓展中文字典智能化功能。中文字典在設(shè)計的過程中每個屬性都需要手工識別、計算和生成到漢子數(shù)據(jù)庫中,給系統(tǒng)帶來較大的麻煩。而進行較好的數(shù)據(jù)庫生成設(shè)計能夠解決數(shù)據(jù)庫生成困難等問題,提高工作效率。本文基于電子商務(wù)環(huán)境分析中文字典數(shù)據(jù)庫生成設(shè)計,采用數(shù)據(jù)庫生成算法結(jié)合其實現(xiàn)方式,得出中文字典數(shù)據(jù)庫生成設(shè)計步驟實施證明這種方法能夠?qū)⑾到y(tǒng)處理效率可達到50%以上。
電子商務(wù);中文字典數(shù)據(jù)庫;生成設(shè)計
信息技術(shù)迅速發(fā)展,帶動我國各行各業(yè)經(jīng)濟的發(fā)展。中文信息處理技術(shù)發(fā)展迅速,這種技術(shù)主要是利用計算機對漢語信息進行有效的處理,但是由于漢字屬性比較復(fù)雜,而這些漢字字典又是中文字典中必不可少的因素,在分析、計算的過程中容易出現(xiàn)錯誤,降低工作效率。而在電子商務(wù)環(huán)境下,信息技術(shù)的應(yīng)用能夠通過對已有工具、技術(shù)的應(yīng)用和分析,利用漢字信息的生產(chǎn)算法解決問題,從而能夠有效提高工作效率。文中主要分析的是中文字典數(shù)據(jù)庫生成設(shè)計方法。
中文字典數(shù)據(jù)庫系統(tǒng)采用的是典型的Mediated系統(tǒng)提攜結(jié)構(gòu),引入數(shù)據(jù)字典后的數(shù)據(jù)庫結(jié)構(gòu)如圖1所示。數(shù)據(jù)集成系統(tǒng)一般主要通過中介模式將各個部分的數(shù)據(jù)源的數(shù)據(jù)集成起來,而整個系統(tǒng)的數(shù)據(jù)仍然存儲在各個局部數(shù)據(jù)源中,通過包裝器對數(shù)據(jù)進行轉(zhuǎn)換[1-3]。用戶在利用數(shù)據(jù)庫進行數(shù)據(jù)查詢的過程中能根據(jù)局部數(shù)據(jù)源模式進行一系列的查詢,引入本體層以后,中介器將對用戶的查詢進行分析,并提取有效信息進行查詢,并將查詢結(jié)果反饋到中介器中重新組合查詢,并對每個數(shù)據(jù)庫進行結(jié)果數(shù)據(jù)分析,將符合數(shù)據(jù)可使用要求的信息反饋出現(xiàn),解決數(shù)據(jù)源數(shù)據(jù)更新問題,降低系統(tǒng)工作效率[4-5]。
圖1 系統(tǒng)結(jié)構(gòu)框架圖
2.1 數(shù)據(jù)庫生成思路
在電子商務(wù)時代,電子字典數(shù)據(jù)庫生成以后,必須將其匯總到總數(shù)據(jù)庫中進行統(tǒng)一的分析,以便能夠更好的生成中文字典數(shù)據(jù)庫。目前,我國數(shù)據(jù)庫技術(shù)已經(jīng)相當成熟,下一步的主要進度是將生成的數(shù)據(jù)庫進行進一步的分析和研究,重視數(shù)據(jù)庫本身的發(fā)展。由于漢字的復(fù)雜性,需要大量的手術(shù)操作技術(shù),如果自動生成一些部分的數(shù)據(jù),可能會使系統(tǒng)建立生成更加具有效率。一般情況下,在電子詞典中漢字要素包含:簡體字、ID、拼音、聲調(diào)、內(nèi)碼、偏旁、筆劃、注釋以及拼音等[6-7]。而在電子字典數(shù)據(jù)庫的開發(fā)中,要注意Windows程序開發(fā)難度分析,而操作系統(tǒng)的提供的應(yīng)用程序接口直接關(guān)系著程序開發(fā)的難易程度。
2.2 GB2312字庫全集的生成
GB2312編碼是我國漢字信息專用編碼,收錄的漢字信息比較多,比如字母、簡體化漢字等圖形字符,中文字典的漢字收集數(shù)量比較龐大,能夠達到6763個漢字收集數(shù),中文字典字庫中的所有漢字字均按照區(qū)位分步法進行分析,可以將她們分為A1-FF區(qū)進而位,然后生成中文字典字庫文件,生成字庫的主要代碼如下:
3.1 數(shù)據(jù)庫維護設(shè)計
在電子商務(wù)環(huán)境發(fā)展下,中文字典的基礎(chǔ)數(shù)據(jù)庫形式為SMART軟件核心構(gòu)成部位,其是該軟件中的一個重要字典,它的主要數(shù)據(jù)結(jié)構(gòu)字段見表1。從表1中我們可以看出車站代碼和電報略碼均具有唯一性,能夠用于記錄數(shù)據(jù),如果將電報簡碼作為主鍵處理,根據(jù)不同的需求,車站名稱和站名簡稱兩個字段用于顯示和報表;根據(jù)輸入方式的不同,設(shè)置不同的輸入碼處理方式,并且將拼音略碼和電報略碼的用于標明字典或其他字典關(guān)系,車站等級主要用于標記車站所述范圍,起始有效期和終止有效期主要用于數(shù)據(jù)有局限性的字典[9-10]。處理這些關(guān)鍵技術(shù)以外,為了提高字典訪問下來,還要按照站名略碼及車站名稱建立多個索引。字典的維護與一個普通表的形式滅有太大的區(qū)別,但是SMRAT系統(tǒng)中這種字典一般數(shù)據(jù)數(shù)據(jù)字典,必須有專用軟件進行專門的維護和管理[11]。另外,還要注意基礎(chǔ)字典本身在建立過程中漢字的輸入只能在Windows操作系統(tǒng)提供的中文輸入法中進行。
表1 字典Station主要數(shù)據(jù)結(jié)構(gòu)
3.2 數(shù)據(jù)庫查詢模塊設(shè)計
在電子商務(wù)數(shù)據(jù)分析環(huán)境下,數(shù)據(jù)字典存儲在服務(wù)器中,能夠在前臺應(yīng)用中采用用嵌入式SQL語句進行數(shù)據(jù)查詢,這種數(shù)據(jù)查詢功能的實現(xiàn)一般在存儲過程中實現(xiàn)[12-13]。在數(shù)據(jù)庫生成系統(tǒng)實際應(yīng)用中擦用數(shù)據(jù)緩沖技術(shù)實現(xiàn)數(shù)據(jù)查詢。此技術(shù)實現(xiàn)的方法首先是在本地設(shè)置一個高速數(shù)據(jù)緩沖區(qū),進行數(shù)據(jù)檢索的過程中首先判定數(shù)據(jù)是否在緩沖區(qū),然后根據(jù)具體情況在緩沖區(qū)實施數(shù)據(jù)檢索。這種檢索方法能夠有效減少服務(wù)器下端數(shù)據(jù)數(shù)量,提高工作效率。同時能夠減少與服務(wù)器的交互次數(shù),改善服務(wù)器性能[14]。
3.3 字典表自定義數(shù)據(jù)錄入模塊設(shè)計
數(shù)據(jù)錄入模塊的主要設(shè)計思路是根據(jù)后臺數(shù)據(jù)維護程序利用字典表進行數(shù)據(jù)錄入程序設(shè)計思路的構(gòu)想,是設(shè)計實現(xiàn)步驟如下:首先編寫數(shù)據(jù)字典查詢所用的存儲過程代碼,并在數(shù)據(jù)庫中建立該存儲過程[15];其次在窗口設(shè)計窗組件中用于顯示查詢結(jié)構(gòu)集,能夠直接選用上面的存儲過程作為數(shù)據(jù)源,并指定用戶輸入碼為被動參數(shù),然后在應(yīng)用程序界面設(shè)置一個名為Sle-station-name的單行編輯器組件用于顯示站名,而后再設(shè)計一個名為sle shortcode單行編輯器組件用于輸入站名略碼;而后為事件編寫腳本:dw_dictiotmryretrieve(sleshortcode text);最后利用自定義的輸入碼進行字段輸入分析。
中文電子字典的實現(xiàn)主要包含核心技術(shù)和檢索效率等方面的設(shè)計,首先我們應(yīng)該考慮的是如何生成和維護數(shù)據(jù)庫,另一個需要我們考慮的問題是如何快速有的對數(shù)據(jù)進行檢索。數(shù)據(jù)庫的生產(chǎn)方法采用的是轉(zhuǎn)換算法[16],漢字之間的一一對應(yīng)關(guān)系可以通過API編程獲得。同時利用記事本和IE生成漢字CB2312編碼及其之間的對應(yīng)關(guān)系表。
4.1 字符映射表的讀取
字符映射表程序的主要功能是漢字編碼與漢字之間的映射表,在高級查看分組里按照偏旁部首排序方法和拼音分類排序方法列出字符映射表。在映射表中利用光鍵盤單機S鍵,將漢字編碼選擇到“復(fù)制字符”文本中,將所選擇的的漢字復(fù)制到剪貼板里。上述操作手術(shù)操作可以實現(xiàn),編程模擬也可以實現(xiàn),首先準確的找到字符映射表,及其控件,通過WindWindow函數(shù)找到字符映射表,這些窗口會記錄下需要發(fā)送的消息。找到所需窗口以后,查找窗口中的空間,通過編寫函數(shù)中文字典中字符映射表的讀取,而后根據(jù)一定的條件尋找字符映射表的控件,找到以后應(yīng)用GetClassName讀取字符映射表的類名。然后進行代碼分析,具體的分析過程不再敘述,經(jīng)過代碼分析后升本文本格式控制,并保存好臨時文件,并將這些信息在兩個窗口之間連續(xù)轉(zhuǎn)換,而后進行信息延時處理,再分析窗口設(shè)置問題,以便能夠更好的設(shè)置字符映射分析和讀取。另外,拼音、偏旁的讀取方法和字符映射表的讀取方式比較相似,在這里我們就不再一一詳細說明。
4.2 Unicode的讀取
在中文字典數(shù)據(jù)庫生成設(shè)計中Unicode的讀取比偏旁讀取更簡單,用戶只需要找到CharGridWClass類窗口后連續(xù)發(fā)送右移消息。并將這些消息保存生成漢字就可以是想其正確讀取。Unicode讀取方式也有和偏旁讀取不同的地方,比如Unicode讀取只需要對漢字或該漢字的Unicode碼進行對應(yīng)關(guān)系的分析,成員設(shè)計的順序并沒有那么重要。這個設(shè)計要點的實現(xiàn)比較容易,主要是因為字符映射表中的漢字表排列的順序往往是根據(jù)Unicode碼順序?qū)嵤┑脑敿毰帕校?,我們在進一步分析的過程中僅僅需要知道一個漢字的Unicode碼就能夠?qū)⑵渌麧h字的編碼推算預(yù)測出來[17]。同時在讀取的過程中為了提高效率,可以手工選擇字符集,然后利用漢字“一”實現(xiàn)中文字符的查找,同時相關(guān)人員要在程序修改方面制定漢字“一”的編碼,這樣有利于中文字符的編寫,我們在分析的過程中將漢字編碼設(shè)置為16進制4E00,在讀取的過程中每次讀到漢字“一”后編碼會自動加一,這樣就能夠?qū)崿F(xiàn)中文字典的自動化程序管理和讀取。
在電子商務(wù)環(huán)境下,數(shù)據(jù)分析技術(shù)迅速發(fā)展,漢字數(shù)據(jù)庫體系結(jié)構(gòu)分析直接關(guān)系著中文電子字典數(shù)據(jù)庫生成情況。在實際操作中往往由于換這妮子數(shù)據(jù)庫信息量比較大,數(shù)據(jù)分析結(jié)構(gòu)復(fù)雜等因素,降低工作效率,為了解決以上問題,必須實現(xiàn)中文字典數(shù)據(jù)庫生成設(shè)計模式,解決漢字錄入困難、工作效率低等問題,根據(jù)各種模塊的設(shè)計和實現(xiàn),提高中文字典數(shù)據(jù)庫生成效率和質(zhì)量。緩解數(shù)據(jù)庫生成中遇到的各種問題,并在字典數(shù)據(jù)庫中實現(xiàn)其價值。
[1]徐尤南.大型數(shù)據(jù)字典在客戶/服務(wù)器環(huán)境下的應(yīng)用[J].計算機工程,2001,27(7):161-163,169.
[2]杜根遠,李瑞民,苗放,等.中文電子字典數(shù)據(jù)庫生成算法研究[J].計算機工程與設(shè)計,2009,30(17):4134-4137.
[3]王艷.族性結(jié)構(gòu)的計算機輔助標引及結(jié)構(gòu)詞典的建立[D].大連:大連理工大學(xué),2006.
[4]蔡冬林.基于ACCESS數(shù)據(jù)庫的船舶動力裝置故障診斷專家系統(tǒng)[D].上海:上海海事大學(xué),2004.
[5]張海江.Android平臺下手機資源搜索系統(tǒng)的研究與設(shè)計[D].金華:浙江師范大學(xué),2013.
[6]劉國峰.面向關(guān)系數(shù)據(jù)庫的模式匹配方法研究[D].哈爾濱:哈爾濱工程大學(xué),2013.
[7]馬麗艷,郭子平,程慧芬等.數(shù)據(jù)庫英文字段的中文顯示研究[J].計算機應(yīng)用與軟件,2007,24(4):168-170.
[8]侯筱婷,蘇變萍,魯萍,等.建設(shè)法規(guī)政策知識庫智能化查詢分析與設(shè)計[J].微電子學(xué)與計算機,2012(6):176-177.
[9]TUCK N,SHERWOOD T,CALDER B,et a1.Deterministic memory-efficient string matching algorithms for intrusiondetection[C].IEEE INFOCOM 2004,2004:333-340.
[10]杜旭,邱慶哲,黃建.基于FPGA的字符串匹配算法[J].微電子學(xué)與計算機,2010,25(3):91-94.
[11]孫春風,馮徑,王占豐.基于本體數(shù)據(jù)字典的異構(gòu)數(shù)據(jù)庫集成方法[J].計算機與信息技術(shù),2008,36(11):1-4.
[12]黃洋.基于SSH架構(gòu)與本體的異構(gòu)數(shù)據(jù)集成技術(shù)研究[D].北京:北京郵電大學(xué),2015.
[13]何麗.支持復(fù)雜產(chǎn)品快速設(shè)計的網(wǎng)絡(luò)化零件資源庫系統(tǒng)研究[D].烏魯木齊:新疆大學(xué),2013.
[14]馬永恒.異構(gòu)數(shù)據(jù)庫集成技術(shù)在港航信息資源庫開發(fā)中的應(yīng)用研究[D].武漢:武漢理工大學(xué),2005.
[15]高潔羽.一個通用電子貨架的設(shè)計與實現(xiàn)[D].蘇州:蘇州大學(xué),2004.
[16]董冬,喬江暉,朱成亮,等.淺談液體火箭發(fā)動機試驗數(shù)據(jù)入庫解析技術(shù)[J].火箭推進,2015(4):105.
[17]陳文麗,馬軍強,楊思鋒,等.基于FIG-SVR的姿控發(fā)動機推力校準斜率預(yù)測[J].火箭推進,2015(3):103.
Chinese Dictionary database is generated based on the age of electronic commerce
FAN Ping
(Shaanxi Vocational and Technical College,Xi’an 710038,China)
In recent years,with the development of network technology,people gradually into the age of electronic commerce,in a network environment must pay attention to the development of electronic dictionaries economy,expanding Chinese dictionary intelligent features.Chinese dictionary in the design process need to manually identify each attribute,calculate and generate the database to man,to the system to bring greater trouble.It performed better database generation database designed to solve difficult issues such as generation,improve work efficiency.This article is generated based on analysis of Chinese ecommerce environment dictionary database,using the database generation algorithm combined with its implementation,draw Chinese Dictionary database generation design procedure of this method is proved to be able to handle the system efficiency can reach 50%or more.
E-commerce;chinese dictionary database;generating design
TN99
A
1674-6236(2016)24-0105-03
2016-02-22 稿件編號:201602100
范 萍(1988—),女,山西晉中人,碩士,助教。研究方向:語言文字學(xué)。