李志梅(廣東省自動化研究所,廣東廣州510070)
基于手寫板的手寫電子留言板信息管理系統(tǒng)的設(shè)計與實現(xiàn)
李志梅
(廣東省自動化研究所,廣東廣州510070)
介紹基于市面上的成熟的手寫板和手寫中文識別的技術(shù),采用數(shù)據(jù)存儲分類和分析手段,建立起手寫電子留言信息管理系統(tǒng),實現(xiàn)在方便手寫留言的基礎(chǔ)上,最大限度地提高手寫留言信息的使用效率和使用價值。
手寫板;電子留言板存儲模式;手寫識別;分類存儲;信息分析
0 前言
隨著計算機技術(shù)和手寫板技術(shù)的飛速發(fā)展,手寫電子留言板在人們的生活中日益受到關(guān)注。無論作為日常交流平臺,還是作為自動化系統(tǒng)的一部分,它都能在游客和管理者之間建立起橋梁關(guān)系,具有良好的互動效果。本文主要介紹的是,在采用市面上成熟的手寫板軟硬件技術(shù)以及手寫聯(lián)機識別的基礎(chǔ)上,通過圖片的分類存儲,建立起方便游客的查詢回味,更方便管理者信息管理分析的手寫信息管理系統(tǒng)。
1 系統(tǒng)的總體架構(gòu)
如圖1所示,系統(tǒng)簡單分為前端輸入和后端處理兩部分。前端輸入采用手寫板進行手寫的輸入,在書寫的過程中進行手寫聯(lián)機識別。本系統(tǒng)采用分布式輸入、集中管理的模式,在園區(qū)不同景點分別設(shè)置手寫板,游客可以按照當時的感受,采用隨想隨記的模式,寫下自己觀感和意見。數(shù)據(jù)保存時,按照聯(lián)機識別的結(jié)果,保存至總機的數(shù)據(jù)庫。在數(shù)據(jù)記錄的類別即為當?shù)貓@區(qū)的名稱。這樣方便以后查詢使用。

圖1 系統(tǒng)的總體架構(gòu)
2 留言信息手寫板輸入
由于傳統(tǒng)的紙筆的留言方式會產(chǎn)生大量的紙質(zhì)文件,這些紙張的購置需要一定的經(jīng)費,觀眾留言后的文件需要大量的密集柜存檔,存檔時又需要博物館社教相關(guān)專業(yè)人員進行分類整理,如此耗費經(jīng)費和人力的問題催生了電子留言系統(tǒng)的誕生。
傳統(tǒng)的紙筆的留言方式會產(chǎn)生大量的紙質(zhì)文件,不僅會產(chǎn)生紙張購置的經(jīng)費,還會需要消耗大量的人力物力進行存檔以及維護,在后期使用中,例如查詢、信息整理上都有不便之處。如此耗費經(jīng)費和人力的問題催生了電子留言系統(tǒng)的誕生。首先以鍵盤輸入文字,記錄留言的方式,開始電子留言系統(tǒng)的雛形,但由于需要具有一定計算機技能的人員才能正確使用,也就限制了使用人群。而后語音留言方式的留言系統(tǒng),利用麥克風(fēng),觸摸板等方式進行留言,拓寬了留言系統(tǒng)的使用人群。但是鑒于語音信息的多方面原因,使留言信息整理給工作人員帶來了諸多困難。這就催生了手寫留言方式的留言系統(tǒng)。這種留言系統(tǒng),同樣以觸摸屏為硬件載體[1],以數(shù)據(jù)庫為后臺系統(tǒng),不同的是它的交互界面以模仿紙張的樣式出現(xiàn),并且配備了電腦觸控筆,這種筆可以使觀眾在電腦屏幕上寫字,就好像在紙張上寫字一樣。觀眾寫好的文字會以圖片的形式存儲到數(shù)據(jù)庫中,同時這些文字內(nèi)容還會被用一個與留言系統(tǒng)相結(jié)合的大型屏幕展示出來,保證使觀眾可以看到其他觀眾的留言。
3 圖片識別
手寫漢字識別的基本原理也是將輸入的文字與各個標準文字進行模式的匹配,計算類似度。將具有最大類似度的標準文字作為識別結(jié)果。但是手寫體文字的人為因素隨意性大,經(jīng)常會出現(xiàn)連筆,和背景融合的現(xiàn)象,因而在對手寫體文字的識別中一般都會加入漢字識別的預(yù)處理階段,該階段主要是完成漢字圖像的正規(guī)化,將手寫輸入的文字尺寸歸一及矯正變形。然后再進行漢字識別階段,在漢字識別階段,完成漢字的識別,涉及特征提取和分類器的設(shè)計。最后進行識別后處理階段,利用漢字的結(jié)構(gòu)知識、語義、詞義等上下文先驗信息進行結(jié)果的糾錯和最后確定。盡管進行了這三個階段,在對稍微潦草的文字的識別中,錯誤的比率依然很高。
手寫體漢字按照輸入方式不同,可分為聯(lián)機和脫機兩種。聯(lián)機手寫識別就是采用和計算機相連的書寫板,用戶一邊在書寫板上寫漢字,機器一邊識別處理,識別以筆劃為單位。根據(jù)一個漢字的筆劃組合、筆劃之間的位置和關(guān)系,最終識別出漢字。脫機手寫漢字識別需用光電轉(zhuǎn)換裝置,如掃描儀或攝像機將寫在紙張上的文稿變?yōu)殡娦盘?,再輸入到計算機進行識別,其基本思想和印刷體漢字識別一致。由于手寫體人為因素隨意性大,所以,手寫體漢字識別的難度遠高于印刷體漢字的識別[1]。
4 分類存儲
圖片的存儲在數(shù)據(jù)庫中有兩種方式:(1)圖片直接存儲在數(shù)據(jù)庫中;(2)圖片數(shù)據(jù)以文件的形式直接存儲在硬盤上,在數(shù)據(jù)庫中保存該圖片的記錄附加信息(例如:路徑、文件名……)[2]。這兩種方式各有利弊。圖片文件存入數(shù)據(jù)庫中便于管理與維護,但不便于編輯,而且隨著圖片的大小或者數(shù)量的增加,數(shù)據(jù)庫就會越來越大,也會加重數(shù)據(jù)庫的負擔;圖片存于硬盤,便于圖片編輯修改,不會引起數(shù)據(jù)庫讀取時I/O消耗,也不會引起數(shù)據(jù)庫的過快增長而導(dǎo)致過大,但可能會因為不小心刪除圖片文件,或者修改圖片附件信息,而使得圖片信息與數(shù)據(jù)庫不一致,造成管理和維護的不便。本系統(tǒng)在使用過程中,圖片會不斷增加,考慮到圖片的數(shù)量和大小以及便于查看編輯等問題,系統(tǒng)采用把手寫留言圖片保存至硬盤固定的目錄下,按照景區(qū)和時間分組存放。就是在景區(qū)的目錄下采用年文件夾和月文件夾的方式存放(如:D:picture溫室2015