李震
(中國(guó)刑警學(xué)院 遼寧 沈陽(yáng) 110035)
常見(jiàn)錯(cuò)字特征量化分析軟件的研究與實(shí)現(xiàn)
李震
(中國(guó)刑警學(xué)院 遼寧 沈陽(yáng) 110035)
通過(guò)計(jì)算機(jī)對(duì)錯(cuò)別字出現(xiàn)率及其影響因素進(jìn)行研究,對(duì)常見(jiàn)錯(cuò)字出現(xiàn)率及其影響因素進(jìn)行數(shù)據(jù)統(tǒng)計(jì),為錯(cuò)字特征的實(shí)際應(yīng)用及其特征價(jià)值的評(píng)斷提供相對(duì)客觀的依據(jù),并在筆跡檢驗(yàn)與鑒定工作中,方便鑒定人員能夠更好地對(duì)錯(cuò)字特征進(jìn)行把握。同時(shí)也為錯(cuò)字出現(xiàn)率的統(tǒng)計(jì)研究及錯(cuò)字特征價(jià)值評(píng)斷的深入研究探索科學(xué)的研究方法。
筆跡 筆跡檢驗(yàn) 錯(cuò)別字特征
錯(cuò)別字特征是筆跡檢驗(yàn)中的一類(lèi)重要特征,由于它具有很強(qiáng)的特殊性和穩(wěn)定性,在筆跡檢驗(yàn)中擁有重要的地位。在筆跡檢驗(yàn)中,一般把錯(cuò)字和別字歸為錯(cuò)別字特征,主要用于對(duì)書(shū)寫(xiě)人的同一認(rèn)定。目前在文件檢驗(yàn)領(lǐng)域,大多都是對(duì)如何正確使用錯(cuò)別字特征進(jìn)行定性的討論,并未見(jiàn)對(duì)錯(cuò)別字特征進(jìn)行系統(tǒng)的量化研究,對(duì)錯(cuò)別字特征價(jià)值的評(píng)估也大都來(lái)自于檢驗(yàn)鑒定人員的經(jīng)驗(yàn),主觀性極強(qiáng),據(jù)此做出的鑒定結(jié)論也缺乏說(shuō)服力。通過(guò)計(jì)算機(jī)對(duì)錯(cuò)別字出現(xiàn)率及其影響因素進(jìn)行研究,可以使我們更好地把握錯(cuò)別字特征,準(zhǔn)確地評(píng)斷其特征價(jià)值。在分析統(tǒng)計(jì)錯(cuò)別字出現(xiàn)率的基礎(chǔ)上,判斷其在筆跡檢驗(yàn)中應(yīng)用價(jià)值的高低,將對(duì)筆跡檢驗(yàn)工作起重要的指導(dǎo)意義。同時(shí)在一定條件下,通過(guò)人機(jī)結(jié)合,還可以通過(guò)某些錯(cuò)字所表現(xiàn)出來(lái)的特點(diǎn)及規(guī)律,為判斷書(shū)寫(xiě)人的個(gè)人情況提供參考,從而為偵查破案提供線索和依據(jù)。
1.1 錯(cuò)別字的含義及產(chǎn)生原因
通常所說(shuō)的錯(cuò)別字包括錯(cuò)字和別字。錯(cuò)字是指書(shū)寫(xiě)人對(duì)字的正確寫(xiě)法和結(jié)構(gòu)不了解或掌握不夠準(zhǔn)確而寫(xiě)錯(cuò)的字。錯(cuò)字是文字系統(tǒng)中根本不存在的字,主要表現(xiàn)為把筆畫(huà)寫(xiě)錯(cuò),或是增減筆畫(huà),或是排錯(cuò)偏旁的位置等。別字與錯(cuò)字不同,是指該寫(xiě)甲字時(shí)寫(xiě)成了乙字。
漢字筆畫(huà)結(jié)構(gòu)復(fù)雜,漢字中筆畫(huà)繁多的為數(shù)不少,這些字在書(shū)寫(xiě)時(shí)稍有馬虎,或記得不準(zhǔn)確,很容易出現(xiàn)多筆少畫(huà)的現(xiàn)象以及錯(cuò)寫(xiě)為其他字。漢字形體結(jié)構(gòu)相似,漢字是由點(diǎn)、橫、豎、撇、捺、折等幾種筆畫(huà)結(jié)構(gòu)組成。由于筆畫(huà)形式不多,在組字結(jié)構(gòu)上勢(shì)必會(huì)出現(xiàn)許多相似的地方,加之書(shū)寫(xiě)技能的遷移,導(dǎo)致人們?cè)趯W(xué)習(xí)和使用漢字過(guò)程中,很容易把字的某一部分記混。漢字屬于表義體系的文字,漢字的字形和字義有著非常密切的聯(lián)系。有許多漢字,只有了解它們當(dāng)初的本義,才能加深印象。僅僅記住字形,只能得到表面的、浮淺的印象,在書(shū)寫(xiě)時(shí)難免要出現(xiàn)錯(cuò)別字。
1.2 確定常見(jiàn)錯(cuò)別字
易錯(cuò)樣品字的選取是理論研究的重要環(huán)節(jié)。樣品字的選取經(jīng)歷了初選和確定兩個(gè)階段。樣品字的初選參考《錯(cuò)別字辨析手冊(cè)》(杜維東著)、《常見(jiàn)錯(cuò)字的分類(lèi)及其更正的理?yè)?jù)分析》(彭志雄著)及平時(shí)案件鑒定中常遇到的錯(cuò)別字,初步選擇了157個(gè)易錯(cuò)樣品字,并設(shè)計(jì)了錯(cuò)字調(diào)查表確定樣品字的組合,即把它們分別編入常見(jiàn)的詞組,在詞組中省略樣品字,下畫(huà)橫線,在橫線前的括號(hào)內(nèi)用拼音把樣品字標(biāo)注出來(lái),以保證書(shū)寫(xiě)人正常填寫(xiě)樣品字。在不同年齡段、不同性別、不同文化程度、不同職業(yè)以及不同地區(qū)范圍內(nèi)選擇500名調(diào)查對(duì)象,發(fā)放并回收《漢字調(diào)查表》。對(duì)有效的456份調(diào)查表中的157個(gè)樣品字的出錯(cuò)率進(jìn)行了人工統(tǒng)計(jì),按錯(cuò)字出現(xiàn)率從高到低排列,對(duì)157個(gè)字的錯(cuò)字出現(xiàn)情況進(jìn)行研究,剔除其中空字現(xiàn)象嚴(yán)重和部分未出現(xiàn)錯(cuò)寫(xiě)的字,同時(shí)又增加個(gè)別實(shí)際案件中易出現(xiàn)的錯(cuò)字后,最終形成了143個(gè)字的樣品字調(diào)查表。
實(shí)現(xiàn)計(jì)算機(jī)對(duì)錯(cuò)別字出現(xiàn)率的量化分析,首先要建立計(jì)算機(jī)可識(shí)別的錯(cuò)別字庫(kù),建立計(jì)算機(jī)能識(shí)別的錯(cuò)別字庫(kù)有兩種方法,一是利用造字程序,造出所發(fā)現(xiàn)的每個(gè)錯(cuò)字并保存在計(jì)算機(jī)的字庫(kù)中;二是將各種錯(cuò)字手寫(xiě)出來(lái),通過(guò)掃描圖像存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)。經(jīng)分析研究,第一種方法造字過(guò)程本身比較繁瑣,要使用查詢軟件其他計(jì)算機(jī)也必須先安裝此字庫(kù),同時(shí)造字程序也會(huì)影響本軟件的推廣和使用。最終決定采用掃描手寫(xiě)文字圖片的形式建立相應(yīng)的數(shù)據(jù)庫(kù)。
2.1 錯(cuò)別字庫(kù)的來(lái)源
為了保證錯(cuò)字庫(kù)的豐富性和有效性,對(duì)收集的1400余份調(diào)查表和前期收集的400余份調(diào)查表逐份逐字進(jìn)行分析,將發(fā)現(xiàn)的每個(gè)字的各種錯(cuò)寫(xiě)、別字、空字等信息記錄在《143個(gè)字情況一覽》表中。然后將每個(gè)人的記錄表匯總,形成了錯(cuò)字庫(kù)內(nèi)容的原始記錄。
2.2 錯(cuò)別字庫(kù)的制作
經(jīng)過(guò)計(jì)算機(jī)技術(shù)人員的測(cè)試,確定書(shū)寫(xiě)樣品字的規(guī)格為15mm×15mm。首先利用計(jì)算機(jī)制作并打印出相應(yīng)規(guī)格的方格紙;再由專(zhuān)人在方格紙上用楷書(shū)書(shū)寫(xiě)經(jīng)過(guò)匯總的字庫(kù)內(nèi)容(即錯(cuò)字原始記錄表中的所有錯(cuò)字);然后利用計(jì)算機(jī)photoshop軟件對(duì)寫(xiě)完的字樣進(jìn)行掃描,調(diào)整色階后保存;最后,利用photoshop軟件將已保存的字樣按單字進(jìn)行切分,并保存在按不同樣品字形成的相應(yīng)字庫(kù)中(見(jiàn)圖1)。
圖1 “步”的錯(cuò)寫(xiě)字庫(kù)
2.3 錯(cuò)字庫(kù)中錯(cuò)字的編碼
要實(shí)現(xiàn)錯(cuò)字庫(kù)中各種信息的綜合查詢,首先必須按照一定的規(guī)則建立關(guān)鍵字,由此對(duì)字庫(kù)中的每個(gè)錯(cuò)寫(xiě)圖片進(jìn)行編碼,每個(gè)錯(cuò)字采用8位編碼,1-3位代表所研究的143個(gè)字。數(shù)值與調(diào)查表中的順序一致,不足三位時(shí)在前方用0補(bǔ)齊,如第一個(gè)字“步”編為001,第21個(gè)字“慶”編為021;4-5位代表該字按偏旁劃分,出現(xiàn)錯(cuò)別字的類(lèi)別。正字、空白和其他為00。在本錯(cuò)別字字庫(kù)中先以與正字的相似度劃分,然后以不同偏旁錯(cuò)別字多少劃分,分為01、02……,目的是便于數(shù)據(jù)錄入和查詢,如“隙”出現(xiàn)的27個(gè)錯(cuò)字中,“耳刀旁出現(xiàn)14個(gè),最多,此類(lèi)錯(cuò)別字編為01”“絞絲旁出現(xiàn)6個(gè),第二多,則此類(lèi)錯(cuò)別字編為02”,其他依此類(lèi)推;第6位代表按照錯(cuò)字原因劃分,錯(cuò)字類(lèi)型。正字、空白和其他為0,多筆畫(huà)(只多一筆)為1,少筆畫(huà)(只少一筆)為2,結(jié)構(gòu)錯(cuò)誤為3,受上下字影響為4,其他類(lèi)型錯(cuò)字為5,別字為6,“空白”(未填)為7;7-8位代表各類(lèi)別錯(cuò)字的具體內(nèi)容。正字為00,空白為01,其他為02按錯(cuò)別字筆畫(huà)數(shù)和相似度依次編為01、02,并據(jù)此對(duì)字庫(kù)中所有的信息進(jìn)行了編碼。
本軟件共分為系統(tǒng)管理模塊、數(shù)據(jù)錄入模塊、數(shù)據(jù)查詢模塊和本庫(kù)信息模塊四部分。
系統(tǒng)管理模塊將本軟件系統(tǒng)劃分為系統(tǒng)管理、查詢使用、數(shù)據(jù)錄入三種權(quán)限。其中系統(tǒng)管理權(quán)限是使系統(tǒng)管理員對(duì)系統(tǒng)進(jìn)行綜合維護(hù)和管理,該權(quán)限可以使用本軟件系統(tǒng)中的所有功能,即數(shù)據(jù)錄入功能、數(shù)據(jù)查詢功能、數(shù)據(jù)管理功能和人員管理功能。查詢使用權(quán)限授予最終用戶使用,可以通過(guò)本系統(tǒng)對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行查詢和分析,僅具有數(shù)據(jù)查詢功能和部分人員管理功能(僅能對(duì)用戶本身的用戶名和密碼進(jìn)行修改)。數(shù)據(jù)錄入權(quán)限是將漢字調(diào)查表中的錯(cuò)字信息錄入后臺(tái)數(shù)據(jù)庫(kù)的用戶使用。
數(shù)據(jù)錄入模塊是由錯(cuò)別字錄入和調(diào)查表錄入兩個(gè)子模塊構(gòu)成。其中錯(cuò)別字錄入子模塊具有兩部分功能,一是由系統(tǒng)管理員將漢字調(diào)查表中的143個(gè)易錯(cuò)字和利用易錯(cuò)字構(gòu)成的詞組添加到數(shù)據(jù)庫(kù)中,另外一個(gè)功能是系統(tǒng)管理員對(duì)每一個(gè)易錯(cuò)字的各種錯(cuò)寫(xiě)、正確寫(xiě)法、空白添加至數(shù)據(jù)庫(kù)中,每個(gè)易錯(cuò)字的各種錯(cuò)寫(xiě)主要來(lái)源于漢字調(diào)查表中可能出現(xiàn)的各種錯(cuò)寫(xiě)和辦案實(shí)踐中所發(fā)現(xiàn)的錯(cuò)寫(xiě)。系統(tǒng)管理員錄入完畢后,調(diào)查表錄入子模塊就會(huì)將原來(lái)紙質(zhì)調(diào)查表中所有詞組顯示在界面上,其中填空部分是由每個(gè)易錯(cuò)字的所有錯(cuò)寫(xiě)、空白和正確寫(xiě)法綁定在下拉框組成。漢字調(diào)查表錄入時(shí)系統(tǒng)默認(rèn)的字是正字。用戶錄入時(shí),只需對(duì)照漢字調(diào)查表錄入出現(xiàn)錯(cuò)寫(xiě)的易錯(cuò)字即可,錄入速度快,可維護(hù)性極強(qiáng)。
數(shù)據(jù)查詢模塊是由易錯(cuò)字和錯(cuò)別字查詢、條件和分組查詢以及高級(jí)查詢?nèi)齻€(gè)子模塊構(gòu)成。其中易錯(cuò)字和錯(cuò)別字查詢子模塊可以查詢數(shù)據(jù)庫(kù)中的易錯(cuò)字及各種錯(cuò)寫(xiě)查詢、每個(gè)易錯(cuò)字的總出現(xiàn)率和每個(gè)易錯(cuò)字中各個(gè)錯(cuò)寫(xiě)的出現(xiàn)率;條件和分組查詢子模塊是由易錯(cuò)字條件查詢、錯(cuò)寫(xiě)條件查詢、分組查詢和高級(jí)分組查詢四部分構(gòu)成。易錯(cuò)字條件查詢可以查詢數(shù)據(jù)庫(kù)中滿足各種特定條件的人群且易錯(cuò)字總出現(xiàn)率在特定范圍的具體易錯(cuò)字。錯(cuò)寫(xiě)條件查詢用來(lái)查詢數(shù)據(jù)庫(kù)中滿足各種特定條件的人群且各種錯(cuò)寫(xiě)總出現(xiàn)率在特定范圍的具體易錯(cuò)字錯(cuò)寫(xiě)情況。分組查詢的功能是按數(shù)據(jù)庫(kù)中自然人的各種屬性(年齡段、性別、職業(yè)、文化程度、書(shū)法愛(ài)好)查詢寫(xiě)錯(cuò)別字的比例。高級(jí)分組查詢可以按數(shù)據(jù)庫(kù)中自然人的各種屬性(年齡段、性別、職業(yè)、文化程度、書(shū)法愛(ài)好)對(duì)每一易錯(cuò)字寫(xiě)錯(cuò)別字的比例;高級(jí)查詢子模塊是由某易錯(cuò)字出現(xiàn)率查詢、多個(gè)易錯(cuò)字錯(cuò)寫(xiě)人群查詢、錯(cuò)字種類(lèi)查詢和按種類(lèi)查詢易錯(cuò)字錯(cuò)寫(xiě)情況四部分構(gòu)成。某易錯(cuò)字出現(xiàn)率查詢可以查詢數(shù)據(jù)庫(kù)中滿足各種特定條件的人群中每個(gè)易錯(cuò)字各種錯(cuò)寫(xiě)的出現(xiàn)率。多個(gè)易錯(cuò)字錯(cuò)寫(xiě)人群查詢用來(lái)查詢數(shù)據(jù)庫(kù)同時(shí)具備多種易錯(cuò)字錯(cuò)寫(xiě)情況的人群自然情況。錯(cuò)字種類(lèi)查詢的功能是查詢數(shù)據(jù)庫(kù)中每個(gè)易錯(cuò)字各種錯(cuò)誤類(lèi)型的錯(cuò)寫(xiě)情況。按種類(lèi)查詢易錯(cuò)字錯(cuò)寫(xiě)情況是通過(guò)輸入音序查詢易錯(cuò)字再查詢選中易錯(cuò)字的各種錯(cuò)誤類(lèi)型的錯(cuò)寫(xiě)。
本庫(kù)信息模塊是由人員信息和易錯(cuò)字信息兩個(gè)子模塊構(gòu)成。其中人員信息子模塊主要反映數(shù)據(jù)庫(kù)中所包含所有人的自然情況(年齡段、性別、職業(yè)、文化程度、書(shū)法愛(ài)好)。易錯(cuò)字信息子模塊主要反映數(shù)據(jù)庫(kù)中所包含所有易錯(cuò)字各種易錯(cuò)類(lèi)型的數(shù)據(jù)統(tǒng)計(jì)。
系統(tǒng)后臺(tái)數(shù)據(jù)庫(kù)采用SQL Server數(shù)據(jù)庫(kù)服務(wù)器,可以有效利用局域網(wǎng)同時(shí)滿足多人進(jìn)行實(shí)時(shí)數(shù)據(jù)錄入,將1400余份調(diào)查表中的全部信息逐一錄入系統(tǒng)數(shù)據(jù)庫(kù)中,節(jié)約大量數(shù)據(jù)錄入時(shí)間,提高數(shù)據(jù)錄入的準(zhǔn)確性,也為本軟件系統(tǒng)后期大量數(shù)據(jù)錄入工作積累寶貴經(jīng)驗(yàn)。啟動(dòng)軟件,進(jìn)入登陸界面,輸入錄入權(quán)限的用戶名和密碼,進(jìn)入軟件界面,點(diǎn)擊“數(shù)據(jù)錄入”下的“漢字調(diào)查表錄入”進(jìn)入調(diào)查表錄入界面,界面結(jié)構(gòu)友好,完全按照漢字調(diào)查表設(shè)計(jì),用戶只需選取易錯(cuò)字即可,默認(rèn)為正字,完成漢字調(diào)查表的數(shù)據(jù)錄入工作(見(jiàn)圖2)。
圖2 漢字調(diào)查表錄入界面
數(shù)據(jù)錄入完畢,編制的143個(gè)易錯(cuò)字查詢分析軟件實(shí)現(xiàn)了143個(gè)易錯(cuò)字出現(xiàn)率的量化查詢。通過(guò)本軟件可以實(shí)現(xiàn)多種查詢功能,可以查詢143個(gè)易錯(cuò)字在錄入的數(shù)據(jù)庫(kù)中的出錯(cuò)率并按照降序或升序排列及每個(gè)易錯(cuò)字出現(xiàn)各種錯(cuò)寫(xiě)的出錯(cuò)率(見(jiàn)表1,表2),也可以結(jié)合一份筆跡材料中出現(xiàn)的若干個(gè)錯(cuò)字,分析經(jīng)查詢出現(xiàn)這些錯(cuò)字的人是否具有共同特點(diǎn)等。
表1 易錯(cuò)字出錯(cuò)率情況表(前10字)
表2 “步”字各種錯(cuò)寫(xiě)的出錯(cuò)率
開(kāi)發(fā)143個(gè)易錯(cuò)字查詢分析軟件,實(shí)現(xiàn)了143個(gè)易錯(cuò)字出現(xiàn)率的量化查詢。通過(guò)該軟件的查詢功能可以分析各類(lèi)人群的自然情況、常見(jiàn)錯(cuò)寫(xiě)的出錯(cuò)率等,針對(duì)筆跡中錯(cuò)別字的研究思路和方法同樣適用于其他各類(lèi)筆跡特征,也為各類(lèi)筆跡特征的量化分析系統(tǒng)的研制奠定良好的基礎(chǔ)。
1.賈玉文,鄒明理.中國(guó)刑事科學(xué)技術(shù)大全文件檢驗(yàn)[M].北京:中國(guó)公安大學(xué)出版社,2002
2.賈玉文.筆跡檢驗(yàn)[M].北京:警官教育出版社,1999
3.Christian Nagel,Bill Evjen,Jay Glynn,等.C#高級(jí)編程[M].第七版.北京:清華大學(xué)出版社,2010
4.王小科,王軍作,等.C#開(kāi)發(fā)實(shí)戰(zhàn)1200例[M].北京:清華大學(xué)出版社,2011