【摘 要】 標(biāo)準(zhǔn)題錄檢索是我國標(biāo)準(zhǔn)信息檢索的主要內(nèi)容,中文拼音首字母檢索作為中文檢索的重要補(bǔ)充,能有效提高檢索效率,是傳統(tǒng)標(biāo)準(zhǔn)題錄檢索的一種創(chuàng)新。
【關(guān)鍵詞】 信息檢索 標(biāo)準(zhǔn)題錄 拼音首字母
【DOI編碼】 10.3969/j.issn.1674-4977.2016.11.001
“信息檢索”一詞出現(xiàn)于20世紀(jì)50年代,來源于人們對圖書館圖書信息的參考咨詢和文摘索引工作。從19世紀(jì)下半葉的手工檢索,到20世紀(jì)50年代的脫機(jī)批量檢索及60年代以后的聯(lián)機(jī)檢索,發(fā)展到90年代以后的網(wǎng)絡(luò)化聯(lián)機(jī)檢索,信息檢索成為人們獲取知識、豐富生活的重要方式。標(biāo)準(zhǔn)信息作為信息行業(yè)的一個分支,在檢索方法上也在不斷發(fā)展變化。
標(biāo)準(zhǔn)題錄檢索是我國標(biāo)準(zhǔn)信息檢索的主要內(nèi)容,根據(jù)輸入內(nèi)容可分為數(shù)字、英文字符、中文字符、其他可顯示的字符(如“-”)等。例如,檢索國家標(biāo)準(zhǔn)《GB/T 1.1-2009 標(biāo)準(zhǔn)化工作導(dǎo)則 第1部分:標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫》時,按照標(biāo)準(zhǔn)號檢索,需輸入數(shù)字、英文字符、空格、橫線“-”、點(diǎn)“.”;按照標(biāo)準(zhǔn)名稱檢索,需輸入數(shù)字、中文字符、空格和冒號“:”。除中文字符外,其他符號或字符都可以直接從鍵盤上找到并輸入,中文字符則需要轉(zhuǎn)換成中文輸入法后,再輸入拼音找到相應(yīng)漢字,并且輸入的字符數(shù)量較多,國標(biāo)GB/T 1.1-2009的中文名稱按全拼方式需輸入55個英文字符。有沒有更直接、更簡單的輸入方式代替中文輸入呢?答案是有。中文拼音首字母是一種代替中文字符進(jìn)行檢索的更好方式。目前,主要的標(biāo)準(zhǔn)綜合服務(wù)平臺還沒有使用拼音首字母進(jìn)行檢索,希望拼音首字母能成為今后標(biāo)準(zhǔn)檢索的必備方式。
1 中文拼音首字母檢索原理
我們以最常用的GB 2312字符集為例,說明拼音首字母代替中文字符進(jìn)行檢索的原理。GB 2312字符集是ASCII字符集的擴(kuò)展,有一級漢字3755個,按拼音排序,二級漢字3008個,按部首排序,覆蓋國內(nèi)漢字99.75%的使用頻率。它采用國標(biāo)碼或者區(qū)位碼對應(yīng)一個唯一的漢字或符號,國標(biāo)碼是一個4位十六進(jìn)制數(shù),區(qū)位碼是一個4位十進(jìn)制數(shù)。漢字的國標(biāo)碼范圍從B0A1到F7FE,如“標(biāo)準(zhǔn)”兩個字的國標(biāo)碼分別是B1EA、D7BC。在一級漢字中,找到每個拼音首字母漢字所在的國標(biāo)碼位置,其余漢字與相鄰兩個拼音首字母漢字的國標(biāo)碼位置進(jìn)行比較,就能獲得該漢字的拼音首字母。一級漢字中,不同拼音首字母的第1個漢字在GB 2312字符集中的位置參見表1。二級漢字則需采用國標(biāo)碼位置與首字母一一對應(yīng)方式查找,因數(shù)量較多,本文不再一一列出。
2 實(shí)現(xiàn)方法及相關(guān)技術(shù)
使用中文拼音首字母檢索標(biāo)準(zhǔn)的具體過程如下:首先在標(biāo)準(zhǔn)題錄信息表中添加要檢索的中文拼音首字母字段,根據(jù)要檢索的中文內(nèi)容確定增加的字段數(shù)量,如中文標(biāo)準(zhǔn)名稱、中文摘要、起草單位、起草人等都可增加對應(yīng)的拼音首字母字段。在檢索界面中,可以增加獨(dú)立的拼音首字母輸入欄,也可和中文輸入欄同時使用而用軟件判斷輸入的是中文還是英文。標(biāo)準(zhǔn)檢索軟件根據(jù)輸入的拼音首字母,直接檢索對應(yīng)的拼音首字母字段,找到匹配的標(biāo)準(zhǔn)信息,展現(xiàn)給使用者。
通過獲取漢字國標(biāo)碼數(shù)值,取得該漢字的拼音首字母。在不同的軟件語言中,獲取一個漢字的GB 2312國標(biāo)碼位置的函數(shù)和數(shù)值不盡相同,因此,表1中列出了3種數(shù)值供參考。如C#編程語言使用short函數(shù)獲取某個中文字的國標(biāo)碼位置(十進(jìn)制數(shù)值);而powerbuilder編程語言使用asc函數(shù)獲取單字節(jié)字符的國標(biāo)碼位置,漢字是雙字節(jié)字符,因此要獲取2個數(shù)值,使用十進(jìn)制二維數(shù)組數(shù)值。常用計算機(jī)編程軟件獲取中文國標(biāo)碼的函數(shù)參見表2。
以國家標(biāo)準(zhǔn)GB/T 1.1-2009為例,檢索中文“標(biāo)準(zhǔn)化工作導(dǎo)則”和拼音首字母“BZHGZDZ”信息,采用目前較流行的ACCESS和SQL SERVER作為標(biāo)準(zhǔn)題錄信息數(shù)據(jù)庫,安裝在同一臺計算機(jī)上,筆者做了一組對比試驗(yàn)。Stdinfo1_t、Stdinfo2_t、Stdinfo3_t表存放標(biāo)準(zhǔn)題錄信息,分別有6萬、16萬、26萬條數(shù)據(jù)量,有標(biāo)準(zhǔn)號、標(biāo)準(zhǔn)中文名、拼音首字母3個字段。檢索標(biāo)準(zhǔn)中文名稱和拼音首字母的效率參見表3。
從表3可以看出,在Access和SQL Server數(shù)據(jù)庫中,無論有無索引,檢索拼音首字母信息均比檢索中文信息的速度快,無索引時,提升的檢索效率更高。設(shè)無索引的中文檢索速度為Va,有索引的為Vb;無索引的拼音首字母檢索速度為Vc,有索引的為Vd。無索引且數(shù)據(jù)量分別為6萬、16萬、26萬時,Access中的提升效率按(Va-Vc)/Vc[×]100%計算,分別為27%、6%、194%;SQL Server中的提升效率按(Vb-Vd)/Vd[×]100%計算,分別為181%、77%、72%。有索引且數(shù)據(jù)量分別為6萬、16萬、26萬時,Access中的提升效率分別為38%、3%、77%;SQL Server中的提升效率分別為20%、7%、6%。
我國國家標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn)數(shù)量已超過20萬條,公開聲明企業(yè)標(biāo)準(zhǔn)數(shù)量約20萬條,每年動態(tài)增加標(biāo)準(zhǔn)數(shù)量10多萬條,使用拼音首字母檢索可以有效提高檢索效率。標(biāo)準(zhǔn)題錄信息中,起草單位、起草人、標(biāo)準(zhǔn)摘要、公開標(biāo)準(zhǔn)企業(yè)名稱、企業(yè)地址、企業(yè)聲明等常用中文信息通常沒有索引,使用拼音首字母檢索的效率更是成倍增加,從而提高網(wǎng)絡(luò)平臺響應(yīng)速度,減少檢索人員等待時間。
3 結(jié)束語
近年來,標(biāo)準(zhǔn)信息越來越廣泛應(yīng)用于我國社會各行各業(yè),許多專業(yè)機(jī)構(gòu)投入巨資建設(shè)標(biāo)準(zhǔn)綜合服務(wù)平臺,標(biāo)準(zhǔn)題錄信息檢索是這些平臺的主要服務(wù)內(nèi)容,如何為標(biāo)準(zhǔn)人員提供更快捷、更簡便、更全面的檢索方式,是平臺改進(jìn)的重要內(nèi)容。本文提出中文拼音首字母檢索,希望能為標(biāo)準(zhǔn)服務(wù)業(yè)人員拋磚引玉,不斷探索進(jìn)一步完善標(biāo)準(zhǔn)服務(wù)方式和豐富標(biāo)準(zhǔn)服務(wù)內(nèi)容,為廣大標(biāo)準(zhǔn)從業(yè)人員提供更好、更優(yōu)質(zhì)的服務(wù)。
參考文獻(xiàn)
[1] 于雙成.科技信息檢索與利用[M].北京:清華大學(xué)出版社,2012.
[2] 花芳.文獻(xiàn)檢索與利用(第2版)[M].北京:清華大學(xué)出版社,2014.
作者簡介
張廣慶(1971-),男,山東巨野人,質(zhì)量高級工程師,學(xué)士,主要從事組織機(jī)構(gòu)代碼、大數(shù)據(jù)、軟件、信息化、標(biāo)準(zhǔn)等領(lǐng)域研究。
朱登峰(1971-),男,湖北荊州人,工程師,學(xué)士,主要從事大數(shù)據(jù)、云計算、核信息化等領(lǐng)域研究。
劉冬梅(1978-),女,從事標(biāo)準(zhǔn)化科研宣傳工作多年,目前就職于遼寧省質(zhì)監(jiān)局后勤服務(wù)中心。