魏振樞,呂志元
(中州大學(xué)學(xué)報(bào)編輯部,鄭州450044)
在信息的儲存與查詢過程中,“標(biāo)引”是對雜亂文獻(xiàn)的整序過程,也是為“檢索”做準(zhǔn)備工作。“檢索”則是著眼于查找具體文獻(xiàn),雙方借助于約定俗成的“語言”進(jìn)行溝通,以便于順利地取得共識,達(dá)到既定的目標(biāo),這個(gè)“語言”就是信息檢索語言。從外表的表征上看,信息檢索語言主要有兩類,即語言性的檢索語言和符號性的檢索語言(其中包括分類語言和代碼語言)。如果按照構(gòu)成原理可以分為分類語言、主題語言、代碼語言。但是,2010年出版的《中國圖書館分類法》(第五版)沒有將代碼語言作為一種檢索語言來看待。例如在該書第120頁的文獻(xiàn)檢索語言分類中:
我們對于主題語言研究較多,分類語言有著深厚的理論基礎(chǔ)和完善的編制技術(shù),因此圖書館專業(yè)情報(bào)人員對以上兩種都有比較精深的研究和體會。在網(wǎng)絡(luò)信息技術(shù)發(fā)展過程中,代碼語言顯示出了它的特殊性和特別的重要性,應(yīng)該加強(qiáng)對它的研究。
應(yīng)該說,代碼語言產(chǎn)生的比較早,也是一種人工語言,是對某類事物的一些內(nèi)涵進(jìn)行解析,將其中主要特征應(yīng)用代碼(例如字母、符號、數(shù)字、圖形等)進(jìn)行有序的排列,用來表達(dá)事物的本質(zhì)內(nèi)容。文獻(xiàn)[1]和[2]對于代碼語言已經(jīng)有初步的闡述。代碼語言目前主要有以下幾種存在形式。第一種是字母組合,該類內(nèi)容比較豐富,從結(jié)構(gòu)上看,主要有縮寫詞、簡寫詞、略語詞和首母詞等。例如,美國著名的檢索期刊《化學(xué)文摘》(CA)就把化學(xué)式(例如PVC)作為一種重要的檢索語言。第二種是數(shù)字代碼語言,例如我們常用到的圖書條碼如:9787122030207(化學(xué)工業(yè)出版社出版的《化工安全技術(shù)概論》);連續(xù)出版物(期刊)條碼如:9771006418038(浙江化工);身份證號碼代碼語言,例如110524198001010012。目前把數(shù)字代碼轉(zhuǎn)換成為線條,形成條碼,更加便于掃描識別。第三種是通過字母與數(shù)字組賠組合形成的復(fù)合型代碼語言,如中國標(biāo)準(zhǔn)書號(例如ISBN978-7-122-03020-7;中國標(biāo)準(zhǔn)連續(xù)出版物號(例如ISSN1006-4184/CN33-1093/TQ);各類專利文獻(xiàn)標(biāo)識代碼(例如 ZL200410060208.9、87100012A);技術(shù)報(bào)告編號(例如AD-A130900)等。第四種是信息圖形符號。工業(yè)生產(chǎn)中存在多種公共信息圖形符號,圖1是指紋圖形標(biāo)志,可以廣泛用于筆記本電腦的開機(jī)、開啟門窗、公安機(jī)關(guān)對嫌疑人的指紋識別等方面。類似這樣的圖形符號標(biāo)志今后會越來越多,這樣的檢索語言簡單易懂,活潑醒目,很容易普及使用。
綜上所述,我們可以看到,文獻(xiàn)信息檢索的現(xiàn)代化信息環(huán)境以及信息載體的變革直接影響文獻(xiàn)檢索的方式和技術(shù)。以自然語言為標(biāo)識的檢索語言目前最能夠與現(xiàn)代科學(xué)技術(shù)發(fā)展相適應(yīng),人工檢索語言之間的相互融合,以及人工語言與自然語言的和諧統(tǒng)一應(yīng)該是檢索語言變化趨勢。
現(xiàn)代網(wǎng)絡(luò)信息時(shí)代,我們認(rèn)為,代碼語言內(nèi)容豐富而雜亂,發(fā)展勢頭較快,應(yīng)該加強(qiáng)研究。例如,分類語言與代碼語言的區(qū)別與聯(lián)系有哪些?如何提高識別代碼語言(特別是圖形語言)的效能?這些都是文獻(xiàn)信息工作者應(yīng)該重視并研究的問題。代碼語言有許多比較明顯的特點(diǎn),主要有以下幾點(diǎn)。
代碼語言是按照事先設(shè)計(jì)好的排序方式對一個(gè)對象進(jìn)行標(biāo)記,從而形成一一對應(yīng)的語言關(guān)系。為了更加準(zhǔn)確唯一地表達(dá)所描述的對象,很多代碼語言標(biāo)識式增加了校驗(yàn)碼,以確保其一一對應(yīng)的關(guān)系。所以說,代碼語言具有專有性和不可替代性。
中國標(biāo)準(zhǔn)書號由標(biāo)識符ISBN和13位數(shù)字組成。其中13位數(shù)字分為五部分(以下是化學(xué)工業(yè)出版社出版的魏振樞主編的《化工安全技術(shù)概論》的書號)。
國際標(biāo)準(zhǔn)書號代碼 EAN·UCC前綴 組區(qū)號(中國) 出版者號 出版序號 校驗(yàn)碼
這組代碼具有專有性的性質(zhì),在國內(nèi)不可能再有這樣的一個(gè)代碼。再如居民身份證的號碼是按照《中華人民共和國國家標(biāo)準(zhǔn) GB 11643-1999》編制的,由18位數(shù)字組成:前六位為行政區(qū)劃代碼,第七至第十四位為出生日期碼,第15至17位為順序碼,第18位為校驗(yàn)碼。對同年、月、日出生的人員編定的順序號。順序碼的奇數(shù)分配給男性,偶數(shù)分配給女性。按照ISO 7064:1983.MOD 11-2計(jì)算出來的是檢驗(yàn)碼。盡管中國有13億人口,但絕對不可能出現(xiàn)身份證號碼重復(fù)的情況。
假如使用主題語言(例如關(guān)鍵詞)或者分類語言作為檢索語言進(jìn)行檢索時(shí),會得到一批相關(guān)的文獻(xiàn)資料。例如用中國圖書館分類法中的G254.0(有關(guān)文獻(xiàn)檢索語言總論方面的資料)作為檢索項(xiàng)在CNKI中檢索,會得到104條不同的文獻(xiàn)。
代碼語言的檢索是一一對應(yīng),只能找到惟一的一個(gè)對應(yīng)的文獻(xiàn)資料。例如,通過google查找GB/T7714-2005《文后參考文獻(xiàn)著錄規(guī)則》,可以得到將近6000條都是有關(guān)這個(gè)國家標(biāo)準(zhǔn)的檢索內(nèi)容。
代碼語言利用數(shù)字和字母符號等進(jìn)行組配成為復(fù)合檢索語言。比較典型的是在1986年以前曾經(jīng)使用過的《全國圖書統(tǒng)一編號》的書號分為三個(gè)部分:圖書分類號、出版社代號、序號。其中圖書分類號統(tǒng)一采用阿拉伯?dāng)?shù)字表示,共分為17個(gè)類目;出版社代號由已經(jīng)確定的“出版社名編號表”中查詢;序號為該出版社的出書序列號。
例如人民文學(xué)出版社出版的《金光大道》統(tǒng)一書號為:“10 019·1886”,這本書的分類號為“10”(文學(xué)),出版社代號為“019”(人民文學(xué)出版社),這本書是該社出版的文學(xué)類書籍的第1886種。
分類語言具有等級列舉式結(jié)構(gòu),是一種規(guī)范性的、應(yīng)用廣泛的甚至是強(qiáng)制性的標(biāo)準(zhǔn)語言,屬于強(qiáng)制性的法律范疇。只要在某領(lǐng)域有這樣的分類語言,就必須無條件的執(zhí)行,由此可知,像這樣的檢索語言在一般搜索引擎(包括google、baidu等)或大型數(shù)據(jù)庫中可以作為檢索語言進(jìn)行資料的查詢。主題語言更是我們最常使用的檢索語言,幾乎在所有的網(wǎng)站或數(shù)據(jù)庫中都可以使用。
代碼語言涉及范圍和領(lǐng)域比較局限,作為一種文獻(xiàn)檢索語言也許只能在專有的網(wǎng)站才能識別并檢索出來,而在一般的綜合性網(wǎng)站或數(shù)據(jù)庫進(jìn)行檢索則效果不太理想,甚至沒有這樣的檢索項(xiàng)。例如對于居民身份證號碼在各公安機(jī)構(gòu)、機(jī)場、海關(guān)口岸、銀行、工商稅務(wù)機(jī)構(gòu)中都能夠作為檢索項(xiàng)進(jìn)行檢索查詢。但是在CNKI數(shù)據(jù)庫就難以識別,當(dāng)然更不可能查詢到任何資料。在標(biāo)準(zhǔn)數(shù)據(jù)庫中可以用標(biāo)準(zhǔn)編號作為檢索語言進(jìn)行檢索,在專利文獻(xiàn)數(shù)據(jù)庫中可以用專利文獻(xiàn)號、專利號或國際專利分類號(分類語言)作為檢索語言進(jìn)行檢索。
主題語言涉及到所有文字描述的領(lǐng)域,分類語言涵蓋范圍也比較廣,例如《中國圖書館分類法》基本上可以覆蓋我國目前所有領(lǐng)域,而像標(biāo)準(zhǔn)分類法、國際專利分類法主要涉及到理工技術(shù)方面。但是在代碼語言中,只對某一個(gè)局部領(lǐng)域的對象進(jìn)行定義,從而形成特定的檢索語言,超出這個(gè)范圍,它所組成的代碼就變的無任何意義了。
從代碼語言的組成來看,可以是數(shù)字組合、字母組合、數(shù)字與字母組配組合等形式,還可以有圖形顯示;另一方面,代碼語言所涉及的學(xué)科、領(lǐng)域范圍非常廣泛,這類語言可以說是不計(jì)其數(shù),隨時(shí)都在不斷產(chǎn)生新的代碼語言。
對于有些代碼語言來說,檢索鑒別特別快捷、準(zhǔn)確。特別是圖像識別系統(tǒng)如果能夠?qū)崿F(xiàn),則更有廣泛簡便快捷應(yīng)用的空間和領(lǐng)域,例如前期開發(fā)的條碼識別是將數(shù)字轉(zhuǎn)換成為間隔不同的粗細(xì)線條(見圖2),用掃描設(shè)備方便識別。再如指紋識別(見圖1)、磁卡識別、商標(biāo)標(biāo)識真?zhèn)蔚淖R別等。
代碼語言具有很好的發(fā)展前景,發(fā)展空間巨大。
綜上所述,檢索語言的分類方法會直接影響到信息用戶的檢索效率,特別是會影響到網(wǎng)絡(luò)信息的傳播,甚至影響到整個(gè)國家的經(jīng)濟(jì)發(fā)展。因此,研究科學(xué)準(zhǔn)確的檢索語言分類方法并深入研究其內(nèi)容和實(shí)質(zhì)十分必要。
一個(gè)待檢索主題內(nèi)容可以兼有三種檢索語言,如果利用主題語言和分類語言進(jìn)行檢索,得到的結(jié)果一般是一批文獻(xiàn)資料,需要進(jìn)一步的甄別才能得到所需的資料。而利用代碼語言可以得到惟一性的所需資料。代碼語言在最近幾年里得到快速的應(yīng)用和推廣,特別是在論文寫作的格式中對于“關(guān)鍵詞”項(xiàng)如果修改為“檢索項(xiàng)”就可以把諸如分類號、各類縮略語代碼作為檢索項(xiàng)列入,更方便需求者的查找,這樣會變得更加快捷方便。
[1]劉海燕,魏振樞.文獻(xiàn)檢索語言分類系統(tǒng)的研究[J].中州大學(xué)學(xué)報(bào),2008,25(1):108 -111.
[2]王文峽,薛培軍,魏振樞.基于網(wǎng)絡(luò)環(huán)境下代碼語言在文獻(xiàn)檢索中的特性[J].中州大學(xué)學(xué)報(bào),2009,26(4):108-111.
[3]中國圖書館分類法編輯委員會.中國圖書館分類法[M].五版.北京:北京圖書館出版社,2010.
[4]魏振樞.化學(xué)化工信息檢索[M].第2版.北京:化學(xué)工業(yè)出版社,2006.
[5]魏振樞,蔡紅燕.科技論文中“關(guān)鍵詞”改為“檢索項(xiàng)”更科學(xué)[J].科技與出版,2009(4):39-41.
[6]魏振樞,呂志元.“標(biāo)準(zhǔn)”文獻(xiàn)在文后參考文獻(xiàn)中的著錄規(guī)則[J].中國科技期刊研究,2007,18(3):520 -521.