河北工業(yè)大學(xué)科技情報研究所
〔天津市紅橋區(qū) 300100〕 戰(zhàn)英民
關(guān)鍵詞標(biāo)引(Key Word Indexing)是指人們通常所說的“提出(寫出、找出)文獻(xiàn)(包括論文、著作、報告、文件、專利文獻(xiàn)等文字資料)的關(guān)鍵詞”。近年來,其他類型的平面媒體、網(wǎng)絡(luò)文獻(xiàn)或視頻資料也用關(guān)鍵詞來描述、存儲或檢索。本文著重討論文字文獻(xiàn)的關(guān)鍵詞問題。關(guān)鍵詞是幾個(通常是 3~8個)詞或詞組,它們能概括一份文獻(xiàn)資料的主題。但是,關(guān)鍵詞不同于文獻(xiàn)的標(biāo)題,關(guān)鍵詞不成句,它們之間沒有語法上的邏輯關(guān)系。關(guān)鍵詞也不同于文獻(xiàn)的摘要,摘要是比標(biāo)題更加詳細(xì)的能概括文獻(xiàn)主題的文字簡述。標(biāo)引工作是給文獻(xiàn)資料賦予“檢索標(biāo)識”的處理過程。 通俗地說,“標(biāo)識”即標(biāo)志;“檢索標(biāo)識”是文獻(xiàn)檢索(包括存儲和查找)的“引路標(biāo)志”。
按照使用檢索語言的類型,標(biāo)引可分為分類標(biāo)引(寫“分類號”)和主題標(biāo)引(寫“主題詞”)。實際上,文獻(xiàn)檢索系統(tǒng)的建立是從文獻(xiàn)作者這里開始的。例如,有的刊物要求作者在投稿時在文稿中既寫出關(guān)鍵詞,也寫出分類號(根據(jù)文稿內(nèi)容所屬的學(xué)科、專業(yè),按《中國圖書館分類法》第 4版的分類規(guī)定寫出)。分類標(biāo)引工作的難度不是很大,但是主題標(biāo)引是有一定難度的。原因是,主題法文獻(xiàn)檢索是一種“新的”檢索方法,是適用于計算機(jī)自動檢索的。以主題詞(Sub ject term),又稱敘詞 (Descrip tor)為檢索標(biāo)識,進(jìn)行文獻(xiàn)資料搜索。凡是檢索標(biāo)識所涵蓋的,并由主題標(biāo)識邏輯關(guān)系所控制的文獻(xiàn)資料都可以成批地被查找出來。主題詞標(biāo)引是否準(zhǔn)確、全面、規(guī)范,主題詞排列是否科學(xué)、邏輯是否合理,將影響文獻(xiàn)資料檢索的準(zhǔn)確性。由于標(biāo)引人員在業(yè)務(wù)水平和工作經(jīng)驗上的差異,以及文獻(xiàn)資料內(nèi)容的錯綜復(fù)雜等原因,因此產(chǎn)生標(biāo)引不當(dāng),甚至錯誤是完全可能的。錯標(biāo)、漏標(biāo)(漏掉主題詞)、過度標(biāo)(主題詞過多)和過粗標(biāo)(主題詞過少或邏輯關(guān)系混亂)都是常有的現(xiàn)象。情報檢索標(biāo)引人員的業(yè)務(wù)水平的提高,固然是提高標(biāo)引質(zhì)量和文獻(xiàn)檢索質(zhì)量的重要因素,但是專業(yè)標(biāo)引人員的專業(yè)學(xué)科知識水平畢竟有限,不可能掌握所有學(xué)科專業(yè)的知識。主題詞的來源首先是文獻(xiàn)資料作者自己標(biāo)引的關(guān)鍵詞。關(guān)鍵詞的標(biāo)引質(zhì)量將直接影響文獻(xiàn)檢索的成功率(查準(zhǔn)率、查全率和查找速度)[1]。
作為一個學(xué)術(shù)刊物或圖書出版等編輯出版機(jī)構(gòu)來說,必須要求作者盡量做好關(guān)鍵詞的標(biāo)引工作。同時編輯人員也應(yīng)當(dāng)把好關(guān)鍵詞修改的關(guān)口。一個刊物在學(xué)術(shù)界的影響力是通過它的 “影響因子”來衡量的。影響因子是由其他刊物的論文引證該刊物中刊載的文章次數(shù)的多少,經(jīng)過計算而得出來的。如果某刊物刊登的文章很有學(xué)術(shù)價值、有“創(chuàng)新”,但是由于文章的關(guān)鍵詞標(biāo)引不當(dāng),而很少被檢索出來,也就很少被引證,甚至長期不被發(fā)現(xiàn),其結(jié)果是降低了刊物的影響力。一些期刊的編輯部往往不對文章作者自己標(biāo)引的關(guān)鍵詞進(jìn)行修訂,因此它們刊載的文章長期不被引證,其原因之一就是關(guān)鍵詞標(biāo)引不當(dāng)。凡是有編輯出版各種文獻(xiàn)資料職責(zé)和功能的機(jī)構(gòu),如黨政機(jī)關(guān)的秘書機(jī)構(gòu)、司法機(jī)關(guān)等,它們書寫、編輯和出版的各種文件資料的關(guān)鍵詞標(biāo)引與前述編輯出版專門機(jī)構(gòu)的關(guān)鍵詞標(biāo)引有著同樣的重要性。因此,編輯人員對作者自己提出 (標(biāo)引)的文獻(xiàn)關(guān)鍵詞必須根據(jù) 《主題詞表》和專業(yè)知識進(jìn)行核對與修訂。審稿人員和編輯人員應(yīng)當(dāng)熟練掌握關(guān)鍵詞標(biāo)引的技術(shù)、技巧,盡量保障關(guān)鍵詞標(biāo)引的科學(xué)性和準(zhǔn)確率。
一位 (群)作者創(chuàng)作一篇 (部)文獻(xiàn)作品的目的是參與社會上的情報交流,把自己的觀點、方法、發(fā)明、經(jīng)驗等介紹給需要它的人們,以促進(jìn)科學(xué)與技術(shù)的發(fā)展和社會進(jìn)步。在信息化社會里,主題(詞)法文獻(xiàn)存儲和檢索的方法已經(jīng)成為主流,這種方法的起點是作者自己作關(guān)鍵詞標(biāo)引。如果能夠做到標(biāo)引科學(xué)和準(zhǔn)確,那么將大幅度地提高自己作品的被檢索率。反之,關(guān)鍵詞標(biāo)引不當(dāng)或者錯誤,而在編輯出版環(huán)節(jié)和文獻(xiàn)存儲過程中又沒有被校正和修訂,那么將大大降低作品的被檢索率,甚至長期不會被檢索出來。
主題標(biāo)引是指以詞(詞組)或短語作為文獻(xiàn)檢索標(biāo)識的一種標(biāo)引方法。文獻(xiàn)存儲是以主題詞為引導(dǎo)的,而查找文獻(xiàn)是以同主題詞對應(yīng)的“檢索詞”為“檢索入口”的。這與傳統(tǒng)的學(xué)科專業(yè)分類法文獻(xiàn)檢索是不同的。主題(詞)法文獻(xiàn)檢索適用于計算機(jī)自動檢索,也可以由人工檢索。在國際上,英文主題(詞)法文獻(xiàn)檢索是通用的。按照使用標(biāo)引詞的差別,主題標(biāo)引可分為關(guān)鍵詞標(biāo)引和受控標(biāo)引。關(guān)鍵詞標(biāo)引是自由標(biāo)引,即由文獻(xiàn)資料作者自己寫出關(guān)鍵詞。在寫出關(guān)鍵詞時可不借助檢索語言工具書(一般是各學(xué)科專業(yè)的《主題詞表》),而是按照作者自己的理解直接將文獻(xiàn)中關(guān)鍵性的詞及詞組、或短語提取出來,作為檢索標(biāo)識[2]。
受控標(biāo)引是指采用統(tǒng)一的、規(guī)范的檢索語言來控制和限定主題詞,而不能隨意使用非標(biāo)準(zhǔn)詞。各學(xué)科專業(yè)的主題詞在該學(xué)科專業(yè)統(tǒng)一的檢索語言工具書——《主題詞表》中列出。主題詞是經(jīng)過各學(xué)科專業(yè)的專家和圖書、情報與文獻(xiàn)專家共同研究審定后收入《主題詞表》內(nèi)的。我國已制定出各學(xué)科專業(yè)的《主題詞表》。鑒于中文(漢語)詞匯的豐富性、復(fù)雜性、外來語詞多、方言詞多,以及漢語文字形態(tài)的特殊性,在計算機(jī)文字處理和文獻(xiàn)檢索識別上的難度等多種因素,《主題詞表》中收入的詞條,基本上是“一詞一義”。例如,“Motor”一詞,在漢語中就有“發(fā)動機(jī)”、“馬達(dá)”和“摩托”等說法。在《主題詞表》中只限定“發(fā)動機(jī)”一詞為主題詞,而不用其他詞。因此,受控標(biāo)引只能選用詞表中規(guī)定的主題詞作為文獻(xiàn)的檢索標(biāo)識。
受控標(biāo)引是文獻(xiàn)檢索服務(wù)專業(yè)人員的工作,有其相當(dāng)?shù)膹?fù)雜性,如果沒受過專門的培訓(xùn),是難以完成這項工作的。有的刊物收稿時要求作者自己寫出主題詞,是不現(xiàn)實的。然而,這并不是說,作者在對文獻(xiàn)進(jìn)行關(guān)鍵詞標(biāo)引(自由標(biāo)引)時,可以自由地、隨意地和不受任何約束地選擇關(guān)鍵詞。下面的論述主要是就關(guān)鍵詞標(biāo)引問題加以闡述。
關(guān)鍵詞標(biāo)引應(yīng)當(dāng)反映文獻(xiàn)中論述的實質(zhì)性主題內(nèi)容(包括顯露的和隱含的主題內(nèi)容),選用最恰當(dāng)、最專指的關(guān)鍵詞。所寫的關(guān)鍵詞能反映文獻(xiàn)中所提出的新論點、新技術(shù)、新成果,并且是本學(xué)科專業(yè)中被公認(rèn)的、約定俗成的,直至是定型的、規(guī)范的、統(tǒng)一的和形成標(biāo)準(zhǔn)的名詞術(shù)語。要以最少量的關(guān)鍵詞,最完善、最準(zhǔn)確地描述主題內(nèi)容。
1.整個標(biāo)題照抄。不假思索地將整個標(biāo)題照抄下來作為關(guān)鍵詞,特別是在標(biāo)題很短,只有兩三個詞(詞組)的時候。
2.對標(biāo)題中的詞(詞組)不加選擇地分成若干個單位照抄。例如,“關(guān)于強(qiáng)制采用國家標(biāo)準(zhǔn)計量單位問題”,關(guān)鍵詞寫成:“關(guān)于;強(qiáng)制;采用;國家;標(biāo)準(zhǔn);計量;單位;問題”。實際上,只寫:“國家標(biāo)準(zhǔn)”和“計量單位”兩個詞組即可,其他的詞都是多余的。特別是“關(guān)于”和“問題”兩個詞,在關(guān)鍵詞和主題詞標(biāo)引中,這類詞屬于沒有實際意義的“通用詞”。
3.將全文中的章節(jié)小標(biāo)題都調(diào)出來當(dāng)作關(guān)鍵詞。例如,“文獻(xiàn)傳播芻議”,關(guān)鍵詞寫成:“文獻(xiàn)傳播;含義;要素;過程;特點;方式;功能;價值;原則;規(guī)律;效益”。實際上,只寫“圖書館;文獻(xiàn)傳播”即可。因為文章是論述圖書館的文獻(xiàn)傳播問題的,這兩個詞(詞組)可以概括文章的主題。其他詞都是一般的通用詞(泛指詞),對這篇文章來說,沒有專指性,可用,可不用。如“含義”,可說成“內(nèi)涵”、“要素”,也可說成“要點” ,等等。
4.認(rèn)為關(guān)鍵詞的數(shù)量與文獻(xiàn)的篇幅“成正比”,篇幅越大,關(guān)鍵詞數(shù)量就越多。其實,這是不科學(xué)的。如論文《俄語科技新詞匯術(shù)語的漢譯規(guī)律》(5千字),關(guān)鍵詞標(biāo)引:“俄語;術(shù)語;科學(xué)技術(shù)術(shù)語;翻譯;漢語”;而《俄漢機(jī)電工程詞典》(80萬字),關(guān)鍵詞標(biāo)引:“俄語;漢語;機(jī)械;電氣;詞匯 (或詞典)”。這就是說,關(guān)鍵詞的數(shù)量與論著的篇幅無關(guān)。
5.使用過長的、不規(guī)范的短語作為關(guān)鍵詞。如“大中專院校學(xué)生的素質(zhì)教育”,應(yīng)當(dāng)分解為:“大學(xué);中等專業(yè)學(xué)校;教育;素質(zhì)教育”。其中,“學(xué)生”可以省略,因為“學(xué)?!焙汀敖逃倍己w了“學(xué)生”?!按笾袑T盒!笔遣灰?guī)范且過長的口頭說法。
6.使用非標(biāo)準(zhǔn)、不規(guī)范的術(shù)語。 如“電腦”(應(yīng)為“計算機(jī)”)、“馬達(dá)”(應(yīng)為“發(fā)動機(jī)”)、“醋酸” (應(yīng)為“乙酸”)、“擴(kuò)印” (應(yīng)為“自動化印片”)、“社科” (應(yīng)為“社會科學(xué)”)、“馬列” (應(yīng)為“馬克思和列寧”)、“鐳射” (應(yīng)為“激光”)以及“液化氣”(應(yīng)為“液化石油氣”),等等。
關(guān)鍵詞標(biāo)引總的原則是:能反映文獻(xiàn)(論文、著作、報告、文件等)中論述的實質(zhì)主題內(nèi)容(包括顯露的和隱含的概念);選用最恰當(dāng)、最專指的術(shù)語(詞、詞組或短語)作為關(guān)鍵詞。關(guān)鍵詞能反映文獻(xiàn)中所提出新觀點、新技術(shù)、新成果或其他新的信息。關(guān)鍵詞應(yīng)當(dāng)是本學(xué)科專業(yè)中被公認(rèn)的、定型化的、規(guī)范的和標(biāo)準(zhǔn)的名詞術(shù)語。要以最少量的關(guān)鍵詞,最完整地和最準(zhǔn)確地描述主題內(nèi)容。
在文獻(xiàn)中常常遇到許多自然語言詞匯的復(fù)合詞或短語(自然語言是指文獻(xiàn)作者自由采用的語言詞匯,這些詞匯不是規(guī)范化的和收入主題詞表的)。這些復(fù)合詞或短語的概念很復(fù)雜,組成復(fù)合詞或短語的獨立詞之間相互關(guān)系也很復(fù)雜,或從屬、或并列,不宜用它們來作關(guān)鍵詞標(biāo)引。應(yīng)該將它們分解開來,采用若干獨立的、并列的關(guān)鍵詞來標(biāo)識。通過這些詞之間的形式邏輯關(guān)系來表達(dá)出復(fù)雜的概念,這就是組配技術(shù)。通過組配技術(shù),可以把兩個或多個概念按照一定的規(guī)則復(fù)合起來,表示一個更專指的完整概念。下面舉例說明,同時介紹一些運用組配技術(shù)的規(guī)律。
例1:半自動磨床。應(yīng)分解成:半自動機(jī)床;磨床。此間,在 “半自動”的后面加了 “機(jī)床”一詞,因為“機(jī)床”涵蓋了 “磨床”。這樣,在將來其他人檢索 “磨床”資料,提出檢索詞時勢必先將 “機(jī)床”一詞作為檢索入口。因此,如果只提出 “半自動”,而不提出“機(jī)床”,那么這篇文章就會被漏檢。另外,“半自動”對這篇文章來說,不是專指的,而是泛指的,可以修飾大量的科技術(shù)語。“半自動機(jī)床”就是專指的了?!鞍胱詣訖C(jī)床”與 “磨床”的概念是相容的。它們的外延是部分重合的關(guān)系,也就是說,半自動磨床即是一種半自動機(jī)床,又是一種磨床。因此,用 “半自動機(jī)床;磨床”這兩個對應(yīng)的概念詞來組配是很準(zhǔn)確的。
例 2:食品包裝用玻璃容器。關(guān)鍵詞應(yīng)為:食品包裝容器;玻璃容器。如果標(biāo)引為“食品包裝;玻璃容器”,則是不對的?!笆称钒b”與“玻璃容器”并不相容,因為“食品包裝”不一定專指容器,它也可以指包裝技術(shù)、包裝材料、包裝標(biāo)準(zhǔn)或包裝裝潢。只有在“食品包裝”后面加上“容器”一詞,才能使文獻(xiàn)檢索機(jī)構(gòu)的標(biāo)引員做主題標(biāo)引時不至于出錯。
例 3:噴氣式垂直起落飛機(jī)。關(guān)鍵詞應(yīng)為:噴氣式飛機(jī);垂直起落飛機(jī)。不能寫成“噴氣式;垂直起落;飛機(jī)”,更不能寫成:“噴氣式;垂直;起落;飛機(jī)”。否則,其文章就會被漏檢。
例4:光化學(xué)反應(yīng)機(jī)理。關(guān)鍵詞應(yīng)為:光化學(xué)反應(yīng);反應(yīng)機(jī)理。后者不宜只寫成“機(jī)理”,因為“機(jī)理”一詞的泛指性太強(qiáng),可以指任何機(jī)理。而加上“反應(yīng)”一詞,一下子把“機(jī)理”劃到了化學(xué)反應(yīng)的范圍內(nèi),“反應(yīng)機(jī)理”這個關(guān)鍵詞就有了很強(qiáng)的專指性。
選擇關(guān)鍵詞的時候,要使用最符合于文獻(xiàn)主題概念的、最具專指性的詞。換言之,要盡量避免使用那些與文獻(xiàn)主題概念所屬的學(xué)科、專業(yè)距離太遠(yuǎn)的泛指詞,如理論、實驗、原則、問題、研究、機(jī)理和規(guī)律,等等。即使選擇的是專業(yè)術(shù)語,如機(jī)械、配件、動力、軸、車、水、壓力、光和氣體等詞,也要適當(dāng)加上限定詞,以使其具有專指性。
例1:軸系的計算機(jī)輔助設(shè)計。雖然文獻(xiàn)的主體是“軸”,但是在正文內(nèi)容中卻是指齒輪、皮帶輪、鏈輪等傳動零件上用的軸,因此關(guān)鍵詞應(yīng)寫成:傳動軸;計算機(jī)輔助設(shè)計。而不能將“傳動軸”寫成“軸”,因為只一個“軸”字,不能表明它屬于機(jī)械零件類。盡管文獻(xiàn)標(biāo)題中只有一個“軸”字,但是必須根據(jù)文獻(xiàn)主題,將其擴(kuò)展為“傳動軸”。
例 2:彎曲疲勞極限。此間有“彎曲”、“疲勞”和“極限”三個詞。但是,不能把這三個詞列為關(guān)鍵詞,因為它們對于文獻(xiàn)主題來說,都缺乏專指性?!皬澢辈⒉皇遣牧狭W(xué)的專指詞,可以指許多專業(yè)學(xué)科的“彎曲”。同樣,“疲勞”一詞,如果不加以擴(kuò)展的話,最容易聯(lián)想到的是體育運動或人體科學(xué)類的用詞。如果擴(kuò)展為“彎曲疲勞”,那么就屬于材料力學(xué)類了?!皹O限”最好擴(kuò)展為“疲勞極限”,否則“極限”一詞就太泛指了。因此,關(guān)鍵詞標(biāo)引成“彎曲疲勞;疲勞極限”是最好的[3]。
主題分析是寫關(guān)鍵詞之前的必要程序。主題分析是對文獻(xiàn)內(nèi)容進(jìn)行分析,從中提煉出主題概念,據(jù)此寫出最恰當(dāng)?shù)年P(guān)鍵詞。主題分析工作極為重要,關(guān)鍵詞標(biāo)引質(zhì)量的好壞及以后文獻(xiàn)被檢索率的高低,首先取決于主題分析結(jié)果的優(yōu)劣。
主題分析包括對文獻(xiàn)的審讀、主題概念的提煉和隱含主題概念的分析等步驟。隱含主題概念是指文獻(xiàn)標(biāo)題和摘要中都沒有顯露出來的概念。此概念只能從文獻(xiàn)全文中去提煉,如果不提煉出來,關(guān)鍵詞就無法正確標(biāo)引。因此,文獻(xiàn)標(biāo)題和摘要最好能把反映主題概念的詞(詞組)包括進(jìn)來,否則關(guān)鍵詞就得從文獻(xiàn)全文中去尋找。
主題分析誤差,是指提煉出來的主題概念與文獻(xiàn)中論述的主題概念之間的人為誤差。這種誤差是文獻(xiàn)作者在標(biāo)引關(guān)鍵詞前,主題分析不準(zhǔn)造成的。主題分析不準(zhǔn),必然造成關(guān)鍵詞標(biāo)引不準(zhǔn),并會導(dǎo)致這份資料不能被檢索出來,或者很容易被其他不相干的專業(yè)學(xué)科的人員檢索出來(但是由于沒有用處,而棄用)。主題分析誤差有如下幾種類型,即:
1.主題概念提煉不全。提煉出來的主題概念少于文獻(xiàn)中論述的主題概念。在大多數(shù)情況下,一篇文獻(xiàn)的主題概念都不止一個。如果少提煉出一個,則關(guān)鍵詞就會少標(biāo)引一個。如果文獻(xiàn)檢索機(jī)構(gòu)的主題詞標(biāo)引人員在做主題標(biāo)引時,按作者自標(biāo)的關(guān)鍵詞抄錄,那么就會形成“漏標(biāo)”。以后有信息用戶在檢索與上述文獻(xiàn)主題概念相同或相近的文獻(xiàn)時,“漏標(biāo)”的這篇文獻(xiàn)就會被漏檢,甚至這篇文獻(xiàn)有如石沉大海、永遠(yuǎn)被埋沒。例如,激光檢測超聲波探頭聚集效果,這里應(yīng)有“激光”、“激光檢測”、“超聲波探頭”、“超聲波聚集”等幾個主題概念。如果漏掉一個“超聲波探頭”主題概念,那么有人檢索關(guān)于超聲波探頭的文獻(xiàn)時,就會漏檢這篇文獻(xiàn)。
2.主題概念提煉過多。提煉出來的主題概念多于文獻(xiàn)中論述的主題概念,于是造成了過度標(biāo)引。由于關(guān)鍵詞標(biāo)引量過大,造成主題詞標(biāo)引量也大,由此所產(chǎn)生的問題是:其一,主題詞的專指度過深、主題概念過細(xì)、主題詞過多。繼而造成的結(jié)果是,用戶在文獻(xiàn)檢索時,提出的主題概念沒那么細(xì),提出的檢索詞的專指度沒那么深,因此上述的那篇文獻(xiàn)就會檢索不出來。例如,食糖代用品——甜味劑、木糖醇、蛋白糖、甜菊糖、糖精等的色譜分析,實際上只標(biāo)引 “甜味劑分析;色譜分析”就可以了。如果標(biāo)引成 “食糖;代用品;甜味劑;木糖醇;蛋白糖;甜菊糖;色譜;分析”,那么主題概念就太深了,也太細(xì)了。當(dāng)有人想檢索關(guān)于甜味劑的色譜分析時,只提出“甜味劑;色譜分析”兩個檢索詞。那么,上述這篇文獻(xiàn)就會漏掉。其原因是,檢索詞涵蓋主題法檢索某文獻(xiàn)的主題詞時,該文獻(xiàn)就可以被檢索出來,否則就會漏檢。上述文獻(xiàn)的關(guān)鍵詞標(biāo)引太細(xì),像“木糖醇”一類的甜味劑名稱都標(biāo)引出來,就說明主題概念提煉太深了。其二,因為標(biāo)引了無檢索價值的關(guān)鍵詞,在后期有人進(jìn)行文獻(xiàn)檢索時,也提出一些無價值的檢索詞,就會檢出一堆無關(guān)的和無參考價值的文獻(xiàn),這就影響了查準(zhǔn)率。
3.沒有分析出文獻(xiàn)中隱含的主題概念。隱含的主題概念是指隱藏在文獻(xiàn)正文中的,但是在文獻(xiàn)標(biāo)題和摘要中都沒有顯露出來的主題概念。因為這樣的主題概念是隱含的,所以不容易發(fā)現(xiàn)、容易漏掉。因此,在提煉主題概念時,務(wù)必要透過現(xiàn)象看本質(zhì),以防漏標(biāo)重要的關(guān)鍵詞。例如:(1)高溫環(huán)境中使用的合金。實際上,其主題概念是“耐熱合金”,但是在標(biāo)題和摘要中都沒有顯露出來。此間,“耐熱合金”這一關(guān)鍵詞是不可缺少的。 (2)聚合物燃燒的毒性氣體。實際上文獻(xiàn)隱含了“火災(zāi)”或“消防”主題概念。(3)煙囪排出煙塵的防治。它隱含了“大氣污染”的主題概念。
在科學(xué)技術(shù)論文、著作和其他文獻(xiàn)中常常出現(xiàn)“問題”、“研究”、“方法”、“理論”、“設(shè)計”、“制造”、“原理”、“芻議”、“討論”、“規(guī)則”、“探討”、“分析”、“論證”、“調(diào)研”、“對策”和“措施”等,這些詞都屬于通用概念詞之列。盡管這些通用概念詞有一定程度的專指性,但是它們的外延廣泛、內(nèi)涵很淺。因此,通常只用來標(biāo)引一些泛指性強(qiáng)的文獻(xiàn),如綜述性文獻(xiàn)。在專指性文獻(xiàn),即專門論述某個科學(xué)技術(shù)專題的文獻(xiàn)中,上述的通用概念詞不能不加選擇地一一加以標(biāo)引。否則,必將造成泛標(biāo)。其結(jié)果是,不但沒有起到加深揭示文獻(xiàn)主題內(nèi)容的作用,反而把專指性文獻(xiàn)變成了泛指性文獻(xiàn)來加以存儲,進(jìn)而會造成泛指性的綜述性文獻(xiàn)與專指性文獻(xiàn)“混在一起”(因為都標(biāo)引了通用概念詞)。當(dāng)有人檢索某專業(yè)學(xué)科的文獻(xiàn)時,如果某篇文獻(xiàn)標(biāo)引的主題詞(援引了作者自標(biāo)的關(guān)鍵詞)中有通用概念詞,而檢索時的檢索詞又沒有這個通用概念詞,于是產(chǎn)生這樣的后果:或者檢出一大堆無參考價值的綜述性文獻(xiàn)(有時多至幾百、上千篇),以致要查找的專業(yè)文獻(xiàn)被淹沒在大量文獻(xiàn)中無法找到;或者因沒有提出這個通用概念詞,而檢索不出所需要的專業(yè)文獻(xiàn)。另一種情況是,當(dāng)檢索綜述性文獻(xiàn)時,由于作者的專業(yè)文獻(xiàn)標(biāo)引了通用關(guān)鍵詞,而被檢索出來,但是又沒有用處。應(yīng)當(dāng)指出,并非通用概念詞都不作標(biāo)引,當(dāng)它們與其他詞形成有專指性的詞(詞組)成為專業(yè)詞時,應(yīng)當(dāng)標(biāo)引,如理論物理、發(fā)展研究、工業(yè)設(shè)計、差示熱分析等。
例1:“治療心率失常的幾種方法”不必標(biāo)引“方法”一詞。
例 2:“青霉素過敏休克機(jī)制的研究”不必標(biāo)引“研究”一詞。
例3:“關(guān)于加強(qiáng)企業(yè)開發(fā)研究的措施”可以標(biāo)引出“研究”一詞,因為“開發(fā)研究”是這篇綜述性文獻(xiàn)的主題概念?!捌髽I(yè)”一詞應(yīng)當(dāng)標(biāo)出,而“措施”一詞可不標(biāo)?!凹訌?qiáng)”一詞不標(biāo)。
標(biāo)引深度是指對文獻(xiàn)的內(nèi)容特征(如標(biāo)題、摘要和文獻(xiàn)全文)進(jìn)行描述時所達(dá)到的深度,即對一篇文獻(xiàn)所給予的關(guān)鍵詞(在文獻(xiàn)存儲時再轉(zhuǎn)化為主題詞)數(shù)量的多少。標(biāo)引深度確定的是否合適將直接影響標(biāo)引質(zhì)量和將來的文獻(xiàn)檢索效率,而標(biāo)引深度的確定在很大程度上取決于關(guān)鍵詞(主題詞)標(biāo)引是用于人工檢索系統(tǒng),還是計算機(jī)檢索系統(tǒng)。對于人工檢索系統(tǒng)來說,平均每篇文獻(xiàn)的關(guān)鍵詞選擇2個~5個為宜;而對于計算機(jī)檢索系統(tǒng)來說,平均每篇文獻(xiàn)的關(guān)鍵詞以5個~15個為宜。因為人工檢索系統(tǒng)是由檢索人員手工操作的,他們在查找文獻(xiàn)時既根據(jù)主題詞,也發(fā)揮個人的智能、思維和聯(lián)想能力,所以即使只有幾個主題詞,也能將用戶所需要的那些文獻(xiàn)檢索出來。計算機(jī)檢索是靠信息用戶提出的檢索詞與原來文獻(xiàn)標(biāo)引的主題詞(根據(jù)作者自己標(biāo)引的關(guān)鍵詞轉(zhuǎn)化而來)的對應(yīng)和匹配程度,由計算機(jī)根據(jù)漢語詞(詞組)或外文詞 (一般為英文)的形態(tài)(經(jīng)由軟件數(shù)碼轉(zhuǎn)換),在文獻(xiàn)存儲數(shù)據(jù)庫中進(jìn)行搜索而查找出來的。因此,它要求有足夠量的,而且是恰如其分的文獻(xiàn)主題詞標(biāo)引。
例如,“保持水果新鮮的方法”一文,在正文中論述了在地窖中用調(diào)節(jié)空氣的方法對各種水果進(jìn)行儲藏的經(jīng)驗,從而較好地保持水果的色味。
如是人工檢索系統(tǒng),即手工檢索系統(tǒng)的關(guān)鍵詞標(biāo)引為:水果;食品;保鮮;食品;儲藏。
如是計算機(jī)檢索系統(tǒng),則關(guān)鍵詞標(biāo)引為:水果;食品保鮮;食品 ;儲藏;地下儲藏;空 (氣)調(diào) (節(jié));儲藏。
過度標(biāo)引是指不切合主題概念的關(guān)鍵詞標(biāo)引,有以下幾種情況:標(biāo)引了一些專指度過深的關(guān)鍵詞(和以后的主題詞),標(biāo)引了一些沒有實際情報價值的關(guān)鍵詞,在同一標(biāo)引深度上反復(fù)標(biāo)引或亂標(biāo)引。這樣,就降低了標(biāo)引質(zhì)量,其結(jié)果是嚴(yán)重地影響了被標(biāo)引文獻(xiàn)的被檢索效率?;蛟S,這篇文獻(xiàn)永遠(yuǎn)不會被檢索出來。造成過度標(biāo)引的原因,主要是作者撰寫文獻(xiàn)后,在標(biāo)引關(guān)鍵詞時,不善于進(jìn)行主題概念分析和提煉。作者往往認(rèn)為,只要把文獻(xiàn)標(biāo)題中的主要詞(詞組)提取出來就行了,并且認(rèn)為關(guān)鍵詞越多越好,可結(jié)果卻適得其反。舉例說明。
例1:焊接厚度不銹鋼板。該文對“厚度”一詞沒有作具體的闡述。文中所表述的是對有一定厚度的不銹鋼板進(jìn)行焊接的技術(shù)。“厚度”只是捎帶敘述的概念,是次要的概念。不銹鋼板的焊接,當(dāng)然要涉及不同厚度的板材。因此,“厚度”一詞在該文獻(xiàn)中并不是特別專指的術(shù)語,于是也就不用作為關(guān)鍵詞提取出來。當(dāng)有人檢索不銹鋼板焊接的文獻(xiàn)時,會檢出上述這篇文獻(xiàn)。如果標(biāo)引時加上“厚度”一詞,在檢索時,又不提取出“厚度”這個檢索詞,則上述文獻(xiàn)就有可能漏檢。
例2:對涂層顆粒燃料進(jìn)行輻射實驗,以確定封裝燃料的石墨涂層最佳厚度。此文中的“厚度”與“例1”中的“厚度”不同 ,“例 2”中的“厚度”恰恰是文獻(xiàn)中很重要的主題概念。如果沒有這個術(shù)語,文獻(xiàn)就沒有意義了;而“例 1”中的“厚度”并不那么重要。因此,“例2”文獻(xiàn)中的關(guān)鍵詞必須標(biāo)出“厚度”這個詞。
由于漢語字的構(gòu)詞、語音和形態(tài)有博大精深的一面,也有錯綜復(fù)雜的一面,在計算機(jī)中,中文文字的處理、存儲、辨認(rèn)和搜索都比英文復(fù)雜得多。英文只有26個字母、10個數(shù)字和若干個符號,經(jīng)過數(shù)碼變換編制成比較圓滿的英文文獻(xiàn)檢索語言。而漢字就沒那么簡單了,光標(biāo)準(zhǔn)中文簡化字的軟件編碼就比英文復(fù)雜得多,而且 “一詞多義”和 “一義多詞”的現(xiàn)象比比皆是,加之簡、繁體字 (我國大陸的繁體字編碼和港澳臺繁體字Big5編碼),異體字、古體字和自造簡化字 (人們也能認(rèn)識)及數(shù)字的各種寫法等情況,如果不加以規(guī)范的話,根本無法進(jìn)行計算機(jī)文字處理,更無法進(jìn)行文獻(xiàn)檢索。為此,一方面,中文文獻(xiàn)檢索的國家主管機(jī)構(gòu)要下大力氣對各學(xué)科專業(yè)漢語術(shù)語、主題詞 (檢索詞、關(guān)鍵詞)進(jìn)行規(guī)范;另一方面,也要求專業(yè)技術(shù)人員提高這方面的業(yè)務(wù)水平,盡可能掌握關(guān)鍵詞標(biāo)引技術(shù),為國家中文文獻(xiàn)檢索系統(tǒng)做出貢獻(xiàn),也為自己的文獻(xiàn)被廣泛利用做出努力。
例1:硫氧、碳氧、溴氧和銨海波在攝影沖洗中的應(yīng)用。這里的幾個化學(xué)物品的名稱全錯了?!傲蜓酢睉?yīng)為“亞硫酸鈉”、“碳氧”應(yīng)為“碳酸鈉”、“溴氧”應(yīng)為“溴化鉀”,而“銨海波”應(yīng)為“硫代硫酸銨”,這確實是在某雜志中出現(xiàn)的錯誤。前三個化學(xué)物品俗名是解放前到 20世紀(jì) 60年代在照相業(yè)使用的俗語,“銨海波”一詞是錯在以訛傳訛?!昂2ā?Hypo)是定影劑硫代硫酸鈉的德語商品名。后來,攝影化學(xué)家發(fā)現(xiàn)硫代硫酸銨的定影能力比硫代硫酸鈉強(qiáng),定影時間很短,而且易溶于水?!扳c”和“銨”一字之差,于是有人編造出“銨海波”這個錯誤的術(shù)語。
例2:層析、薄層層析、氣層、液層。這幾個術(shù)語是20世紀(jì)80年代以前分析化學(xué)界使用的術(shù)語。 20世紀(jì) 80年代后期國家制定色譜術(shù)語標(biāo)準(zhǔn)和《英漢色譜技術(shù)詞匯》(第 2版)(1985年,科學(xué)出版社出版,作者:戰(zhàn)英民)的出版,上述幾個術(shù)語分別應(yīng)當(dāng)是:色譜(法)、薄層色譜 (法)、氣相色譜法、液相色譜法。
例3:不規(guī)范的縮寫詞。如環(huán)保(環(huán)境保護(hù))、工管(工業(yè)管理)、農(nóng)行 (農(nóng)業(yè)銀行)、成教 (成人教育)、基建 (基本建設(shè))、汽配 (汽車配件)、光驅(qū) (光盤驅(qū)動器)、軟驅(qū) (軟盤驅(qū)動器)和彩電 (彩色電視機(jī))等 ,這些不規(guī)范的縮寫詞都不能用作關(guān)鍵詞,必須使用科學(xué)和完整的術(shù)語。
例 4:不規(guī)范的術(shù)語。如資訊(信息)、軟體(軟件)、程式 (程序)、的士 (出租車)、錄影 (錄像)、光碟(光盤)和菲林 (感光膠片)等來自我國港澳臺的不規(guī)范術(shù)語,也不能用作關(guān)鍵詞。
例 5:不規(guī)范的外文譯音、商品名或俗稱引出的不規(guī)范詞(詞組)。如福爾馬林(甲醛水溶液)、哥羅仿(氯仿、三氯甲烷)、米吐爾(甲基對氨基苯酚硫酸鹽)、海波(硫代硫酸鈉)、傻瓜照相機(jī)(小型自動照相機(jī)、袖珍自動照相機(jī)或便攜式自動照相機(jī))、電眼或光眼 (光敏傳感器)和“貓”(調(diào)制解調(diào)器)等 ,這些從外文譯音、商品名或俗稱引出的不規(guī)范的詞(組),都不能用作關(guān)鍵詞。
例6:國名、地名、單位名、人名和民族名等不能隨意縮減作為關(guān)鍵詞。如大馬(馬來西亞)、印尼(印度尼西亞)、京津 (天津和北京)、港澳(香港和澳門)、河大(河北大學(xué))、河北工大(河北工業(yè)大學(xué))、北大(北京大學(xué))、中科院(中國科學(xué)院)、國辦 (國務(wù)院辦公廳)、沫若(郭沫若)和蒙族(蒙古族)等 ,這些國名、地名、單位名、人名和民族名等(以及在包含它們的詞組和短語中),都不能隨意縮減作為關(guān)鍵詞。除非是已經(jīng)固定的和規(guī)范化了的詞(詞組)和短語,如“馬氏體”、“馬列主義”、朝鮮(朝鮮民主主義人民共和國)和韓國(大韓民國)等可以作為關(guān)鍵詞。
例7:對于化學(xué)品名稱,應(yīng)當(dāng)采用標(biāo)準(zhǔn)化學(xué)命名,不要使用俗稱。如甲酸(不用“蟻酸”)、甲醛(不用“福爾馬林”)、乙酸 (不用“醋酸”)和碳酸鈉 (不用“純堿”)等。
例8:對于還沒有形成規(guī)范的和普遍采用的一些術(shù)語。像“火用”(yong)字(物理化學(xué)用詞)等還是詞典中沒有的。在標(biāo)引關(guān)鍵詞時,它是核心的關(guān)鍵詞。為確保這篇文獻(xiàn)將來能夠被檢索出來,并加以引證,可以采取另加一個解釋性概念詞(詞組)或短語的方法,也可以在其后加上英語術(shù)語。
例9:對于商標(biāo)名,一般不宜作關(guān)鍵詞,除非是知名度很高的商標(biāo)名。知名度低的商標(biāo)名,極少有人用它來作檢索詞。如果非用這個商標(biāo)名不可,就加上它的商品名或物質(zhì)名。
前面已經(jīng)談過,由于漢語言文字的特殊性和復(fù)雜性,因此在主題法文獻(xiàn)檢索系統(tǒng)中,對關(guān)鍵詞、主題詞和檢索詞的要求很嚴(yán)格。關(guān)鍵詞的標(biāo)引,必須做到科學(xué)、規(guī)范和合理。否則,必將引起文獻(xiàn)檢索的麻煩:檢索速度慢,甚至反復(fù)修改檢索詞也難以查出,查全率和查準(zhǔn)率都很差;而英文文獻(xiàn)檢索的麻煩就少得多。除了英文文字的計算機(jī)處理比漢字要省事得多以外,還有一個重要因素,即英文文獻(xiàn)的關(guān)鍵詞 (主題詞及以后的檢索詞)越來越傾向于使用自然詞(非受控的主題詞)。當(dāng)然,所謂自然詞,也包含了規(guī)范的和標(biāo)準(zhǔn)的專業(yè)技術(shù)術(shù)語。另外,對于中國人來說,在英語學(xué)習(xí)過程中,學(xué)的是標(biāo)準(zhǔn)英語,很少帶英美國家的俚語及其他不規(guī)范的地方語言色彩。在這些背景下,我們撰寫英文文獻(xiàn)使用的英文詞語是比較規(guī)范的,所標(biāo)引的英文關(guān)鍵詞也是比較規(guī)范的。
在標(biāo)引英文關(guān)鍵詞的時候,盡量不要使用“and”、“ of”、“&”、“ -”、“* ”等連接詞、介詞和符號,也避免使用冠詞。不要詞組套詞組,非用短語作關(guān)鍵詞不可的,也不宜太長。只要標(biāo)引的關(guān)鍵詞能說明問題,用詞量越少越好。總體來說,無論是直接寫英文關(guān)鍵詞,還是由中文關(guān)鍵詞譯成英文,標(biāo)引規(guī)則和注意事項與中文關(guān)鍵詞是基本一致的。只是英文關(guān)鍵詞的用詞不像中文關(guān)鍵詞要求的那么嚴(yán)格,不必苛求必需是規(guī)定的和主題詞表上列出的。但是,在各學(xué)科專業(yè)的漢語主題詞表中所收錄的規(guī)范詞后,都列出了英文對照詞;在專業(yè)漢英詞典中收錄的詞匯都是精心選擇、反復(fù)核實和論證的。各詞條釋文的第一個英文詞,都是規(guī)范或推薦用詞。選擇它們作關(guān)鍵詞是比較可靠的,應(yīng)當(dāng)盡量采用。
作者對文獻(xiàn)進(jìn)行關(guān)鍵詞標(biāo)引的目的是:為文獻(xiàn)檢索系統(tǒng)的標(biāo)引人員進(jìn)行主題詞標(biāo)引做基礎(chǔ)工作。關(guān)鍵詞標(biāo)引質(zhì)量對主題詞標(biāo)引將產(chǎn)生決定性的影響,主題詞標(biāo)引的質(zhì)量將直接影響該文獻(xiàn)今后被信息用戶檢索的幾率。簡言之,作者對文獻(xiàn)進(jìn)行關(guān)鍵詞標(biāo)引的目的是為了使信息用戶能夠順利和準(zhǔn)確地檢索到自己的文獻(xiàn)。因此,關(guān)鍵詞標(biāo)引工作是十分重要的和應(yīng)當(dāng)做好的。
關(guān)鍵詞標(biāo)引工作不是文獻(xiàn)作者的個人行為,而是建立暢通的文獻(xiàn)檢索系統(tǒng)的重要組成部分,應(yīng)當(dāng)引起所有專業(yè)技術(shù)工作者的重視。關(guān)鍵詞標(biāo)引不是隨意的,而是有規(guī)則的,所有專業(yè)技術(shù)工作者都應(yīng)當(dāng)掌握這些規(guī)則 ,把關(guān)鍵詞標(biāo)引做得科學(xué)、規(guī)范和合理。
文獻(xiàn)作者在對文獻(xiàn)進(jìn)行關(guān)鍵詞標(biāo)引的時候,如果站在文獻(xiàn)信息用戶的立場上來考慮如何能找到這篇文獻(xiàn),再進(jìn)行關(guān)鍵詞標(biāo)引,將是有益的。對于從事某一特定專業(yè)技術(shù)領(lǐng)域的研究工作的人員來說,掌握本學(xué)科專業(yè)的主題詞(及尚未列入主題詞表的學(xué)術(shù)界公認(rèn)的專業(yè)術(shù)語)并不困難。同時,掌握關(guān)鍵詞標(biāo)引技術(shù)也不困難。只要大家共同努力,我們的中文文獻(xiàn)主題法檢索系統(tǒng)的建設(shè)就會日臻完善,早日達(dá)到英文主題法計算機(jī)檢索系統(tǒng)那樣的水平。
本文意在探討文獻(xiàn)作者自己標(biāo)引關(guān)鍵詞應(yīng)注意的一些問題,并非討論文獻(xiàn)檢索系統(tǒng)的主題詞標(biāo)引工作。主題詞標(biāo)引是一項專業(yè)化的工作,是很復(fù)雜的。關(guān)于主題標(biāo)引問題,有許多專著和論文。非圖書、情報和文獻(xiàn)方面的專業(yè)技術(shù)工作者,只要做好自己撰寫的文獻(xiàn)的關(guān)鍵詞標(biāo)引工作,也就可以了。另外,在進(jìn)行文獻(xiàn)檢索時,如何提出檢索詞和如何處理檢索詞之間的邏輯關(guān)系,也是有一定工作難度的,需要掌握“布爾算子”和“布爾邏輯組配”知識,才能順利地進(jìn)行文獻(xiàn)檢索。這并不是要求所有的人都得掌握這些知識和技術(shù),因為有專門的文獻(xiàn)檢索服務(wù)人員對信息用戶提供幫助。然而,專業(yè)技術(shù)工作者在主題法文獻(xiàn)檢索系統(tǒng)查找文獻(xiàn)時,必須向服務(wù)人員說清楚你要查找文獻(xiàn)的內(nèi)部特征(如學(xué)科專業(yè)、主題概念和自己從事的研究課題所需文獻(xiàn)的范圍等)和外部特征(如期刊名、出版地、出版年限、文獻(xiàn)作者等),以便于確定檢索詞;同時要認(rèn)真填好文獻(xiàn)檢索服務(wù)機(jī)構(gòu)的“提問表”。在進(jìn)行文獻(xiàn)檢索前也可以向圖書、情報、文獻(xiàn)工作者和做過文獻(xiàn)檢索的專業(yè)技術(shù)人員進(jìn)行咨詢。
擬撰寫此文時得到了楊華同志的大力支持,又承蒙楊華同志對本文進(jìn)行了認(rèn)真的審讀和修訂,筆者對楊華同志表示衷心的感謝。
[1]錢起霖.漢語主題詞標(biāo)引手冊 [M].北京:科技文獻(xiàn)出版社 ,1985:1~12,200~208.
[2]錢起霖.漢語主題詞標(biāo)引手冊 [M].北京:科技文獻(xiàn)出版社 ,1985:1~12,200~208.
[3]戰(zhàn)麗生,戰(zhàn)英民.主題詞型手工檢索系統(tǒng)檢索款目編排工作初探 [J].情報科學(xué),1987,8(4):28~31.