亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        檢索語言的表示形式及發(fā)展方向

        2010-08-15 00:49:27孫赟星
        中國新技術(shù)新產(chǎn)品 2010年18期
        關(guān)鍵詞:語言系統(tǒng)

        孫赟星

        (哈爾濱市科學(xué)技術(shù)情報研究所,黑龍江 哈爾濱 150000)

        1 檢索語言的定義

        檢索語言是信息檢索系統(tǒng)存貯與檢索所使用的共同語言。它是專門用來描述文獻的內(nèi)容特征、外表特征和表達情報提問的一種人工語言。由于自然語言不可避免地存在詞匯上的歧義性,語義上的歧解性,不便用于標引和檢索工作,因此情報檢索領(lǐng)域出現(xiàn)了各種檢索語言。 檢索語言由具體的檢索標識構(gòu)成。包括分類語言、主題語言和代碼語言。分類語言是以數(shù)字和字母相結(jié)合作為基本字符,以基本專業(yè)類目為基本詞匯,以類目的從屬關(guān)系來表達復(fù)雜概念的一類檢索語言。用分類語言來描述和表達文獻內(nèi)容的加工方法稱為分類法。

        2 檢索語言的表示形式

        2.1 以詞表的方式建立的綜合詞表和各類專業(yè)詞表

        受控檢索語言是通過詞表對檢索語言中的同義詞、同音詞、多義詞、同形異義詞、近義詞等進行規(guī)范化處理,建立各詞之間的相互關(guān)系和位置。具體地說就是通過“用、代、屬、分、參”來限定各詞的語義和關(guān)系,通過詞族可了解一詞的上下位關(guān)系,通過用/代項可知道某詞的同義詞和近義詞,對于采用主題法對文獻進行主題標引并使文獻按一定規(guī)律排列的加工過程來說,敘詞表起到了規(guī)范用詞的標準作用。

        世界各大型情報機構(gòu)都有自己的主題詞表。例如:英國劍橋科學(xué)文摘CSA(Cambridge Scientific Abstracts)有主題詞表(Thesaurus),作為標引和檢索的查詢工具。在我國,比較權(quán)威的是應(yīng)用分類法組織文獻信息的《中圖分類法》和應(yīng)用主題法組織文獻信息的《漢語主題詞表》,以及代表文獻處理發(fā)展方向——分類主題一體化的《中國分類主題詞表》。各個專業(yè)情報機構(gòu)依據(jù)專業(yè)資料的特殊性又相繼編制了各類專業(yè)詞表。據(jù)不完全統(tǒng)計,國內(nèi)已實際應(yīng)用的詞表有60多部,詞表容量超過1萬的有10部左右。我所《電子科技文摘》的編輯與組織就是依照《電子技術(shù)敘詞表》進行主題標引的,同時建立的“電子科技文摘數(shù)據(jù)庫”也以該表作為檢索語言。

        2.2 詞表的聯(lián)機顯示

        將敘詞表輸入到計算機中,應(yīng)用菜單技術(shù)制成電子版的多窗口聯(lián)動的顯示界面,可同時顯示一詞條的相關(guān)關(guān)系(如中英文對照、分類號、用詞代詞等),有利于機輔標引時詞表的使用和詞表維護修訂。中國國防科技信息中心研制的圖書館業(yè)務(wù)子系統(tǒng)(LibMIS)中的“文獻著錄和標引模塊”,采用了以《國防科學(xué)技術(shù)敘詞表》為主體的計算機輔助聯(lián)機標引,依次通過“敘詞導(dǎo)航”提供查詢詞庫功能,通過“敘詞定位”反映敘詞詞族關(guān)系,“敘詞調(diào)整”使敘詞進入到標引記錄,通過“增加自由詞”實現(xiàn)自由詞標引。該中心2000年出版的電子版《國防科學(xué)技術(shù)敘詞表》擁有敘詞90000條,自由詞2000條,在詞表維護界面上可完全實現(xiàn)對詞表的增、刪、改以及對某詞條的范疇號、用代詞的界定。如此大容量的詞表若印刷成書,其厚度將難以想象。計算機的應(yīng)用以其高速度、大存儲容量為檢索語言的聯(lián)機顯示鋪平了道路。

        《計算機世界》的在線標引界面的敘詞與自由詞同時顯示為標引人員提供了另一便利:自由詞庫也同敘詞庫一樣變得“透明”起來:標引員甲標引過的自由詞被存儲在詞庫中可供標引員乙、丙參考使用;經(jīng)過一定周期的積累利用詞頻統(tǒng)計,可將高頻自由詞轉(zhuǎn)為敘詞。在這里計算機內(nèi)的自由詞庫為詞表的擴充起到了統(tǒng)計依據(jù)。

        3 檢索語言的發(fā)展方向

        3.1 基于詞表的機輔標引與檢索系統(tǒng)

        90年代初開始的自然語言處理以及檢索語言的機讀化和聯(lián)機化開始了檢索語言應(yīng)用的新紀元。1991年10月,美國情報學(xué)會(ASIS)在華盛頓舉行第54屆年會,會上討論了文獻處理技術(shù)的重點--檢索語言技術(shù)。在檢索語言機讀化方面走到前列的美國醫(yī)學(xué)圖書館和NASA的宇航情報中心介紹了他們的研究成果。以美國醫(yī)學(xué)圖書館主題表MeSH和宇航情報中心的NASA敘詞表及其支持的數(shù)據(jù)庫為代表的專業(yè)情報界的檢索系統(tǒng)歷經(jīng)10多年的應(yīng)用與不斷改進,發(fā)展成為今天占主流的基于控制語言(無論是主題詞表、敘詞表、關(guān)鍵詞表、自由詞表、中介詞表、停用詞表還是特例詞表)的機輔標引和聯(lián)機檢索系統(tǒng)。

        在國內(nèi),多年來情報界與計算機界的專家一直在探討利用計算機軟件技術(shù)實現(xiàn)文獻標引、分類、編寫文摘的自動化。近年來我國情報界已研制成多個自動標引系統(tǒng),例如北京大學(xué)的“漢語科技文獻自動標引系統(tǒng)”、上海交通大學(xué)和上??萍记閳笱芯克献餮兄频摹爸形目萍嘉墨I的自動標引系統(tǒng)”等堪稱為國內(nèi)水平的代表作。

        3.2 基于自然語言的檢索系統(tǒng)

        眾所皆知,作為主題法(敘詞法)處理文獻依據(jù)的敘詞表為標引提供了理論依據(jù);若將敘詞表顯示在檢索界面上將會為檢索用戶提供查詞依據(jù):根據(jù)檢索到文章的多少按照詞族表進行上位詞擴檢或下位詞縮減。這將要求用戶熟悉敘詞表的編制框架和編制原則。是否能讓用戶完全使用自然語言提問檢索呢?基于自然語言處理的檢索系統(tǒng)是國內(nèi)同行的另一個研究方向?!把堇[情報檢索系統(tǒng)”則是其中的一例。

        傳統(tǒng)的情報檢索過程中用戶所能操縱與檢索的數(shù)據(jù)僅是實際存在于檢索系統(tǒng)中的數(shù)據(jù),這些數(shù)據(jù)稱為實數(shù)據(jù)。由實數(shù)據(jù)和邏輯推理功能相結(jié)合可得到一種新型檢索系統(tǒng)--演繹情報檢索系統(tǒng)。新系統(tǒng)所占實際物理空間與傳統(tǒng)情報檢索系統(tǒng)相差無幾,只是多了若干規(guī)則。正是由于這些規(guī)則,使系統(tǒng)實現(xiàn)推理,使用戶能檢索到?jīng)]有明顯存放著的虛數(shù)據(jù)。演繹情報檢索系統(tǒng)的特點是以自然語言為檢索語言,以自然語言為輸出檢索結(jié)果。而通常用敘詞表表示的上下位關(guān)系和用代關(guān)系等都利用程序設(shè)計語言將規(guī)則理解和表示。與一般的情報檢索系統(tǒng)相比,它除了有信息數(shù)據(jù)庫以外,還有一個檢索數(shù)據(jù)庫,此數(shù)據(jù)庫是由將情報檢索專家的知識和經(jīng)驗及應(yīng)用領(lǐng)域的知識歸納抽象成一系列程序子句構(gòu)成的,從而真正實現(xiàn)了智能化檢索?;谧匀徽Z言處理的檢索系統(tǒng)除了演繹情報檢索系統(tǒng),還有單漢字檢索系統(tǒng)、全文本檢索系統(tǒng)。

        綜上所述,基于控制語言(詞表)的檢索系統(tǒng)和基于自然語言的檢索系統(tǒng)都在這10年中得到了蓬勃發(fā)展。有人預(yù)言,以控制詞匯(詞表)為基礎(chǔ)的模式向以自然語言的字(關(guān)鍵字)為基礎(chǔ)的模式轉(zhuǎn)變,是當(dāng)今檢索系統(tǒng)的發(fā)展趨向之一。但還有人聲明,受控語言的主導(dǎo)地位不會被取代,一種結(jié)構(gòu)良好的敘詞表能夠以任何方式支持主題標引和檢索作業(yè),包括機輔標引(或自動標引)和全文檢索、自由詞檢索,都離不開各類詞表的支持。上面提到的單漢字檢索系統(tǒng)盡管沒有以敘詞表為基礎(chǔ)的人工標引,但還需要“停用詞表”(Stop List)支持其自動抽取關(guān)鍵詞。

        3.3 檢索語言由前控向后控的發(fā)展

        為了彌補無控制詞表的不足,單漢字檢索系統(tǒng)還需要建立后控詞表,一種不供標引只供檢索用的詞表。當(dāng)檢索者為了查全某一主題的資料,而不了解相應(yīng)的同義詞和相關(guān)詞時,只需輸入一個自己以知的檢索詞,系統(tǒng)就能通過后控詞表自動將有關(guān)同義詞與相關(guān)詞納入檢索式,并用“或”邏輯連接在一起,從而提高查全率。配備后控制詞表是提高自然語言檢索效率的有效措施。

        3.4 受控語言與自然語言相結(jié)合的標引

        傳統(tǒng)的受控語言與自然語言共同使用,可起到優(yōu)勢互補的作用。這在國內(nèi)外已形成共識。《電子科技文摘》的文獻加工、組織排序即采用此種方式:同時用分類號(范疇號)、敘詞(主題詞)、自由詞(關(guān)鍵詞)標引一篇文獻,檢索時分類號、敘詞、自由詞皆為可檢索字段。有人將分類號、敘詞、自由詞合為一體的檢索方式稱為整體化檢索語言,實踐表明,整體化檢索語言是聯(lián)機檢索系統(tǒng)理想的語言。

        [1]王偉新.BDS數(shù)據(jù)庫檢索[J].北京文獻服務(wù)處.

        [2]杜元清.美國情報學(xué)會第54屆年會述略[J].情報理論與實踐,1992,(3),52-53.

        [3]李惠芬,王永成.演繹情報檢索系統(tǒng)[J].情報學(xué)報,1992,11(1),5-10.

        猜你喜歡
        語言系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機系統(tǒng)
        ZC系列無人機遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        基于PowerPC+FPGA顯示系統(tǒng)
        半沸制皂系統(tǒng)(下)
        讓語言描寫搖曳多姿
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        多向度交往對語言磨蝕的補正之道
        累積動態(tài)分析下的同聲傳譯語言壓縮
        JIZZJIZZ国产| 黄片亚洲精品在线观看| 日本本土精品午夜视频| 天天射综合网天天插天天干| 男人的天堂av网站| 国产啪精品视频网站| 亚洲欧美日韩国产综合久| 欧美综合自拍亚洲综合百度| 精品熟女视频一区二区三区国产| 国产成人精品日本亚洲专区61| 人人添人人澡人人澡人人人人| 精品久久综合一区二区| 中文字幕视频一区二区| 伊人久久综合无码成人网| 亚洲欧美激情精品一区二区| 欧美极品美女| 亚洲成AV人片无码不卡| 成人av一区二区三区四区| 国产精品国产三级国产专播| 成人欧美一区二区三区1314| 成人久久免费视频| 一个人看的在线播放视频| 日韩精品久久午夜夜伦鲁鲁| 无码一区二区三区中文字幕| 久久婷婷国产剧情内射白浆| 中文无码免费在线| 国产白浆一区二区在线| 蜜臀色欲av在线播放国产日韩| 日本亚洲欧美高清专区| 91成人自拍视频网站| 欧美精品色婷婷五月综合| 亚洲av永久无码天堂网手机版 | 国产精品伦人视频免费看| 亚洲日本高清一区二区| 久久天天躁狠狠躁夜夜avapp| 天天天综合网| 国产极品嫩模大尺度在线播放| 女人被狂躁的高潮免费视频| 国产高清乱理伦片| 亚洲红杏AV无码专区首页| 永久免费视频网站在线|