臧勁松
摘 要: 人工智能是計算機科學的一個分支,是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門技術科學,在許多科學領域都獲得了廣泛應用,網(wǎng)絡信息檢索就是其中一個非常重要的應用。文章介紹了信息檢索的基本概念和人工智能的常用方法,指出跨語言檢索已越來越成為信息檢索的一個重要方向;對跨語言檢索的實現(xiàn)模式、語言學資源、實現(xiàn)的關鍵技術問題進行了闡述;并展望了人工智能領域的發(fā)展前景。
關鍵詞: 人工智能; 跨語言信息檢索; 語言學資源; 實現(xiàn)模式
中圖分類號:TP3 文獻標志碼:A 文章編號:1006-8228(2016)10-29-04
Application of artificial intelligence in cross language information retrieval
Zang Jinsong
(University of Shanghai for Science and Technology School of Optical-Electrical and Computer Engineering, Shanghai 200093, China)
Abstract: Artificial intelligence is a branch of computer science, is the science and technology to research and develop the theory, methods, techniques and applications of simulation, extension and expansion of human intelligence, has been widely used in many fields of science, network information retrieval is one of the important applications. This paper introduces the basic concepts of information retrieval and the common methods of artificial intelligence, pointed out that cross language retrieval has increasingly become an important direction of information retrieval; describes the implementation mode, linguistic resources and the key technologies to realize the cross language retrieval; and prospects the development prospect of artificial intelligence.
Key words: artificial intelligence; cross-language information retrieval; linguistic resources; realization mode
0 引言
人工智能(Artificial Intelligence)是當前科學技術發(fā)展中的一門前沿學科,是在計算機科學、控制論、信息論、神經(jīng)心理學、語言學等多種學科基礎上發(fā)展起來的一門綜合性很強的邊緣學科。它是研究機器模擬人的大腦所從事的感覺、認知、記憶、學習、聯(lián)想等思維活動,解決人類才能處理的復雜問題,實質(zhì)上是模仿人的大腦而展開思考[1]。目前,人工智能技術已經(jīng)應用在許多方面,而信息檢索(Information Retrieval)就是其中的一個重要應用。
1 信息檢索系統(tǒng)概述
人類解決問題的方法之一就是不斷地嘗試,即逐個地檢驗可能解決問題的每個方法,直至找到一個可行的方法為止。但是這種盲目的搜索法,隨著問題規(guī)模擴大,可能組合的數(shù)量也就增長的越大,“組合爆炸”效應使得這種方法并不能解決大而復雜的問題。
完整的信息檢索應包括信息的存儲和檢索兩個過程,主要針對的是單一語種的文檔集,其查詢語言通常為單一語種。而如今的趨勢是人們所面對的信息資源不再是單一語種,而是用不同語言表達的信息匯聚在一個集合中。因而多語言問題日益成為信息共享的一個主要障礙,基于此,跨語言檢索則成為解決這一問題的一個最佳方案[2]。
2 人工智能的基本方法
人工智能就是為了幫助人們更快的解決問題,它包括兩方面:對于確定性事物的判斷和對于不確定性事物的判斷,它的主要方法包括以下幾種。
2.1 啟發(fā)式搜索
不斷地嘗試各種方案的準確性,對各種可能性進行反復測試,直到找到合適的解決方案,是人們常用的方法。常用的搜索策略有盲目搜索和啟發(fā)式搜索。盲目搜索是按順序測試各種方案的可行性;而啟發(fā)式搜索則可以根據(jù)經(jīng)驗和啟發(fā)式信息進行搜索,對希望不大的搜索方向就直接摒棄掉。
啟發(fā)式搜索可以利用問題本身的定義,還可以利用與問題有關的一些特定的知識進行搜索,因而可以找到更有效的解決方案,大大縮短了搜索過程。
2.2 智能規(guī)劃
智能規(guī)劃主要是面向?qū)嶋H問題,基本思想是:對周圍環(huán)境進行認識與分析,根據(jù)要實現(xiàn)的目標,對若干可供選擇的動作及所提供的資源限制施行推理,綜合制定出實現(xiàn)目標的規(guī)劃。規(guī)劃要依靠啟發(fā)式信息,成功與否,很大程度上決定于啟發(fā)信息的可靠程度。而智能規(guī)劃問題的操作的前提之間也存在著很強的依賴與沖突關系,即一個操作的使用常常使另一個操作無法執(zhí)行,甚至導致最終目標無法實現(xiàn)。因此,在智能規(guī)劃中也要考慮如何避免操作間的沖突。
智能規(guī)劃目的是建立起高效實用的智能規(guī)劃系統(tǒng)。該系統(tǒng)的主要功能可以描述為:給定問題的狀態(tài)描述、對狀態(tài)描述進行變換的一組操作、初始狀態(tài)和目標狀態(tài)。智能規(guī)劃系統(tǒng)能夠給出從初始狀態(tài)變到目標狀態(tài)的一個操作序列,其復雜性和所處的環(huán)境以及Agent的功能有關。
2.3 知識的表達技術
知識及其表達是計算機科學中智能程序設計研究的主要領域,也是人工智能領域關心的基礎性問題。知識表達(Knowledge Representation),即知識表示或知識描述,也就是知識的形式化或模型化,是研究在機器中表示知識的方法、可行性、有效性及一些通用的原則。而智能程序,就是把現(xiàn)實世界的知識有機地結(jié)合到計算機程序中,使程序具有識別、學習、推理和適應環(huán)境等能力。主要技術包括:如何把各類知識進行編碼、存儲;如何快速尋找需要的知識;如何對知識進行運算、推理;如何對知識進行更新、修改等[3]。
3 跨語言信息檢索
跨語言信息檢索(Cross-language Information Retrieval,CLIR),是指用戶以一種語言提問,檢出另一種或幾種語言描述的信息資源的信息檢索技術和方法??缯Z言信息檢索中,用戶用以表達自己的信息需求,構(gòu)造檢索提問式的語言稱為源語言(Source Language),被檢索的信息資源所使用的語言稱為目標語言(Target Language)。而要實現(xiàn)語言之間的轉(zhuǎn)換,首先要使計算機能理解自然語言文本的意義,然后能以自然語言文本來表達給定的意圖、思想等。例如自動識別一份文檔中所有被提及的人與地點;識別文檔的核心議題;在一堆僅人類可讀的合同中,將各種條款與條件提取出來并制作成表;或者通過精心選定的某些特征和文本中的某些元素結(jié)合來識別一段文字,通過識別這些元素可以把某類文字同其他文字區(qū)別開來,比如垃圾郵件同正常郵件等等。
跨語言信息檢索是在對自然語言理解的基礎之上,其關鍵問題是要使查詢語言與文檔語言在檢索之前達成一致。使用戶以一種語言提問,可以檢索出另一種語言或多種語言描述的相關信息。例如,輸入中文檢索式,跨語言檢索系統(tǒng)會返回英文、日文等語言描述的信息,而且這些信息不僅僅是文本信息,還可以是其他形式的信息。
3.1 智能技術在跨語言檢索的實現(xiàn)模式
人工智能技術在信息檢索系統(tǒng)的廣泛應用,是人工智能技術與信息技術的成功結(jié)合的結(jié)果。在跨語言檢索中,提問式所用的源語言一般是用戶的母語,而被檢索的文檔所使用的目標語言,一般是用戶不熟悉甚至完全陌生的語言。目前跨語言檢索的主要實現(xiàn)方法有提問式翻譯方法、文獻翻譯方法、提問式-文獻翻譯方法、中間翻譯方法、專有名詞音譯方法、基于本體的轉(zhuǎn)換方法等。而最常用的就是提問式翻譯方法。
3.2 跨語言檢索中的語言學資源
在跨語言檢索中,兩種或多種語言之間的翻譯對于跨語言檢索的性能有重要影響,翻譯必須以一定的語言資源工具作基礎,主要解決的問題是語言障礙,在跨語言檢索中,常用的語言學資源有手工編制雙語詞典、機器可讀詞典、語料庫等。
手工編制雙語詞典是翻譯人員進行翻譯必備的工具,具有準確、全面地優(yōu)點,但在跨語言檢索中難以實現(xiàn)計算機的自動識別處理。
機器可讀詞典是把手工詞典以機器可讀的編碼形式進行組織,便于實現(xiàn)兩種語言在詞匯層次上的對譯,但機器可讀詞典如不借助人工干預,則難以解決翻譯的歧義性問題。
語料庫,尤其是平行語料庫的應用,不僅改善了詞翻譯的不確定性,而且對于專有名詞的翻譯有著重要的意義,因為在平行語料庫中,詞與詞之間的對應是惟一的,很多在手工編制雙語詞典和機器可讀詞典中不能獲取的詞都可以在平行語料庫中得到。
各種語言資源在跨語言檢索中使用不是孤立的,同時使用兩種或多種語言資源會達到更好的效果。
3.3 跨語言檢索的關鍵技術
在跨語言檢索中主要涉及的關鍵技術有計算機信息檢索技術、機器翻譯技術和歧義消解技術。信息檢索技術完成提問式與文檔之間的匹配,機器翻譯技術完成不同語言之間的語義對等,歧義消解技術則解決翻譯過程中的多義和歧義問題[4]。
3.3.1 計算機信息檢索技術
計算機信息檢索技術主要是自動搜索技術、自動標引技術、語言處理技術和自動匹配技術。檢索系統(tǒng)利用網(wǎng)絡爬蟲進行網(wǎng)絡信息的收集,然后利用自動標引技術對搜集的信息進行標引,使用相應的語言處理技術,實現(xiàn)2種語言的相對應,形成索引數(shù)據(jù)庫。用戶輸入檢索式,計算機把檢索式與數(shù)據(jù)庫中的索引項進行匹配,按檢索式與標引項相關度的大小排序輸出檢索結(jié)果。其實現(xiàn)過程如圖1所示。
3.3.2 機器翻譯技術
在跨語言檢索中,所要解決的問題實際上是一個語言處理問題。不同于單一語種的語言信息檢索和機器翻譯,也不是兩種技術的簡單疊加,而是一種有機的融合,有著自身的特點和專門的研究內(nèi)容。機器翻譯技術實質(zhì)上是一種能夠?qū)⒁环N語言的文本自動翻譯成另一種語言文本的計算機程序,核心是保持兩種文本(源語言文本和目標語言文本)的語義對等[5]。由于在翻譯過程中,源語言文本中的詞往往對應目標語言描述的幾個詞,所以要選擇最合適的詞或相關處理以達到意義上的一致。在跨語言檢索中,翻譯的準確性直接決定了檢索的準確性,準確性的提高需要利用自然語言處理與機器翻譯相結(jié)合的技術,而由于這涉及復雜的計算機語義分析技術,因此機器翻譯的效果還遠未達到人們所期望的水平。
3.3.3 歧義消解技術
跨語言信息檢索涉及到兩種語言之間的相互轉(zhuǎn)換,在此過程中主要會出現(xiàn)的問題是歧義問題,需要解決自然語言文本和對話的各個層次上廣泛存在的各種各樣的歧義性或多義性(ambiguity)。在自然語言中,一詞多義和一義多詞的現(xiàn)象是非常普遍的,對查詢進行處理時,確定檢索詞的確切含義是非常重要的,即要把帶有潛在歧義的自然語言輸入轉(zhuǎn)換成某種無歧義的計算機內(nèi)部表示,這需要大量的知識和推理。而對被檢索文獻而言,要提高查準率,就需要明確文獻中出現(xiàn)的檢索詞的含義,以判斷其相關性。
跨語言信息檢索中的歧義來自源語言和目標語言兩個方面,解決方法可以分為兩類。
一類是在一定程度上模仿人類解決歧異性的方法,結(jié)合人工構(gòu)造的語法學、詞法學、句法學、語義學等方面的知識,力求給出文本非歧義的解析表達。但是機器要在這種全文本層次上實現(xiàn)正確有效的分析是相當困難的,其性能水平無法與高昂的語言分析成本相對應。因此,這類方法大都局限在語言的特定子集或較小的論域中。
另一類是采用一些比較實用的方法,力圖以較低的成本達到較合理的性能水平。例如:通過對查詢翻譯中根據(jù)上下文信息確定詞性的詞性標注技術;利用兩個有一定關聯(lián)的詞共同出現(xiàn)在某一篇文獻,或者文獻的某一個部分的這種關聯(lián),來確定詞含義的詞的共現(xiàn)技術;用來解決用戶查詢表達式比較簡短,且缺少充足的語境信息對其進行準確翻譯問題的相關反饋技術等。這些都在跨語言信息檢索中扮演著重要角色。
4 結(jié)束語
互聯(lián)網(wǎng)的飛速發(fā)展,對我們的生活、工作將帶來巨大的影響,掌握信息檢索已成為每個人須具備的基本能力,因而信息獲取和精化技術也就成為當代計算機科學與技術中迫切需要研究的課題。如何更好地將人工智能技術應用于這一領域,是人工智能走向廣泛實際應用的契機與突破口。本文探討了人工智能在信息檢索中的基本方法,并對跨信息檢索的關鍵技術作了初步的探討。雖然目前該領域還存在著諸多的問題,如:非文字資源,包括音頻資源和視頻資源的搜索,準確率還有待提高;搜索中涉及到的用戶隱私、安全性還有待完善,與用戶真正需要的高效、智能服務還存在一定的差距等。未來其發(fā)展的潛力將是十分巨大的。
參考文獻(References):
[1] 賁可榮,張彥鐸.人工智能(第2版)[M].清華大學出版社,2013.
[2] 汪楠,成鷹.信息檢索技術(第2版)[M].清華大學出版社,2015.
[3] 付存君.智能信息檢索發(fā)展現(xiàn)狀的研究[J].信息與電腦,
2015.12.
[4] 王曉輝.智能信息檢索系統(tǒng)的設計與實現(xiàn)[C].中南民族大學,
2013.
[5] 王知津.信息檢索與處理[M].機械工業(yè)出版社,2015.