文|黃以寶
空間信息技術(shù)已經(jīng)成為眾多行業(yè)發(fā)展重要組成部分,這使得空間信息數(shù)據(jù)數(shù)量、質(zhì)量日益上升,對數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)檢索等工作增加了難度,尤其是多樣化、復(fù)雜化空間信息元數(shù)據(jù),給搜索領(lǐng)域帶來諸多挑戰(zhàn)。本文主要分析自然語言發(fā)展現(xiàn)狀,明確自然語言處理空間信息檢索的優(yōu)勢,而后剖析現(xiàn)階段自然語言檢索存在的不足,并提出了具體優(yōu)化應(yīng)用對策,旨在運(yùn)用自然語言處理工具,優(yōu)化空間信息檢索效果。
自然語言處理本質(zhì)上就是建立在統(tǒng)計(jì)學(xué)基礎(chǔ)上的機(jī)器學(xué)習(xí)方法,可以處理、理解自然語言。將自然語言應(yīng)用到信息搜索引擎中,能夠更好理解用戶搜索行為,提升空間信息檢索準(zhǔn)確性,為用戶帶來良好使用體驗(yàn)。不少學(xué)者一直在探索嘗試在空間信息檢索中應(yīng)用自然語言處理技術(shù),目的在于使系統(tǒng)更好理解人類自然語言,發(fā)揮這一處理工具作用,提高檢索效果。
國外相關(guān)領(lǐng)域研究者要早于國內(nèi)學(xué)者發(fā)現(xiàn)自然語言工具性,并嘗試將其應(yīng)用到計(jì)算機(jī)編程語言中,以此提高用戶操作便利性,進(jìn)一步提高網(wǎng)絡(luò)檢索質(zhì)量,為用戶帶來良好的使用體驗(yàn)。由于國外研究技術(shù)受到較大局限,導(dǎo)致研究范圍非常有限,只能利用自然語言檢索簡單內(nèi)容,通過自然語言處理一些單一的文檔、斷句,或者分析簡單句子。在此后發(fā)展過程中,國外才有學(xué)者提出將自然語言應(yīng)用到空間信息檢索領(lǐng)域中,并在不斷研究中構(gòu)建受控語言的性能、信息檢索質(zhì)量問題,使得復(fù)合詞、各詞之間的權(quán)重問題得到合理解決。
相比之下,我國在自然語言處理應(yīng)用研究方面起步晚,直到20世紀(jì)90年代才受到相關(guān)領(lǐng)域重視。起初國內(nèi)學(xué)者在研究自然語言處理技術(shù)時(shí),只是單一的注重漢語自然語言標(biāo)注,研究內(nèi)容并不全面。隨著計(jì)算機(jī)技術(shù)推廣普及,為滿足更多用戶多元化需求,相關(guān)領(lǐng)域?qū)W者進(jìn)行了進(jìn)一步探究。從實(shí)際研究過程看,不僅遇到諸多挑戰(zhàn),也受到漢語語言本身復(fù)雜性、多樣性影響,再加上我國學(xué)者缺乏自然語言檢索方面的理論、技術(shù)方面的支持,導(dǎo)致自然語言應(yīng)用到信息檢索領(lǐng)域研究工作各個(gè)環(huán)節(jié)備受阻礙,直接影響了此項(xiàng)技術(shù)在國內(nèi)的發(fā)展速度。
一是具有較強(qiáng)針對性。在空間信息檢索中應(yīng)用自然語言處理,可以針對性地檢索相關(guān)語言。比如在文獻(xiàn)、資料中隨意選取一個(gè)詞語,將該詞語作為關(guān)鍵詞用于檢索相關(guān)內(nèi)容,能夠直接精確到具體的段落,這也足以證明自然語言處理方式具有極高的針對性。
二是準(zhǔn)確性極高。自然語言包含了大量文獻(xiàn)作者的書面語言,屬于一個(gè)龐大的書面語言庫,因此,借助自然語言進(jìn)行信息搜索,可以直接具體到指定的位置,檢索準(zhǔn)確性非常突出。當(dāng)用戶根據(jù)自身需求進(jìn)行分類查詢時(shí),可以根據(jù)不同學(xué)科分類檢索,這與查詢方式同以往傳統(tǒng)受控語言相比,更加準(zhǔn)確快捷。
三是檢索更加方便快捷。傳統(tǒng)檢索會(huì)受到語言本身的限制,相比之下,基于自然語言處理技術(shù)的空間信息檢索更加便利,可以快速檢索。前提是用戶選擇的檢索關(guān)鍵詞與中心文獻(xiàn)詞語意思相近,若是意思偏離較大則無法體現(xiàn)這種便捷性、準(zhǔn)確性。用戶只需要使用自然語言,便可快速檢索,并獲得精準(zhǔn)信息內(nèi)容。
四是更新速度較快。對于一些文獻(xiàn)中出現(xiàn)的新詞語,用戶可以將新詞語納入到檢索系統(tǒng)中,并設(shè)置對應(yīng)的檢索入口。與以往局限于語言搜索的方式相比,此種檢索方法適用性更強(qiáng),用戶只需要轉(zhuǎn)換相關(guān)詞義,利用一些意思、類型相近的規(guī)范化語句便可完成檢索任務(wù),此種檢索適用范圍更大,覆蓋面更廣。
五是具有較低容錯(cuò)率。在空間信息檢索中應(yīng)用自然語言,能夠拓展多條路徑,作為檢索入口,這在很大程度上可以降低出錯(cuò)率,有效防止受控語言搜索路徑少而產(chǎn)生的一系列問題。
六是具有較高的自動(dòng)化水平。由于自然語言誕生在大數(shù)據(jù)、互聯(lián)網(wǎng)+環(huán)境下,所以語言標(biāo)引更加方便、快捷,具有較高的自動(dòng)化水平,用戶在實(shí)際應(yīng)用過程中,可以節(jié)約更多時(shí)間,提高檢索效率,整體應(yīng)用體驗(yàn)感較好。
七是節(jié)省更多時(shí)間和精力?;谧匀徽Z言處理下的空間信息檢索有統(tǒng)一標(biāo)準(zhǔn)。以往受控語言檢索中主要由標(biāo)引人員完成大量工作,但標(biāo)引人員作為獨(dú)立個(gè)體,其在學(xué)識、專業(yè)素養(yǎng)方面存在明顯差異。同時(shí)不同人的理解能力、判斷能力不同,所以極易導(dǎo)致詞語分類、選詞路徑差異,進(jìn)而影響到使用者信息檢索。相比之下,自然語言處理方法可以很好的規(guī)避這些現(xiàn)象,標(biāo)準(zhǔn)統(tǒng)一,很多自然語言主要選自“現(xiàn)成詞語”,所以即便解釋不同,其總體上也不會(huì)出現(xiàn)較大誤差,能夠保證為用戶提供統(tǒng)一的解釋,使得用戶信息檢索節(jié)省更多時(shí)間和精力。
通過上文分析不難發(fā)現(xiàn),將自然語言應(yīng)用到空間信息檢索中,具有明顯優(yōu)勢,也表現(xiàn)出更為廣闊的發(fā)展前景。從實(shí)際應(yīng)用情況看,其中也存在一些不足,若想更好發(fā)揮自然語言檢索作用,有必要重視這些問題。經(jīng)過具體分析后可知,若是自然語言應(yīng)用中不采用任何方式限制標(biāo)引詞語,會(huì)導(dǎo)致搜索中出現(xiàn)較多的近義詞、同義詞,并且詞和詞之間的關(guān)聯(lián),也無法進(jìn)行準(zhǔn)確提示。在不設(shè)限制的情況下,會(huì)直接影響檢索準(zhǔn)確性,無法得到精準(zhǔn)檢索信息,出現(xiàn)一些明顯的錯(cuò)誤搭配,導(dǎo)致信息檢索范圍更大。除此之外,一些搜索引擎在開發(fā)設(shè)置階段就不完善,比如缺乏明確的分類,各科目間界限模糊,知識體系梳理不明、缺乏嚴(yán)謹(jǐn)邏輯性等,都會(huì)嚴(yán)重影響到信息檢索質(zhì)量,導(dǎo)致檢索速度得不到提高。
總體來看,目前自然語言檢索主要問題可以概括為兩點(diǎn):一是怎樣才能提取自然文本庫中最主要、最核心的詞語來明確表達(dá),針對用戶需求可以及時(shí)準(zhǔn)確滿足;二是改變一些不規(guī)范用語、語義關(guān)聯(lián)性等問題。漢語言不僅語義復(fù)雜,而且有的漢語中詞與詞之間缺乏明確的分割符號,往往一個(gè)漢字可以與其他多個(gè)漢字組合,最終表達(dá)的意思也多種多樣,不同詞語在不同語境下表達(dá)的含義也存在較大差異,針對此類問題,若想使得計(jì)算機(jī)處理過程中可以準(zhǔn)確表達(dá),必須克服斷句難題,同時(shí)也要做到準(zhǔn)確識別一些漢字與詞語的具體連接,才能保證語句中相關(guān)語氣詞的理解正確。
在信息化時(shí)代,計(jì)算機(jī)依托互聯(lián)網(wǎng)技術(shù)得到進(jìn)一步發(fā)展,同時(shí)大眾對信息檢索的需求也發(fā)生了極大改變,以往代替檢索的中介性行為已經(jīng)無法迎合受眾需求,并且這種方式也很難實(shí)現(xiàn)大量數(shù)據(jù)資料的復(fù)制和應(yīng)用?,F(xiàn)代社會(huì)多樣化發(fā)展,使得人們在信息檢索中,更想獲得知識并相互聯(lián)系,由此獲得新知識,而非單一的將目錄相關(guān)內(nèi)容直接提供給用戶?,F(xiàn)階段,網(wǎng)絡(luò)搜索功能開發(fā)與研究工作不斷深入,為更好滿足各類用戶多樣化需求,必須高度關(guān)注并深入了解用戶對空間信息檢索的喜好等特點(diǎn),全面了解并熟練掌握不同使用者的搜索習(xí)慣和行為,并與使用者過往搜索行為進(jìn)行對比,找出其中存在的誤差,以此作為依據(jù)和導(dǎo)向,逐步優(yōu)化、提升用戶體驗(yàn)感,減少錯(cuò)誤情況。
現(xiàn)代社會(huì),將智能化技術(shù)引入到信息檢索中,可以進(jìn)一步提高檢索技術(shù)智能化水平。智能化檢索技術(shù)主要原理就是通過模擬人腦,結(jié)合相關(guān)詞語,借助大數(shù)據(jù)、云計(jì)算技術(shù),精準(zhǔn)、快速分析出用戶想要獲取的信息,并進(jìn)行展現(xiàn)?,F(xiàn)階段進(jìn)行智能檢索主要分為三個(gè)步驟:第一是理解語義;第二是管理知識;第三是搜索知識。用戶根據(jù)自身需求輸入關(guān)鍵詞后,系統(tǒng)會(huì)自動(dòng)識別相關(guān)詞義,并進(jìn)行分類處理,而后提取數(shù)據(jù)庫中的準(zhǔn)確含義,通過整理后最終呈現(xiàn)給用戶。在自然語言檢索中,最為關(guān)鍵的技術(shù)就是智能代理技術(shù),該技術(shù)包含了一些關(guān)鍵性智能化程序,當(dāng)用戶在不斷搜索時(shí),該智能化程序會(huì)分析、學(xué)習(xí)用戶的搜索行為,了解用戶實(shí)際偏好,在此基礎(chǔ)上,通過搜索系統(tǒng)找出用戶需求的信息,在實(shí)際應(yīng)用中可以進(jìn)一步提高用戶信息檢索效率。同時(shí),智能化檢索技術(shù)也會(huì)不斷更新,更好為用戶服務(wù)??梢哉f,智能化檢索技術(shù)是結(jié)合用戶需求而不斷發(fā)展的,通過不斷分析、建立智能化數(shù)據(jù)庫,構(gòu)建智能搜索模式,可以滿足數(shù)據(jù)庫自動(dòng)維護(hù)、數(shù)據(jù)庫自動(dòng)更新等功能,簡化檢索流程,節(jié)省用戶搜索時(shí)間。
在空間信息檢索中,混合檢索技術(shù)的應(yīng)用受到業(yè)內(nèi)人士廣泛重視,混合檢索技術(shù)地主要工作機(jī)理就是對自然語言的良好控制,防止出現(xiàn)一些相近詞義大范圍出現(xiàn)的情況。深入分析混合檢索技術(shù)可知,其主要就是構(gòu)建一種混合詞表,在設(shè)計(jì)混合詞表過程中,并沒有具體要求,對精確度也不高,屬于一種較大范圍的詞表,并且數(shù)量非常少,通常只要幾百個(gè)詞匯便可形成一種長條形的檢索流程。用戶在搜索標(biāo)引詞語時(shí),無法精確到具體的詞語,只需要輸入一個(gè)模糊的詞語,便可將文獻(xiàn)、資料中的詞語提取出來。此種混合檢索方式,不僅包含了傳統(tǒng)受控語言,也借助自然語言檢索,具有一定復(fù)雜性。
一方面,需要從先控技術(shù)入手,加強(qiáng)優(yōu)化。所謂先控技術(shù),主要就是在技術(shù)使用前建立一個(gè)與自然語言、檢索語言相對應(yīng)的語言庫,當(dāng)中包含了自然語言和檢索語言,用戶在運(yùn)用自然語言檢索所需信息時(shí),計(jì)算機(jī)系統(tǒng)可以結(jié)合對應(yīng)的自然語言,找出相關(guān)檢索語言,借助這種互換體系,實(shí)現(xiàn)對文本庫內(nèi)容的精準(zhǔn)檢索。在實(shí)際檢索中,該方法僅僅是一小部分,對原有標(biāo)引工具、相關(guān)數(shù)據(jù)信息并無影響,由于其存在可以提升受控語言性能,使自然語言自身的優(yōu)勢得以充分發(fā)揮,這在很大程度上可以提高檢索準(zhǔn)確性,進(jìn)而降低容錯(cuò)率,對使用者帶來很好的使用體驗(yàn)。
另一方面,除了先控技術(shù)之外,檢索過程中還涉及到后控技術(shù),后控技術(shù)主要應(yīng)用在人工智能檢索系統(tǒng)、后控詞表中。用戶利用關(guān)鍵詞進(jìn)行檢索后,在人工智能檢索技術(shù)作用下,可以分析、分類用戶自然語言,在此基礎(chǔ)上,運(yùn)用一些數(shù)據(jù)進(jìn)行轉(zhuǎn)化,并在計(jì)算機(jī)系統(tǒng)下準(zhǔn)確識別、規(guī)范檢索要求,使得對應(yīng)指令傳達(dá)給后續(xù)程序,最終檢索任務(wù)順利完成。分析這一過程不難發(fā)現(xiàn),后控技術(shù)在檢索技術(shù)中發(fā)揮著重要作用,若用戶輸入自然語言后,智能化機(jī)器可以結(jié)合自然語言情況,在后控詞表中提取出準(zhǔn)確、規(guī)范的詞語,展現(xiàn)給用戶。用戶也可以根據(jù)提示,小范圍檢索。此技術(shù)可以作為自然語言檢索的補(bǔ)充,有效提高檢索精準(zhǔn)度。應(yīng)用此種方法,能夠在一定程度上放寬對標(biāo)引階段的控制。與此同時(shí),當(dāng)用戶利用這種方法進(jìn)行檢索時(shí),能夠以一個(gè)關(guān)鍵詞切入,而后從文本庫內(nèi)搜索出大量與之相近的等級詞、近義詞。用戶在檢索過程中,并不需要考慮自己搜索的主題、關(guān)鍵詞是什么,以及到底有哪些近義詞、等級詞等情況,而是直接利用后控技術(shù),獲得更多相關(guān)詞語,并且獲取速度更快、檢索任務(wù)完成效率更高,這對用戶而言,會(huì)減少使用負(fù)擔(dān),提高檢索效率,帶來更多體驗(yàn)。
綜上所述,在自然語言檢索技術(shù)發(fā)展中,我國雖然起步較晚,但隨著技術(shù)人員不斷實(shí)踐與探究,已經(jīng)獲得很大的發(fā)展空間,各領(lǐng)域?qū)W者也都提高了對自然語言的重視程度。在日后研究中,希望有關(guān)學(xué)者和相關(guān)領(lǐng)域研究人員可以從其他語言學(xué)角度入手,深入探究存在于自然語言檢索過程中的問題,并不斷積累經(jīng)驗(yàn),積極創(chuàng)新發(fā)展。