在電影《復(fù)仇者聯(lián)盟2:奧創(chuàng)紀(jì)元》中,有一個(gè)精彩的情節(jié)是當(dāng)綠巨人浩克被緋紅女巫迷惑心智后在城市中大肆破壞時(shí),鋼鐵俠與他的專屬智能大腦賈維斯對(duì)話,通過“浩克”這個(gè)關(guān)鍵詞快速搜索實(shí)時(shí)新聞報(bào)道和視頻中的相關(guān)信息,得出綠巨人的位置;鋼鐵俠及時(shí)趕到并啟動(dòng)了反浩克戰(zhàn)甲,阻止了綠巨人的破壞行為。在這個(gè)情節(jié)中,智能大腦賈維斯依據(jù)鋼鐵俠給出的“浩克”這一關(guān)鍵詞,從海量的新聞報(bào)道、網(wǎng)絡(luò)視頻數(shù)據(jù)中檢索出相匹配的信息,并返回給鋼鐵俠,這里應(yīng)用的就是信息檢索技術(shù),如圖1所示。
圖1 《復(fù)仇者聯(lián)盟2》電影中的片段
信息檢索技術(shù)這一名詞在人們的生活中無處不在??梢哉f,只要是應(yīng)用了搜索引擎的應(yīng)用,都會(huì)有信息檢索的影子。大家一定都用過百度、搜狗、谷歌、必應(yīng)這些搜索引擎吧?在搜索引擎中搜索“浩克”,可以從海量數(shù)據(jù)中檢索出浩克的基本信息、最新電影狀況、相關(guān)演員動(dòng)態(tài)等;在電商平臺(tái)中搜索“浩克”,可以檢索出與浩克相關(guān)的書籍、玩具、游戲等;在社交平臺(tái)中搜索“浩克”,可以檢索出與“浩克”一詞相關(guān)的用戶昵稱、網(wǎng)友互動(dòng)信息、短視頻;等等。
信息檢索技術(shù)極大地方便了人們的生活,能讓人們快速定位感興趣的信息,大大節(jié)省了人們的時(shí)間與精力。信息檢索的基本原理是什么呢?首先,用戶需要明確自己需要檢索的信息是什么,并將檢索信息輸入搜索引擎。例如,剛才提到《復(fù)仇者聯(lián)盟2:奧創(chuàng)紀(jì)元》中的情節(jié),鋼鐵俠需要檢索的信息是“浩克在哪里”,這條信息中對(duì)應(yīng)的知識(shí)可能就是“綠色”+“大塊頭”。搜索引擎首先會(huì)從全網(wǎng)信息中初步篩選出與浩克相關(guān)的信息(即包含“綠色”+“大塊頭”實(shí)體的信息);鋼鐵俠的需求是明確浩克的地理位置,搜索引擎需要進(jìn)一步從包含浩克的場(chǎng)景信息中篩選出浩克最有可能出現(xiàn)的實(shí)時(shí)地理位置信息并返回給鋼鐵俠。嚴(yán)謹(jǐn)?shù)卣f,信息檢索技術(shù)的基本原理可被概括為:從用戶需求出發(fā),對(duì)信息集合與需求集合進(jìn)行匹配和選擇,根據(jù)一定的線索與準(zhǔn)則找出相關(guān)的信息。
信息檢索技術(shù)的兩種主流技術(shù)手段分別是關(guān)鍵詞檢索與語義檢索。我們來聊聊這兩種檢索技術(shù)的實(shí)現(xiàn)方式。信息檢索講解圖如圖2所示。
圖2 信息檢索講解圖
關(guān)鍵詞檢索是指用戶在搜索引擎的搜索框中鍵入自己要搜索信息的關(guān)鍵詞,并進(jìn)行檢索的方式。在剛才的故事情節(jié)中,鋼鐵俠口述的檢索信息中包含兩個(gè)關(guān)鍵詞,即“浩克”與“位置”。通過“浩克”與“位置”這兩個(gè)關(guān)鍵詞,搜索引擎從海量數(shù)據(jù)中按照關(guān)鍵詞匹配規(guī)則篩選出搜索結(jié)果數(shù)據(jù),并通過排序整理得出最有可能的結(jié)果。這種檢索方式通過解析目標(biāo)信息的字符,在語料庫中搜索與內(nèi)容相匹配的信息,具有查詢信息范圍大、正確率高、查全率高等優(yōu)點(diǎn),但是這種方式對(duì)包含海量數(shù)據(jù)的語料庫的構(gòu)建要求也較高。
一般來說,檢索結(jié)果的排序方式有3種。第一種是按時(shí)間排序,最新更新的相關(guān)信息優(yōu)先展示;第二種是按閱讀量排序,瀏覽查閱次數(shù)最多的信息優(yōu)先展示;第三種是相關(guān)排序,與關(guān)鍵詞匹配度最高的信息優(yōu)先展示。通常將用戶需求以及用戶在一段時(shí)間內(nèi)的偏好作為衡量標(biāo)準(zhǔn)來對(duì)檢索結(jié)果進(jìn)行排序。當(dāng)用戶查詢需求不明確時(shí),可運(yùn)用推理機(jī)制推斷用戶潛在需求,選擇與用戶習(xí)慣最相近的信息進(jìn)行檢索。
語義檢索則是在概念體系的基礎(chǔ)上,搜索引擎從知識(shí)庫中檢索出知識(shí)的過程。這是一種基于知識(shí)圖譜體系,能夠?qū)崿F(xiàn)知識(shí)間的關(guān)聯(lián),以及概念和概念語義檢索的智能化檢索方式。舉例來說,在基于語義檢索的搜索引擎中搜索“浩克”一詞,搜索引擎不會(huì)通過文本的硬性匹配篩選數(shù)據(jù),而是依據(jù)浩克這一實(shí)體對(duì)應(yīng)的知識(shí),檢索與其相關(guān)的實(shí)體知識(shí)信息,如班納博士、浩克的身高和體重,以及黑寡婦等復(fù)仇者聯(lián)盟成員等。
此外,語義檢索可以將搜索的多個(gè)實(shí)體進(jìn)行組合,并能夠從實(shí)體組合中挖掘出更深層次的語義知識(shí)。如搜索“浩克”+“黑寡婦”,搜索結(jié)果為浩克的情感狀態(tài);搜索“浩克”+“鋼鐵俠”,搜索結(jié)果大部分為浩克和托尼·史塔克開發(fā)的反浩克裝甲。相較于關(guān)鍵詞檢索中純文本匹配的方式,語義檢索更傾向于通過檢索文本對(duì)應(yīng)的知識(shí),從知識(shí)庫中檢索出最有可能的結(jié)果。這種基于研究數(shù)據(jù)之間的關(guān)系的信息檢索技術(shù)提高了數(shù)據(jù)檢索能力,增強(qiáng)了自然語言的理解力,提升了查全率,但是也存在檢索速度慢、查詢復(fù)雜、耗費(fèi)大量人工的缺點(diǎn)。
在本文中,我們了解了信息檢索技術(shù)。它的兩種主流技術(shù)手段分別是關(guān)鍵詞檢索與語義檢索。更加智能化的信息檢索系統(tǒng)模擬人類關(guān)于數(shù)據(jù)處理的思維過程和智能活動(dòng),實(shí)現(xiàn)知識(shí)檢索、表示和推理,還可以為用戶提供智能輔助決策。信息檢索技術(shù)已被廣泛應(yīng)用到電商平臺(tái)、新聞資訊、社交媒體、娛樂視頻等軟件中,可以幫助人們快速定位自己需要的信息,給人們的生活帶來了極大便利。