溫 靜,張 穎
(山西省信息產(chǎn)業(yè)技術(shù)研究院有限公司,山西 太原 030006)
搜索引擎成為人們當(dāng)下學(xué)習(xí)、生活中不可缺少的助手,有什么問(wèn)題,上搜索引擎搜索,答案迎刃而解。不過(guò),即使現(xiàn)在的搜索服務(wù)系統(tǒng)已經(jīng)相當(dāng)成熟,但是人們還經(jīng)常抱怨搜索內(nèi)容不符合自己心理預(yù)期的內(nèi)容,每次搜索的結(jié)果有自己想要的內(nèi)容,也有和自己搜索詞條無(wú)關(guān)的內(nèi)容。例如搜索“蘋(píng)果”,搜索結(jié)果中不僅出現(xiàn)水果蘋(píng)果,還搜索出蘋(píng)果公司、蘋(píng)果手機(jī)等內(nèi)容。而這些都不是用戶(hù)想要的結(jié)果,用戶(hù)真正想要的結(jié)果是蘋(píng)果及其營(yíng)養(yǎng)價(jià)值,種植方式等內(nèi)容的介紹。如圖1所示。
圖1 常用的搜索引擎
由上例可知,目前搜索引擎存在的問(wèn)題包括兩個(gè)方面:一是現(xiàn)在的搜索引擎普遍是按照網(wǎng)頁(yè)中是否含有搜索詞條去搜索的,并不是按照語(yǔ)義搜索的;二是搜索方式比較單一,不可以語(yǔ)音識(shí)別,圖像識(shí)別,這樣對(duì)于文化程度不高的用戶(hù)來(lái)說(shuō),使用搜索引擎成為一大難題。
一個(gè)智能搜索服務(wù)系統(tǒng)最主要的任務(wù)就是能夠理解用戶(hù)需求,通過(guò)分析用戶(hù)輸入的文字、圖片、語(yǔ)音來(lái)解決以上問(wèn)題。
如何解決這一普遍性問(wèn)題成為一大熱點(diǎn)。
搜索引擎是時(shí)代發(fā)展必然的產(chǎn)物,人類(lèi)文明采用文字、書(shū)籍記錄著,如果沒(méi)有搜索引擎的出現(xiàn),我們很難找到自己想要的目標(biāo)信息。
在1990年,出現(xiàn)了歷史上第一個(gè)真正意義的搜索引擎——Archie,用于FTP服務(wù)器。而1993年用于WEB網(wǎng)絡(luò)的搜索引擎Word Wide Web Wanderer,只能用作收集網(wǎng)址;同年產(chǎn)生的ALIWEB已經(jīng)可以檢索辯題等信息,但文件主體內(nèi)容還是無(wú)法索引。1997年,ASK正式上線(xiàn),由于當(dāng)時(shí)采用純?nèi)斯ぽ斎敕绞竭M(jìn)行錄入、搜索,之后不得不采用其他搜索引擎的數(shù)據(jù)。1998年下半年,谷歌公司成立。2000年初,百度公司成立,在2001年百度正式上線(xiàn),中文搜索隨即進(jìn)入百度時(shí)代,2005年百度上市。中文搜索引擎不僅為用戶(hù)提供了問(wèn)題的解答,更提高了大家的工作效率。
網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)可以實(shí)現(xiàn)自動(dòng)提取網(wǎng)頁(yè)功能的程序,它可以從萬(wàn)維網(wǎng)下載所需網(wǎng)頁(yè),并提交給搜索引擎,因此,它成為了搜索引擎必不可少的一部分。
目前,爬蟲(chóng)軟件的主要功能就是爬取網(wǎng)頁(yè)信息,為用戶(hù)從萬(wàn)維網(wǎng)上搜取數(shù)據(jù),供大家使用。
知識(shí)圖譜是將數(shù)學(xué)、圖像學(xué)、可視化技術(shù)等科學(xué)理論與方法結(jié)合,并利用可視化圖譜展現(xiàn)學(xué)科的核心結(jié)構(gòu)、發(fā)展前沿以及整體知識(shí)架構(gòu)等內(nèi)容,從而達(dá)到多學(xué)科融合的目的。
自然語(yǔ)言幾乎是人們?nèi)粘J褂玫耐ㄋ渍Z(yǔ)言,自然語(yǔ)言處理就是建立一個(gè)能夠分析自然語(yǔ)言的計(jì)算機(jī)模型。處理過(guò)程中需要采用漢語(yǔ)分詞技術(shù)、短語(yǔ)識(shí)別技術(shù)和同義詞處理等技術(shù)。
漢語(yǔ)分詞技術(shù):中文不像英文那樣每個(gè)單詞中間有空格間隔,中文之間沒(méi)有界定符,只能人為切分。但是在分詞的過(guò)程中可能會(huì)偏離查詢(xún)?cè)~匯的真正含義。因此我們可以根據(jù)語(yǔ)料庫(kù)進(jìn)行總結(jié),獲取詞語(yǔ)出現(xiàn)的概率以及每個(gè)詞之間的關(guān)聯(lián),這樣就能有效排除詞語(yǔ)的歧義,從而提高分詞的準(zhǔn)確性。
短語(yǔ)識(shí)別技術(shù):就是利用詞語(yǔ)之間的特定搭配和語(yǔ)法規(guī)則,快速全面的建立他們之間的聯(lián)系,從而合理的切分詞語(yǔ)。
同義詞處理技術(shù):處理同義詞有兩種方法,一種方法是人工構(gòu)造同義詞詞庫(kù)進(jìn)行搜索,另一種方法是從語(yǔ)料庫(kù)中獲取同義詞關(guān)聯(lián),從而搜索出同義詞。
系統(tǒng)前端界面采用HTML、CSS、JS等開(kāi)發(fā)語(yǔ)言,其余采用python語(yǔ)言進(jìn)行開(kāi)發(fā),后臺(tái)數(shù)據(jù)采用Mysql數(shù)據(jù)庫(kù)集群云處。
基于大數(shù)據(jù)的智能搜檢系統(tǒng)實(shí)現(xiàn)網(wǎng)內(nèi)網(wǎng)外數(shù)據(jù)的融合、基于機(jī)器自學(xué)習(xí)的智慧爬蟲(chóng)、專(zhuān)業(yè)化的科技搜索、知識(shí)圖譜的構(gòu)建。通過(guò)對(duì)現(xiàn)有數(shù)據(jù)的融合處理和互聯(lián)網(wǎng)數(shù)據(jù)的爬取積累,搭建專(zhuān)業(yè)化的科技搜索,實(shí)現(xiàn)企業(yè)需求數(shù)據(jù)的多維知識(shí)圖譜構(gòu)建。建成智能科技搜索服務(wù)系統(tǒng),實(shí)現(xiàn)網(wǎng)內(nèi)外數(shù)據(jù)的積累、融合挖掘、知識(shí)圖譜展現(xiàn)。具體內(nèi)容分為三步:
1)研究知識(shí)庫(kù)、知識(shí)圖譜的構(gòu)建方法,進(jìn)行網(wǎng)內(nèi)數(shù)據(jù)的分析整理:目標(biāo)整理完成自由數(shù)據(jù)。研究網(wǎng)絡(luò)爬蟲(chóng)和機(jī)器學(xué)習(xí),進(jìn)行智慧爬蟲(chóng)的架構(gòu);目標(biāo)初步建成網(wǎng)絡(luò)爬蟲(chóng),開(kāi)始數(shù)據(jù)積累。
2)在融合網(wǎng)內(nèi)數(shù)據(jù)和爬蟲(chóng)數(shù)據(jù)基礎(chǔ)上,不斷積累新的數(shù)據(jù),進(jìn)行智慧爬蟲(chóng)的建設(shè)和完善,研究并設(shè)計(jì)構(gòu)架專(zhuān)業(yè)化的科技搜索。深入研究知識(shí)圖譜等,構(gòu)建圖元關(guān)系網(wǎng)絡(luò),進(jìn)行特征行為分析,建立技術(shù)需求與科技要素的關(guān)聯(lián)元數(shù)據(jù)庫(kù),構(gòu)架需求數(shù)據(jù)知識(shí)圖譜。
3)持續(xù)積累數(shù)據(jù),不斷補(bǔ)充完善機(jī)器自學(xué)習(xí)規(guī)劃的設(shè)計(jì),進(jìn)行智慧爬蟲(chóng)算法優(yōu)化,進(jìn)行科技搜索算法優(yōu)化,完善擴(kuò)充數(shù)據(jù)知識(shí)圖譜。
本系統(tǒng)一共分為三個(gè)模塊:文字搜索模塊、圖片搜索模塊和語(yǔ)音搜索模塊。主要實(shí)現(xiàn)采用不同類(lèi)型的載體對(duì)數(shù)據(jù)實(shí)現(xiàn)智能搜索功能。
文字搜索模塊下又分成三個(gè)不同的子模塊:文檔搜索、新聞搜索和網(wǎng)頁(yè)搜索。
1)文檔搜索:輸入文檔的關(guān)鍵字,點(diǎn)擊文檔搜索,進(jìn)行定向搜索,搜索的內(nèi)容只能是文檔形式,沒(méi)有其他形式。如圖2所示。
圖2 文檔搜索
2)新聞搜索:新聞搜索的主要內(nèi)容是摘取自中國(guó)新聞網(wǎng)、各地新聞網(wǎng)、新聞聯(lián)播、新聞?lì)^條等官方新聞網(wǎng)站的信息??紤]到新聞關(guān)注者老年人比例較大,所以又設(shè)置了適老版PC端。如圖3所示。
圖3 新聞搜索
3)網(wǎng)頁(yè)搜索:網(wǎng)頁(yè)搜索的主要內(nèi)容是百度百科、360百科等關(guān)于專(zhuān)業(yè)知識(shí)的權(quán)威解答。如圖4所示。
圖4 網(wǎng)頁(yè)搜索
搜索框末端有相機(jī)樣式的標(biāo)志,首先將想要搜索的內(nèi)容以圖片的形式上傳到系統(tǒng)中,然后點(diǎn)擊搜索。搜索出來(lái)的內(nèi)容只有圖片格式,沒(méi)有其他格式的。如圖5所示。
圖5 圖片搜索
搜索框下端有話(huà)筒樣式的標(biāo)志,點(diǎn)擊話(huà)筒開(kāi)始講話(huà),輸入想要搜索的內(nèi)容后松開(kāi)鼠標(biāo),此時(shí)搜索框內(nèi)出現(xiàn)語(yǔ)音,點(diǎn)擊搜索開(kāi)始檢索內(nèi)容。如圖6所示。
圖6 語(yǔ)音搜索
1)搜索結(jié)果精度高。傳統(tǒng)的搜索系統(tǒng)存在很多缺點(diǎn),如:查詢(xún)結(jié)果定位不準(zhǔn)確、查詢(xún)的無(wú)用信息過(guò)多,給用戶(hù)帶來(lái)不必要的困擾等。智能搜索系統(tǒng)基于大數(shù)據(jù)的方法獲得用戶(hù)在查詢(xún)過(guò)程中表達(dá)出來(lái)的真正意圖,使用戶(hù)告訴搜索系統(tǒng)哪些文檔和用戶(hù)相關(guān),哪些不相關(guān),通過(guò)多次交互逐步實(shí)現(xiàn)。
2)搜索范圍準(zhǔn)確。由于采用知識(shí)圖譜等先進(jìn)技術(shù),將搜索范圍確定的更加準(zhǔn)確.用戶(hù)不需要再對(duì)搜索出來(lái)的內(nèi)容做進(jìn)一步的篩選,同時(shí)它還能夠支撐全文檢索以及概念檢索,使不同的用戶(hù)得到滿(mǎn)足。
3)搜索過(guò)程交互智能。智能搜索系統(tǒng)在信息檢索的過(guò)程中,不斷的與用戶(hù)交互,在用戶(hù)提出進(jìn)一步查詢(xún)的線(xiàn)索基礎(chǔ)上,不斷修改檢索過(guò)程。
本文用一種大數(shù)據(jù)的智能方法來(lái)進(jìn)行搜索系統(tǒng)的改進(jìn),采用基于機(jī)器自學(xué)習(xí)的智慧爬蟲(chóng)、專(zhuān)業(yè)化的科技搜索、知識(shí)圖譜的方法,使得搜索的內(nèi)容更加準(zhǔn)確,更加符合用戶(hù)需求。