王軍
摘要:在互聯(lián)網(wǎng)時代,隨著信息量的不斷膨脹,搜索引擎在計算機(jī)技術(shù)不斷發(fā)展的局勢下,受到了更多的挑戰(zhàn)。本文就搜索引擎的發(fā)展歷程及結(jié)構(gòu)原理進(jìn)行了介紹,重點提出如何利用Java語言對垂直搜索引擎進(jìn)行設(shè)計方案的構(gòu)建。
關(guān)鍵詞:Java;垂直搜索引擎;方案構(gòu)建
伴隨著21世紀(jì)互聯(lián)網(wǎng)技術(shù)的熾熱化的發(fā)展進(jìn)程人們對互聯(lián)網(wǎng)應(yīng)用范圍的擴(kuò)展也提出了新的要求,現(xiàn)有引擎雖然信息面廣,但更像大染缸,信息雜糅,只有快速的找到關(guān)鍵詞才能比較迅速的找到自己想要的信息大概范圍,經(jīng)過瀏覽確定最終目標(biāo),人們更需要一種專業(yè)化的引擎,于是我們想到了垂直搜索引擎。
一、搜索引擎的發(fā)展歷程
20世紀(jì)90年代,WWW還沒有出現(xiàn),文件傳輸已經(jīng)比較普遍,但查詢不便,所以lan Emtage想到了以一種通過文件名查詢文件的方法,即搜索引擎的雛形,它以腳本程序為基礎(chǔ),供使用者查找文件。在lan Emtage的啟發(fā)下,美國的System Computing Services大學(xué)開發(fā)了具有搜索網(wǎng)頁功能的Veronica,網(wǎng)頁的搜索開始發(fā)展。
縱觀搜索引擎的發(fā)展歷程,可分為四個階段。1994年的IR基本實現(xiàn)了在Web網(wǎng)頁上的檢索,由于可供用的網(wǎng)站也少且費(fèi)時,很快被第二代搜索引擎代替,第二代搜索引擎主要表現(xiàn)為數(shù)據(jù)庫和網(wǎng)絡(luò)蜘蛛的分布式兩種。第三代已進(jìn)入人工智能時代,搜索引擎空前繁榮,加入了地域搜索和主題搜索、超鏈接以及用戶記錄,自動分類技術(shù)已有滲透。第四代搜索引擎即垂直搜索引擎,其專業(yè)化程度相較于之前有了很大的提高,出現(xiàn)了專門針對某一行業(yè)的主題信息的搜索。
二、垂直搜索引擎
垂直搜索引擎的出現(xiàn)改變了原來搜索引擎查詢深度不足、信息量太、查詢精度低的問題,對某一行業(yè)、某一人群的不同需求來對信息進(jìn)行篩選然后提供給他們搜索更加有序具體,縮小了搜索范圍但提高了精度,節(jié)約了用戶的時間。比如對于經(jīng)常瀏覽雜志頁面的用戶,他可能會有訂閱雜志的意愿,那就需要對相關(guān)雜志有更詳細(xì)的介紹,包括里面的排版特點、主要內(nèi)容等。尤其對于電子行業(yè)的用戶來說,其需求更加明確所以就需要更加詳細(xì)的信息予以支持,針對這種非常具體需求而出現(xiàn)的搜索引擎就是垂直搜索。
作為一種更詳細(xì)具體的搜索引擎,其專業(yè)化服務(wù)質(zhì)量的審核標(biāo)準(zhǔn)主要決定于web結(jié)構(gòu)信息抽取的技術(shù)的高低,由于垂直搜索引擎屬于新興技術(shù),仍然處于探索階段,這是不可否認(rèn)的。已經(jīng)存在的垂直搜索引擎主要有:旅游類的去哪兒網(wǎng)、征程網(wǎng)等,招聘類的智聯(lián),娛樂類的搜狐、樂視等。
垂直搜索引擎相比于通用的搜索引擎具有很多的優(yōu)勢:行業(yè)色彩更濃,專注于某一主題的服務(wù),所以提供的信息更加詳細(xì)具體而有針對性;引擎的開發(fā)在于為專門的用戶提供專門的服務(wù),因為專注,所以高效;以元數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)為搜索基礎(chǔ),關(guān)鍵詞的提取相對要容易一些。
當(dāng)然,缺陷也是不能忽略的,比如種子站點的掌控難,只有經(jīng)過準(zhǔn)去的判斷才能夠找到目的網(wǎng)站;技術(shù)難度比較高;信息的提供專業(yè)但是單一。
三、基于Java的垂直搜索引擎的設(shè)計
手機(jī)作為與人們生活息息相關(guān)的電子產(chǎn)品,在人們的引擎搜索中往往被格外關(guān)注,本文以手機(jī)為對象,探討基于Java的垂直搜索引擎的設(shè)計。
1、引擎設(shè)計前的需求分析
經(jīng)過對各大手機(jī)門戶網(wǎng)站進(jìn)行瀏覽分析后,需要建立一個具有垂直搜索引擎功能的模擬系統(tǒng),供用戶搜索,具體來講,需要涉及到一下方面。
一是手機(jī)相關(guān)信息的搜索與顯示,這是一個直至搜索引擎最基本的功能,通過操作界面的指令的發(fā)送,后臺開始操作,找到相關(guān)的信息后通過界面顯示的形式反饋給用戶,點擊進(jìn)入后就可以看到需要的信息,不會出現(xiàn)與搜索內(nèi)容無關(guān)的消息。
二是信息自動采集功能。通過垂直搜索引擎找到與搜索信息有相似特點的信息,并加以保存分析提取整理存入數(shù)據(jù)庫。
2、設(shè)計思路
本次研究基于Eclipse3.1+MySQL5.0+Tomcat5.5 環(huán)境,其良好的開發(fā)性有助于Java語言的開發(fā)性能的發(fā)揮,在構(gòu)建web時需要使用PluginV3插件,用到的已開發(fā)程序包和檢索工具包包括Heritrix1.12.1和Lucene2.0。
3、網(wǎng)頁信息的抓取
首先需要獲得更多的手機(jī)相關(guān)信息,利用蜘蛛程序爬行網(wǎng)頁對各大網(wǎng)站的信息進(jìn)行收集分析和整理,選擇獲取信息的網(wǎng)站的前提是瀏覽量大,信息完備,以便于搜索涵蓋幾乎所有手機(jī)的信息。
此外還要對網(wǎng)頁的結(jié)構(gòu)以及URL特點進(jìn)行分析,目的在于對蜘蛛獲得信息進(jìn)行進(jìn)一步的過濾,將與產(chǎn)品無關(guān)的資料去掉。
4、網(wǎng)頁機(jī)構(gòu)化的抽取
在網(wǎng)頁被抓取后并不能直接使用,而是需要經(jīng)過進(jìn)一步的篩選將有用信息保存下來,一般為了方便數(shù)據(jù)的入庫都會將其以文本形式保存,這一步的信息處理是建立引擎的關(guān)鍵,工作相對繁瑣一些。
5、建立索引
待前邊的準(zhǔn)備工作都完成后,即開始引擎搜索的建立,主要是通過代碼的編寫將獲得的信息導(dǎo)入到每款手機(jī)特定的文件中,然后放入數(shù)據(jù)庫等待用戶搜索。
結(jié)束語
在互聯(lián)網(wǎng)時代,信息量的日與劇增促使人們對信息的搜索提出了更專業(yè)化的要求,作為搜索引擎的輔助型工具,垂直搜索引擎的確在互聯(lián)網(wǎng)中法糊了不可替代的作用,我們也將加大對其研究的力度,努力讓其在每一個領(lǐng)域都能夠提供服務(wù),本文的研究將為這一偉大設(shè)想提供參考。
參考文獻(xiàn)
[1]潘春華,常敏,武港山.面向Web的信息收集工具的設(shè)計與開發(fā)[J].計算機(jī)應(yīng)用研究,2012(16).
[2]張娜,張化祥.基于超鏈接和內(nèi)容相關(guān)度的檢索算法[J].計算機(jī)應(yīng)用,2012(26).