卞華文
DOI:10.16661/j.cnki.1672-3791.2015.36.056
摘 要:網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,使人們對(duì)信息的接收方式發(fā)生了翻天覆地的變化。搜索引擎已經(jīng)成為人們查詢信息的主要方式。同時(shí)對(duì)于查詢的速度,準(zhǔn)確率提出了更高的要求。由此各種針對(duì)某一行業(yè)的垂直搜索引擎為此應(yīng)運(yùn)而生。目前面向教育的垂直搜索引擎已經(jīng)有了很大的發(fā)展。但是針對(duì)中等職業(yè)教育的垂直搜索引擎還很少。該文通過(guò)對(duì)垂直搜索引擎的核心技術(shù)分析、研究,設(shè)計(jì)了面向中等職業(yè)教育的垂直搜索引擎的系統(tǒng)結(jié)構(gòu),并對(duì)其中涉及的關(guān)鍵技術(shù):Web搜集器、信息抽取技術(shù)、中文分詞和檢索技術(shù)進(jìn)行了深入研究,期望對(duì)推進(jìn)該領(lǐng)域的技術(shù)發(fā)展作出一定的貢獻(xiàn)。
關(guān)鍵詞:中等職業(yè)教育 垂直搜索引擎 網(wǎng)絡(luò)爬蟲(chóng)
中圖分類號(hào):TP39 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2015)12(c)-0056-02
1 緒論
1.1 概述
目前我們的社會(huì)已經(jīng)進(jìn)入高度信息化時(shí)代,人們對(duì)獲取信息的方式發(fā)生了根本性的變化,我們學(xué)習(xí)的途徑不再局限于課堂和書(shū)籍,而是越來(lái)越多地通過(guò)互聯(lián)網(wǎng)來(lái)找到我們所需要的信息。那么為了能夠更快更好地獲取互聯(lián)網(wǎng)上的資源,那么搜索引擎技術(shù)就應(yīng)運(yùn)而生了,搜索引擎(雅虎、百度、Google)能夠使人們快速地搜索網(wǎng)絡(luò)上我們需要的相關(guān)信息。但是,獲得的信息也是非常龐大和分散的,而且其中包含了許多與我們查詢主題無(wú)關(guān)的內(nèi)容,需要浪費(fèi)用戶大量的時(shí)間和精力來(lái)加以區(qū)別。垂直搜索引擎技術(shù)的產(chǎn)生就是為了解決通用搜索引擎專業(yè)性不夠、集中度不高的問(wèn)題,大大地提高了搜索的速度和精確度。而隨著我國(guó)執(zhí)行大力發(fā)展中等職業(yè)教育的政策,教育資源不足嚴(yán)重地制約著中等職業(yè)教育質(zhì)量的提高[1]。目前面向普通教育資源的垂直搜索引擎發(fā)展的也很迅速,但是對(duì)于專門(mén)面向中等職業(yè)教育的垂直搜索引擎仍然嚴(yán)重不足。目前我們國(guó)家對(duì)于中等職業(yè)教育非常重視,投入的力度也很大,對(duì)于計(jì)算機(jī)和網(wǎng)絡(luò)的硬件條件已經(jīng)完全具備在中等職業(yè)學(xué)校建立輔助教學(xué)的信息檢索平臺(tái)。
1.2 國(guó)內(nèi)外研究現(xiàn)狀分析
通用搜索引擎從誕生到現(xiàn)在已經(jīng)經(jīng)歷了十余年的發(fā)展,目前已經(jīng)廣泛應(yīng)用于互聯(lián)網(wǎng),成為人們搜索互聯(lián)網(wǎng)資源必不可少的工具,實(shí)際上,搜索引擎的出現(xiàn)是個(gè)必然,因?yàn)殡S著網(wǎng)絡(luò)資源的幾何級(jí)別的增長(zhǎng),同時(shí)網(wǎng)絡(luò)傳播的速度大大超出了人們的想象,互聯(lián)網(wǎng)行業(yè)的應(yīng)用已經(jīng)滲透到人類生活的方方面面。搜索引擎就像茫茫大海中燈塔一樣指引著人們?cè)诨ヂ?lián)網(wǎng)中遨游。
搜索引擎的發(fā)展經(jīng)歷了幾個(gè)重要的歷史時(shí)期:最開(kāi)始出現(xiàn)的搜索引擎只是檢索FTP上邊的文件;隨后的搜索引擎開(kāi)始收錄網(wǎng)絡(luò)地址;搜索引擎開(kāi)始收錄標(biāo)題;目前的搜索引擎,已經(jīng)開(kāi)始抓取網(wǎng)頁(yè)全文了。
1.3 面向教育的搜索引擎的發(fā)展現(xiàn)狀
目前流行的通用搜索引擎其工作原理及核心代碼是不對(duì)外公開(kāi)的,其產(chǎn)生查詢結(jié)果的排序方法也被視為商業(yè)機(jī)密。甚至有人質(zhì)疑由于商業(yè)利益的關(guān)系對(duì)查詢結(jié)果的排序造成了扭曲。面向教育的垂直搜索引擎的研究有很多的文章,但未對(duì)教育搜索引擎框架和核心給出詳細(xì)的描述。這使得開(kāi)發(fā)教育搜索引擎成為教育技術(shù)領(lǐng)域一項(xiàng)困難的任務(wù)。為此該文結(jié)合教育領(lǐng)域特征和搜索需求的多樣化研究對(duì)面向教育的垂直搜索引擎框架及其關(guān)鍵技術(shù)進(jìn)行了深入地探討和研究。
1.4 面向中等職業(yè)教育的垂直搜索引擎發(fā)展現(xiàn)狀
面向中等職業(yè)學(xué)校的垂直搜索引擎的研究目前嚴(yán)重不足。對(duì)于垂直搜索引擎來(lái)說(shuō)專業(yè)性越強(qiáng)其搜索的效果越好,由于我國(guó)的經(jīng)濟(jì)形勢(shì)的發(fā)展,各種產(chǎn)業(yè)不斷升級(jí),社會(huì)需要大量具有合格工作技能的專業(yè)人才,國(guó)家對(duì)于中等職業(yè)教育越來(lái)越重視,投入也越來(lái)越大,甚至達(dá)到了職業(yè)教育與義務(wù)教育同等重要的地位。
2 垂直搜索引擎技術(shù)分析
垂直搜索引擎系統(tǒng)由4部分組成:信息采集(Crawler)、分析、索引(Indexer)和查詢(Query)。信息采集模塊負(fù)責(zé)在互聯(lián)網(wǎng)上查找網(wǎng)頁(yè)信息,并對(duì)所采集的網(wǎng)頁(yè)內(nèi)容進(jìn)行解析、過(guò)濾、分詞處理;索引模塊對(duì)采集到的信息分析之后進(jìn)行倒排序的方式存放到索引數(shù)據(jù)庫(kù)中;查詢模塊根據(jù)用戶輸入的關(guān)鍵詞,從索引數(shù)據(jù)庫(kù)中找到相關(guān)的網(wǎng)頁(yè),并根據(jù)相關(guān)度排序?qū)⒕W(wǎng)址和網(wǎng)頁(yè)摘要反饋給用戶。
2.1 信息采集模塊
搜索引擎采集網(wǎng)頁(yè)通常采用網(wǎng)絡(luò)爬蟲(chóng)(Spider)[2]方式。通過(guò)它可以生成以用戶輸入的關(guān)鍵詞為依據(jù)排序的URL及摘要的索引數(shù)據(jù)庫(kù),它的工作原理是從初始URL開(kāi)始不斷抓取URL。這些URL信息集成一個(gè)URL隊(duì)列,一直到不滿足查詢條件為止。通過(guò)分析過(guò)濾掉不相關(guān)的網(wǎng)頁(yè)鏈接,將有用的網(wǎng)頁(yè)鏈接放到URL隊(duì)列中,并在URL隊(duì)列中找到后面要抓取的網(wǎng)頁(yè)。最后將抓取的URL和摘要按相關(guān)度的順序保存到索引數(shù)據(jù)庫(kù)中,用于后面的索引和查詢。
2.2 信息的分析模塊
目前互聯(lián)網(wǎng)上的網(wǎng)頁(yè)數(shù)量呈幾何級(jí)別的增長(zhǎng),如何從浩如煙海的網(wǎng)絡(luò)中抓取用戶需要的信息,過(guò)濾掉無(wú)關(guān)的網(wǎng)頁(yè)需要建立一個(gè)判定的規(guī)則。通用搜索引擎是不進(jìn)行主題相關(guān)性判定的,造成抓取的網(wǎng)頁(yè)數(shù)量龐大且分散。由于垂直搜索具地專業(yè)特性、精確度高、深度大的特點(diǎn),要對(duì)信息采集模塊采集到的網(wǎng)頁(yè)進(jìn)行主題相關(guān)度的判定。使其能夠盡量地抓取高度相關(guān)的網(wǎng)頁(yè),這樣提高了搜索的精確度和搜索的速度。同時(shí)還要制定一定的策略來(lái)解決網(wǎng)頁(yè)重復(fù)和網(wǎng)頁(yè)內(nèi)容變化的問(wèn)題。
2.3 信息索引模塊
信息采集模塊抓取的網(wǎng)頁(yè),保存在一個(gè)結(jié)構(gòu)化的數(shù)據(jù)庫(kù)中,按照類型進(jìn)行排列建立索引數(shù)據(jù)庫(kù)以便進(jìn)行快速檢索。通用搜索引擎抓取的網(wǎng)頁(yè)龐雜、分散,因此不能進(jìn)行全文檢索,垂直搜索引擎因?yàn)槭轻槍?duì)某一特定領(lǐng)域或某一特定人群,因此支持進(jìn)行全文檢索。使其具有相比于通用搜索引擎搜索深度大的優(yōu)點(diǎn)。
2.4 用戶界面
用戶輸入和輸出的接口,現(xiàn)在通常使用Ajax技術(shù)來(lái)設(shè)計(jì)用戶使用的界面。利用Lucene全文檢索工具根據(jù)用戶輸入的關(guān)鍵詞將索引的相關(guān)網(wǎng)頁(yè)以列表的形式反饋給用戶。
3 面向中等職業(yè)教育的垂直搜索引擎的分析和研究
3.1 中等職業(yè)教育的特點(diǎn)
中等職業(yè)教育具不同于普通教育的特殊性,簡(jiǎn)單的說(shuō)有些類似于高等教育與義務(wù)制普通教育的結(jié)合體。既有高等教育按專業(yè)分類的特點(diǎn),又有普通教育課程分配的特點(diǎn)。要求的知識(shí)內(nèi)容和技術(shù)水平接近于高中教育水平。雖然中等職業(yè)教育是以培養(yǎng)專業(yè)技術(shù)型人才為目標(biāo),但同時(shí)也要兼顧文化素養(yǎng)和德智體美全面發(fā)展。即不僅要學(xué)好專業(yè)課程和專業(yè)相關(guān)領(lǐng)域知識(shí),同時(shí)也要加強(qiáng)文化課程的學(xué)習(xí)。
3.2 構(gòu)建面向中等職業(yè)教育資源的垂直搜索引擎框架
根據(jù)我國(guó)中等職業(yè)教育的自身特點(diǎn),搜索引擎框架從下面幾個(gè)角度來(lái)設(shè)計(jì),分別為專業(yè)課程、文化課程、技能鑒定和實(shí)習(xí)就業(yè)4個(gè)部分。學(xué)生可以根據(jù)自己在學(xué)習(xí)當(dāng)中的需要,有針對(duì)性地查詢自己所想要的信息。
3.3 各個(gè)子系統(tǒng)的設(shè)計(jì)
信息采集系統(tǒng)的設(shè)計(jì):網(wǎng)絡(luò)爬蟲(chóng)的工作步驟。首先蜘蛛搜索網(wǎng)站首頁(yè)的根網(wǎng)址,保存到待抓取的地址列表中,若地址列表不為空就判斷是否曾經(jīng)訪問(wèn)過(guò)該地址,假如此網(wǎng)頁(yè)沒(méi)有被訪問(wèn)過(guò)就讀取網(wǎng)頁(yè)內(nèi)容,并對(duì)讀取的網(wǎng)頁(yè)內(nèi)容進(jìn)行解析,然后對(duì)內(nèi)容主題相關(guān)度進(jìn)行判斷,并將關(guān)聯(lián)主題的網(wǎng)頁(yè)內(nèi)容保存到數(shù)據(jù)庫(kù)中,并把這些網(wǎng)頁(yè)的網(wǎng)址保存到已訪問(wèn)網(wǎng)頁(yè)列表中,否則去掉此網(wǎng)頁(yè)地址。最后當(dāng)待抓取的網(wǎng)頁(yè)列表為空的時(shí)候,或者抓取的深度滿足制定要求的時(shí)候結(jié)束讀取,重復(fù)執(zhí)行抓取其他網(wǎng)站直到結(jié)束。
索引系統(tǒng)的設(shè)計(jì)。索引過(guò)程可分為3個(gè)主要的操作步驟:將信息轉(zhuǎn)換成文本,分析文本,將分析過(guò)的文本保存到數(shù)據(jù)庫(kù)中。要想對(duì)信息分類和建立索引,那么首先必須將信息轉(zhuǎn)換成純文本字符流。但是在網(wǎng)絡(luò)中信息是以各種富媒體文檔格式存在的:比如PDF,WORD,EXCEL,HTML,XML等。為此需要使用文檔解析器,將富媒體轉(zhuǎn)換成純文字字符流。分析文本。在對(duì)信息進(jìn)行索引之前,還必須將轉(zhuǎn)換后的文本進(jìn)行分詞技術(shù)處理,才能更好地建立索引。當(dāng)數(shù)據(jù)分析時(shí),首先將文本拆成若干個(gè)塊和單元詞匯,接著可選擇操作,比如:大小寫(xiě)轉(zhuǎn)換在索引操作之前,避免大小寫(xiě)的錯(cuò)誤;比較典型的是去除經(jīng)常使用卻沒(méi)用的詞匯,比如介詞、冠詞(the、a、in、on、an等)。同樣道理,找到一些沒(méi)有意義的詞匯在索引之前就把它們?nèi)サ粢詼p少索引的次數(shù)提高索引的效率。對(duì)輸入數(shù)據(jù)分析處理完成后,就可以將結(jié)果寫(xiě)入索引文件中。結(jié)果一般包括網(wǎng)頁(yè)標(biāo)題,正文,所屬住地址,主機(jī),內(nèi)容摘要,當(dāng)前URL地址等,并根據(jù)具體情況和需要建立索引和存儲(chǔ)。
信息查詢算法。通過(guò)預(yù)處理網(wǎng)頁(yè)后,每個(gè)元素由下面幾個(gè)信息構(gòu)成:編號(hào),網(wǎng)頁(yè)地址和主題,初始網(wǎng)頁(yè)文檔包含的系統(tǒng)關(guān)鍵詞的集合以及它們?cè)谖臋n中出現(xiàn)的位置數(shù)據(jù)同時(shí)還包括一些其他的重要信息(例如重要級(jí)別,代碼類別等)。而關(guān)鍵詞集合和文檔的編號(hào)共同組成了一個(gè)倒排索引文件結(jié)構(gòu),能夠迅速地輸出相關(guān)文檔的集合編號(hào)。查詢方式指的是搜索引擎承認(rèn)的查詢方法。由于客戶的不同要求所以不能只有一種查詢方法。通常對(duì)于普通的客戶的查詢方式,那就是輸入他最想要的詞匯。然而這不能作為一種準(zhǔn)確定義的查詢方式。
比如客戶寫(xiě)“技師學(xué)?!?,可能是他想了解技術(shù)學(xué)校目前的招生狀況,可能需要找到技師學(xué)校教務(wù)系統(tǒng)的網(wǎng)址,可能需要了解大家對(duì)技師學(xué)校的評(píng)價(jià)。這是3種相當(dāng)不同的需求。在其他一些情況下,用戶可能關(guān)心的是間接的信息,例如“技師學(xué)校錄取分?jǐn)?shù)線”,450分應(yīng)該是他需要的,但不可能包含在這個(gè)短語(yǔ)中。盡管如此,用一個(gè)字或短語(yǔ)來(lái)間接表達(dá)查詢需要,如果網(wǎng)頁(yè)內(nèi)容或標(biāo)題中包括輸入的詞或短語(yǔ),仍然是最普遍的查詢方法。原因是他所查詢出現(xiàn)的概率是最多的,還包括如此查詢也更簡(jiǎn)單和容易完成。如此來(lái)說(shuō),搜索引擎接收的語(yǔ)句。通常用q0作為客戶的初始查詢,比如,q0 =“網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室”。它最先要被分詞成一個(gè)詞的序列。所以則變成“網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室”(注意,分詞軟件的不同有可能導(dǎo)致不一樣的查詢結(jié)果)。接著要過(guò)濾掉那些幾乎在所有文檔中都會(huì)出現(xiàn)的那些沒(méi)有意義的字符,最后生成查詢?cè)~表用于匹配,q={t1,t2,…,tm},從上面的實(shí)例來(lái)說(shuō)q={網(wǎng)絡(luò),分布式,系統(tǒng),實(shí)驗(yàn)室}。倒排文件就是把所有的詞按倒序的方式依次保存到搜索引擎的索引文件中,所以q中的詞一定要存在于搜索引擎所產(chǎn)生的查詢倒排文件。那么作為用戶所輸入的q,客戶輸入的詞匯會(huì)分割成一個(gè)個(gè)的關(guān)鍵詞而抓取到文檔編號(hào)的集合,記作L(ti),所產(chǎn)生的交集就是相關(guān)查詢的倒排文件,也就是達(dá)到了查詢和網(wǎng)頁(yè)文檔的匹配。因此用戶總是要求所輸入的詞匯被包含在網(wǎng)頁(yè)文檔當(dāng)中。
3.4 專業(yè)課程模塊設(shè)計(jì)
專業(yè)技術(shù)的學(xué)習(xí)是中等職業(yè)教育的核心和重點(diǎn),專業(yè)技能的高低直接決定了學(xué)生未來(lái)的就業(yè)前景。由于中等職業(yè)學(xué)校規(guī)模的限制不可能像大學(xué)那樣建立大而全的專業(yè)體系。大體上來(lái)講,中等職業(yè)學(xué)校的專業(yè)可以籠統(tǒng)地分為工業(yè)類包括機(jī)械、工程、電子等,信息類包括計(jì)算機(jī)、金融、會(huì)計(jì)等,服務(wù)類包括藝術(shù)、旅游、餐飲、教育等。用戶可以根據(jù)不同的專業(yè)來(lái)搜索相應(yīng)預(yù)處理過(guò)的信息。
4 該文的主要工作
該文通過(guò)分析了中等職業(yè)教育的特點(diǎn),對(duì)垂直搜索引擎的核心技術(shù)分析、研究。設(shè)計(jì)了面向中等職業(yè)教育的垂直搜索引擎的系統(tǒng)結(jié)構(gòu),并對(duì)其中涉及的關(guān)鍵技術(shù):網(wǎng)頁(yè)搜集器、信息抓取技術(shù)、查詢技術(shù)從事了探討和研究,希望對(duì)中等職業(yè)教育領(lǐng)域的垂直搜索引擎的應(yīng)用能夠做出一點(diǎn)貢獻(xiàn)。
參考文獻(xiàn)
[1] 趙翠.中等職業(yè)教育擴(kuò)招:意義、問(wèn)題與對(duì)策[J].機(jī)械職業(yè)教育,2011(8):14-16.
[2] 趙洋,滕桂法,張玉新.基于Intemet的農(nóng)業(yè)信息垂直搜索引擎的設(shè)計(jì)[J].河北農(nóng)業(yè)大學(xué)學(xué)報(bào),2009,32(6):125.