摘 要:隨著互聯(lián)網(wǎng)信息化的快速發(fā)展,網(wǎng)絡(luò)求職人數(shù)不斷增多,主題搜索引擎正成為新一代的主流搜索引擎。本文就面向畢業(yè)生求職幫助信息為主題的搜索引擎進(jìn)行了研究,通過提出主題搜索引擎的關(guān)鍵技術(shù),提出了求職幫助信息的搜索引擎的設(shè)計方案。
關(guān)鍵詞:求職信息;主題搜索;信息查找
中圖分類號:G647.38
近年來,各大高校都以前所未有的速度擴(kuò)大招生規(guī)模,大學(xué)生的總數(shù)在不斷增加,導(dǎo)致大學(xué)生畢業(yè)人數(shù)急劇增長,就業(yè)率不斷下降,大學(xué)畢業(yè)生很難尋覓到自己滿意的工作,畢業(yè)生的就業(yè)問題面臨著十分嚴(yán)峻的挑戰(zhàn)。2013年全國大學(xué)畢業(yè)生達(dá)到699萬人,較2012年增加了19萬人,被人們稱為“史上最難就業(yè)季”,2014年全國普通高校畢業(yè)生預(yù)計將達(dá)到727萬人,再加上全國的待業(yè)人員,求職的激烈程度可見一斑。這就要求大學(xué)生積極收集就業(yè)信息,學(xué)習(xí)了解筆面試經(jīng)驗,搜集面試技巧,才有可能在千軍萬馬中找到適合自己的崗位。
根據(jù)2013年6月底中國互聯(lián)網(wǎng)信息中心發(fā)布的《第32屆中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》,中國互聯(lián)網(wǎng)普及率為44.1%,互聯(lián)網(wǎng)普及率在穩(wěn)步上升。互聯(lián)網(wǎng)對大學(xué)生就業(yè)產(chǎn)生了巨大的推動作用,我國就業(yè)信息方面的網(wǎng)站已經(jīng)發(fā)展到成百上千家,在傳播就業(yè)政策和提供就業(yè)信息方面發(fā)揮了顯著的作用。隨著網(wǎng)絡(luò)信息數(shù)量的迅猛增長,“信息過載”、“信息超載”已經(jīng)成為日益嚴(yán)重的問題。筆者負(fù)責(zé)學(xué)生就業(yè)工作將近兩年,其中擔(dān)任過《大學(xué)生就業(yè)指導(dǎo)》任課教師?!洞髮W(xué)生就業(yè)指導(dǎo)》作為一門公共任選課,沒有被得到高度地重視。然而更多學(xué)生的目的只是獲取學(xué)分甚至在大學(xué)四年重來沒有選過,致使大部分畢業(yè)生缺乏筆面試經(jīng)驗以及面試技巧。本文旨在研究建立一個面向求職幫助信息主題搜索引擎的平臺,對廣大的求職者給予更大的幫助。
1 主題搜索引擎介紹
1.1 主題搜索引擎的概念。隨著互聯(lián)網(wǎng)信息的“爆炸式”增長和人們對搜索引擎要求的提高,通用搜索引擎也面臨著挑戰(zhàn)。為了得到更高的查全率和查準(zhǔn)率,主題搜索引擎成為新一代搜索引擎的新趨勢。所謂主題搜索引擎是專門采集某一行業(yè)、某一專題、某一學(xué)科、某一主題范圍內(nèi)的信息資源,建立本地資源數(shù)據(jù)庫,對搜集到的資源做索引。用戶進(jìn)行搜索是通過界面接口對信息檢索,以得到用戶所需的專業(yè)信息。
所謂主題,是指用戶所要搜集的信息的特征。主題通常由用戶指定若干相關(guān)網(wǎng)頁(稱為樣本網(wǎng)頁)來確定。通過用戶選定的樣本網(wǎng)頁來確定所搜集的主題,在此基礎(chǔ)上進(jìn)行特征提取,分析樣本網(wǎng)頁,提取特征信息,然后根據(jù)獲取的特征信息進(jìn)行搜集,對每一個搜集的網(wǎng)頁,都賦予一定的相關(guān)度,相關(guān)度越高,就說明與主題越相似。
1.2 主題搜索引擎的優(yōu)勢。通用搜索引擎主要是針對全互聯(lián)網(wǎng)各類網(wǎng)站信息進(jìn)行搜集和檢索的工具。主要目標(biāo)是信息量全,覆蓋各個領(lǐng)域和各個行業(yè)。而主題搜索引擎是針對某一主題、某一行業(yè)的專業(yè)搜索引擎,是通用搜索引擎的細(xì)分和延伸。主要優(yōu)勢表現(xiàn)在:(1)主題搜索引擎只為某一領(lǐng)域或行業(yè)的用戶提供服務(wù),所以信息資料減少,可以精確無誤的對請求做出反饋。(2)主題搜索引擎只關(guān)注某一主題、某一領(lǐng)域的信息,所以信息提取量、數(shù)據(jù)量的變小對于計算機(jī)硬件的要求也相對較低,并且索引數(shù)據(jù)庫的規(guī)模變小有利于縮短查詢響應(yīng)時間。(3)主題搜索引擎只涉及某一主題、某一領(lǐng)域的信息,所以使用專業(yè)詞表進(jìn)行規(guī)范和控制,大大提高了信息資源檢索的查全率和查準(zhǔn)率。
2 關(guān)鍵技術(shù)研究
基于面向求職幫助信息主題的搜索引擎具有自身的特性,下面列出實現(xiàn)面向求職幫助信息主題搜索引擎的關(guān)鍵技術(shù)。
2.1 網(wǎng)頁信息抓取技術(shù)。網(wǎng)絡(luò)信息采集是通過網(wǎng)絡(luò)蜘蛛程序來實現(xiàn)的。在實際應(yīng)用中,主題搜索的網(wǎng)頁采集技術(shù)能夠按照需控制采集范圍和目標(biāo)、需支持深度采集以及需支持復(fù)雜的動態(tài)網(wǎng)頁來采集。也就是說,網(wǎng)頁采集技術(shù)能夠達(dá)到更加具有針對性、實時性。
2.2 網(wǎng)頁內(nèi)容分析技術(shù)。通過網(wǎng)絡(luò)蜘蛛搜集來的網(wǎng)頁信息一般要先進(jìn)行分析,以便于后面建立索引。分析技術(shù)一般包括分詞、過濾、轉(zhuǎn)換等工作。經(jīng)過分詞、過濾、轉(zhuǎn)換,將有價值的信息提取出來,才能進(jìn)一步提供更有價值的服務(wù)。
2.3 信息索引技術(shù)。為了提高用戶的查詢精度、空間的利用率以及系統(tǒng)運行的效率,需要對這些信息建立索引。索引模塊是信息采集模塊和信息檢索模塊的“橋梁”,其工作主要是建立索引數(shù)據(jù)庫。網(wǎng)頁建立完索引才能被后續(xù)流程使用。設(shè)計良好的索引可以加快搜索速度,能夠更加準(zhǔn)確地進(jìn)行網(wǎng)頁定位,從而減少計算開銷。在這里,針對求職幫助信息的主題搜索,我們將使用Lucene系統(tǒng)的索引技術(shù)。Lucene是一個開放源代碼的全文檢索引擎的工具包,提供了完整的查詢和索引引擎,可以減少經(jīng)費開支。
2.4 信息檢索技術(shù)。信息檢索功能是搜索引擎體現(xiàn)自己最終價值的重要環(huán)節(jié)。良好的反應(yīng)速度、合理的結(jié)果集和排序次序都很重要。搜索引擎返回的結(jié)果需要根據(jù)語義相關(guān)性進(jìn)行排序。主題搜索由于其只包含某個領(lǐng)域的信息,詞義明確可以提高結(jié)果的相關(guān)性。
3 求職幫助主題搜索引擎設(shè)計方案
3.1 技術(shù)路線。求職幫助主題搜索引擎的研究開發(fā)采用如下的技術(shù)路線:(1)通過對主題搜索引擎的特點及關(guān)鍵技術(shù)的研究,總結(jié)出主題搜索引擎相比與通用搜索引擎對硬件要求更低,分類更加細(xì)致精確,更新更加及時的優(yōu)點。(2)通過對Lucene全文索引引擎工具包架構(gòu)的研究,比較Lucene數(shù)據(jù)庫檢索和傳統(tǒng)數(shù)據(jù)庫檢索的異同。(3)通過對信息采集策略的研究,分析總結(jié)出面向求職幫助信息的有效信息采集策略。(4)在分析研究主題搜索引擎關(guān)鍵技術(shù)的基礎(chǔ)上,針對有效的求職幫助信息采集策略,提出以求職幫助信息為主題的搜索引擎的設(shè)計方案并加以實現(xiàn)。
3.2 可行性分析。隨著現(xiàn)代技術(shù)的蓬勃發(fā)展,上述所列舉的關(guān)鍵技術(shù)在一些大型軟件設(shè)計中得到了很好的應(yīng)用,給主題搜索引擎的設(shè)計與實現(xiàn)提供了有力的技術(shù)支持,證明了這些技術(shù)是可行的。隨著互聯(lián)網(wǎng)和學(xué)校軟件資源的發(fā)展,為開發(fā)研制收集了大量的免費資源,同時在開發(fā)階段將使用的Lucene架構(gòu)給出了全部開源工具包。這樣,節(jié)約了系統(tǒng)開發(fā)的經(jīng)濟(jì)成本,滿足了經(jīng)濟(jì)可行性的要求。由于開發(fā)這樣一個面向求職幫助信息的搜索引擎可以幫助大學(xué)畢業(yè)生方便、準(zhǔn)確、即時的查詢相關(guān)應(yīng)聘資料和求職信息,滿足了社會可行性的要求。
3.3 創(chuàng)新性。(1)主題搜索引擎保證了對某一領(lǐng)域信息的完全收錄與及時更新,避免了搜索時的“噪音”,提高了檢索效率。在提供專業(yè)信息方面有著通用搜索引擎無法比擬的優(yōu)勢。(2)雖然面向求職的主題搜索已經(jīng)出現(xiàn),但是求職幫助信息也很重要,所以面向求職幫助信息的搜索引擎也是必不可少的。(3)用Lucene作為全文檢索的工具進(jìn)行檢索,提高了檢索效率,增加了系統(tǒng)的靈活性,便于二次開發(fā)。
4 結(jié)束語
隨著互聯(lián)網(wǎng)上信息資源的不斷增加,畢業(yè)生通過互聯(lián)網(wǎng)應(yīng)聘找工作的人數(shù)也呈上升趨勢。對于求職者來說,像百度、Google等常用的搜索引擎針對求職招聘這一主題在查全率和查準(zhǔn)率方面很難滿足其搜索要求,它所查詢出來的工作崗位大多是不符條件或是已過期信息。為了得到更高的查全率和查準(zhǔn)率,本文在研究主題搜索引擎的基礎(chǔ)上,列舉了四種面向主題搜索引擎所需要的關(guān)鍵技術(shù)包括網(wǎng)頁采集技術(shù)、網(wǎng)頁分析技術(shù)、信息索引技術(shù)和信息檢索技術(shù)。并同時提出了面向畢業(yè)生求職幫助信息主題搜索引擎的設(shè)計方案,相信這無疑對求職主題的搜索引擎產(chǎn)生了不可低估的影響。
參考文獻(xiàn):
[1]孫宏,李戴維,董旭陽,季澤旭.搜索引擎技術(shù)與發(fā)展綜述[J].計算機(jī)光盤軟件與應(yīng)用,2012(14)24-26.
[2]楊永斌.油田信息專業(yè)搜索引擎的研究與應(yīng)用[J].計算機(jī)光盤軟件與應(yīng)用,2012(12):18.
作者簡介:馬?,u(1986-),女,碩士研究生;朱麗波(1972-),女,副教授,碩導(dǎo),研究方向:計算機(jī)教育。
作者單位:內(nèi)蒙古師范大學(xué)計算機(jī)與信息工程學(xué)院,呼和浩特 010020
基金項目:內(nèi)蒙古師范大學(xué)2012年度研究生科研創(chuàng)新基金項目(CXJJ12056)。內(nèi)蒙古師范大學(xué)教育發(fā)展基金會大學(xué)生發(fā)明創(chuàng)造基金2012年度資助獎勵項目(NSJJ2012-15ZZ-003)。