孫文華
(南昌工程學院 網絡信息中心,江西 南昌 330099)
當前,面對浩瀚的網絡資源,搜索引擎為所有網上沖浪的用戶提供了一個入口,所有的用戶都可以借助于搜索引擎到達自己想去的網上任何一個地方。隨著Internet的快速發(fā)展,海量信息和人們獲取所需信息能力之間的矛盾日益明顯,在信息海洋里查找信息,如同大海撈針一樣,而搜索引擎的出現正好解決了這一難題。
目前高校校內信息量的不斷增加,面對浩瀚的網絡信息,選擇資源范圍廣而針對性不強,很難搜到符合自己的資源。針對這種情況,本文提出了一款校內搜索軟件的設計與實現方法。該軟件采用Java語言開發(fā),是一款簡易且實用的校內搜索引擎軟件。
搜索引擎系統(tǒng)[1]通常是指互聯網信息檢索系統(tǒng)。本系統(tǒng)是建立在通過網絡爬蟲軟件抓取大量的網絡資源的基礎上進行開發(fā)設計的,系統(tǒng)通過對抓取的網頁文件進行智能提取、去標注、內容分析等處理,再經過索引加載建立索引數據庫。用戶可以通過搜索頁面查詢索引數據庫,返回包含所有匹配查詢關鍵詞的網頁[2]。
圖1 搜索引擎軟件設計原理圖
校內搜索引擎軟件的設計原理如圖1所示,其原理如下:(1)通過網絡爬蟲軟件抓取網頁內容;(2)從抓取的網頁文件中獲取索引表,索引表內容為每個文件的序號與網址信息,得到網頁文件庫里面的內容即為網頁文件;(3)對得到的網頁文件庫進行處理,使用正則表達式去除網頁標注信息,得到的新內容存放在一個新的文件夾中,作為內容信息庫;(4)根據網頁文件庫和索引表,得到一個新的文件(也稱為標題和網址信息庫),其里面的內容為每個文件的序號、標題和網址等信息;(5)當用戶需要查找自己需要的信息時,只要輸入關鍵詞,搜索引擎軟件根據用戶輸入的關鍵詞在內容信息庫中進行查找[3],如果內容信息庫中存在用戶查找的內容,軟件將根據給內容所在的文件序號,在標題和網址信息庫中提取出該內容所在的標題與網址等信息,最后再加上內容信息庫中與關鍵詞相關的內容信息作為查找的結果顯示出來。
搜索引擎軟件開發(fā)環(huán)境:Myeclipse平臺,使用Java語言。首先可以 Myeclipse平臺新建一個java project,在新建的project中需要導入下面一些相關的文件:
搜索引擎軟件中獲得搜索結果的搜索函數核心代碼如下:
//根據用戶輸入的關鍵詞,在相應的庫中進行搜索,并返回搜索結果信息
至此,完成了搜索引擎軟件代碼的編寫工作,接下來可以進行run操作(即可以在指定內容信息庫與標題和網址信息庫中進行操作),返回用戶查找的相關網頁文件的序號、標題、網址和主要內容等信息的結果。
內容信息庫的存放路徑為D: estContentInfo;內容信息庫中的內容如圖2所示。標題和網址信息庫的存放路徑為D: estTitleInfo;文件庫中存放了標題和網址信息文件,文件名為TitleInfo.txt,其內容如圖3所示。
圖2 內容信息庫中的內容
圖3 標題和網址信息文件庫的內容
運行該搜索引擎軟件,得出的輸出結果如圖4所示。
圖4 進行關鍵詞搜索后輸出的結果信息
由圖4可以看到,通過該系統(tǒng)可以把待測文件中臟字及臟詞組出現的次數全部顯示出來,其結果與實際情況完全一致。
針對當前網絡在高校的應用越來越普及,校內網絡中的資源也越來越多,而目前市場上的搜索軟件(如百度、谷歌的)又難以滿足實踐的需要,并且有些搜索軟件比較昂貴。本文在基于這些問題的情況下進行研究與分析,提出了校內網絡資源搜索軟件的設計方法,并在Myeclipse環(huán)境下通過Java語言實現了這種方法,為高校校內網絡資源的搜索提供了一種方法。另外,可以在此基礎上進行二次開發(fā),作者就在此基礎上完成了Web界面上的搜索(類似百度的功能)。本軟件在南昌工程學院已開始試用,如圖5所示。
圖5 Web網頁搜索測試圖
根據本文的設計原理,用戶可以根據自己的實際需要,在界面上改進與調整。
[1]梁斌.走進搜索引擎[M].北京:電子工業(yè)出版社,2007.
[2]宋春陽.Web搜索引擎技術綜述[J].現代計算機,2008(5).
[3]徐寶文.搜索引擎與信息獲取技術[M].北京:清華大學出版社,2003.