林炫
摘 要
截止2016年,我國網(wǎng)絡(luò)的普及率已經(jīng)超過了百分之五十,互聯(lián)網(wǎng)上的信息爆炸性的增長,如何在海量的信息中檢索到自己需要的內(nèi)容,已經(jīng)成為互聯(lián)網(wǎng)研究的重要課題,搜索引擎技術(shù)主要擺闊搜索技術(shù)、文檔分類技術(shù)以及信息抽取技術(shù),本文將立足于搜索引擎中的信息抽取技術(shù),深入研究信息抽取技術(shù)的關(guān)鍵要點,以供相關(guān)從業(yè)人員借鑒學(xué)習(xí)。
【關(guān)鍵詞】搜索引擎 信息抽取技術(shù) 向量空間模型
搜索引擎主要由信息標(biāo)引、信息管理分類、數(shù)據(jù)動態(tài)跟蹤等功能組成,除此之外,搜索引擎還具有幾個必備的功能,例如站點索引、自然信息庫;信息橋等,為了實現(xiàn)高速、精準(zhǔn)的搜索,必須加強搜索引擎中信息抽取技術(shù)的研究,本文將立足于搜索引擎的功能組成,深入研究搜索引擎中信息抽取技術(shù)。
1 搜索引擎中信息抽取技術(shù)概述
1.1 搜索引擎的原理
搜索引擎的主要任務(wù)是實現(xiàn)信息的有序利用和快速定位,因此搜索引擎要具有合理的信息索引機制,才能增強搜索引擎的高效性,使其在最少的存量、最快的速度進行準(zhǔn)確定位。搜索引擎的對象是互聯(lián)網(wǎng)的信息源,主要包括文本、圖片、應(yīng)用、消息、聲音、影響等媒介。每一種數(shù)據(jù)類型還包括多種子類,為了實現(xiàn)信息的快速定位,搜索引擎要具有強大的辨識能力,使其在海量的信息當(dāng)中,找到有用的信息,因此搜索引擎要具有信息標(biāo)識、信息管理歸類等功能。
1.2 信息抽取技術(shù)
信息抽取是將物聯(lián)網(wǎng)作為信息源的一類信息抽取,目前來說,大部分?jǐn)?shù)據(jù)都是以HTML語言描述的,并且互聯(lián)網(wǎng)的信息呈現(xiàn)爆炸性的增長,想要在如此海量的信息中,找到自己想要的內(nèi)容,是十分困難的。此外,大量的信息都缺乏語義信息,造成大量資源都無法被有效的利用,為了提高網(wǎng)絡(luò)資源的利用率,應(yīng)該極強搜索引擎中信息抽取技術(shù)的研究,建立完善的信息抽取系統(tǒng),從而實現(xiàn)在Web頁面中識別和定位待抽取的信息。
2 搜索引擎中信息抽取技術(shù)的關(guān)鍵要點
2.1 抽取規(guī)則生成方法
為了解決主題信息覆蓋率過低的問題,應(yīng)該深入的研究搜索引擎的抽取規(guī)則。目前較為主流的抽取規(guī)則生成方法有兩種,第一類為人工獲取方式,第二類為自動學(xué)習(xí)方式。人工獲取方式是依靠人類專家,對一定量的待處理文檔進行歸納,并總結(jié)相關(guān)信息出現(xiàn)的規(guī)律,但效果很有限,主要原因在于人類專家的生成的抽取規(guī)則,受到了個體知識水平的限制,這樣系統(tǒng)的可擴展性也受到了限制。相比人工獲方式,自動學(xué)習(xí)方式的自動化程度較高,但也具有一定的人工成分,主要依靠的人工在訓(xùn)練集合中生成自動抽取規(guī)則。
2.2 基于包裝器的信息抽取技術(shù)
包裝器是搜索引擎的一個程序,用于從信息源中抽取相關(guān)內(nèi)容,為了方便處理,包裝器還具有結(jié)構(gòu)化信息的功能,能夠?qū)π畔⑦M行特殊處理,相關(guān)工作人員可以輸入特定的指令,從而獲取想要的信息源。包裝器一般由程序員編寫,通常由計算機程序代碼組成,具有標(biāo)準(zhǔn)化的特性,能夠在海量的信息源中找到標(biāo)注過的信息,并將這些信息返回給客戶,因此基于包裝器的信息抽取技術(shù)使用起來十分方便。相關(guān)工作人員在使用包裝器時,需要注意一個問題,針對不同的網(wǎng)站編寫抽取規(guī)則十分困難,需要大量的人工資源,因此應(yīng)該將包裝器轉(zhuǎn)化為自動生成包裝器,使其能夠適應(yīng)網(wǎng)頁結(jié)構(gòu)的變化,在最大程度上提高包裝器的適用性。
2.3 基于隱馬爾可夫模型的信息抽取技術(shù)
隱馬爾可夫模型是建立在隨機概率原理上的一種信息抽取技術(shù),在信息提取的過程中,隱馬爾可夫模型信息抽取技術(shù)能夠根據(jù)每個域出現(xiàn)的符號,來對應(yīng)符號與各個域之間的關(guān)系,經(jīng)過復(fù)雜的計算來推算出信息的位置。基于隱馬爾可夫模型的信息抽取技術(shù)多用于文章頭部信息的抽取,相關(guān)工作人員只要搜索關(guān)鍵詞、標(biāo)題,就能找到自己需要的信息。由于每個域?qū)?yīng)多個狀態(tài),因此在搜索時,需要細化輸出符號,才能更加精確的定位信息,輸出信號越細化,信息內(nèi)容越準(zhǔn)確。
2.4 基于視覺分析的信息抽取技術(shù)
基于視覺分析的信息抽取技術(shù),能夠?qū)⒕W(wǎng)頁中視覺樣式相同或者相似的特征的信息進行歸類,從而方便信息的抽取。這一方法主要利用了可視化技術(shù),自動生成一些可視化的線索,在根據(jù)這些線索進行信息提取,但這種方法只能用于簡單對象的搜索,相關(guān)工作人員在使用時應(yīng)該注意這個問題。
3 結(jié)語
綜上所述,信息抽取技術(shù)是搜索引擎最重要的組成部分,直接決定了搜索引擎的性能,因此要加強搜索引擎中的信息抽取技術(shù)的研究,相關(guān)工作人員應(yīng)該在工作中總結(jié)經(jīng)驗教訓(xùn),并不斷完善信息抽取技術(shù)。
參考文獻
[1]鄒華軍,張愛強,曾育星.基于網(wǎng)絡(luò)編程技術(shù)實現(xiàn)Internet上多搜索引擎信息的獲取[J].微型機與應(yīng)用,2013(09):30-32.
[2]孟紅,鐘華.基于htmlparser的搜索引擎信息抽取系統(tǒng)設(shè)計與實現(xiàn)[A].中國中文信息學(xué)會信息檢索與內(nèi)容安全專業(yè)委員會.第六屆全國信息檢索學(xué)術(shù)會議論文集[C].中國中文信息學(xué)會信息檢索與內(nèi)容安全專業(yè)委員會,2010:5.
[3]汪波.搜索引擎與用戶:尋找技術(shù)與大眾信息的平衡點——記Google,Yahoo,Lycos的一次三家談[J].現(xiàn)代情報,2013(03):53-54.