亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

搜索引擎中的信息抽取技術(shù)

2017-05-10 23:54:51林炫

電子技術(shù)與軟件工程 2017年8期

關(guān)鍵詞：搜索引擎

林炫

摘要

截止2016年，我國網(wǎng)絡(luò)的普及率已經(jīng)超過了百分之五十，互聯(lián)網(wǎng)上的信息爆炸性的增長，如何在海量的信息中檢索到自己需要的內(nèi)容，已經(jīng)成為互聯(lián)網(wǎng)研究的重要課題，搜索引擎技術(shù)主要擺闊搜索技術(shù)、文檔分類技術(shù)以及信息抽取技術(shù)，本文將立足于搜索引擎中的信息抽取技術(shù)，深入研究信息抽取技術(shù)的關(guān)鍵要點，以供相關(guān)從業(yè)人員借鑒學(xué)習(xí)。

【關(guān)鍵詞】搜索引擎信息抽取技術(shù) 向量空間模型

搜索引擎主要由信息標(biāo)引、信息管理分類、數(shù)據(jù)動態(tài)跟蹤等功能組成，除此之外，搜索引擎還具有幾個必備的功能，例如站點索引、自然信息庫；信息橋等，為了實現(xiàn)高速、精準(zhǔn)的搜索，必須加強搜索引擎中信息抽取技術(shù)的研究，本文將立足于搜索引擎的功能組成，深入研究搜索引擎中信息抽取技術(shù)。

1 搜索引擎中信息抽取技術(shù)概述

1.1 搜索引擎的原理

搜索引擎的主要任務(wù)是實現(xiàn)信息的有序利用和快速定位，因此搜索引擎要具有合理的信息索引機制，才能增強搜索引擎的高效性，使其在最少的存量、最快的速度進行準(zhǔn)確定位。搜索引擎的對象是互聯(lián)網(wǎng)的信息源，主要包括文本、圖片、應(yīng)用、消息、聲音、影響等媒介。每一種數(shù)據(jù)類型還包括多種子類，為了實現(xiàn)信息的快速定位，搜索引擎要具有強大的辨識能力，使其在海量的信息當(dāng)中，找到有用的信息，因此搜索引擎要具有信息標(biāo)識、信息管理歸類等功能。

1.2 信息抽取技術(shù)

信息抽取是將物聯(lián)網(wǎng)作為信息源的一類信息抽取，目前來說，大部分?jǐn)?shù)據(jù)都是以HTML語言描述的，并且互聯(lián)網(wǎng)的信息呈現(xiàn)爆炸性的增長，想要在如此海量的信息中，找到自己想要的內(nèi)容，是十分困難的。此外，大量的信息都缺乏語義信息，造成大量資源都無法被有效的利用，為了提高網(wǎng)絡(luò)資源的利用率，應(yīng)該極強搜索引擎中信息抽取技術(shù)的研究，建立完善的信息抽取系統(tǒng)，從而實現(xiàn)在Web頁面中識別和定位待抽取的信息。

2 搜索引擎中信息抽取技術(shù)的關(guān)鍵要點

2.1 抽取規(guī)則生成方法

為了解決主題信息覆蓋率過低的問題，應(yīng)該深入的研究搜索引擎的抽取規(guī)則。目前較為主流的抽取規(guī)則生成方法有兩種，第一類為人工獲取方式，第二類為自動學(xué)習(xí)方式。人工獲取方式是依靠人類專家，對一定量的待處理文檔進行歸納，并總結(jié)相關(guān)信息出現(xiàn)的規(guī)律，但效果很有限，主要原因在于人類專家的生成的抽取規(guī)則，受到了個體知識水平的限制，這樣系統(tǒng)的可擴展性也受到了限制。相比人工獲方式，自動學(xué)習(xí)方式的自動化程度較高，但也具有一定的人工成分，主要依靠的人工在訓(xùn)練集合中生成自動抽取規(guī)則。

2.2 基于包裝器的信息抽取技術(shù)

包裝器是搜索引擎的一個程序，用于從信息源中抽取相關(guān)內(nèi)容，為了方便處理，包裝器還具有結(jié)構(gòu)化信息的功能，能夠?qū)π畔⑦M行特殊處理，相關(guān)工作人員可以輸入特定的指令，從而獲取想要的信息源。包裝器一般由程序員編寫，通常由計算機程序代碼組成，具有標(biāo)準(zhǔn)化的特性，能夠在海量的信息源中找到標(biāo)注過的信息，并將這些信息返回給客戶，因此基于包裝器的信息抽取技術(shù)使用起來十分方便。相關(guān)工作人員在使用包裝器時，需要注意一個問題，針對不同的網(wǎng)站編寫抽取規(guī)則十分困難，需要大量的人工資源，因此應(yīng)該將包裝器轉(zhuǎn)化為自動生成包裝器，使其能夠適應(yīng)網(wǎng)頁結(jié)構(gòu)的變化，在最大程度上提高包裝器的適用性。

2.3 基于隱馬爾可夫模型的信息抽取技術(shù)

隱馬爾可夫模型是建立在隨機概率原理上的一種信息抽取技術(shù)，在信息提取的過程中，隱馬爾可夫模型信息抽取技術(shù)能夠根據(jù)每個域出現(xiàn)的符號，來對應(yīng)符號與各個域之間的關(guān)系，經(jīng)過復(fù)雜的計算來推算出信息的位置。基于隱馬爾可夫模型的信息抽取技術(shù)多用于文章頭部信息的抽取，相關(guān)工作人員只要搜索關(guān)鍵詞、標(biāo)題，就能找到自己需要的信息。由于每個域?qū)?yīng)多個狀態(tài)，因此在搜索時，需要細化輸出符號，才能更加精確的定位信息，輸出信號越細化，信息內(nèi)容越準(zhǔn)確。

2.4 基于視覺分析的信息抽取技術(shù)

基于視覺分析的信息抽取技術(shù)，能夠?qū)⒕W(wǎng)頁中視覺樣式相同或者相似的特征的信息進行歸類，從而方便信息的抽取。這一方法主要利用了可視化技術(shù)，自動生成一些可視化的線索，在根據(jù)這些線索進行信息提取，但這種方法只能用于簡單對象的搜索，相關(guān)工作人員在使用時應(yīng)該注意這個問題。

3 結(jié)語

綜上所述，信息抽取技術(shù)是搜索引擎最重要的組成部分，直接決定了搜索引擎的性能，因此要加強搜索引擎中的信息抽取技術(shù)的研究，相關(guān)工作人員應(yīng)該在工作中總結(jié)經(jīng)驗教訓(xùn)，并不斷完善信息抽取技術(shù)。

參考文獻

[1]鄒華軍，張愛強，曾育星.基于網(wǎng)絡(luò)編程技術(shù)實現(xiàn)Internet上多搜索引擎信息的獲取[J].微型機與應(yīng)用，2013（09）：30-32.

[2]孟紅，鐘華.基于htmlparser的搜索引擎信息抽取系統(tǒng)設(shè)計與實現(xiàn)[A].中國中文信息學(xué)會信息檢索與內(nèi)容安全專業(yè)委員會.第六屆全國信息檢索學(xué)術(shù)會議論文集[C].中國中文信息學(xué)會信息檢索與內(nèi)容安全專業(yè)委員會，2010：5.

[3]汪波.搜索引擎與用戶：尋找技術(shù)與大眾信息的平衡點——記Google，Yahoo，Lycos的一次三家談[J].現(xiàn)代情報，2013（03）：53-54.