亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

信息采集技術在教育領域的應用與實現(xiàn)

2019-03-19 13:57:00魏巍巍

產業(yè)與科技論壇 2019年4期

□魏巍巍

時代的快速發(fā)展，使得信息技術不斷的挖掘與開發(fā)，并且應用于現(xiàn)代教育過程中。為了有效實現(xiàn)網絡信息采集技術在教育領域信息采集中的有效應用，必須深入探討教育技術相關網站的采集特定主題，并且選取符合特定規(guī)律與格式的信息，通過信息收集與處理加工，有助于拓展教育領域的應用價值，提高了信息的使用效率。

一、網絡信息采集技術設計思路與系統(tǒng)架構

(一)網絡信息采集設計思路。網絡信息采集系統(tǒng)是由windows平臺研發(fā)，運用c語言形式編寫，并且采用了xml存儲格式，與數(shù)據(jù)庫進行對接。網絡信息采集系統(tǒng)能夠對目標網站進行信息數(shù)據(jù)的收集，通過固定模式、單線程、制定框架采集，有助于對不同網站制定多元化的框架模式，從而保證采集方式更加多樣，采集過程更加便捷。

(二)網絡信息采集系統(tǒng)架構。網絡信息采集系統(tǒng)的基本框架主要是保存URL履帶抓取的數(shù)據(jù)結構，通過保存已經抓取的數(shù)據(jù)結構，有效避免系統(tǒng)重復抓取。在目標頁面獲取模塊，對于獲取的頁面內容進行部分抽取再進行加工處理，完成數(shù)據(jù)的精確化存儲。網絡信息采集系統(tǒng)的應用流程必須確定采集信息的所在網站以及采集信息的主題。將采集信息主題輸入系統(tǒng)中，在運用搜索功能、搜索網站中，包含與采集信息主題相關的數(shù)據(jù)信息。信息采集器根據(jù)相關標準要求采集信息，對于采集頁面進行結構化調整，根據(jù)相關規(guī)則，實現(xiàn)自動信息聚焦，從而得出初步的信息內容。采集后的信息通過提取處理、格式轉換等等，生成信息索引，完成信息采集。將采集后的信息存儲到文件中，再根據(jù)使用需求，決定是否將文件存儲于同類別數(shù)據(jù)庫中，最后進行信息展示。

二、網絡信息采集系統(tǒng)核心技術

在網絡信息采集系統(tǒng)中，支撐技術的主要有地址查詢技術與數(shù)據(jù)提取技術、模擬填充、數(shù)據(jù)精加工、自動點擊技術等等。地址查詢技術是應用布隆過濾器，判斷經過函數(shù)散列時是否已經訪問過，進而避免重復采取某一數(shù)據(jù)，導致程序死循環(huán)。其技術是開源項目，能夠為目標網頁提供精準的目標搜索導航。在整個信息收集過程中，無論是頁面解析或者是文本抽取，都需要運用到數(shù)據(jù)提取技術，數(shù)據(jù)提取技術是一種路徑表達工具，能夠深入了解頁碼帶面中的最小單位從而精準確定目標數(shù)據(jù)的代碼，加強兩者的有效結合，對解析界面進行綜合分析與目標信息采集。而模擬填充與點擊功能則像是百度、搜狐一類具有搜索功能的網頁，由于大部分網站中均有搜索功能，應用數(shù)據(jù)信息挖掘系統(tǒng)，可以應用網站內搜索功能，有效地實現(xiàn)信息抓取。對于信息采集的目標網站來說，通常站內設有檢索，但是檢索也分為普通檢索與高級檢索兩類搜索方式，普通檢索只是提供輸入文本框，高級檢索則能夠除文本框以外進行下拉列表框，或者是互斥選項等。應用模擬填充中自動點擊功能可以模擬，用戶的檢索行為，包括下拉列表檢索，或者是填充文本、點擊按鈕等一系列操作有助于增強搜索的準確性。對于一些動態(tài)類網頁，如果并未確定數(shù)據(jù)技術的導向，就需要模擬點擊下一頁，完成對應頁的超鏈接。經過以上幾個步驟后，雖然得到了初步信息，但是也是粗糙的原始數(shù)據(jù)，必須對原始數(shù)據(jù)進行精確加工，才能夠確保數(shù)據(jù)的價值與功能。原始數(shù)據(jù)中通常會出現(xiàn)HTML等文本，可以將占位符號去除，也可以對零散的原始信息進行有效的加工，規(guī)范信息格式，例如可以將新聞信息的標題與作者、發(fā)布日期統(tǒng)一設定為“某企業(yè)對于XXX技術應用展開研討的通知”。對于作者信息或者是發(fā)布日期，存在文字中的引號與括號，或者是一系列標點符號?？梢赃x用表達式定位目標，將這一部分符號抽取出來，再運用自然語言處理。對于pdf文檔、圖片、音頻、視頻、壓縮包等則需要應用數(shù)據(jù)提取技術，導入下載程序。

三、網絡信息采集系統(tǒng)的實現(xiàn)

為了確保上述方法的可靠性與真實性，本文運用簡單的案例來驗證。信息采集數(shù)據(jù)內容是教育技術資源網中的教育信息，信息內容是信息連接地址與信息標題。通過加載頁面在設置編碼信息，確定目標數(shù)據(jù)的所在位置，再應用表達式XPATH獲取相關數(shù)據(jù)與信息。通過獲取該頁面下ID信息，再運用SELECTNODES分析判斷代碼中是否包含提取的信息內容，也就是本案例中所要提取的連接信息。如果是，代碼則表示為SELECTNODES(“//a”)最后將數(shù)據(jù)搜索已定位在所提取的數(shù)據(jù)點上，再提取相關信息。根據(jù)上述實驗，能夠看出，運用本文提出的信息采集技術，能夠有效地對教育網絡頁面信息進行高效采集，從而應用到教育技術中，有助于提高教育水平與工作效率，也增強了教育信息的多樣化，提高學生的綜合素養(yǎng)。

四、其他網絡信息采集方法

本文介紹的信息采集技術是應用c語言編寫的，可以選用其他方式，例如：JAVA網絡信息采集技術。VIETSPIDER HRMLPARSER是HTML DOM解析器，是一項開發(fā)能源的網絡數(shù)據(jù)采集器，能夠提供圖形化界面，有助于用戶方便使用。同時，該項技術能夠根據(jù)搜索主題展開目的特定信息搜索，對于初步獲得的信息進行采集和分類，該項技術的最大特點在于能夠將數(shù)據(jù)采集過程變得簡捷化，提供圖形化界面，滿足用戶的多元化使用需求。同時應用了爬蟲技術，有效提出了模板解析理念，根據(jù)站點提供代理或者是多線配置，有助于服務器高效運行。同時VIETSPIDER可以在WINDOES系統(tǒng)下運行，管理人員可以運用VIETSPIDER客戶端進行遠程客戶管理，可以應用于多類數(shù)據(jù)庫系統(tǒng)。VIETSPIDER系統(tǒng)中設置了瀏覽器功能，支持數(shù)據(jù)解析以及多類數(shù)據(jù)的輸出格式、數(shù)據(jù)的改造與除雜，并且VIETSPIDER技術應用設計極為簡單高效，專業(yè)知識較少，能夠提高使用效率。也可以選用組合系統(tǒng)方法HERTRIX+HTMLPARSER，該項系統(tǒng)是JAVA.研發(fā)的網絡爬蟲，用戶可以從網絡上抓取想要獲取的目標資源。HERTRIX能夠實現(xiàn)HTML文件的解析，可以應用于JAVA包的轉化與抽取。運用HTMLPARSER則能夠實現(xiàn)文本、鏈接、資源的抽取與站點、鏈接檢查等，通過數(shù)據(jù)檢查地址的重寫以及冗雜信息的清除，有效地將HTML頁面轉換為XML頁面。

五、結語

綜上所述，信息采集過程中由于采集量較大，必須實現(xiàn)互聯(lián)網站點的自動點擊功能與填充功能，才能夠完成對網頁信息的解析與出題工作。最后要分析采集的網頁是否可以進行重復采集，再對數(shù)據(jù)信息進行精加工，只有滿足以上需求，才能夠有效實現(xiàn)信息采集技術在教育領域中的有效應用。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

信息采集技術在教育領域的應用與實現(xiàn)

一、網絡信息采集技術設計思路與系統(tǒng)架構

二、網絡信息采集系統(tǒng)核心技術

三、網絡信息采集系統(tǒng)的實現(xiàn)

四、其他網絡信息采集方法

五、結語

一、網絡信息采集技術設計思路與系統(tǒng)架構

三、網絡信息采集系統(tǒng)的實現(xiàn)

四、其他網絡信息采集方法

五、結語