亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)站資源信息自動(dòng)采集技術(shù)

        2020-08-25 00:51:18馬浩銘
        湖北農(nóng)機(jī)化 2020年12期
        關(guān)鍵詞:采集器線程日志

        馬浩銘

        (新疆質(zhì)信通工程檢測(cè)技術(shù)有限公司,新疆 烏魯木齊 830011)

        1 信息采集器

        1.1 Index程序的參數(shù)設(shè)置

        -n number 索引指定數(shù)目的文檔后退出。注意:在運(yùn)行index-n number后,運(yùn)行index-D程序。如果用戶使用多線程,索引的文檔數(shù)目會(huì)比預(yù)定的值高一些。

        -N number 設(shè)置運(yùn)行索引線程的數(shù)量。只有對(duì)多個(gè)網(wǎng)站進(jìn)行索引時(shí),多線程索引才有意義。兩個(gè)線程或多個(gè)線程不能同時(shí)對(duì)同一站點(diǎn)進(jìn)行索引。

        -R number 運(yùn)行解析進(jìn)程的數(shù)目。默認(rèn)是線程數(shù)/5+1。如果用戶的服務(wù)器解析慢的時(shí)候,用戶需要增加默認(rèn)值。

        1.2 重新索引控制參數(shù)設(shè)置

        -a 重新索引所有的文檔,并忽略文檔的失效狀態(tài)。默認(rèn)情況下,只有比Period時(shí)間早的文檔才被重新索引。

        -m 存儲(chǔ)文檔中詞和超鏈接,忽略文檔的修改狀態(tài)。沒有這個(gè)參數(shù)時(shí),只有修改的文檔才會(huì)被重新索引。

        -o 優(yōu)先抓深度淺的文檔。這里的跳躍指的是文檔的深度值。

        -M繼續(xù)索引先前索引任務(wù)的URLs。這些URLs會(huì)被存儲(chǔ)在臨時(shí)MySQL數(shù)據(jù)庫中,這常用于調(diào)試目的。

        1.3 實(shí)時(shí)數(shù)據(jù)庫索引選項(xiàng)

        -T URL索引URL到實(shí)時(shí)數(shù)據(jù)庫中,需要注意的是,用戶不能增加太多的文檔到實(shí)時(shí)數(shù)據(jù)庫中,否則檢索實(shí)時(shí)數(shù)據(jù)庫會(huì)非常地慢。實(shí)際上實(shí)時(shí)數(shù)據(jù)庫文檔的限制是依賴于硬件的,大約1000個(gè)urls,效果會(huì)比較好。實(shí)時(shí)數(shù)據(jù)庫的文檔歸并到主數(shù)據(jù)庫的命令是index-D。這個(gè)參數(shù)選項(xiàng)在重新索引經(jīng)常需要改變的網(wǎng)頁時(shí)候非常有用。用戶可以及時(shí)地看到結(jié)果,用戶可以使用-A參數(shù)一起使用。

        1.4 清理數(shù)據(jù)庫

        -C清理數(shù)據(jù)庫。用戶可以控制參數(shù)來限制清理數(shù)據(jù)庫的范圍。注意:清理規(guī)模較大的數(shù)據(jù)庫的速度會(huì)很慢。從文件中讀取將要被索引、插入、清除的URLs。用戶使用-做文件名,則URL列表將從標(biāo)準(zhǔn)輸入進(jìn)行讀取。另外,指定抓取的網(wǎng)頁需明確。

        1.5 輸出

        -r file重定位信息輸出到指定file。

        -g file設(shè)置index程序的統(tǒng)計(jì)信息的日志文件。

        1.6 停止index程序

        -E安全地停止已經(jīng)運(yùn)行的index程序。

        2 守護(hù)進(jìn)程模塊

        Searchd是一個(gè)搜索守護(hù)進(jìn)程,自動(dòng)采集器利用這個(gè)守護(hù)進(jìn)程,搜索index程序創(chuàng)建的數(shù)據(jù)庫,緩存搜索結(jié)果等。它主要是監(jiān)聽s.cgi查詢的端口,執(zhí)行搜索指令并返回s.cgi查詢的結(jié)果。Searchd為了加速搜索的速度——從數(shù)據(jù)庫一些數(shù)據(jù)加載到內(nèi)存。如果硬盤的數(shù)據(jù)改變,Searchd程序會(huì)重新加載。

        2.1 基本命令參數(shù)

        -D 運(yùn)行searchd程序作為守護(hù)進(jìn)程。用戶每次運(yùn)行searchd,都需要使用這個(gè)參數(shù)。

        -R 在searchd失敗的時(shí)候,能夠自動(dòng)重新啟動(dòng)searchd守護(hù)進(jìn)程。如果用戶使用這個(gè)選項(xiàng),搜索引擎將不會(huì)停止。

        -l logfile設(shè)置searchd將日志寫入日志文件中。

        2.2 錯(cuò)誤日志

        如果在啟動(dòng)searchd的時(shí)候,端口被其他程序占用,用戶不能從控制臺(tái)獲得錯(cuò)誤信息,只能從日志文件中獲取,所以,在每次啟動(dòng)searchd程序的時(shí)候,首先要檢查是否有其他程序占有該端口號(hào),或者在searchd程序啟動(dòng)后,檢查日志文件。

        3 主要技術(shù)指標(biāo)及軟硬件環(huán)境

        采用面向?qū)ο蟮脑O(shè)計(jì)思路,可以運(yùn)行在常用的32位或64位Linux操作系統(tǒng)上,后臺(tái)數(shù)據(jù)庫采用MySQL 5.1,支持GBK、BIG5、UTF8、UNICODE等多種編碼格式,可以定制采集網(wǎng)址、欄目,支持分頁采集與網(wǎng)頁內(nèi)容動(dòng)態(tài)采集。

        后臺(tái)數(shù)據(jù)庫名為searchDB,庫中的表名、字段名主要都是參照相應(yīng)的英文名稱命名的,如:wordurl表示“關(guān)鍵詞所對(duì)應(yīng)的url表”。管理數(shù)據(jù)庫可以使用命令行工具管理MySQL數(shù)據(jù)庫(命令mysql和 mysqladmin),也可以從MySQL的網(wǎng)站下載圖形管理工具M(jìn)ySQL Administrator和MySQL Query Browser,也可以采用更方便操作的phpMyAdmin通過Web界面管理后臺(tái)數(shù)據(jù)庫。軟件安裝所需的具體硬件環(huán)境和軟件支持要求如下:

        3.1 硬件環(huán)境(表1)

        表1 硬件環(huán)境最低要求

        3.2 軟件環(huán)境(表2)

        4 結(jié)語

        筆者重點(diǎn)介紹了網(wǎng)站資源信息自動(dòng)采集功能模塊的相關(guān)技術(shù),該采集器可做到在指定url種子中的相關(guān)欄目信息更新后,執(zhí)行采集器采集信息時(shí)只采集最新的欄目,不重復(fù)采集,且采集過來的內(nèi)容比較完整,只需簡(jiǎn)單調(diào)整一下字體格式便可快速發(fā)布,簡(jiǎn)單實(shí)用。該功能在本公司上線投入運(yùn)行以來,給網(wǎng)站發(fā)布人員工作帶來了極大的便利,取得了令人滿意的應(yīng)用效果。

        表2 軟件環(huán)境要求

        猜你喜歡
        采集器線程日志
        一名老黨員的工作日志
        COVID-19大便標(biāo)本采集器的設(shè)計(jì)及應(yīng)用
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        游學(xué)日志
        基于ZigBee的大型公共建筑能耗采集器設(shè)計(jì)
        基于LabVIEW的多數(shù)據(jù)采集器自動(dòng)監(jiān)控軟件設(shè)計(jì)與開發(fā)
        淺談linux多線程協(xié)作
        一種基于粗集和SVM的Web日志挖掘模型
        多接口溫濕度數(shù)據(jù)采集器的設(shè)計(jì)
        Linux線程實(shí)現(xiàn)技術(shù)研究
        国产精品视频一区国模私拍| 精品人妻一区二区三区浪人在线| 亚洲av高清一区三区三区| 久久精品蜜桃美女av| 无套内射在线无码播放| 国产精品自在线拍国产| 欧美日韩国产亚洲一区二区三区 | 人妻免费一区二区三区免费| 国产成+人欧美+综合在线观看| 97se亚洲国产综合自在线图片| 国产精品久久国产三级国电话系列| 日日麻批视频免费播放器| 国产精品大片一区二区三区四区| 在办公室被c到呻吟的动态图| 成人综合婷婷国产精品久久蜜臀| 久久久久久久99精品国产片| 亚洲av无码一区二区乱子仑| 手机在线中文字幕av| 欧美午夜理伦三级在线观看| 一二三四视频社区在线| 亚洲天堂av免费在线看| 日本一区二区三区女优在线| 成人免费无遮挡在线播放| 亚洲自偷自偷偷色无码中文| 水蜜桃视频在线观看免费18| 色熟妇人妻久久中文字幕| 国产无遮挡又黄又爽在线观看 | 精品人妻一区二区三区不卡毛片| 波多野结衣在线播放| 男男啪啪激烈高潮cc漫画免费| 天天爱天天做天天爽| 8090成人午夜精品无码| 国产大片在线观看91| 亚洲人成网站在线播放2019| 欧洲日本一线二线三线区本庄铃| 最新国产美女一区二区三区 | 粉嫩高中生无码视频在线观看| 久久精品国产福利亚洲av| 手机av在线中文字幕| 久久国产劲暴∨内射| 久久久精品3d动漫一区二区三区|