亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        農(nóng)產(chǎn)品價(jià)格主題搜索引擎的研究與實(shí)現(xiàn)

        2016-10-26 06:28:38孟繁疆姬祥袁琦劉東侯哲鵬
        關(guān)鍵詞:爬蟲(chóng)搜索引擎分類器

        孟繁疆,姬祥,袁琦,劉東,侯哲鵬

        (東北農(nóng)業(yè)大學(xué)電氣與信息學(xué)院,哈爾濱 150030)

        農(nóng)產(chǎn)品價(jià)格主題搜索引擎的研究與實(shí)現(xiàn)

        孟繁疆,姬祥,袁琦,劉東,侯哲鵬

        (東北農(nóng)業(yè)大學(xué)電氣與信息學(xué)院,哈爾濱150030)

        當(dāng)前農(nóng)業(yè)垂直搜索引擎無(wú)法預(yù)測(cè)農(nóng)產(chǎn)品價(jià)格趨勢(shì),難以滿足農(nóng)業(yè)生產(chǎn)者行情分析需要。文章設(shè)計(jì)農(nóng)產(chǎn)品價(jià)格主題搜索引擎。首先網(wǎng)絡(luò)爬蟲(chóng)從農(nóng)業(yè)綜合網(wǎng)站搜集網(wǎng)頁(yè),對(duì)網(wǎng)頁(yè)進(jìn)行轉(zhuǎn)碼、去重、提取內(nèi)容等處理;使用主題相關(guān)度算法計(jì)算網(wǎng)頁(yè)的主題相關(guān)度,用分類器對(duì)網(wǎng)頁(yè)分類,將與主題相關(guān)的網(wǎng)頁(yè)解析、存儲(chǔ);最后提取農(nóng)產(chǎn)品價(jià)格及其影響因素信息。結(jié)果表明,系統(tǒng)可搜集農(nóng)產(chǎn)品價(jià)格信息及影響農(nóng)產(chǎn)品價(jià)格因素信息,為后續(xù)農(nóng)產(chǎn)品價(jià)格預(yù)測(cè)提供數(shù)據(jù)支持。

        網(wǎng)絡(luò)爬蟲(chóng);信息抓?。晦r(nóng)產(chǎn)品價(jià)格;農(nóng)業(yè)搜索引擎

        孟繁疆,姬祥,袁琦,等.農(nóng)產(chǎn)品價(jià)格主題搜索引擎的研究與實(shí)現(xiàn)[J].東北農(nóng)業(yè)大學(xué)學(xué)報(bào),2016,47(9):64-71.

        Meng Fanjiang,Ji Xiang,Yuan Qi,et al.Research and implementation of agricultural prices subject search engine[J].Journal of Northeast Agricultural University,2016,47(9):64-71.(in Chinese with English abstract)

        隨著農(nóng)業(yè)信息化迅速發(fā)展,國(guó)外農(nóng)業(yè)搜索引擎起步較早,美國(guó)農(nóng)業(yè)網(wǎng)絡(luò)信息中心、WEB AgriSeareh、Agriscape Search等應(yīng)用廣泛[1-3]。我國(guó)農(nóng)業(yè)搜索引擎起步較晚,但發(fā)展較快,自2007年首個(gè)農(nóng)業(yè)搜索引擎上線以來(lái),已建成“中國(guó)搜農(nóng)”“農(nóng)搜”等多個(gè)較為成熟農(nóng)業(yè)垂直搜索引擎。

        現(xiàn)有農(nóng)業(yè)垂直搜索引擎對(duì)農(nóng)產(chǎn)品價(jià)格主題搜索時(shí),返回信息總量大、數(shù)據(jù)不直觀,存在大量重復(fù)和無(wú)用信息,用戶無(wú)法快速準(zhǔn)確定位所需信息,不便于分析行情,無(wú)法為農(nóng)業(yè)生產(chǎn)提供參考。

        本文從新農(nóng)網(wǎng)、富農(nóng)網(wǎng)等知名農(nóng)業(yè)綜合網(wǎng)站搜集農(nóng)產(chǎn)品價(jià)格信息設(shè)計(jì)垂直搜索引擎,為用戶提供農(nóng)產(chǎn)品價(jià)格趨勢(shì)圖,方便農(nóng)業(yè)生產(chǎn)者準(zhǔn)確、及時(shí)了解不同農(nóng)產(chǎn)品價(jià)格趨勢(shì),為農(nóng)產(chǎn)品價(jià)格預(yù)測(cè)提供參考。

        1 系統(tǒng)架構(gòu)

        農(nóng)產(chǎn)品價(jià)格搜索引擎系統(tǒng)結(jié)構(gòu)如圖1所示,工作流程主要包括:在互聯(lián)網(wǎng)上搜集網(wǎng)頁(yè);對(duì)網(wǎng)頁(yè)過(guò)濾、解析,建立索引數(shù)據(jù)庫(kù);給用戶提供查詢接口。農(nóng)產(chǎn)品價(jià)格搜索引擎由三部分組成:

        ①信息搜集模塊:在互聯(lián)網(wǎng)上搜集信息;

        ②數(shù)據(jù)管理模塊:網(wǎng)頁(yè)數(shù)據(jù)解析、存儲(chǔ);

        ③用戶服務(wù)模塊:處理用戶查詢、記錄日志。

        圖1 農(nóng)產(chǎn)品價(jià)格主題搜索引擎系統(tǒng)結(jié)構(gòu)Fig.1System structure of agricultural prices subject search engine

        網(wǎng)絡(luò)爬蟲(chóng)是信息搜集模塊核心[4],爬蟲(chóng)從一組種子URL出發(fā),不斷從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè),并把網(wǎng)頁(yè)交由分類器過(guò)濾,剔除與主題無(wú)關(guān)網(wǎng)頁(yè),解析與主題相關(guān)網(wǎng)頁(yè),加入主題網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中,抽取其中鏈接,把抽取鏈接加入待抓取URL隊(duì)列中。

        數(shù)據(jù)管理模塊負(fù)責(zé)保存抓取網(wǎng)頁(yè)、解析網(wǎng)頁(yè)并存儲(chǔ)解析后網(wǎng)頁(yè)信息,對(duì)網(wǎng)頁(yè)和數(shù)據(jù)建立索引。數(shù)據(jù)管理模塊須定時(shí)更新,保證數(shù)據(jù)庫(kù)信息與互聯(lián)網(wǎng)同步,更新頻率決定搜索結(jié)果及時(shí)性,直接影響搜索引擎性能。

        當(dāng)用戶查詢農(nóng)產(chǎn)品價(jià)格時(shí),用戶服務(wù)模塊根據(jù)查詢條件在索引數(shù)據(jù)庫(kù)中檢出農(nóng)產(chǎn)品價(jià)格數(shù)據(jù)和價(jià)格影響因素信息并反饋給用戶。

        2 算法設(shè)計(jì)

        2.1網(wǎng)頁(yè)預(yù)處理

        2.1.1編碼轉(zhuǎn)換

        目前,常用中文編碼有UTF-8、Unicode、GB2312、GBK等[5-6],系統(tǒng)在分詞時(shí)要作位操作,如果系統(tǒng)中文編碼與網(wǎng)頁(yè)中文編碼不一致,會(huì)出現(xiàn)數(shù)據(jù)亂碼問(wèn)題,因此在系統(tǒng)分詞前應(yīng)先編碼轉(zhuǎn)換。網(wǎng)頁(yè)默認(rèn)編碼是GBK,也可通過(guò)meta標(biāo)簽charset屬性對(duì)編碼設(shè)置,如百度首頁(yè)編碼為utf-8,<meta http-equiv=Content-Type content="text/html;char?set=utf-8">。

        本文轉(zhuǎn)碼流程為:

        ①打開(kāi)并讀取一個(gè)網(wǎng)頁(yè)源文件;

        ②提取網(wǎng)頁(yè)中meta標(biāo)簽,其屬性charset值表示當(dāng)前網(wǎng)頁(yè)中文編碼方式,若編碼方式是UTF-8,則無(wú)需轉(zhuǎn)碼;

        ③若網(wǎng)頁(yè)源碼中無(wú)charset設(shè)置,則網(wǎng)頁(yè)中文編碼方式是GBK默認(rèn)編碼;

        ④將數(shù)據(jù)轉(zhuǎn)換為UTF-8編碼;

        ⑤關(guān)閉文件。

        2.1.2中文分詞

        中文分詞是信息檢索、信息過(guò)濾等中文信息處理關(guān)鍵技術(shù)及難點(diǎn),是指將組成句子漢字序列用分隔符加以區(qū)分,切分成單獨(dú)詞[7]。目前常用中文分詞器有Ansj、Jcseg、ICTCLAS、MMSEG4J等,分詞準(zhǔn)確度分別是96%、98%、98.45%、98.42%[8]。其中ICTCLAS單機(jī)分詞速度快,API不超過(guò)占用空間小,且支持用戶詞庫(kù),本文選用ICTCLAS3.0,為后續(xù)工作提供保障。ICTCLAS3.0分詞流程如圖2所示。

        圖2 ICTCLAS分詞流程Fig.2Word segmentation flowchart of ICTCLAS

        2.1.3去除重復(fù)網(wǎng)頁(yè)

        對(duì)于搜索引擎,相同或相似內(nèi)容由不同URL給出,無(wú)故消耗系統(tǒng)內(nèi)存和硬盤(pán)空間,因此預(yù)處理階段主要任務(wù)是消除相似或轉(zhuǎn)載網(wǎng)頁(yè),搜索引擎對(duì)網(wǎng)頁(yè)檢索實(shí)際上是對(duì)關(guān)鍵詞匹配,本文提出一種去除重復(fù)網(wǎng)頁(yè)方法。令Pi表示第i個(gè)網(wǎng)頁(yè),提取網(wǎng)頁(yè)中詞頻最高前10個(gè)關(guān)鍵詞,按拼音字母升序規(guī)則排序,得到網(wǎng)頁(yè)特征項(xiàng)集合Ui={ti1,ti2,…,ti3},如果兩個(gè)網(wǎng)頁(yè)特征項(xiàng)集合相同,判定二者互為轉(zhuǎn)載網(wǎng)頁(yè)。

        2.2主題相關(guān)度計(jì)算

        主題相關(guān)度[9]判定模塊主要計(jì)算未被解析網(wǎng)頁(yè)為主題相關(guān)度,按照主題相關(guān)度將網(wǎng)頁(yè)URL插入U(xiǎn)RL優(yōu)先級(jí)隊(duì)列中,優(yōu)先解析主題相關(guān)度高網(wǎng)頁(yè),舍棄相關(guān)度低URL,盡可能減少索引和檢索資源浪費(fèi)[10]。

        本文主題相關(guān)度算法主要探討父網(wǎng)頁(yè)與主題相關(guān)度、網(wǎng)頁(yè)描述中主題詞匯出現(xiàn)頻率、網(wǎng)頁(yè)描述中主題詞對(duì)網(wǎng)頁(yè)貢獻(xiàn)度得分。

        ①網(wǎng)頁(yè)從父網(wǎng)頁(yè)集繼承主題相關(guān)度grade_ parent

        父網(wǎng)頁(yè)u與主題相關(guān)度較大時(shí),所指向網(wǎng)頁(yè)有很大可能與主題相關(guān)。子網(wǎng)頁(yè)v能從父網(wǎng)頁(yè)u中繼承一定相關(guān)度得分,但在主題相關(guān)度傳遞過(guò)程中,從父網(wǎng)頁(yè)繼承分?jǐn)?shù)應(yīng)有所減小,否則后代網(wǎng)頁(yè)相關(guān)度分?jǐn)?shù)應(yīng)越來(lái)越高。因此,網(wǎng)頁(yè)主題相關(guān)度可以均分給其前向鏈接。子網(wǎng)頁(yè)v從其父網(wǎng)頁(yè)集繼承主題相關(guān)度得分,對(duì)所有父網(wǎng)頁(yè)相關(guān)度加和求平均值。因此網(wǎng)頁(yè)從父網(wǎng)頁(yè)繼承得到相關(guān)度得分公式如式(1)所示:

        式中:S(u)表示指向網(wǎng)頁(yè)u網(wǎng)頁(yè)集合,F(xiàn)(U)表示網(wǎng)頁(yè)u指向網(wǎng)頁(yè)集合,weight(u)表示網(wǎng)頁(yè)u主題相關(guān)度,count(S(u))表示指向網(wǎng)頁(yè)u網(wǎng)頁(yè)個(gè)數(shù)。

        ②網(wǎng)頁(yè)v從兄弟鏈接即父網(wǎng)頁(yè)u中其他鏈接得到相關(guān)度得分grade_brother

        假設(shè)網(wǎng)頁(yè)u中含有指向網(wǎng)頁(yè)v和網(wǎng)頁(yè)b鏈接URL,如果網(wǎng)頁(yè)b與主題有關(guān),那么網(wǎng)頁(yè)v與主題相關(guān)可能也較大。所以,在計(jì)算網(wǎng)頁(yè)v主題相關(guān)度時(shí),也需要酌情考慮其兄弟鏈接主題相關(guān)度。由此可以得到網(wǎng)頁(yè)v從兄弟鏈接得到相關(guān)度得分公式如式(2)所示。

        表示網(wǎng)頁(yè)v父網(wǎng)頁(yè)中所包含URL集合,count(S)表示網(wǎng)頁(yè)v父網(wǎng)頁(yè)中包含URL集合數(shù)量。

        ③網(wǎng)頁(yè)描述中出現(xiàn)主題詞匯加權(quán)得分grade_ word

        主題詞庫(kù)是存儲(chǔ)農(nóng)產(chǎn)品價(jià)格相關(guān)詞匯專業(yè)詞庫(kù),是主題相關(guān)度判定重要依據(jù)。本文將主題詞庫(kù)分為5個(gè)等級(jí),等級(jí)越高權(quán)值越大,主題相關(guān)度越大,“地名+農(nóng)產(chǎn)品名+價(jià)格”權(quán)值為5,如:“大慶玉米價(jià)格”,“農(nóng)產(chǎn)品名+價(jià)格”權(quán)值為4,如“玉米價(jià)格”,“地名+農(nóng)產(chǎn)品”權(quán)值為3,如:“大慶玉米”,“農(nóng)產(chǎn)品名”權(quán)值為2,如:“玉米”,其他相關(guān)詞權(quán)值為1,如:“價(jià)格”。對(duì)主題詞匯權(quán)值與出現(xiàn)次數(shù)積求和平均,即可得到grade_word。因此,網(wǎng)頁(yè)中出現(xiàn)主題詞匯加權(quán)得分公式如式(3)所示。

        式中:U表示網(wǎng)頁(yè)中出現(xiàn)主題詞匯集合,Wweight表示主題詞權(quán)值,Wcount表示主題詞在網(wǎng)頁(yè)出現(xiàn)次數(shù),count(U)表示網(wǎng)頁(yè)中出現(xiàn)主題詞個(gè)數(shù)。

        網(wǎng)頁(yè)中出現(xiàn)主題詞匯加權(quán)得分只考慮文檔中關(guān)鍵詞出現(xiàn)頻數(shù),并未考慮關(guān)鍵詞對(duì)文檔內(nèi)容貢獻(xiàn)度,即關(guān)鍵詞對(duì)網(wǎng)頁(yè)作用。而主題詞匯對(duì)網(wǎng)頁(yè)貢獻(xiàn)度得分反映關(guān)鍵詞對(duì)網(wǎng)頁(yè)貢獻(xiàn)度,與具體文檔無(wú)關(guān)。

        網(wǎng)頁(yè)中出現(xiàn)主題詞匯加權(quán)得分計(jì)算公式如公式如式(4)所示:

        式中:nk為含關(guān)鍵詞k文檔頻率,N代表文檔集合規(guī)模。由公式(7)可知,文檔頻率nk與grade_ contribution是為反比例關(guān)系,即nk越大與之對(duì)應(yīng)grade_contribution越小。grade_contribution值反映是關(guān)鍵詞k對(duì)文檔辨識(shí)力,其值越大說(shuō)明信息含量越多,越有價(jià)值,對(duì)文檔辨識(shí)度越高。

        ⑤綜合考慮父網(wǎng)頁(yè)、兄弟網(wǎng)頁(yè)和主題詞匯三個(gè)因素,對(duì)grade_parent、grade_brother、grade_ word、grade_contribution加權(quán)求和,得到網(wǎng)頁(yè)v主題相關(guān)度計(jì)算公式如式(5)所示。

        式中:w1、w2、w3、w4表示相關(guān)度得分權(quán)重值,w1+w2+w3+w4=1。

        3 系統(tǒng)設(shè)計(jì)

        3.1網(wǎng)絡(luò)爬蟲(chóng)

        現(xiàn)有許多成熟且開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)框架[11-12],如Nutch、Crawler4j等,適合用于通用搜索引擎,對(duì)于本系統(tǒng)來(lái)說(shuō)許多模塊冗余。因此本文在已有搜索引擎技術(shù)理念[13-16]基礎(chǔ)上,利用HttpClient和ht?mlparser為本系統(tǒng)設(shè)計(jì)一個(gè)功能全面、結(jié)構(gòu)清晰主題網(wǎng)絡(luò)爬蟲(chóng)。爬蟲(chóng)工作流程如下:

        ①選取國(guó)內(nèi)知名農(nóng)業(yè)門(mén)戶網(wǎng)站作為種子URL地址,將種子地址輸入LinkDB中,作為爬蟲(chóng)抓取初始地址。爬蟲(chóng)從種子URL開(kāi)始解析頁(yè)面URL及其鏈接;

        ②爬蟲(chóng)在抓取網(wǎng)頁(yè)時(shí)要解析域名,為爬蟲(chóng)建立一個(gè)緩存區(qū)存放解析域名和對(duì)應(yīng)IP地址,提高爬蟲(chóng)抓取效率;

        ③抓取并解析網(wǎng)頁(yè)信息,判定主題相關(guān)度并抽取其中鏈接,將與主題相關(guān)鏈接加入LinkDB中;

        ④更新LinkDB庫(kù),將抓取鏈接放入已抓取隊(duì)列中,計(jì)算新加入鏈接主題相關(guān)度;

        ⑤重復(fù)2~4步,直到終止程序。

        本文網(wǎng)絡(luò)爬蟲(chóng)共分為3層:抓取層、判定層、處理層;其中,抓取層負(fù)責(zé)從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè),對(duì)網(wǎng)頁(yè)預(yù)處理,并管理URL隊(duì)列;判定層對(duì)抓取網(wǎng)頁(yè)作主題相關(guān)度判定,抽取網(wǎng)頁(yè)中鏈接,消除非法URL,并設(shè)定URL抓取狀態(tài)和初始主題相關(guān)度得分,將URL及其狀態(tài)和分值保存到LinkDB中;處理層主要負(fù)責(zé)解析網(wǎng)頁(yè)、信息提取和數(shù)據(jù)存儲(chǔ)工作。本文爬蟲(chóng)存儲(chǔ)數(shù)據(jù)庫(kù)主要有3個(gè):網(wǎng)頁(yè)數(shù)據(jù)庫(kù)、源網(wǎng)頁(yè)數(shù)據(jù)庫(kù)、核心數(shù)據(jù)庫(kù),各存儲(chǔ)數(shù)據(jù)庫(kù)功能分別為:網(wǎng)頁(yè)數(shù)據(jù)庫(kù)存放鏈接關(guān)聯(lián)關(guān)系,同時(shí)記錄最后更新抓取時(shí)間及URL權(quán)值等參數(shù)信息;源網(wǎng)頁(yè)數(shù)據(jù)庫(kù)用于存放系統(tǒng)抓取網(wǎng)頁(yè)源文件并為其建立索引,是非結(jié)構(gòu)化數(shù)據(jù),主要用于備份網(wǎng)頁(yè)源文件;核心數(shù)據(jù)庫(kù)存放網(wǎng)頁(yè)提取數(shù)據(jù)。爬蟲(chóng)體系結(jié)構(gòu)如圖3所示。

        3.2主題詞庫(kù)搭建

        主題詞庫(kù)是存儲(chǔ)農(nóng)產(chǎn)品價(jià)格相關(guān)詞匯專業(yè)詞庫(kù),是主題相關(guān)度計(jì)算基礎(chǔ),直接影響農(nóng)產(chǎn)品價(jià)格主題相關(guān)度判定,對(duì)所采集信息準(zhǔn)確性有直接影響。本文目標(biāo)是搜集農(nóng)產(chǎn)品價(jià)格信息及價(jià)格影響因素相關(guān)信息,為后續(xù)農(nóng)產(chǎn)品價(jià)格預(yù)測(cè)提供數(shù)據(jù)基礎(chǔ),因此關(guān)鍵詞庫(kù)包含價(jià)格相關(guān)和影響因素兩個(gè)部分,其中影響因素分為供給因素、需求因素和國(guó)際因素[17-19]。

        從供給層面看,農(nóng)業(yè)生產(chǎn)成本、自然條件、播種面積等因素通過(guò)影響農(nóng)產(chǎn)品產(chǎn)量,間接影響農(nóng)產(chǎn)品價(jià)格。其中,農(nóng)業(yè)生產(chǎn)成本是農(nóng)產(chǎn)品價(jià)格基礎(chǔ),變化決定農(nóng)產(chǎn)品價(jià)格變動(dòng)基本趨勢(shì),主要包括農(nóng)業(yè)生產(chǎn)資料成本、勞動(dòng)力成本、土地成本。

        從需求層面看,人口數(shù)量、國(guó)民收入、工業(yè)用糧等因素變化直接影響農(nóng)產(chǎn)品需求量,間接影響農(nóng)產(chǎn)品價(jià)格。農(nóng)產(chǎn)品供給關(guān)乎國(guó)計(jì)民生,即使價(jià)格波動(dòng),消費(fèi)者需求量不會(huì)大量減少。城鄉(xiāng)居民收入增加,消費(fèi)結(jié)構(gòu)隨之升級(jí),對(duì)農(nóng)產(chǎn)品價(jià)格波動(dòng)有一定程度影響。而工業(yè)化發(fā)展明顯提高農(nóng)產(chǎn)品需求量,導(dǎo)致耕地面積和農(nóng)村勞動(dòng)力減少,影響者農(nóng)產(chǎn)品價(jià)格。

        從國(guó)際方面來(lái)看,國(guó)際農(nóng)產(chǎn)品價(jià)格、國(guó)際石油價(jià)格、農(nóng)產(chǎn)品進(jìn)出口等均影響農(nóng)產(chǎn)品價(jià)格。國(guó)際市場(chǎng)因素對(duì)中國(guó)農(nóng)產(chǎn)品價(jià)格影響方法通過(guò)成本推動(dòng),即上游商品價(jià)格變化經(jīng)由成本環(huán)節(jié)推動(dòng)下游商品價(jià)格變化。石油價(jià)格上漲直接影響農(nóng)業(yè)生產(chǎn)成本和生物燃料需求,提高農(nóng)產(chǎn)品生產(chǎn)成本和需求量。進(jìn)出口貿(mào)易可以調(diào)節(jié)國(guó)內(nèi)生產(chǎn)要素利用率,改善國(guó)際供求關(guān)系,調(diào)整經(jīng)濟(jì)結(jié)構(gòu),影響農(nóng)產(chǎn)品價(jià)格。

        農(nóng)業(yè)領(lǐng)域不斷出現(xiàn)相關(guān)農(nóng)產(chǎn)品價(jià)格詞匯,需及時(shí)添加到系統(tǒng)主題詞庫(kù)中,保證系統(tǒng)準(zhǔn)確統(tǒng)計(jì)農(nóng)產(chǎn)品價(jià)格信息。系統(tǒng)提供兩種方式更新詞庫(kù),一是系統(tǒng)定期分析用戶查詢?nèi)罩?,記錄近期頻繁出現(xiàn)檢索詞匯,由管理員確認(rèn)后加入主題詞庫(kù),二是系統(tǒng)管理員手動(dòng)將新詞匯加入詞庫(kù)。關(guān)鍵詞庫(kù)結(jié)構(gòu)如圖4所示。

        圖3 爬蟲(chóng)體系結(jié)構(gòu)Fig.3System architecture of crawlers

        圖4 關(guān)鍵詞庫(kù)Fig.4Keywords database

        3.3分類器設(shè)計(jì)

        支持向量機(jī)法(SVM)是Vapnik基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則提出的機(jī)器學(xué)習(xí)分類法,主要思想是針對(duì)線性可分情況進(jìn)行分析,對(duì)于線性不可分情況,通過(guò)使用非線性映射算法將不可分低維輸入空間轉(zhuǎn)化為高維特征空間,高維特征空間使用線性算法對(duì)樣本非線性特征進(jìn)行線性分析[20-24]。

        最優(yōu)分類函數(shù)如式(6)所示:

        式中:ai表示支持向量,yi表示樣本向量類別值,xi表示訓(xùn)練樣本向量,K表示核函數(shù),b為待求常數(shù)。

        K最近鄰(KNN)分類算法主要思想是根據(jù)傳統(tǒng)空間向量模型,對(duì)文本預(yù)處理、分詞、權(quán)重計(jì)算操作,將文本內(nèi)容轉(zhuǎn)換成特征空間中向量V=V (w1,w2,……,wn)。對(duì)每個(gè)樣本數(shù)據(jù),計(jì)算其和訓(xùn)練樣本集中每個(gè)訓(xùn)練樣本相似度,并按相似度樣本排序,獲得K個(gè)相似度最高樣本,通過(guò)加權(quán)計(jì)算K個(gè)樣本確定待分類樣本所屬類別[25-27]。

        本文農(nóng)產(chǎn)品價(jià)格分類模型中,主要利用SVM分類器支持向量思想改進(jìn)KNN分類器,首先通過(guò)試驗(yàn)確定農(nóng)產(chǎn)品價(jià)格數(shù)據(jù)集區(qū)分閾值,再通過(guò)訓(xùn)練農(nóng)產(chǎn)品價(jià)格樣本得到SVM分類器,利用SVM分類器支持向量SV作為KNN分類器訓(xùn)練樣本,構(gòu)建基于支持向量KNN分類器。在分類過(guò)程中,計(jì)算待分類農(nóng)產(chǎn)品價(jià)格樣本與SVM分類器中最優(yōu)分類面H之間距離d,若存在d>0,則直接使用SVM分類器分類,否則使用基于支持向量KNN分類器,計(jì)算待分類樣本和類別支持向量間距離,計(jì)算支持向量權(quán)重之后,輸出得到高權(quán)重樣本級(jí)別。分類器分類流程如圖5所示,其中,U1到Un分別表示父網(wǎng)頁(yè)u1到un主題相關(guān)度,W1到Wm分別表示主題詞匯w1到wm詞頻。分類具體步驟如下:

        ①對(duì)爬蟲(chóng)抓取待分類網(wǎng)頁(yè),通過(guò)預(yù)處理可計(jì)主題詞匯在網(wǎng)頁(yè)文本中出現(xiàn)次數(shù),即詞頻,并從數(shù)據(jù)庫(kù)中提取網(wǎng)頁(yè)父網(wǎng)頁(yè)信息;

        ②將父網(wǎng)頁(yè)信息、兄弟網(wǎng)頁(yè)信息、詞頻等文本向量化;

        ③通過(guò)輸入特征向量集合,選擇合適核函數(shù),農(nóng)產(chǎn)品價(jià)格樣本訓(xùn)練,得到SVM模型;

        ④將上一步得到SVM模型各類別支持向量作為KNN分類器訓(xùn)練樣本集,得到KNN分類模型;

        ⑤計(jì)算樣本和類別支持向量之間距離,決定使用SVM分類模型還是基于支持向量KNN分類模型。

        圖5 相關(guān)度計(jì)算過(guò)程實(shí)例Fig.5Example of correlation degree calculation process

        4 結(jié)果與分析

        查全率和查準(zhǔn)率作為評(píng)價(jià)搜索引擎系統(tǒng)性能主要指標(biāo)[28],前者衡量系統(tǒng)檢索結(jié)果與用戶需求內(nèi)容相關(guān)能力,計(jì)算公式如式(7),后者衡量系統(tǒng)拒絕不相關(guān)內(nèi)容能力,計(jì)算公式如式(8)。

        式中R表示檢出信息數(shù)量,C表示檢索出相關(guān)信息數(shù)量,T表示整個(gè)文檔集合。由于互聯(lián)網(wǎng)信息海量,無(wú)法得知網(wǎng)絡(luò)上共有多少相關(guān)信息,因此將查準(zhǔn)率作為評(píng)價(jià)搜索引擎重要指標(biāo)。通過(guò)試驗(yàn),以“哈爾濱玉米價(jià)格”為關(guān)鍵詞,使用本系統(tǒng)檢索,檢索出網(wǎng)頁(yè)數(shù)為100,200,300,400,500,600,700,800,900,1 000。檢索出相關(guān)網(wǎng)頁(yè)數(shù)分別為85,167,248,338,411,486,571,650,726,806。

        通過(guò)式(8)得到查準(zhǔn)率見(jiàn)圖6。

        圖6 系統(tǒng)查準(zhǔn)率Fig.6Pprecision ratio of the system

        由圖6可知,系統(tǒng)查準(zhǔn)率在檢出網(wǎng)頁(yè)較少時(shí)波動(dòng)較明顯,隨著檢出網(wǎng)頁(yè)增多,系統(tǒng)查準(zhǔn)率逐漸穩(wěn)定在80%左右,由此可見(jiàn)系統(tǒng)能夠拒絕與主題無(wú)關(guān)網(wǎng)頁(yè)。

        另外,系統(tǒng)可統(tǒng)計(jì)“哈爾濱玉米價(jià)格”信息,根據(jù)“哈爾濱”“玉米”兩個(gè)關(guān)鍵詞將近期哈爾濱玉米價(jià)格抽取,并統(tǒng)計(jì)哈爾濱玉米價(jià)格影響因素信息,為后續(xù)農(nóng)產(chǎn)品價(jià)格預(yù)測(cè)提供數(shù)據(jù)。

        2015年1月到2016年8月哈爾濱玉米價(jià)格波動(dòng)如圖7所示,系統(tǒng)統(tǒng)計(jì)的影響哈爾濱玉米價(jià)格因素信息見(jiàn)表2。

        圖7 2015年1月~2016年8月哈爾濱玉米價(jià)格Fig.7January 2015-August 2016 maize prices Harbin

        表2 玉米價(jià)格影響因素信息Table 2Influence factor of corn price

        5 結(jié)論

        針對(duì)現(xiàn)有農(nóng)業(yè)搜索引擎反饋農(nóng)產(chǎn)品價(jià)格信息不夠直觀等問(wèn)題,本文使用HttpClient和htmlparser架構(gòu)網(wǎng)絡(luò)爬蟲(chóng),提出基于父網(wǎng)頁(yè)、兄弟網(wǎng)頁(yè)和關(guān)鍵詞主題相關(guān)度算法計(jì)算網(wǎng)頁(yè)主題相關(guān)度,在不同情況下分別利用SVM分類器和支持向量KNN分類器確保抓取網(wǎng)頁(yè)準(zhǔn)確性,有效搜集互聯(lián)網(wǎng)農(nóng)產(chǎn)品價(jià)格信息,為用戶提供更直觀數(shù)據(jù)。系統(tǒng)收集農(nóng)產(chǎn)品價(jià)格影響因素信息,為農(nóng)產(chǎn)品價(jià)格預(yù)測(cè)提供數(shù)據(jù)基礎(chǔ)。

        [1]陳威,郭書(shū)普.中國(guó)農(nóng)業(yè)信息化技術(shù)發(fā)展現(xiàn)狀及存在問(wèn)題[J].農(nóng)業(yè)工程學(xué)報(bào),2013(22):196-205.

        [2]許世衛(wèi).農(nóng)業(yè)信息科技進(jìn)展與前沿[M].北京:中國(guó)農(nóng)業(yè)出版社,2007.

        [3]Law M R,Mintzes B,Morgan S G.The sources and popularity of online drug information:an analysis of top search engine results and web page views[J].Annals of Pharmacotherapy,2011,45(3):350-356.

        [4]孔濤,曹丙章,邱荷花.基于MapReduce視頻爬蟲(chóng)系統(tǒng)研究[J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2015(5):129-132.

        [5]黃小花,李俊晶.淺析頁(yè)面頭部Meta標(biāo)記[J].電腦知識(shí)與技術(shù),2015(6):192-194.

        [6]侯整風(fēng),張浩,張娜.基于字頻分布中文網(wǎng)頁(yè)編碼識(shí)別算法[J].計(jì)算機(jī)工程,2014(12):199-204.

        [7]韓冬煦,常寶寶.中文分詞模型領(lǐng)域適應(yīng)性方法[J].計(jì)算機(jī)學(xué)報(bào),2015(2):272-281.

        [8]許玉贏.常用開(kāi)源中文分詞工具[EB/OL].(2014-04-20)[2016-01-15]http://www.scholat.com/vpost.html?pid=4477.

        [9]Mathew M,Shine N D,Lakshmi T R.A novel approach for nearduplicate detection of Web pages using TDW matrix[J].Interna?tional Journal of Computer Applications,2011,19(7):16-21.

        [10]Agrawal A,Husain M,Tiwari R G.A novel technique for data?base selection and document selection[J].International Journal of Computer Applications,2011,17(8):22-26.

        [11]張文龍,劉一偉,張杰.基于Nutch垂直搜索引擎研究[J].南開(kāi)大學(xué)學(xué)報(bào):自然科學(xué)版,2012(2):37-44.

        [12]Cafarella M,Cutting D.Building nutch:Open source search[J]. ACM Queue,2004,2(2):21-24.

        [13]成龍.Lucene搜索引擎開(kāi)發(fā)進(jìn)階實(shí)戰(zhàn)[M].北京:機(jī)械工業(yè)出版社,2015.

        [14]羅剛,王振東.自己動(dòng)手寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)[M].北京:清華大學(xué)出版社,2010.

        [15]張俊林.這就是搜索引擎核心技術(shù)詳解[M].北京:電子工業(yè)出版社,2012.

        [16]王國(guó)平.IBM SPSS Modeler數(shù)據(jù)與文本挖掘?qū)崙?zhàn)[M].北京:清華大學(xué)出版社,2014.

        [17]劉洪來(lái),張小素.我國(guó)農(nóng)產(chǎn)品價(jià)格波動(dòng)影響因素分析[J].金融發(fā)展研究,2012(12):34-38.

        [18]魏振香,徐菲.生產(chǎn)成本與農(nóng)產(chǎn)品價(jià)格變化關(guān)系[J].價(jià)格理論與實(shí)踐,2013(5):77-78.

        [19]許世衛(wèi),李哲敏.農(nóng)產(chǎn)品價(jià)格傳導(dǎo)機(jī)制及其主要影響因素分析[J].中國(guó)科技論壇,2012(9):71-75.

        [20]張學(xué)工.關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J].自動(dòng)化學(xué)報(bào),2000(1):32-43.

        [21]HACIB T,Le Bihan Y.Microwave characterization using ridge polynomial neural networks and least-square support vector ma?chines[J].IEEE Transactions on Magnetics,2011,47(5):990-993.

        [22]Deng N,Tian Y,Zhang C.Support vector machines:Optimization based theory,algorithms,and extensions[M].Boca raton:CRC Press,2012.

        [23]Chang C C,Lin C J.LIBSVM:A library for support vector machines[J].ACM Transactions on Intelligent Systems and Tech?nology,2011,2(3):27-36.

        [24]Habibi Y,Sheisi G H,Abdi H.Voltage instability detection in power system using support vector machine(SVM)[J].Technical Journal of Engineering and Applied Sciences,2015(2):22-26.

        [25]張寧,賈自艷,史忠植.使用KNN算法文本分類[J].計(jì)算機(jī)工程,2005(8):171-172.

        [26]閆永剛,王建.KNN分類算法MapReduce并行化實(shí)現(xiàn)[J].南京航空航天大學(xué)學(xué)報(bào),2013(4):550-555.

        [27]郝秀蘭,陶曉鵬,徐和祥,等.KNN文本分類器類偏斜問(wèn)題一種處理對(duì)策[J].計(jì)算機(jī)研究與發(fā)展,2009(1):52-61.

        [28]劉麗,孫燕唐.智能型元搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程,2003(6):118-120.

        Research and implementation of agricultural prices subject search engine

        MENG Fanjiang,JI Xiang,YUAN Qi,LIU Dong,HOU Zhepeng
        (School of Electrical and Information,NortheastAgricultural University,Harbin 150030,China)

        Current agricultural vertical search engine can't assess the price trend of agricultural products,not suitable for agricultural producers to analysis the market quotations,in view of the present situation,paper researched and designed the agricultural prices subject search engine.First,web crawler collected web pages from the agricultural comprehensive web site,and the web page for transcoding,deduplication,extract content and so on;then,use the Topic similarity algorithm of this paper to judge the correlation degree of web pages,and used the classifier to classify the web pages,topic related web pages would be parsed,stored;finally,extracted the information of the price of agricultural products and the information of its influencing factors.Experimental results showed that the system could collect the information of agricultural products prices very well,and the system could also collect the information of the factors affecting the price of agricultural products,provided data support for the follow-up study of the price forecasting of agricultural products.

        web crawler;information crawl;agricultural prices prediction;agriculture search engine

        TP391.4

        A

        1005-9369(2016)09-0064-08

        2016-04-26

        國(guó)家星火計(jì)劃項(xiàng)目(2010GA670006)

        孟繁疆(1968-)男,副教授,碩士生導(dǎo)師,研究方向?yàn)橛?jì)算機(jī)應(yīng)用。E-mail:fjmeng68@126.com

        猜你喜歡
        爬蟲(chóng)搜索引擎分類器
        利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
        基于Python的網(wǎng)絡(luò)爬蟲(chóng)和反爬蟲(chóng)技術(shù)研究
        利用爬蟲(chóng)技術(shù)的Geo-Gnutel la VANET流量采集
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
        亚洲深深色噜噜狠狠网站| 国产精品国产三级国产专播| 亚洲色偷偷偷综合网另类小说| 成人水蜜桃视频在线观看| 一边做一边说国语对白| 国产成人免费一区二区三区| 亚洲AV无码一区二区二三区我| 一本色道亚州综合久久精品| 色婷婷精品久久二区二区蜜桃| 麻豆影视视频高清在线观看| 亚洲综合伊人制服丝袜美腿| 日本最新一区二区三区视频| 丝袜美腿高清在线观看| 久久精品国产亚洲av高清热| 91精品视品在线播放| 黑丝国产精品一区二区| 国产亚洲av另类一区二区三区| 最近免费mv在线观看动漫| 国产在线精品一区二区在线看| 黄色三级国产在线观看| 国产精品亚洲av无人区一区香蕉 | 国产 字幕 制服 中文 在线| 欧美日韩在线视频一区| 性色av无码不卡中文字幕 | 色婷婷激情在线一区二区三区| 狠狠爱婷婷网五月天久久| 真实国产老熟女无套中出| 国产精品亚洲一区二区无码国产| 日本无吗一区二区视频| 麻豆资源在线观看视频| 国产女人高潮视频在线观看| 亚洲阿v天堂2018在线观看| 麻豆成人久久精品二区三区免费| 好大好湿好硬顶到了好爽视频| 美女大量吞精在线观看456 | 人妻av一区二区三区高| 国产亚洲精品久久情侣| 国产精品_国产精品_k频道w| 国产精品国产三级在线高清观看| 亚洲中文字幕第一页免费 | 黄片午夜免费观看视频国产|