亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本分類的農(nóng)業(yè)種植信息集成推薦方法研究

        2018-03-22 07:10:45唐東明
        關(guān)鍵詞:分詞分類文本

        彭 爭,唐東明

        (西南民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川 成都 610041)

        中國作為農(nóng)業(yè)大國,每年都積累包括作物的苗情、土情、水情、蟲情、氣象和災(zāi)害等,面對(duì)如此海量的數(shù)據(jù),目前迫切需要研究解決的問題是如何充分利用數(shù)據(jù),從而為農(nóng)民提供指導(dǎo)性和實(shí)用性的信息.目前互聯(lián)網(wǎng)上存在海量的線上資源,線上的農(nóng)業(yè)電子資源對(duì)農(nóng)民具有重要的意義.然而目前廣大農(nóng)民卻不知道怎么查找相應(yīng)的數(shù)據(jù)來解決實(shí)際生產(chǎn)生活中的問題.經(jīng)調(diào)查,他們大多只是在百度上進(jìn)行簡單檢索,一方面問題描述不夠清晰,另一方面檢索到的結(jié)果充斥著大量廣告,最重要的是檢索不到真正有用的信息.而本研究致力于打造的服務(wù)于農(nóng)民種植的應(yīng)用,將網(wǎng)絡(luò)上海量的農(nóng)業(yè)信息進(jìn)行匯總整理,構(gòu)建知識(shí)庫,使農(nóng)民使用時(shí)更加精準(zhǔn),將相關(guān)種植信息關(guān)聯(lián)在一起,具有很強(qiáng)的現(xiàn)實(shí)意義.

        目前新聞文本分類是文本挖掘里面較為常見的場景,然而面對(duì)海量的信息內(nèi)容常常采用人工標(biāo)記新聞?lì)悇e的方式,不僅消耗了大量的人力資源,同時(shí)也因?yàn)楦鞣N因素導(dǎo)致標(biāo)注信息不準(zhǔn)確導(dǎo)致的信息利用率不高[2].

        本文主要通過KNN算法對(duì)10類待挖掘的文章進(jìn)行處理,通過對(duì)主題權(quán)重的聚類等實(shí)現(xiàn)農(nóng)業(yè)新聞文本的自動(dòng)分類,通過分析記錄用戶的瀏覽歷史記錄挖掘出潛在的有價(jià)值的信息和知識(shí)進(jìn)而達(dá)到個(gè)性化推薦的目的.本文設(shè)計(jì)并實(shí)現(xiàn)了基于文本分類算法的農(nóng)業(yè)種植信息推薦系統(tǒng).

        1 系統(tǒng)設(shè)計(jì)

        本系統(tǒng)構(gòu)建的果農(nóng)幫推薦系統(tǒng)將各類農(nóng)業(yè)信息采集、存取、清洗、分析和可視化等進(jìn)行深度集成,通過數(shù)據(jù)分析優(yōu)化已有的種植方案,并將結(jié)果展示給農(nóng)民.用機(jī)器學(xué)習(xí)方法進(jìn)行分析研究,探索相對(duì)最優(yōu)的農(nóng)民種植策略問題,通過匯總的農(nóng)業(yè)種植信息和災(zāi)害防治信息的集成展示可以對(duì)農(nóng)業(yè)種植經(jīng)行系統(tǒng)化指導(dǎo),根據(jù)農(nóng)民的興趣來幫助農(nóng)民獲得更多有針對(duì)性的信息,最終設(shè)計(jì)并實(shí)現(xiàn)基于大數(shù)據(jù)的果蔬種植推薦系統(tǒng).具體研究內(nèi)容如下:

        用戶使用該系統(tǒng)過程中,如果是新用戶,則需要進(jìn)行注冊(cè)操作,選擇自己感興趣的領(lǐng)域話題進(jìn)行標(biāo)注.如果是已注冊(cè)的用戶,則直接進(jìn)行登錄即可.當(dāng)用戶再次登錄該系統(tǒng)以后,系統(tǒng)會(huì)根據(jù)用戶的瀏覽記錄和感興趣的標(biāo)簽與數(shù)據(jù)庫中處理后的關(guān)鍵詞庫進(jìn)行相關(guān)匹配,運(yùn)用關(guān)聯(lián)規(guī)則進(jìn)行推薦,從而滿足用戶個(gè)性化需求[2].

        系統(tǒng)的整體架構(gòu)如圖1所示:

        圖1 系統(tǒng)整體架構(gòu)Fig.1 System flow diagram

        1.1 數(shù)據(jù)庫設(shè)計(jì)

        該系統(tǒng)采用MongoDB進(jìn)行數(shù)據(jù)庫的設(shè)計(jì)與實(shí)現(xiàn).MongoDB是一個(gè)開源的,基于分布式的,面向文檔存儲(chǔ)的非關(guān)系型數(shù)據(jù)庫.考慮到用戶的喜好等屬性會(huì)有多個(gè)記錄因此將其字段設(shè)置為array類型方便存儲(chǔ),本系統(tǒng)主要數(shù)據(jù)庫設(shè)計(jì)如表1和表2所示:

        表1 article表Table 1 Article Attribute Table

        表2 user表Table 2 User Attribute Table

        網(wǎng)絡(luò)新聞文本具有數(shù)據(jù)量龐大,獲取成本比較低,多樣性豐富,用戶自發(fā)進(jìn)行發(fā)布以及信息及時(shí)性等特點(diǎn)[3-5].本文構(gòu)建的推薦系統(tǒng)的服務(wù)的用戶為以農(nóng)業(yè)種植用戶為主,兼具其他農(nóng)業(yè)從業(yè)人員.考慮到農(nóng)業(yè)數(shù)據(jù)種類豐富,農(nóng)業(yè)信息涉及的范圍非常廣泛,因此數(shù)據(jù)集分類更加多樣化.

        對(duì)于農(nóng)戶來說,在種植環(huán)節(jié),農(nóng)民迫切希望了解市場的供需關(guān)系,提前對(duì)市場需求進(jìn)行一定的預(yù)判以便決定種植農(nóng)作物的品種和數(shù)量.在作物的生長環(huán)節(jié),農(nóng)民更關(guān)心天氣信息以及災(zāi)害防治等,而作物快成熟以后,農(nóng)民更希望了解市場價(jià)格趨勢(shì)等問題[6].

        農(nóng)業(yè)類新聞文本數(shù)據(jù)具有以下特點(diǎn),例如文本類形式使得結(jié)構(gòu)化信息較少,一般只具有發(fā)布時(shí)間,標(biāo)題,作者,內(nèi)容等幾個(gè)簡單屬性,使得進(jìn)行分析時(shí)無法進(jìn)行結(jié)構(gòu)化檢索等,只能通過自然語言處理的相關(guān)方法進(jìn)行一系列的處理[6].其次,農(nóng)業(yè)類文本的分類較多,涉及行業(yè)如種植、養(yǎng)殖、病蟲害識(shí)別、市場趨勢(shì)等并無統(tǒng)一分類規(guī)范[9].此外,農(nóng)業(yè)新聞對(duì)準(zhǔn)確性要求較高,農(nóng)業(yè)新聞是農(nóng)民獲取信息的主要方式,若信息分類不準(zhǔn)確會(huì)造成用戶體驗(yàn)不好,影響推薦效果.

        1.2 文本數(shù)據(jù)處理

        機(jī)器學(xué)習(xí)具有很多分類方法可以應(yīng)用在新聞文本的自動(dòng)分類上,例如KNN,SVM,樸素貝葉斯,決策樹等,它們都有各自的優(yōu)缺點(diǎn).其中KNN,SVM等比較適合多分類場景.下本文利用爬蟲技術(shù)在各大主流農(nóng)業(yè)網(wǎng)站共收集了10種不同類別的農(nóng)業(yè)新聞數(shù)據(jù).判斷一篇未知新聞屬于哪個(gè)具體分類是一個(gè)監(jiān)督分類問題,實(shí)驗(yàn)中有10類新聞數(shù)據(jù)集,每100篇屬于一類,目標(biāo)是構(gòu)建一個(gè)有效的模式來判定未知新聞的類別.

        本文主要進(jìn)行農(nóng)業(yè)類新聞的分析,因此利用現(xiàn)有的成熟的爬蟲技術(shù),在遵循robosts.txt協(xié)議的基礎(chǔ)上,爬取主流農(nóng)業(yè)類新聞網(wǎng)站各類原始農(nóng)業(yè)新聞文本數(shù)據(jù)如下:將爬到的原始數(shù)據(jù)集存為文本文檔,作為原始的數(shù)據(jù)集和語料庫,如圖2所示.

        圖2 待分類源農(nóng)業(yè)數(shù)據(jù)Fig.2 The agricultural data source

        1.3 文字?jǐn)?shù)值化

        針對(duì)上一步收集到的原始信息,首先進(jìn)行數(shù)據(jù)清洗和整理,處理過程如下:利用python中的jieba庫進(jìn)行分詞和詞頻統(tǒng)計(jì),利用TF-IDF方法進(jìn)行詞頻統(tǒng)計(jì),在處理過程中考慮到虛詞標(biāo)點(diǎn)符號(hào)等干擾項(xiàng),因此進(jìn)行停用詞的過濾.接著利用sklearn庫中的KNN進(jìn)行文本信息挖掘,最后進(jìn)行結(jié)果分析和評(píng)估[10].

        首先利用jieba庫進(jìn)行中文分詞處理.結(jié)巴(jieba)是集成在python中的一個(gè)工具包,可以對(duì)一段中文進(jìn)行分詞,代碼清晰,擴(kuò)展性好有三種分詞模式,可以適應(yīng)不同需求.其主要的處理思路如下:

        ①加載默認(rèn)詞典dict.txt;

        ②從內(nèi)存的詞典中構(gòu)建該句子的有向無環(huán)圖;

        ③對(duì)于詞典中未收錄詞,使用HMM模型的viterbi算法嘗試分詞處理;

        ④已收錄詞和未收錄詞全部分詞完畢后,使用dp尋找DAG的最大概率路徑;

        ⑤輸出分詞結(jié)果.

        接下來將文本中的詞語轉(zhuǎn)換為詞頻矩陣,并利用TfidfTransformer()方法統(tǒng)計(jì)每個(gè)詞語的tf-idf權(quán)值.再將文本轉(zhuǎn)為詞頻矩陣,返回[(文章idx,詞語id),詞頻],獲取詞袋模型中所有詞語,遍歷所有文本和獲取某一文本下的詞語權(quán)重[7].

        經(jīng)過測試實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)jieba分詞后的結(jié)果中占比較多的多為“的”等并沒有實(shí)際含義的虛詞,這些詞匯是幾乎在每篇文章中常見的停止詞.因此加載停用詞詞典處理,這樣可以減小數(shù)據(jù)的大小,同時(shí)也使得分析的語料更有說服力.將構(gòu)建的語料庫進(jìn)行初步切詞處理和去除停用詞如圖3所示:

        圖3 農(nóng)業(yè)新聞分詞結(jié)果Fig.3 Agricultural vocabulary segmentation results

        1.4 文本分類

        基于KNN(k-NearestNeighbor,簡稱KNN)的分類器是一種常見的有監(jiān)督學(xué)習(xí)的分類方法.K近鄰的輸入為實(shí)例的特征向量,對(duì)應(yīng)于特征空間的點(diǎn);輸出位實(shí)力的類別,可以取多類.該方法假設(shè)給定一個(gè)訓(xùn)練數(shù)據(jù)集,其中的實(shí)例類別已給定.分類時(shí)對(duì)新的實(shí)例,根據(jù)其k個(gè)最近鄰的訓(xùn)練實(shí)例的類別,通過多數(shù)表決的等方式進(jìn)行預(yù)測.

        首先加載訓(xùn)練文本,并將數(shù)據(jù)集進(jìn)行切分進(jìn)行初步的預(yù)處理.接下來,通過調(diào)用fit_transform接口進(jìn)行訓(xùn)練樣本數(shù)據(jù),生成詞語的TF-IDF向量空間模型.直接調(diào)用python中sklearn庫的KNN方法進(jìn)行分類器的訓(xùn)練,以保證模型的最佳效果.

        待訓(xùn)練好分類器以后,加載待預(yù)測文本數(shù)據(jù),經(jīng)行未知類別樣本的預(yù)測.經(jīng)測試,該方法準(zhǔn)確并快速的將未知文本進(jìn)行了自動(dòng)分類.

        2 農(nóng)業(yè)信息集成與推薦

        當(dāng)對(duì)農(nóng)業(yè)新聞文本進(jìn)行向量優(yōu)化以后,接下來便可以對(duì)于收集到的農(nóng)業(yè)類新聞文本,采用余弦相似度(cosine similiarity)計(jì)算多篇文章間的相似程度,通過計(jì)算不同的向量的差異的大小,來計(jì)算文本的相似度[11].相似度度量的值越小,說明個(gè)體間相似度越小,相似度的值越大說明兩篇文本的差異越大.余弦相似度計(jì)算原理如下:

        圖4 文章余弦相似度計(jì)算Fig.4 Article cosine similarity calculation

        如圖4所示,通過對(duì)文章進(jìn)行相似的計(jì)算分析可以看出,文章本身之間相似度最高,所以對(duì)角線為0.由此,對(duì)每一篇文章進(jìn)行向量化處理,構(gòu)建出與這篇文章最相關(guān)的5篇文章并按照相似程度進(jìn)行排序.

        3 系統(tǒng)運(yùn)行結(jié)果

        該系統(tǒng)可以實(shí)現(xiàn)農(nóng)業(yè)新聞的自動(dòng)爬取,利用python的scrapy框架進(jìn)行對(duì)主流農(nóng)業(yè)網(wǎng)站的信息爬取.爬取到的數(shù)據(jù)經(jīng)過清洗整理后存儲(chǔ)在mongodb數(shù)據(jù)庫中.網(wǎng)站的主界面在不登陸情況下,顯示各個(gè)分類后的新聞模塊;用戶注冊(cè)后,瀏覽不同類別的文章后,在歷史瀏覽中會(huì)顯示瀏覽記錄,方便用戶今后查閱.爬取到的信息通過機(jī)器學(xué)習(xí)算法自動(dòng)生成摘要展現(xiàn)在文章列表中,將文章最精華的部分展示給用戶減少用戶的信息處理時(shí)間.通過記錄過用戶瀏覽過的歷史記錄和偏好,在用戶點(diǎn)擊一定數(shù)量的文章以后,后臺(tái)通過算法自動(dòng)推算出用戶最感興趣的內(nèi)容,將結(jié)果按照相關(guān)程度進(jìn)行排序最后展示在“我的推薦”一欄.用戶登錄后會(huì)根據(jù)用戶瀏覽記錄及感興趣標(biāo)簽等信息顯示個(gè)性化推薦后的新聞以及瀏覽過的農(nóng)業(yè)新聞?dòng)涗?,用戶可以瀏覽最近天氣以及種植相關(guān)信息.系統(tǒng)在實(shí)際運(yùn)行中,可極大方便用戶的檢索時(shí)間,用戶可以最快速的定位到自己感興趣的話題和內(nèi)容,該系統(tǒng)對(duì)農(nóng)業(yè)的發(fā)展具有一定的促進(jìn)作用.系統(tǒng)的最終運(yùn)行部分界面如圖5所示:

        圖5 系統(tǒng)最終實(shí)現(xiàn)界面Fig.5 System interface

        4 總結(jié)與展望

        本文將機(jī)器學(xué)習(xí)算法應(yīng)用于傳統(tǒng)的農(nóng)業(yè)領(lǐng)域,實(shí)現(xiàn)了對(duì)種植信息的集成和挖掘,文本的自動(dòng)分類以及個(gè)性化推薦等相關(guān)功能,在一定程度上滿足了農(nóng)民用戶的現(xiàn)實(shí)需求.隨著大數(shù)據(jù)和移動(dòng)計(jì)算時(shí)代的來臨,往往使用單一數(shù)據(jù)源的靜態(tài)歷史數(shù)據(jù)方法的推薦系統(tǒng)[10],無法滿足用戶的需求因?yàn)橛脩粼诓煌I(lǐng)域具有不同的興趣[14-17],并沒有考慮到用戶的興趣也隨著時(shí)間會(huì)發(fā)生變化,今后可以考慮用戶的選擇受當(dāng)前所處的地點(diǎn),時(shí)間,周圍相關(guān)人員等眾多因素的影響所以更為智能推薦系統(tǒng)可以利用大數(shù)據(jù)和移動(dòng)計(jì)算技術(shù)來增強(qiáng)“跨域”感知能力,構(gòu)建推薦平臺(tái).

        [1]何潔.基于Web使用數(shù)據(jù)挖掘的個(gè)性化推薦系統(tǒng)設(shè)計(jì)[J].數(shù)字技術(shù)與應(yīng)用,2012(07):141-142.

        [2]游蘭,彭慶喜,王時(shí)繪.基于Web使用挖掘的個(gè)性化站點(diǎn)研究[J].江漢大學(xué)學(xué)報(bào)(自然科學(xué)版),2005(03):51-54.

        [3]姜楠,趙杏,狄查美玲,等.移動(dòng)農(nóng)業(yè)信息推薦系統(tǒng)設(shè)計(jì)[J].大連民族大學(xué)學(xué)報(bào),2016,18(05):505-508.

        [4]陳龍飛,趙雪.信息推薦技術(shù)與農(nóng)資網(wǎng)站個(gè)性化推薦技術(shù)綜述[J].河北科技師范學(xué)院學(xué)報(bào),2013(04):46-51.

        [5]張峰,茶正早,羅微,等.面向中低端手機(jī)的移動(dòng)農(nóng)業(yè)應(yīng)用軟件研究——以香蕉小助手為例[J].安徽農(nóng)業(yè)科學(xué),2009(18):8806-8808.

        [6]賈寶紅,王曉蓉,馬雪,等.天津市農(nóng)業(yè)信息推送服務(wù)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].山西農(nóng)業(yè)科學(xué),2015,43(10):1329-1332 +1362.

        [7]牛秀萍.基于隱馬爾科夫模型詞性標(biāo)注的研究[D].太原理工大學(xué),2013.

        [8]姜麗紅,徐博藝,席俊紅.基于案例推理的過濾算法及智能信息推薦系統(tǒng)[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2006(S1):1074-1077.

        [9]吳潤方.農(nóng)業(yè)專家系統(tǒng)應(yīng)用綜述[J].科技廣場,2016,172(03):179-181.

        [10]劉建國,周濤,汪秉宏.個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展,2009(01):1-15.

        [11]張小彬.中文Web文本分類關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D].西安電子科技大學(xué),2011.

        [12]馬建斌,李瀅,滕桂法,等.KNN和SVM算法在中文文本自動(dòng)分類技術(shù)上的比較研究[J].河北農(nóng)業(yè)大學(xué)學(xué)報(bào),2008(03):120-123.

        [13]郭平,劉波,沈岳.農(nóng)業(yè)云大數(shù)據(jù)自組織推送關(guān)鍵技術(shù)綜述[J].軟件,2013(03):1-6.

        [14]趙璞,朱孟帥,秦波,等.農(nóng)業(yè)APP研究進(jìn)展及展望[J].農(nóng)業(yè)展望,2016(02):59-64.

        [15]趙秋云,魏樂,舒紅平,等.農(nóng)業(yè)信息化應(yīng)用軟件開發(fā)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[J].農(nóng)機(jī)化研究,2015(11):230-235.

        [16]付娟妮.基于信息用戶的新聞推薦系統(tǒng)特點(diǎn)及構(gòu)建[J].企業(yè)科技與發(fā)展,2013(15):39-40.

        [17]李春子,葉穎澤,賀立源.提高我國農(nóng)業(yè)網(wǎng)站建設(shè)質(zhì)量的方法探討[J].高等農(nóng)業(yè)教育,2009(09):93-95.

        猜你喜歡
        分詞分類文本
        分類算一算
        在808DA上文本顯示的改善
        結(jié)巴分詞在詞云中的應(yīng)用
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        值得重視的分詞的特殊用法
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        如何快速走進(jìn)文本
        国产女主播一区二区三区| 五月天激情综合网| 亚洲国产精品久久久性色av| 久久久精品人妻一区二区三区日本 | 亚洲色大成在线观看| 超碰观看| 视频区一区二在线观看| 日本在线观看一区二区三| 成 人 免 费 黄 色| 图片区小说区激情区偷拍区| 中文在线√天堂| 一本久久精品久久综合桃色| 日韩激情视频一区在线观看| 国产日本精品一二三四区| 欧美黑寡妇特a级做爰| 欧洲人妻丰满av无码久久不卡 | 手机色在线| 亚洲av本道一本二本三区| 91久久精品色伊人6882| 品色堂永远免费| 丰满少妇人妻无码专区| 亚洲欧洲日产国码久在线| 国产精品一区又黄又粗又猛又爽| 最新中文字幕亚洲一区| 国产精品久免费的黄网站| 国产午夜精品一区二区三区软件| 激情偷乱人伦小说视频在线| 天天狠狠综合精品视频一二三区| 久久HEZYO色综合| 国产综合开心激情五月| 国产精品免费看久久久无码| 国产伦精品一区二区三区| 专区国产精品第一页| 日韩国产自拍精品在线| 色婷婷av一区二区三区丝袜美腿| 久久综合九色欧美综合狠狠| 国产xxxxx在线观看| 少妇被爽到高潮动态图| 亚洲av不卡电影在线网址最新| 国产精品农村妇女一区二区三区| 在线播放国产自拍av|