亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本分類的果農(nóng)短信分類

        2015-01-27 10:05:55黃彥,溫繼文,陳英義
        湖北農(nóng)業(yè)科學(xué) 2014年23期
        關(guān)鍵詞:文本挖掘果農(nóng)

        黃彥,溫繼文,陳英義

        摘要:將手機(jī)短信平臺中的短信轉(zhuǎn)化為文本的特性,把文本分類算法運(yùn)用到短信處理技術(shù)之中,通過對短信文本進(jìn)行預(yù)處理、特征選擇及分類器等步驟,將果農(nóng)短信文本按不同果業(yè)信息類別進(jìn)行分類,根據(jù)分類結(jié)果,有針對性地向果農(nóng)提供有效的果業(yè)信息服務(wù)。

        關(guān)鍵詞:文本挖掘;短信分類;果農(nóng)

        中圖分類號:TP311.5 ? ? ? ?文獻(xiàn)標(biāo)識碼:A ? ? ? ?文章編號:0439-8114(2014)23-5864-04

        DOI:10.14088/j.cnki.issn0439-8114.2014.23.062

        短信是依托現(xiàn)代通信技術(shù)手段為農(nóng)民提供即時通信服務(wù),實(shí)現(xiàn)信息進(jìn)村入戶的重要手段。手機(jī)短信平臺為果農(nóng)提供果業(yè)信息,幫助他們及時、準(zhǔn)確地掌握科技技術(shù)信息,了解市場行情,為其決策提供相關(guān)的依據(jù)。目前,農(nóng)村存在短信服務(wù)平臺,如移動“農(nóng)信通”、聯(lián)通“電子農(nóng)務(wù)”、“12316”農(nóng)業(yè)短信平臺等,實(shí)現(xiàn)短信預(yù)訂、接受、推送等短信服務(wù)。為了向果農(nóng)更有針對性地推送果業(yè)相關(guān)信息,提高農(nóng)業(yè)短信平臺的應(yīng)用功能,需要對果農(nóng)按照所發(fā)短信內(nèi)容類型的不同進(jìn)行分類。

        果農(nóng)向農(nóng)業(yè)短信平臺發(fā)送的咨詢短信中,80%左右的電子化信息都是以無結(jié)構(gòu)自由文本的形式存在的,具有模糊性和歧義性,人或者計算機(jī)都難以使用這些未經(jīng)整理的信息。于是就需要文本挖掘技術(shù)來對這些短信內(nèi)容進(jìn)行分類篩選。

        為此,主要針對以短信形式提交的果業(yè)問題,根據(jù)短信可轉(zhuǎn)化為文本這一特性,憑借對短信文本相關(guān)特性和相關(guān)技術(shù)的研究了解,將文本分類算法運(yùn)用到短信處理技術(shù)之中。通過對短信文本進(jìn)行預(yù)處理、特征選擇及分類器等步驟,分析推理果農(nóng)所提問題涉及的領(lǐng)域分類,從而針對性地為果農(nóng)提供果業(yè)信息。

        1 ?基于文本分類的短信處理過程

        1.1 ?文本分類研究現(xiàn)狀

        Feldman等[1]在1995年正式提出文本挖掘的概念,到現(xiàn)在共有不到20年的時間,相對于國外的快速發(fā)展,文本挖掘在中國的研究尚處于起步階段。文本分類是文本挖掘的主要技術(shù)之一,它是根據(jù)給定的文本內(nèi)容,將其判定為事先已經(jīng)確定的若干個文本類別中的一類或者幾類的過程。

        在短信分類研究方面,相關(guān)文獻(xiàn)相對較少,其中涉及文本分類算法原理及改進(jìn)的很多。王忠軍[2]、陳功平等[3]、賀曼麗[4]研究了一種基于改進(jìn)貝葉斯算法的短信分類方法,設(shè)計并實(shí)現(xiàn)了一種基于改進(jìn)貝葉斯的垃圾短信過濾系統(tǒng)。劉金嶺[5]提出同義概念歸并、上下位概念的聚焦以及短信文本重點(diǎn)詞匯的確定方法,利用主題句選取算法獲取短信文本的主題,采用KNN算法將短信文本的主題進(jìn)行分類。朱伙[6]在文本分類的基礎(chǔ)上設(shè)計一個基于文本分類算法的中文短信用戶興趣分層算法。龔壘[7]利用支持向量機(jī)算法對短信文本進(jìn)行分類識別,進(jìn)而完成對垃圾短信的過濾。雷楊[8]以Stacking作為短信過濾系統(tǒng)的集成學(xué)習(xí)算法,得到了一個比較有效的短信分類系統(tǒng)。崔彩霞[9]提出了一種基于字特征的短信分類方法,該方法有效地降低了使有用短信的錯判率。在應(yīng)用方面,主要研究集中在手機(jī)短信監(jiān)控[10]和垃圾短信處理[7,11]上。

        從目前研究現(xiàn)狀來看,文本挖掘在短信分類中的研究主要是短信分類技術(shù)及改進(jìn)的研究,涉及的技術(shù)比較分散,而在技術(shù)應(yīng)用方面的介紹缺很少,可以說文本挖掘在農(nóng)業(yè)短信分類方面的應(yīng)用在國內(nèi)還處于空白階段。

        1.2 ?基于文本分類的短信處理

        文本分類是一個映射的過程,它將未標(biāo)明類別的文本映射到已有的類別中,映射規(guī)則是系統(tǒng)根據(jù)已分類好的分類樣本總結(jié)出分類的規(guī)則,建立分類的判別公式和規(guī)則,在新文本到來時,根據(jù)總結(jié)出來的判別規(guī)則確定文本相關(guān)的類別[12]。對短信進(jìn)行分類的過程如圖1,主要分為三部分。

        1)建立分類模型。分類模型由訓(xùn)練模塊和分類模塊構(gòu)成。在訓(xùn)練模塊,先抽取訓(xùn)練樣本中的關(guān)鍵詞集合;建立關(guān)鍵詞字典;建立訓(xùn)練樣本詞頻,訓(xùn)練分類器,建立基于K-近鄰文本分類器。在分類模塊,根據(jù)訓(xùn)練模塊建立的關(guān)鍵詞字典,將測試文本向量化,用特征子集表示。

        2)分類模型的評價。測試分類模型的分類效果,修正分類模型,提高分類模型的分類效果。

        3)測試階段。輸入未知類別的文檔向量,利用分類器,經(jīng)由分類模型得到測試文檔的類別。

        在這里只針對文本如何進(jìn)行預(yù)處理、K鄰近算法原理及應(yīng)用進(jìn)行具體描述,即建立分類模型部分;分類模型評價及測試階段部分省去。

        1.2.1 ?短信預(yù)處理 ?①中文文本分詞處理。中文分詞就是將連續(xù)的中文字序列按照一定的規(guī)范重新組合詞序列的過程。由于中文是以字為基本的書寫單位,詞語之間沒有明顯的區(qū)分標(biāo)記,中文詞語分析即是中文信息處理的基礎(chǔ)與關(guān)鍵,因此選擇較好的分詞模塊非常重要。此研究采用的是基于多層隱馬模型的漢語詞法分析系統(tǒng)ICTCLAS[13]。

        ICTCLAS分詞系統(tǒng)在切分排歧方面,提出了一種基于N-最短路徑的策略,即在早期階段召回N個最佳結(jié)果作為候選集,目的是覆蓋盡可能多的歧義字段,最終的結(jié)果會在未登錄詞識別和詞性標(biāo)注之后,從N個最有潛力的候選結(jié)果中選優(yōu)得到。該算法實(shí)現(xiàn)了漢語詞匯切分結(jié)果在核心詞庫盡可能小的前提下達(dá)到最優(yōu)。

        ②去除停頓詞及禮貌用語停頓詞通常指在各類文檔中都頻繁出現(xiàn)的詞,這些詞一般是代詞、介詞、連詞等高頻詞。它們不具有任何類別信息,不能作為特征使用。停用詞過濾首先要構(gòu)造停用詞表,在文本校對處理后把校對后的會話中的各詞條分別和停用詞表中詞進(jìn)行比較,如果該詞條在停用詞表中,則刪除該詞條?;谶@一原理將短信中的冠詞、助詞、感嘆詞、禮貌用語等沒有實(shí)際意義的詞語去掉,只剩下具有實(shí)際意義的詞組。

        1.2.2 ?短信分類 ?K近鄰法屬于懶惰學(xué)習(xí)方法,其基本思想是:給出測試文檔,系統(tǒng)在已經(jīng)分類好的訓(xùn)練集中查找與其最近的K個鄰居,根據(jù)這些鄰居的類別分布情況獲得測試文檔的類別。其中可以用這些鄰居與測試文檔的相似度進(jìn)行加權(quán),從而獲得較好的分類效果[14,15]。其分類過程如下:endprint

        1)計算詞頻(TF)。詞頻是指詞組t在文檔中出現(xiàn)的次數(shù)。可以用公式(1)計算詞頻:

        TF(t,d)=0.5+■(1)

        式中,f(t,d)指的是t詞組在d類別中出現(xiàn)的次數(shù)。MaxFreq(d)指的是在類別中所有的詞組出現(xiàn)次數(shù)最多的類別的f(t,d)。

        2)計算逆文檔頻率IDF。逆文檔頻率是指在所有的文檔中某詞語出現(xiàn)的次數(shù)??梢杂霉剑?)計算逆文檔頻率:

        IDF=1+log(■)(2)

        式中,n是指所有的類別數(shù)目,k是指出現(xiàn)關(guān)鍵詞t的類別總數(shù)。

        3)計算weight。使用公式(3)來計算weight:

        weight(t,d)=TF(t,d)IDF(t)(3)

        4)計算短信內(nèi)容與各個細(xì)分類別的相似度。根據(jù)上一步算出的14個細(xì)分類別下每個關(guān)鍵詞的weight,可以表示為

        Di=(Wi1,Wi2,…,WiN),其中i=1,2,3。(4)

        同時也能計算出新短信內(nèi)容中每個關(guān)鍵詞的Weight,可以表示為D=(W1,W2,…,Wn)。然后根據(jù)以下相似度的計算公式(5)可以得出新短信與各細(xì)分類別之間的相似度[16]。

        Sim(Di,Dj)=■WitWjt(5)

        根據(jù)最后計算出的相似度,可以比較新短信與各細(xì)分類別的相似度哪個更高一些,從而確定該短信應(yīng)歸屬的類別。若出現(xiàn)了相似度相等的情況,該短信則同時歸屬于相應(yīng)的類別,可重復(fù)出現(xiàn)。

        2 ?基于文本分類的果農(nóng)短信分類

        果農(nóng)短信內(nèi)容為“您好,我家水蜜桃今年豐收了,能幫忙提供下市場參考價格,以便我定價銷售嗎?謝謝!”根據(jù)KNN算法的步驟介紹,將要對該評論應(yīng)該屬于哪個類別進(jìn)行判斷。

        2.1 ?分詞、去除停頓詞、禮貌用語及單詞衍生形態(tài)查詢

        首先,通過ICTCLAS分詞系統(tǒng)經(jīng)過分詞,結(jié)果如下:

        您/r 好/a ,/w 我家/r 水蜜桃/n 今年/t 豐收/v 了/y ,/w 能/v 幫忙/v 提供/v 下/v 市場/n 參考/v 價格/n ,/w 以便/d 我/r 定價/n 銷售/v 嗎/y ?/w 謝謝/v !/w

        將這條內(nèi)容中的虛詞、助詞、禮貌用語等無實(shí)際意義的詞(您、好、了、能、下、以便、嗎、謝謝等)去掉,并進(jìn)行單詞衍生形態(tài)查詢,將零散的詞組規(guī)范化,最終得到詞組“我家、水蜜桃、今年、豐收、幫忙、提供、市場、參考、價格、我、定價、銷售”。

        2.2 ?果業(yè)短信詞庫構(gòu)建

        2.2.1 ?果業(yè)信息概況 ?現(xiàn)階段中國果業(yè)數(shù)據(jù)和農(nóng)村信息具有季節(jié)性、地區(qū)性、時效性、真實(shí)性和引導(dǎo)性等五大特點(diǎn),信息的內(nèi)容大致包含四大類:①科技類信息:種植技術(shù)、新品種、病蟲害防治、農(nóng)產(chǎn)品加工以及林業(yè)、氣象、水利、環(huán)境和建筑等信息;②市場價格行情類信息:農(nóng)產(chǎn)品供求與價格、成交量和國際貿(mào)易等方面信息;③政策信息類:政策、法規(guī)、法律等方面的問題;④科普信息:農(nóng)業(yè)科學(xué)常識,文化教育知識類信息[17,18]。

        2.2.2 ?果業(yè)信息的關(guān)鍵詞庫 ?通過對農(nóng)業(yè)短信平臺的研究及查閱相關(guān)資料,從果農(nóng)的短信中總結(jié)出各類信息的關(guān)鍵詞,以此為參照文檔構(gòu)建果業(yè)信息的關(guān)鍵詞庫。果業(yè)信息劃分為四個大類別,各類別下劃分了小類別,每個小類別分別對應(yīng)一些關(guān)鍵詞,由于關(guān)鍵詞太多,在這里只是簡單列舉一下,關(guān)鍵詞詞庫設(shè)定如表1所示,當(dāng)然在提取信息類別關(guān)鍵詞之前,要先確定所詢問果類品種,再基于此進(jìn)行表1的短信分類。

        2.3 ?果業(yè)信息分類

        2.3.1 ?計算詞頻(TF) ?因?yàn)楸狙芯恐?4個細(xì)分類別是建立的果業(yè)信息的關(guān)鍵詞詞庫,所以每個詞語均只出現(xiàn)了一次,所有各個關(guān)鍵詞的TF=1。

        2.3.2 ?計算逆文檔頻率 ?各詞組在14個細(xì)分類別中只出現(xiàn)一次,所以,計算的IDF=1+lg(14/1)=2.146 1,這個值都是相同的,具體見表2。

        2.3.3 ?計算weight ?weight(t,d)=TF(t,d)×IDF(t),如表2中括號內(nèi)的數(shù)值所示。

        2.3.4 ?計算新評論與Doc1、Doc2以及Doc3的相似度 ?Sim(新短信,D2-1)=2.146 1×2.146 1=4.605 8

        Sim(新短信,D2-2)=2.146 1×2.146 1+2.146 1×2.146 1=9.211 5

        根據(jù)以上的計算結(jié)果可知,新短信內(nèi)容與市場價格行情類信息下的兩個細(xì)分類別有關(guān),相似度分別為4.605 8、9.211 5,通過比較可知,新短信與D2-2的相似度最高,即“農(nóng)產(chǎn)品價格”的關(guān)鍵詞庫,于是就可以把這條新內(nèi)容歸類為“農(nóng)產(chǎn)品價格”。

        3 ?小結(jié)與討論

        對果農(nóng)短信進(jìn)行分類的目的就是可以對果農(nóng)所關(guān)心的問題的不同進(jìn)行歸類,這樣可以有針對性地提供相應(yīng)的果業(yè)信息服務(wù)。這個功能的實(shí)現(xiàn),減少了農(nóng)戶搜索相關(guān)果業(yè)信息的時間和精力,可以更方便、及時地了解到自己需要的信息,同樣也提高了果業(yè)信息推廣的實(shí)用性和便捷性。

        此外,研究只是針對一條短信進(jìn)行了分類算法如何具體應(yīng)用的演示,并沒有針對大規(guī)模果業(yè)相關(guān)短信進(jìn)行測試試驗(yàn),對分類器效果的驗(yàn)證還需進(jìn)一步研究。

        參考文獻(xiàn):

        [1] FELDMAN R, DAGAN I. Knowledge discovery in textual databases (KDT)[Z]. In: proceedings of the First International Conference in Knowledge Discovery and Date Mining (KDD-95). Montreal, Canada. August 20-21,1995:112-117.endprint

        [2] 王忠軍.文本分類在短信過濾中的應(yīng)用[D].遼寧大連:大連理工大學(xué),2006.

        [3] 陳功平,沈明玉,王 ?紅,等.基于內(nèi)容的短信分類技術(shù)[J].華東理工大學(xué)學(xué)報(自然科學(xué)版),2011,37(6):770-774.

        [4] 賀曼麗.基于內(nèi)容挖掘的垃圾短信過濾分類方法研究[D].長沙;湖南大學(xué),2007.

        [5] 劉金嶺.基于主題的中文短信文本分類研究[J].計算機(jī)工程,2010,36(4):30-32.

        [6] 朱 ?伙.基于文本分類算法的短信用戶興趣分層算法研究[D].廣州:中山大學(xué),2011.

        [7] 龔 ?壘.基于支持向量機(jī)的垃圾短信過濾方法研究[D].河南焦作:河南理工大學(xué),2011.

        [8] 雷 ?楊.基于集成學(xué)習(xí)的垃圾短信多級分類技術(shù)研究[D].成都:電子科技大學(xué),2009.

        [9] 崔彩霞.基于字特征的短信分類方法研究[J].太原師范學(xué)院學(xué)報(自然科學(xué)版),2011,10(1):103-105.

        [10] 李 ?凡.基于內(nèi)容的短信智能分類系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D].沈陽:東北大學(xué),2010.

        [11] 鐘延輝.基于文本挖掘的垃圾短信過濾方法[D].成都:電子科技大學(xué),2009.

        [12] 周 ?茜,趙明生,扈 ?昊.中文文本分類中的特征選擇研究[J].中文信息學(xué)報,2004,18(3):17-23.

        [13] 何元嬌.基于本體的語義文本分類研究[D].北京:北京化工大學(xué),2008.

        [14] 劉 ?鋒,白 ?凡.一種改進(jìn)的K近鄰算法在網(wǎng)頁分類中的應(yīng)用[J].電子技術(shù),2010(7):30-31.

        [15] 劉開袆,江志雄.基于K-近鄰方法的網(wǎng)絡(luò)信息文本分類[J].貴州大學(xué)學(xué)報(自然科學(xué)版),2009,26(3):60-63.

        [16] 孔 ?靜.基于語義和領(lǐng)域相關(guān)的文本聚類研究[D].東營:中國石油大學(xué)(華東),2009.

        [17] 孫 ?燕.重慶果農(nóng)適用的果業(yè)信息手機(jī)查詢平臺研究[D].重慶:西南大學(xué),2011.

        [18] 楊木容.果農(nóng)視角下的果業(yè)信息需求和服務(wù)開展的調(diào)查研究[J].安徽農(nóng)業(yè)科學(xué),2011,39(2):7455-7456,7459.endprint

        猜你喜歡
        文本挖掘果農(nóng)
        櫻桃紅了,果農(nóng)笑了
        金橋(2022年6期)2022-06-20 01:36:08
        田間地頭“惠”果農(nóng)
        富士蘋果 哪些品種受果農(nóng)歡迎
        專家當(dāng)保姆 果農(nóng)心里穩(wěn)
        流翔高鈣為果農(nóng)把脈支招
        蘋果價格大漲 果農(nóng)是貯是銷
        數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
        基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
        文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個性化推薦中的應(yīng)用
        商(2016年34期)2016-11-24 16:28:51
        從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢
        美腿丝袜在线观看视频| 亚洲成a人片在线观看天堂无码| 少妇的丰满3中文字幕| 人妻系列无码专区久久五月天| 精品视频一区二区在线观看| 日本亚洲系列中文字幕| 国产精品麻豆va在线播放| 国产成熟人妻换╳╳╳╳ | 亚洲欧洲日产国码无码久久99| 国产91在线|亚洲| 国产一区二区美女主播| 一区二区三区视频在线观看免费 | 亚洲av网一区二区三区成人| 高级会所技师自拍视频在线| 国产成人亚洲精品无码av大片| 亚洲欧美精品aaaaaa片| h动漫尤物视频| 亚洲av综合av国一区二区三区| 久久久久久久久无码精品亚洲日韩| 中文字幕日韩人妻不卡一区| 欧美情侣性视频| 黄色三级视频中文字幕| 日本中文字幕精品久久| 久久亚洲av成人无码电影a片| 中文字幕av一区中文字幕天堂| 亚洲人成网站久久久综合 | 精品中文字幕手机在线| 丝袜美腿国产一区二区| 亚洲av无码无限在线观看| 国产在线精品一区二区| 亚洲无线码1区| 国产一区二区熟女精品免费| 国产乱子伦精品无码专区 | 国产亚洲一区二区在线观看| 曰本无码人妻丰满熟妇啪啪| 精品无码av不卡一区二区三区| 日产精品一区二区在线| 视频在线观看免费一区二区| 青春草在线视频免费观看| 欧美在线a| 玖玖资源网站最新网站|