黃俊義
(閩南師范大學(xué)科研處,福建 漳州 363000)
經(jīng)過多年建設(shè),我國農(nóng)業(yè)科技化水平顯著提升,已經(jīng)進(jìn)入了農(nóng)業(yè)強(qiáng)國的新階段。農(nóng)業(yè)作為國民經(jīng)濟(jì)發(fā)展的基礎(chǔ)性產(chǎn)業(yè),對(duì)于國家社會(huì)經(jīng)濟(jì)穩(wěn)定發(fā)展具有壓艙石作用。隨著農(nóng)業(yè)供給側(cè)結(jié)構(gòu)改革的持續(xù)推進(jìn),農(nóng)民對(duì)農(nóng)業(yè)科學(xué)技術(shù)的需求不斷上漲。然而我國目前的農(nóng)業(yè)科技化仍然處于較低的水平。缺乏專業(yè)的農(nóng)業(yè)科技信息服務(wù)網(wǎng)站,許多農(nóng)民主要通過搜索引擎搜索農(nóng)業(yè)技術(shù)信息,不僅搜索速度慢,還查詢不到精準(zhǔn)的農(nóng)業(yè)技術(shù)信息。為了有效解決這個(gè)問題,促進(jìn)我國農(nóng)業(yè)的科技化水平。十三五農(nóng)業(yè)發(fā)展規(guī)劃指出,要持續(xù)深入推進(jìn)農(nóng)業(yè)現(xiàn)代化,不斷完善農(nóng)業(yè)信息收集與農(nóng)業(yè)服務(wù)體系。有鑒于此,此次研究在構(gòu)建農(nóng)業(yè)科技推廣算法模型的基礎(chǔ)上,設(shè)計(jì)了農(nóng)業(yè)科技推廣服務(wù)系統(tǒng),該系統(tǒng)能夠根據(jù)農(nóng)戶偏好為其提供精準(zhǔn)的農(nóng)業(yè)科技信息,對(duì)于農(nóng)業(yè)科技推廣與農(nóng)業(yè)現(xiàn)代化水平提升意義重大。
農(nóng)業(yè)信息文本涵蓋較多的數(shù)據(jù)信息,需要對(duì)其進(jìn)行預(yù)處理,包括信息向量化轉(zhuǎn)變與特征值提取等,為后面進(jìn)行相似度計(jì)算、聚類分析以及語義分析奠定基礎(chǔ)。聚類分析前需要進(jìn)行文本信息相似度計(jì)算,相似度計(jì)算用到的計(jì)算方法為向量空間模型(VSM),VSM的分類效果好,可以提高聚類的效果和質(zhì)量。聚類分析主要用K-means算法與BIRCH算法,前者的魯棒性較好,可以有效解決數(shù)據(jù)干擾,后者可以通過特征數(shù)約減以提升算法聚類判斷的準(zhǔn)確性。在對(duì)農(nóng)業(yè)科技信息聚類的基礎(chǔ)上,對(duì)農(nóng)業(yè)文本信息進(jìn)行語義分析,同時(shí)量化農(nóng)戶的農(nóng)業(yè)信息傾向性,提高系統(tǒng)對(duì)農(nóng)業(yè)技術(shù)偏好判斷的準(zhǔn)確性。最常用的語義分析技術(shù)主要有兩種,分別是情感詞典技術(shù)、機(jī)器學(xué)習(xí)技術(shù)。由于農(nóng)業(yè)科技信息具有情感傾向性,故這里采用情感詞典技術(shù)對(duì)農(nóng)業(yè)科技信息進(jìn)行語義分析。農(nóng)業(yè)科技信息語義分析的基礎(chǔ)算法為情感極性統(tǒng)計(jì)算法,該算法可通過HowNet情感詞典構(gòu)建農(nóng)業(yè)科技信息評(píng)論的極性詞典,構(gòu)建的極性詞典如圖1所示。
圖1 農(nóng)業(yè)科技信息極性詞典體系
由圖1可知,農(nóng)業(yè)科技信息評(píng)論極性詞典主要由三部分組成,即評(píng)價(jià)極性詞典、程度級(jí)別詞典與否定詞典。評(píng)價(jià)詞一般能夠反映農(nóng)戶對(duì)此科技的內(nèi)在感受,為了量化農(nóng)戶對(duì)農(nóng)業(yè)科技的情感傾向,將情感傾向詞分為褒貶兩大類,褒義用“﹢”標(biāo)記,貶義用“﹣”標(biāo)記,按照褒貶程度傾向詞分為五個(gè)等級(jí),分別為,其中的代表褒貶邊界傾向詞。通常情況下評(píng)價(jià)修飾詞也能較為精確地反映農(nóng)戶對(duì)農(nóng)業(yè)科技的心理看法,為了提高語義分析的精度,研究中根據(jù)HowNet原則,將程度副詞分為兩大類,一類為情感加強(qiáng)型,一類為情感減弱型,前者用“﹢”標(biāo)記,后者用“﹣”標(biāo)記。情感加強(qiáng)型包括“比較”,“越來越”等具有強(qiáng)烈情感傾向的詞語,以0為初始值,按照加強(qiáng)程度,值依次加0.5,例如(較好,0.5),(好,1),(非常,1.5),情感減弱型則涉及“稍微”、有點(diǎn)”等具有弱程度情感傾向的詞語,詞語設(shè)分方法同加強(qiáng)類。否定詞典按照否定程度分為兩類,即強(qiáng)否定與弱否定,否定詞統(tǒng)一用“﹣”標(biāo)記,以0為初始值,按照否定程度,值依次加0.5,例如(未必,-0.5),(不,-1),(絕不,-1.5)。評(píng)價(jià)詞打分以詞典設(shè)計(jì)原則為根據(jù),對(duì)存在爭議的詞語,則依據(jù)平均值打分。
為了檢驗(yàn)該語義分析的有效性,便于設(shè)計(jì)農(nóng)業(yè)科技推廣服務(wù)系統(tǒng),研究對(duì)此模型進(jìn)行了測(cè)試。實(shí)驗(yàn)數(shù)據(jù)為1.3萬條農(nóng)業(yè)技術(shù)評(píng)價(jià)。每條評(píng)價(jià)數(shù)據(jù)包含用戶信息、農(nóng)業(yè)技術(shù)信息、星級(jí)分?jǐn)?shù)、評(píng)價(jià)內(nèi)容以及評(píng)論時(shí)間。結(jié)合上述設(shè)計(jì)的語義分析極性詞典與農(nóng)業(yè)技術(shù)權(quán)重信息,對(duì)技術(shù)評(píng)價(jià)信息進(jìn)行打分,實(shí)際評(píng)分為星級(jí)得分,預(yù)測(cè)得分則用均方根誤差與絕對(duì)誤差均值進(jìn)行衡量。語義分析性能測(cè)試的對(duì)比模型為普通協(xié)同過濾算法。均方根誤差(RMES)的計(jì)算模型如公式(1)所示。
(1)
絕對(duì)誤差均值(MAE)的計(jì)算模型如公式(2)所示。
(2)
(1)、(2)式中的rua表示u用戶對(duì)a科技的實(shí)際評(píng)分值,rua′表示u用戶對(duì)a科技的預(yù)測(cè)評(píng)分,EP表示一個(gè)數(shù)據(jù)測(cè)試集。利用SlopeOne算法與上述設(shè)計(jì)的語義分析算法分別對(duì)農(nóng)業(yè)科技信息進(jìn)行評(píng)分。相關(guān)計(jì)算之后,得到了SlopeOne算法與語義分析的評(píng)分預(yù)測(cè)結(jié)果,詳細(xì)情況見圖2。
圖2 農(nóng)業(yè)科技信息評(píng)分預(yù)測(cè)誤差分布
SlopeOne算法為協(xié)同過濾的基礎(chǔ)算法,通過項(xiàng)目評(píng)分差異值進(jìn)而對(duì)評(píng)分進(jìn)行預(yù)測(cè)。通過圖2可知,SlopeOne算法評(píng)分預(yù)測(cè)的絕對(duì)誤差均值為0.9433,均方根誤差為1.1714。語義分析評(píng)分預(yù)測(cè)的絕對(duì)誤差均值為0.9278,均方根誤差為1.1812。由此可知,雖然此次研究設(shè)計(jì)的語義分析評(píng)分預(yù)測(cè)具有較大的均方根誤差,總體穩(wěn)定性較差,但是平均誤差較小,說明其預(yù)測(cè)結(jié)果較精確。故綜合看來,該語義分析模型準(zhǔn)確率較高,可應(yīng)用于推廣服務(wù)系統(tǒng)的評(píng)分預(yù)測(cè)中。
農(nóng)業(yè)科技推廣服務(wù)系統(tǒng)的主要功能是為農(nóng)戶推薦前沿農(nóng)業(yè)技術(shù),以提高農(nóng)業(yè)現(xiàn)代化水平。該系統(tǒng)以語義分析技術(shù)為依托,給農(nóng)戶推薦的都是評(píng)價(jià)較高,性能較好,符合用戶需求的農(nóng)業(yè)技術(shù)。在詳細(xì)分析系統(tǒng)需求之后,結(jié)合系統(tǒng)目的,可將農(nóng)業(yè)科技推廣服務(wù)系統(tǒng)分為7個(gè)模塊,分別是用戶注冊(cè)、用戶登錄、用戶信息管理、農(nóng)業(yè)科技信息查詢、農(nóng)業(yè)科技信息管理、推薦結(jié)果展示以及推薦反饋。用戶注冊(cè)模塊的主要功能是實(shí)現(xiàn)農(nóng)戶賬號(hào)注冊(cè);登錄模塊可以實(shí)現(xiàn)用戶登錄、密碼修改以及密碼找回功能。用戶管理模塊與農(nóng)業(yè)科技信息管理模塊是系統(tǒng)管理員的權(quán)限,通過用戶管理模塊可以增刪改用戶信息,通過農(nóng)業(yè)科技信息管理模塊可以增刪改農(nóng)業(yè)科技信息。農(nóng)業(yè)科技信息查詢模塊只要是實(shí)現(xiàn)系統(tǒng)與用戶之間的交互,用戶向系統(tǒng)提出農(nóng)業(yè)技術(shù)信息查詢請(qǐng)求,系統(tǒng)將結(jié)果反饋給用戶。推薦結(jié)果展示模塊也是管理員的權(quán)限,管理員進(jìn)入系統(tǒng),系統(tǒng)通過相似度計(jì)算、特征提取等操作,為目標(biāo)用戶匹配個(gè)性化的農(nóng)業(yè)技術(shù),管理員再將此結(jié)果反饋給用戶。推薦反饋模塊的主要使用者為系統(tǒng)用戶,此處多為農(nóng)戶,農(nóng)戶通過此模塊可以對(duì)推薦技術(shù)進(jìn)行評(píng)論打分。
基于語義分析的農(nóng)業(yè)科技推廣服務(wù)系統(tǒng)設(shè)計(jì)的核心為用戶相似度計(jì)算,相似度計(jì)算方法為向量空間模型,計(jì)算數(shù)據(jù)源為用戶評(píng)價(jià),詳細(xì)的計(jì)算流程如后概述。首先獲取最近鄰居集,即針對(duì)目標(biāo)項(xiàng)目尋找臨近項(xiàng)目,將搜尋到的臨近項(xiàng)目按一定規(guī)則進(jìn)行排列。接著計(jì)算臨近項(xiàng)目的相似度,假定技術(shù)u1,u2之間的相似度為sim(uT,u1),同時(shí)滿足sim(uT,u1)>sim(uT,u2)>...>sim(uT,un),其中各技術(shù)之間的相似度為sim(ua,ub),對(duì)應(yīng)的計(jì)算模型如公式(3)所示。
(3)
公式(3)中的Ixy表示兩技術(shù)間的共同評(píng)分特征集,其中兩農(nóng)業(yè)技術(shù)對(duì)特征i的評(píng)分依次用rxi,ryi表示,兩農(nóng)用技術(shù)全部特征均分為rx,ry。完成相似度計(jì)算后,利用協(xié)同過濾算法完成系統(tǒng)推薦模塊的建設(shè),為了避免錯(cuò)誤評(píng)價(jià)和無效評(píng)價(jià),系統(tǒng)增加了擴(kuò)展評(píng)分功能,即用戶可以修改評(píng)價(jià)。擴(kuò)展評(píng)分可以提高評(píng)價(jià)準(zhǔn)確性,從而提升推薦效果,基于語義分析的推薦建模流程如圖3所示。
圖3 農(nóng)業(yè)科技推廣服務(wù)系統(tǒng)的推薦模型
農(nóng)業(yè)科技推廣服務(wù)系統(tǒng)的表示層分別由管理頁面、推薦展示頁面以及瀏覽器端組成,表示層的主要功能為用戶交互。由于管理員與用戶具備不同的權(quán)限,因此交互類型主要有兩種,分別為系統(tǒng)與普通用戶間的交互、系統(tǒng)與管理員間的交互。業(yè)務(wù)層是系統(tǒng)的核心層,主要功能是實(shí)現(xiàn)農(nóng)業(yè)技術(shù)的個(gè)性化推薦。當(dāng)接收到上層指令后,立馬進(jìn)行指令數(shù)據(jù)操作,并將對(duì)應(yīng)的結(jié)果返回至表示層。數(shù)據(jù)層的主要功能是實(shí)現(xiàn)系統(tǒng)間的數(shù)據(jù)交互,并存儲(chǔ)讀取系統(tǒng)數(shù)據(jù)。當(dāng)業(yè)務(wù)層需要調(diào)用數(shù)據(jù)時(shí),數(shù)據(jù)層及時(shí)響應(yīng),將數(shù)據(jù)傳輸至業(yè)務(wù)層,是系統(tǒng)數(shù)據(jù)的供應(yīng)者與管理者。農(nóng)業(yè)科技推廣服務(wù)系統(tǒng)的三層結(jié)構(gòu)如圖4所示。
圖4 農(nóng)業(yè)科技推廣服務(wù)系統(tǒng)的體系結(jié)構(gòu)
完成系統(tǒng)三層結(jié)構(gòu)設(shè)計(jì)以后,需要對(duì)農(nóng)業(yè)科技推廣服務(wù)系統(tǒng)的數(shù)據(jù)庫進(jìn)行設(shè)計(jì)。按照權(quán)限劃分,系統(tǒng)數(shù)據(jù)庫共設(shè)計(jì)有3張表,分別是用戶信息表、農(nóng)業(yè)技術(shù)信息表以及用戶評(píng)分表,整體E-R模型見圖5。用戶信息表的主要數(shù)據(jù)類型為字符型與整數(shù)型,其中字符型的字段有用戶編號(hào)、用戶姓名、用戶類型、用戶職業(yè)與聯(lián)系地址等,數(shù)據(jù)型的字段只有用戶年齡,各字段均不為空。
圖5 農(nóng)業(yè)科技推廣服務(wù)系統(tǒng)的E-R圖
農(nóng)業(yè)技術(shù)信息表只有一種數(shù)據(jù)類型,即字符型。一共有5個(gè)字段,分別是行業(yè)范圍、技術(shù)名字、技術(shù)性質(zhì)、技術(shù)簡介以及技術(shù)編號(hào),這5個(gè)字段均不允許為空值。用戶評(píng)分表也只有字符型一種數(shù)據(jù)類型,共由4個(gè)字段組成,即用戶真實(shí)評(píng)分、技術(shù)編號(hào)、用戶編號(hào)與用戶預(yù)測(cè)評(píng)分,用戶真實(shí)評(píng)分與用戶預(yù)測(cè)評(píng)分的字符長度均設(shè)置為5,用戶編號(hào)與技術(shù)編號(hào)的字符長度設(shè)置為10,各字段均不允許為空值。
為了驗(yàn)證農(nóng)業(yè)科技推廣服務(wù)系統(tǒng)的適用性,現(xiàn)對(duì)其進(jìn)行模塊實(shí)現(xiàn)與性能測(cè)試。使用的編程語言為Java,開發(fā)工具為Eclipse,后臺(tái)數(shù)據(jù)庫運(yùn)用SQL Serever2008。完成環(huán)境搭建后,運(yùn)行該系統(tǒng),檢測(cè)系統(tǒng)的核心功能。系統(tǒng)的核心功能為農(nóng)業(yè)技術(shù)信息展示、農(nóng)業(yè)技術(shù)信息管理、農(nóng)業(yè)技術(shù)推薦以及推薦反饋,故此次的功能模塊實(shí)現(xiàn)主要從這幾方面展開。農(nóng)業(yè)技術(shù)信息展示與農(nóng)業(yè)技術(shù)信息管理的功能實(shí)現(xiàn)效果如圖6所示。
圖6 農(nóng)業(yè)技術(shù)信息展示與管理界面
由圖6可知,農(nóng)業(yè)信息展示模塊既可以實(shí)現(xiàn)技術(shù)搜索,也可以實(shí)現(xiàn)技術(shù)發(fā)布,用戶通過技術(shù)搜索框,實(shí)現(xiàn)前沿農(nóng)業(yè)技術(shù)的搜索,搜索出來的技術(shù)信息包括類型、行業(yè)領(lǐng)域、發(fā)布時(shí)間以及評(píng)估狀態(tài)。農(nóng)業(yè)技術(shù)信息管理模塊可以實(shí)現(xiàn)技術(shù)信息的增加、刪除、查看以及修改等功能,各技術(shù)信息按照時(shí)間順序進(jìn)行排列,時(shí)間越早的技術(shù)信息所排頁面越靠前。農(nóng)業(yè)技術(shù)推薦與推薦效果反饋的功能實(shí)現(xiàn)效果如圖7所示。
圖7 農(nóng)業(yè)技術(shù)推薦與推薦反饋界面
從圖6可看出,農(nóng)業(yè)技術(shù)推薦模塊不僅可以為用戶推薦個(gè)性化的的前沿農(nóng)業(yè)技術(shù),還可以為用戶展示相關(guān)的技術(shù),從而啟發(fā)用戶的知識(shí)聯(lián)想性。在推薦反饋頁面上,用戶可以對(duì)系統(tǒng)推薦技術(shù)進(jìn)行評(píng)論并打分,為其他技術(shù)需求者提供決策參考。整體看來,該系統(tǒng)的核心功能模塊實(shí)現(xiàn)效果較好,幾乎能夠滿足農(nóng)業(yè)用戶相關(guān)需求,具有較高的實(shí)際應(yīng)用性。完成系統(tǒng)核心功能檢測(cè)以后,對(duì)其進(jìn)行性能測(cè)試,性能度量指標(biāo)為召回率、絕對(duì)誤差均值準(zhǔn)確率以及覆蓋率。測(cè)試數(shù)據(jù)為隨機(jī)篩選的150名用戶對(duì)3500條農(nóng)業(yè)技術(shù)的評(píng)論與評(píng)分,將評(píng)論數(shù)據(jù)的80%劃分為訓(xùn)練數(shù)據(jù)集,20%劃分為測(cè)試數(shù)據(jù)集,性能測(cè)試的實(shí)驗(yàn)組為基于語義分析的農(nóng)業(yè)科技推廣服務(wù)系統(tǒng),對(duì)照組為基于傳統(tǒng)協(xié)同過濾算法的農(nóng)業(yè)科技推廣服務(wù)系統(tǒng),對(duì)比測(cè)試結(jié)果如圖8所示。
圖8 系統(tǒng)性能測(cè)試結(jié)果
通過圖8可以看出,此次設(shè)計(jì)的農(nóng)業(yè)科技推廣服務(wù)系統(tǒng)召回率為13.25%,覆蓋率為20.76%,絕對(duì)誤差均值準(zhǔn)確率為25.47%;而基于傳統(tǒng)協(xié)同過濾算法的科技推廣服務(wù)系統(tǒng)召回率為6.22%,覆蓋率為2.63%,絕對(duì)誤差均值準(zhǔn)確率為12.76%。對(duì)比兩組結(jié)果可知,此設(shè)計(jì)系統(tǒng)的三項(xiàng)性能指標(biāo)都明顯優(yōu)于傳統(tǒng)系統(tǒng),基本上符合農(nóng)業(yè)用戶需求,整體推廣服務(wù)效果較好。
為了提升農(nóng)業(yè)科技化水平,本次研究結(jié)合K-means算法與BIRCH算法,構(gòu)建了基于HowNet的農(nóng)業(yè)科技推廣服務(wù)系統(tǒng)語義分析模型,該模型能夠根據(jù)用戶評(píng)論,精準(zhǔn)判斷用戶對(duì)農(nóng)業(yè)技術(shù)的情感傾向,為農(nóng)業(yè)科技推廣服務(wù)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)奠定基礎(chǔ)。農(nóng)業(yè)科技推廣服務(wù)系統(tǒng)設(shè)計(jì)分別從功能需求、相似度計(jì)算、體系結(jié)構(gòu)搭建與數(shù)據(jù)庫設(shè)計(jì)四方面展開。為了驗(yàn)證該系統(tǒng)的有效性,分別從核心功能實(shí)現(xiàn)與性能測(cè)試兩個(gè)角度對(duì)該系統(tǒng)進(jìn)行了檢驗(yàn)。檢驗(yàn)結(jié)果表明該系統(tǒng)核心功能實(shí)現(xiàn)度高,能夠滿足農(nóng)業(yè)用戶的相關(guān)需求。另外性能測(cè)試結(jié)果顯示,該農(nóng)業(yè)科技推廣服務(wù)系統(tǒng)的絕對(duì)誤差均值準(zhǔn)確率與覆蓋率分別為25.47%與20.76%,皆達(dá)到了較高的水平。而傳統(tǒng)農(nóng)業(yè)科技推廣服務(wù)系統(tǒng)除了絕對(duì)誤差均值準(zhǔn)確率較高以外,其余性能測(cè)試指標(biāo)均較低,僅為6.23%與2.64%。綜合可知,該設(shè)計(jì)系統(tǒng)不僅核心功能實(shí)現(xiàn)效果好,且整體性能較高。盡管此次研究可以為農(nóng)業(yè)科技推廣提供一定的參考意義,但是實(shí)驗(yàn)中存在測(cè)試樣本較小,實(shí)驗(yàn)精度不夠高的問題。