亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢-維跨語種農(nóng)業(yè)知識庫檢索系統(tǒng)研究

        2020-05-11 11:43:41陳燕紅謝衛(wèi)國
        微型電腦應(yīng)用 2020年1期
        關(guān)鍵詞:檢索系統(tǒng)

        陳燕紅 謝衛(wèi)國

        摘 要: 農(nóng)業(yè)知識庫檢索系統(tǒng)以“服務(wù)農(nóng)民、助農(nóng)民增收、提高農(nóng)業(yè)科技水平”為目標(biāo),充分發(fā)揮農(nóng)業(yè)信息在農(nóng)業(yè)農(nóng)村發(fā)展中的重要功能和巨大潛力,為涉農(nóng)人員提供高效、準(zhǔn)確的農(nóng)業(yè)科技知識。對于新疆少數(shù)民族聚居地區(qū)的涉農(nóng)人員來說,深入研究跨語種農(nóng)業(yè)知識庫檢索技術(shù)非常必要。介紹漢-維跨語種農(nóng)業(yè)知識庫檢索關(guān)鍵技術(shù):Lucene全文檢索技術(shù),維吾爾文處理以及漢維雙語倒排索引的創(chuàng)建與檢索。闡述了系統(tǒng)的設(shè)計要點:漢維雙語農(nóng)業(yè)知識庫設(shè)計,知識錄入途徑以及語義檢索模型設(shè)計。最后,展示了系統(tǒng)的實現(xiàn)效果。目前,該系統(tǒng)已投入使用,取得了良好的應(yīng)用效果。

        關(guān)鍵詞: 漢-維跨語種; 農(nóng)業(yè)知識庫; 語義檢索; 檢索系統(tǒng)

        中圖分類號: TP311 ? ? ?文獻(xiàn)標(biāo)志碼: A

        Research on Retreval System of Chnese-Uygur

        Cross-language Agrcultural Knowledge Base

        CHEN Yanhong1, XE Weguo2*

        (1. College of Computer and nformaton Xnjang Agrculture Unversty, Urumq 830052;

        2. School of Marxsm, Xnjang Medcal Unversty, Urumq 830011)

        Abstract: The retreval system of agrcultural knowledge base ams at servng farmers. t can ncrease ther ncome and mprove the level of agrcultural scence and technology, gve full play to mportant functon and great potental of agrcultural nformaton n agrcultural and rural development, and provde effcent and accurate agrcultural scence and technology knowledge for agrcultural personnel. t s necessary to ntensvely study the retreval system of cross-lngual agrcultural knowledge base for the farmers n Xnjang mnorty areas. Ths paper ntroduces key technologes of Chnese-Uygur cross-lngual agrcultural knowledge base retreval: Lucene full-text retreval technology, Uygur language processng, creaton and retreval of Chnese-Uygur blngual nverted ndex. Man ponts of system desgn are expounded as follows: desgn of Chnese-Uygur blngual agrcultural knowledge base, ways of knowledge nput and desgn of semantc retreval model. Fnally, mplementaton effect of the system s shown. At present, the system has been put nto use and acheved good applcaton results.

        Key words: Chnese-Uygur cross-lngual; Agrcultural knowledge base; Semantc search; Retreval system

        0 引言

        農(nóng)業(yè)知識庫檢索系統(tǒng)以“服務(wù)農(nóng)民、助農(nóng)民增收、提高農(nóng)業(yè)科技水平”為目標(biāo),充分發(fā)揮農(nóng)業(yè)科技信息在農(nóng)業(yè)農(nóng)村發(fā)展中的重要功能和巨大潛力,為涉農(nóng)人員提供高效、準(zhǔn)確的農(nóng)業(yè)相關(guān)知識檢索服務(wù),從而成為指導(dǎo)農(nóng)牧民科學(xué)種植、科學(xué)養(yǎng)殖致富增收的重要手段[1]。面向新疆少數(shù)民族聚居地區(qū)的涉農(nóng)人員,為了充分發(fā)揮信息技術(shù)在新疆農(nóng)牧業(yè)中的支撐作用,緩解龐大的信息資源與用戶有限的接收能力之間的矛盾,適應(yīng)用戶的現(xiàn)實信息需求及其發(fā)展變化,深入研究跨語種農(nóng)業(yè)知識庫檢索技術(shù)非常必要。

        隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和廣泛應(yīng)用,針對新疆“三農(nóng)”的特殊性以及互聯(lián)網(wǎng)農(nóng)業(yè)信息的多樣性和復(fù)雜性,許多問題需要探討,本文研究并構(gòu)建了漢-維跨語種農(nóng)業(yè)知識庫檢索系統(tǒng),重點介紹相關(guān)核心技術(shù)、系統(tǒng)設(shè)計要點以及系統(tǒng)的實現(xiàn)效果。

        1 核心技術(shù)

        1.1 Lucene全文檢索技術(shù)

        漢-維跨語種農(nóng)業(yè)知識庫檢索系統(tǒng)在Lucene全文檢索[2]的基礎(chǔ)上進(jìn)行了二次開發(fā)。Lucene作為一個開源的全文檢索引擎工具包,雖不是一個完整的全文檢索引擎,但它很適合作為漢-維跨語種農(nóng)業(yè)知識庫檢索系統(tǒng)的全文檢索架構(gòu),因為它提供了完整的查詢引擎、索引引擎和部分文本分析引擎。Lucene經(jīng)過二次開發(fā)后具有如下突出特點:

        (1)基于強(qiáng)大的查詢引擎,實現(xiàn)了模糊查詢、分組查詢等;

        (2)設(shè)計了獨立于語言和文件格式的文本分析接口,用戶可以擴(kuò)展新的語言和文件格式;

        (3)提供了檢索接口,同時可以方便地擴(kuò)充新功能;

        (4)在倒排索引[3]的基礎(chǔ)上,實現(xiàn)了維-漢跨語種農(nóng)業(yè)知識分塊索引,并能夠針對新的文件建立小文件索引,提升索引速度。之后,再與原索引進(jìn)行合并,從而達(dá)到優(yōu)化的目的。

        (5)索引文件格式獨立于應(yīng)用平臺。定義了一套以8字節(jié)為基礎(chǔ)的索引文件格式,使得兼容系統(tǒng)或者不同平臺的應(yīng)用能夠共享漢-維跨語種農(nóng)業(yè)知識庫檢索系統(tǒng)中生成的索引文件。

        1.2 維吾爾文處理

        1991年,Uncode學(xué)術(shù)學(xué)會與國際標(biāo)準(zhǔn)化組織SO共同為阿拉伯文形狀的所有文字(維吾爾文和阿拉伯文大體相同,形狀相似,很多字母相互共享)制定了一套從右到左書寫文本的通用編碼標(biāo)準(zhǔn)。1992年在漢城召開的SO會議產(chǎn)生的國際標(biāo)準(zhǔn)SO 10646中確定了維吾爾文國際編碼。漢-維跨語種農(nóng)業(yè)知識庫檢索系統(tǒng)所基于的PC操作系統(tǒng)只對部分維吾爾文字符進(jìn)行了自動選型而無法完整地輸入維吾爾文,因此,要處理維吾爾文除了需要Uncode字符編碼外,還需要先進(jìn)的字庫編輯軟件。漢-維跨語種農(nóng)業(yè)知識庫檢索系統(tǒng)使用Java語言編寫,該語言內(nèi)部采用utf-8國際編碼,所以在運(yùn)行程序時顯示的維吾爾文沒有出現(xiàn)亂碼。同時,還要保證操作系統(tǒng)、瀏覽器及后臺數(shù)據(jù)庫支持的維吾爾文編碼格式都是utf-8,否則,在檢索系統(tǒng)運(yùn)行過程中維吾爾文顯示就會出現(xiàn)亂碼。

        漢-維跨語種農(nóng)業(yè)知識庫檢索系統(tǒng)基于空格對維吾爾文進(jìn)行分詞。系統(tǒng)構(gòu)建索引時也是將空格隔開的數(shù)據(jù)保存到索引庫中,檢索時按空格隔開的關(guān)鍵詞來檢索索引中的內(nèi)容。

        1.3 漢維雙語倒排索引的創(chuàng)建與檢索

        漢-維跨語種農(nóng)業(yè)知識庫檢索系統(tǒng)使用漢維雙語倒排索引來存儲全文搜索下某個單詞在一個文檔或者一組文檔中存儲位置的映射和排序。利用倒排索引,可以根據(jù)查詢詞快速獲取包含這個單詞的漢維文檔列表。漢-維跨語種農(nóng)業(yè)知識庫檢索系統(tǒng)的倒排索引主要由兩部分構(gòu)成:漢維雙語詞典、倒排文件。倒排索引是本系統(tǒng)的關(guān)鍵部分,其最關(guān)鍵的四個域:中文詞條、維文詞條、表名和記錄編號。其中,中文詞條、維文詞條是用于檢索的域,表名、記錄編號則用于定位用戶檢索后需從知識庫讀取的記錄。

        在對創(chuàng)建好的漢維雙語倒排索引進(jìn)行檢索時,前端檢索頁面先將查詢句發(fā)送至后臺業(yè)務(wù)邏輯,查詢句通過分詞器處理后變成多個單獨的關(guān)鍵詞。系統(tǒng)在倒排索引的四個檢索域中進(jìn)行檢索,任何一個域包含查詢關(guān)鍵詞,則該條記錄就會作為檢索結(jié)果返回。索引的檢索結(jié)果會進(jìn)行相關(guān)性排序,其排序算法為:

        score(q,d)=cord(q,d)×queryNorm(q)×∑t n q(tf(t n d)×

        df(t)2×t·get Weght()×norm(t,d))

        式中:

        cord(q,d)——協(xié)調(diào)因子[3],表示詞條t在文檔d和查詢句q中出現(xiàn)次數(shù)的比率。如果查詢句q經(jīng)過解析器處理后,得到詞條t的個數(shù)為m,而詞條t在文檔d中出現(xiàn)的次數(shù)為n,則協(xié)調(diào)因子為n/m,因此,在文檔中出現(xiàn)查詢詞條的個數(shù)越多,則協(xié)調(diào)因子值就越高。

        queryNorm(q)——查詢歸一化因子,其并不影響檢索結(jié)果的排序情況,主要用于使排序結(jié)果在不同查詢條件之間可以進(jìn)行比較。該因子根據(jù)每個查詢項權(quán)重的平方和運(yùn)算得到。計算式為式(1)。

        queryNorm(q)=

        1q·get Weght()2×∑t n q(df(t)×t·get Weght())2

        (1)

        tf(t n d)——詞頻,表示查詢句中的詞條t在結(jié)果文檔d中出現(xiàn)的頻率。t出現(xiàn)的次數(shù)越多,表示出現(xiàn)的頻率越高,則文檔d的檢索得分就越高。為了避免數(shù)值過大,這里使用次數(shù)的平方根作為頻率tf的值。

        df(t)——倒文檔頻,表示當(dāng)詞條t在文檔中出現(xiàn)的頻率越低,則詞條t就越重要。計算式為式(2)。

        df(t)=1.0+log(numDocs/(docFreq+1))

        (2)

        其中:

        numDocs——文檔總數(shù)。

        docFreq——出現(xiàn)詞條t的文檔數(shù)。

        t·get Weght()——獲得詞條t的權(quán)重,可用于在查詢句中設(shè)定詞條t的重要程度。

        norm(t,d)——標(biāo)準(zhǔn)化因子,計算式為式(3)。

        norm(t,d)=d·getWeght()×lengthNorm(feld)×

        ∏f n df·getWeght()

        (3)

        其中:

        d·getWeght()——獲得文檔d的權(quán)重,在創(chuàng)建索引階段寫入nrm文件,表明文檔的重要程度。

        lengthNorm(feld)——域feld的標(biāo)準(zhǔn)化長度,域feld中包含的詞條總數(shù)numTerms越多,該值越小,否則該值越大。計算式為式(4)。

        lengthNorm(feld)=1.0numTerms

        (4)

        f·getWeght()——獲得域f的權(quán)重,在創(chuàng)建索引階段寫入nrm文件,表明該域的重要程度。

        2 系統(tǒng)設(shè)計

        漢-維跨語種農(nóng)業(yè)知識庫檢索系統(tǒng)是在新疆農(nóng)村農(nóng)資信息匱乏、信息不暢通的情況下應(yīng)運(yùn)而生的。該系統(tǒng)是農(nóng)業(yè)科技信息服務(wù)三農(nóng)的重要信息平臺,其以互聯(lián)網(wǎng)技術(shù)為基礎(chǔ)大力宣傳農(nóng)技、農(nóng)資信息。該系統(tǒng)將為新疆廣大農(nóng)牧民提供便捷的漢維雙語檢索服務(wù)。

        2.1 漢維雙語農(nóng)業(yè)知識庫設(shè)計

        漢-維跨語種農(nóng)業(yè)知識庫依據(jù)“農(nóng)業(yè)信息分類標(biāo)準(zhǔn)草案” [4],同時根據(jù)系統(tǒng)實際需求進(jìn)行改進(jìn)后,將農(nóng)業(yè)信息分為四級,其中,一級分類共包括8項,分別為:林業(yè)、畜牧業(yè)、漁業(yè)、園林、農(nóng)業(yè)生產(chǎn)資料、農(nóng)業(yè)機(jī)械、種植業(yè)及制品、植物病理;二級分類包括48項,三級分類包括226項,四級分類包括1 270項。分別設(shè)計8張表來存放一級分類中的8項信息,這些表的結(jié)構(gòu)均相同,以畜牧業(yè)表為例,表結(jié)構(gòu)如表1所示。

        在向知識庫錄入知識的過程中,需明確將錄入的知識所屬的分類級別,因此,需要設(shè)計四級級聯(lián)菜單,從而保證在一級分類選定后,下一級菜單就會自動更新為對應(yīng)的下級分類[5]。在此設(shè)計了對應(yīng)四級分類的四張編碼表,來實現(xiàn)級聯(lián)菜單功能。這四級分類編碼表結(jié)構(gòu)如圖1所示。

        圖1中,Code1為一級編碼表,表中的code_1為一級類別編碼,name為類別名稱;Code2為二級編碼表,表中的code_2為二級類別編碼,code_1則為二級類別所對應(yīng)的一級父類編碼;Code3為三級編碼表,表中的code_3為三級類別編碼,code_2為三級類別所對應(yīng)的二級父類編碼;Code4為四級編碼表,表中的code_4為四級類別編碼,code_3為四級類別所對應(yīng)的三級父類編碼。這四張編碼表通過主、外鍵關(guān)聯(lián)實現(xiàn)四級聯(lián)動效果。

        2.2 漢維雙語農(nóng)業(yè)知識錄入

        本系統(tǒng)所使用的農(nóng)業(yè)知識庫信息主要來源于四種途徑:

        (1)將前期積累的大量農(nóng)業(yè)科技資料規(guī)范、翻譯后錄入漢維雙語知識庫;

        (2)組織大批農(nóng)業(yè)專業(yè)技術(shù)人員根據(jù)自身經(jīng)驗總結(jié)農(nóng)業(yè)常見問題(如棉花常見問題1000問),規(guī)范、翻譯后錄入知識庫;

        (3)利用網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)中獲取農(nóng)業(yè)相關(guān)網(wǎng)頁,并依據(jù)規(guī)則進(jìn)行篩選后,加入漢維雙語倒排索引中。如果從知識庫中檢索不到所需結(jié)果,則系統(tǒng)會通過倒排索引進(jìn)行檢索;

        (4)通過以上三種途徑用戶都沒能查詢到結(jié)果,則系統(tǒng)會自動記錄用戶所提問題,之后組織專業(yè)人員進(jìn)行解答并錄入知識庫。

        通過這四種途徑就可以不斷豐富知識庫,從而保證系統(tǒng)的檢索效果。

        2.3 檢索模型設(shè)計

        漢-維跨語種農(nóng)業(yè)知識庫檢索系統(tǒng)主要面向新疆廣大涉農(nóng)人員,而該類用戶由于受到知識背景、語言習(xí)慣等制約,常無法提出“好”的查詢句,這樣的查詢句無法準(zhǔn)確表達(dá)用戶的真正需求,這會嚴(yán)重影響最終的檢索效果[6]。因此漢-維跨語種農(nóng)業(yè)信息知識庫檢索系統(tǒng)對Lucene的檢索模塊進(jìn)行了較大改進(jìn),可以根據(jù)需要選擇兩種檢索模式:快捷模式、語義模式[7,8]。其中,快捷模式首先在知識庫中進(jìn)行查詢,如果檢索成功則返回結(jié)果,否則,利用漢維雙語倒排索引實現(xiàn)快速檢索;語義模式則是在知識庫中無法查詢到結(jié)果時,對倒排索引進(jìn)行語義檢索,利用潛在語義分析[9]將基于隨機(jī)索引語義空間[10]檢索出的初選文檔列表,進(jìn)行擴(kuò)展和重新排序,從而實現(xiàn)優(yōu)化檢索效果的目的。

        語義檢索模式的基本思路是將檢索過程分解為兩個階段:(1)利用改進(jìn)后的隨機(jī)索引技術(shù),將漢維雙語倒排索引生成文檔空間和詞空間,然后將查詢句的語義向量,與文檔空間中的向量進(jìn)行相似度比較,從而獲得初選文檔列表;(2)基于潛在語義分析生成文檔相似度矩陣,并計算文檔間的相似度值,再對隨機(jī)索引分析出的初選文檔列表中大于指定閾值的文檔進(jìn)一步查找相關(guān)文檔,從而獲得結(jié)果文檔列表并按相似度值排序后返回給用戶。語義檢索模式的基本流程如圖2所示。

        3 系統(tǒng)實現(xiàn)

        基于系統(tǒng)設(shè)計和前期研究成果,項目組實現(xiàn)了功能較完備的漢-維跨語種農(nóng)業(yè)知識庫檢索系統(tǒng),從知識庫管理到相關(guān)資料經(jīng)過濾和處理后建立漢維雙語倒排索引,再經(jīng)過進(jìn)一步的語義分析后,建立雙層語義索引,最終該系統(tǒng)能夠為新疆涉農(nóng)人員提供方便、準(zhǔn)確的漢維雙語農(nóng)業(yè)科技信息檢索服務(wù)。系統(tǒng)的主要實現(xiàn)效果如圖3、圖4、圖5所示。

        4 總結(jié)

        面對海量的信息資源,如何快捷、準(zhǔn)確地獲取多語言的農(nóng)業(yè)科技知識已成為新疆農(nóng)業(yè)信息化迫切需要解決的問題。漢-維跨語種農(nóng)業(yè)知識庫檢索系統(tǒng)針對新疆“三農(nóng)”科技信息獲取的特殊性,實現(xiàn)了通過靈活設(shè)置選擇快捷模式或語義模式兩種檢索模型的功能,從而為新疆涉農(nóng)用戶提供高效、準(zhǔn)確的漢維雙語農(nóng)業(yè)科技信息檢索服務(wù)。然而,本系統(tǒng)中的檢索模型還有待進(jìn)一步改進(jìn),從而既有效提高基于倒排索引的快捷檢索的性能,同時,又能提高語義檢索的效率。

        參考文獻(xiàn)

        [1] 胡毅,劉波,方逵.農(nóng)業(yè)知識庫知識檢索系統(tǒng)研究與實現(xiàn)[J].農(nóng)機(jī)化研究,2013(6):13-18.

        [2] 侯天峰,陸亞祥.一種全文檢索系統(tǒng)的研究與實現(xiàn)[J].微型電腦應(yīng)用,2017(5):52-55.

        [3] Rcardo Baeza-Yates, Berther Rbero-Net.現(xiàn)代信息檢索[M].王知津,譯.北京:機(jī)械工業(yè)出版社,2012.

        [4] 李永可,李悅,陳燕紅,等.農(nóng)業(yè)知識檢索系統(tǒng)的設(shè)計與實現(xiàn)[J].電腦知識與技術(shù),2014,10(23):5449-5452.

        [5] Chandurkar Avan, Bansal Ajay.nformaton retreval from a structured knowledgeBase[C]. EEE 11th nternatonal conference on semantc computng,San Dego, CA, USA, 2017(1):27-34.

        [6] 黃利斌.基于本體的農(nóng)業(yè)知識庫檢索關(guān)鍵技術(shù)研究[D].長沙:湖南農(nóng)業(yè)大學(xué),2017.

        [7] Frber Mchael, Zhang Le, Rettnger Achm. Kuph-An nvestgaton tool for searchng for and va semantc relatons[C]. European semantc web conference,Cham, Swtzerland, 2014(5):103-119.

        [8] 來驥,馬躍,吳舜,等.基于語義分析的運(yùn)維數(shù)據(jù)關(guān)聯(lián)知識庫構(gòu)建方法[J].科學(xué)技術(shù)與工程,2018(19):218-223.

        [9] Khatavkar Vabhav, Kulkarn Parag. Comparson of Support Vector Machnes wth and wthout Latent Semantc Analyss for Document Classfcaton[M]. Sngapore: Sprnger, 2019.

        [10] Sandn Fredrk, Emrul Blerm, Sahlgren Magnus. Random ndexng of multdmensonal data[J]. Knowledge and nformaton Systems,2017,52(1):267-290.

        (收稿日期: 2019.05.14)

        基金項目:新疆維吾爾自治區(qū)自然科學(xué)基金面上項目(2019D01A50)

        作者簡介:陳燕紅(1979-),女,新疆,副教授,博士研究生,研究方向:多語言自然語言處理、農(nóng)業(yè)信息化。

        通信作者:謝衛(wèi)國(1976-),男,河南,講師,碩士,研究方向:科學(xué)技術(shù)哲學(xué)、農(nóng)業(yè)信息化。文章編號:1007-757X(2020)01-0059-05

        猜你喜歡
        檢索系統(tǒng)
        構(gòu)建多元風(fēng)景園林學(xué)研究生教學(xué)案例數(shù)據(jù)庫的技術(shù)途徑
        淺析圖書館檢索系統(tǒng)的應(yīng)用
        基于行車調(diào)度指揮的高危作業(yè)智能檢索系統(tǒng)研究
        世界地質(zhì)公園地圖檢索系統(tǒng)開發(fā)與應(yīng)用
        收錄《信號處理》的檢索系統(tǒng)及數(shù)據(jù)庫
        信號處理(2018年1期)2018-09-03 07:53:04
        收錄《信號處理》的檢索系統(tǒng)及數(shù)據(jù)庫
        信號處理(2018年5期)2018-06-28 02:16:02
        本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
        信號處理(2018年4期)2018-06-27 03:34:16
        本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
        信號處理(2018年3期)2018-06-27 03:30:18
        一種基于內(nèi)容的圖像檢索系統(tǒng)設(shè)計
        監(jiān)控視頻車牌識別與檢索系統(tǒng)開發(fā)
        国产剧情麻豆女教师在线观看| 国产护士一区二区三区| 国产女奸网站在线观看| 亚洲一区精品一区在线观看| 在线观看午夜视频国产| 国产xxx69麻豆国语对白| 免费现黄频在线观看国产| 亚洲高清精品50路| 日本一区二区高清精品| 中文字幕亚洲无线码一区女同| 亚洲美女又黄又爽在线观看| 国产视频网站一区二区三区| 午夜一区二区三区免费观看| 无码av天天av天天爽| 欧美最猛黑人xxxx黑人猛交| 欧美性xxxx狂欢老少配| 欧美日韩亚洲色图| 一级一片内射在线播放| 青青草精品在线视频观看| 国产精品无码午夜福利| 女高中生自慰污免费网站| 日本在线一区二区在线| 国产高清视频在线不卡一区| 特黄大片又粗又大又暴| 日本www一道久久久免费榴莲 | 成年女人18毛片毛片免费| 国产av久久在线观看| 日本边添边摸边做边爱喷水| 日本丰满熟妇videossex8k| 999国产精品视频| 伊人久久综合狼伊人久久 | 亚洲国产av玩弄放荡人妇| 一级午夜视频| 日本在线一区二区三区四区| 色综合久久网| 人妻少妇av无码一区二区| 亚洲乱精品中文字字幕| 亚洲人成网站色在线入口口| 天干天干天啪啪夜爽爽av| 国产妇女乱一性一交| av中文字幕在线直播|