亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞向量相似度的食品安全問(wèn)答系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

        2019-10-15 02:21:53楊晨張鵬
        軟件導(dǎo)刊 2019年8期
        關(guān)鍵詞:食品安全

        楊晨 張鵬

        摘 要:針對(duì)目前食品安全問(wèn)答系統(tǒng)準(zhǔn)確率不高且無(wú)法滿(mǎn)足智能化問(wèn)答要求等問(wèn)題,基于詞向量相似度設(shè)計(jì)食品安全問(wèn)答系統(tǒng)。采用深度學(xué)習(xí)方法構(gòu)建食品安全領(lǐng)域知識(shí)庫(kù)及詞向量模型,結(jié)合近義詞庫(kù)提出問(wèn)句相似度計(jì)算方法,將問(wèn)句與知識(shí)庫(kù)內(nèi)所有問(wèn)句進(jìn)行匹配,返回相似度最高問(wèn)句對(duì)應(yīng)的答案。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)問(wèn)答準(zhǔn)確率達(dá)到80%,能滿(mǎn)足食品行業(yè)用戶(hù)的日常問(wèn)答需求。

        關(guān)鍵詞:食品安全;詞向量;句子相似度;問(wèn)答系統(tǒng)

        DOI:10. 11907/rjdk. 182790 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

        中圖分類(lèi)號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2019)008-0016-05

        Application of Food Safety Question Answering System

        Based on Word Vector Similarity

        YANG Chen, ZHANG Peng

        (School of Computer Science, Jiangsu University of Science and Technology, Zhenjiang 212003, China)

        Abstract:Aiming at the current problem of the accuracy of the question and answer system in the field of food safety, and the inability to meet the requirements of intelligent question and answer,a food safety question and answer system based on word vector similarity is proposed. The system uses the deep learning method to construct the knowledge base and word vector model in the field of food safety, and combines the thesaurus to propose the method of calculating the similarity of questions, matching the questions with all the questions in the knowledge base, and returning the corresponding questions with answers of the highest similarity. The experimental results show that the accuracy rate of the system is 80%, which can meet the users' daily need of questions and answers in the food industry.

        Key Words:Food safety; word vector; sentence similarity; question answering system

        作者簡(jiǎn)介:楊晨(1994-),男,江蘇科技大學(xué)計(jì)算機(jī)學(xué)院碩士研究生,研究方向?yàn)橹悄苄畔⑻幚?張鵬(1994-),男,江蘇科技大學(xué)計(jì)算機(jī)學(xué)院碩士研究生,研究方向?yàn)橹悄苄畔⑻幚怼?/p>

        0 引言

        隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,信息來(lái)源愈加豐富,但也帶來(lái)信息質(zhì)量參差不齊、難以得到準(zhǔn)確信息等問(wèn)題,利用自然語(yǔ)言處理技術(shù)構(gòu)建面向不同領(lǐng)域的問(wèn)答系統(tǒng)應(yīng)運(yùn)而生[1]。

        相關(guān)研究有:考慮到命名實(shí)體和實(shí)體關(guān)系對(duì)答案匹配的影響,通過(guò)分析命名實(shí)體和實(shí)體關(guān)系,于根等[2]構(gòu)建了基于信息抽取技術(shù)的問(wèn)答系統(tǒng),并提出基于層次的答案提取方法;秦兵等[3]根據(jù)用戶(hù)提問(wèn)內(nèi)容構(gòu)建候選問(wèn)題集,通過(guò)計(jì)算問(wèn)題集與問(wèn)句相似度并返回答案的方法實(shí)現(xiàn)基于常見(jiàn)問(wèn)題集的問(wèn)答系統(tǒng),并證明此方法能有效提高問(wèn)題匹配的準(zhǔn)確率;蘇斐等[4]通過(guò)對(duì)問(wèn)答系統(tǒng)中問(wèn)句信息的深入挖掘,實(shí)現(xiàn)了基于問(wèn)句表征的問(wèn)答系統(tǒng),有效改善了問(wèn)答系統(tǒng)的答案抽取準(zhǔn)確性和系統(tǒng)性能。

        目前特定領(lǐng)域(如食品安全)問(wèn)答系統(tǒng)研究較少,且存在回答效果差、性能低下等問(wèn)題[5]。因此,利用自然語(yǔ)言處理技術(shù)進(jìn)行特定領(lǐng)域問(wèn)答系統(tǒng)的研究有著重大意義。本文通過(guò)引入近義詞詞典,提出一種基于近義詞詞向量相似度的問(wèn)句相似度算法,實(shí)現(xiàn)了基于此算法的食品安全問(wèn)答系統(tǒng)。

        1 相關(guān)技術(shù)

        1.1 自然語(yǔ)言處理

        文本預(yù)處理是實(shí)現(xiàn)自然語(yǔ)言處理的基礎(chǔ)[6],文本預(yù)處理主要包括分詞、去除停用詞等操作。中文文本的分詞方法[7]主要有基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的方法。

        基于字符串匹配的分詞方法主要包含正向最大匹配法、逆向最大匹配法、最少切分和雙向最大匹配法。在正向最大匹配分詞算法基礎(chǔ)上,常建秋等[8]提出一種正向最大逐字匹配方法,提高了分詞的準(zhǔn)確性,增強(qiáng)了基于字符串匹配分詞方法的實(shí)用性。

        基于理解的分詞方法[9]需要大量的信息和語(yǔ)言知識(shí)作為基礎(chǔ),但漢語(yǔ)語(yǔ)言知識(shí)的復(fù)雜性、多樣性使基于理解的分詞方法難以在實(shí)際中運(yùn)用。

        基于統(tǒng)計(jì)的分詞方法則是利用統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型對(duì)已分詞后文本進(jìn)行詞語(yǔ)切分規(guī)律的學(xué)習(xí),進(jìn)而對(duì)未知文本進(jìn)行分詞?;诮y(tǒng)計(jì)的分詞方法,常用的統(tǒng)計(jì)模型有最大熵模型[10](ME)、隱馬爾可夫模型[11](Hidden Markov Model ,HMM)、N元文法模型[12](N-gram)和條件隨機(jī)場(chǎng)模型(Conditional Random Fields,CRF),從而衍生出最大熵分詞方法、最大概率分詞方法等基于統(tǒng)計(jì)的分詞方法。

        常見(jiàn)的分詞工具有jieba分詞、IKAnalyzer、漢語(yǔ)詞法分析系統(tǒng)(ICTCLAS)和Stanford 漢語(yǔ)分詞工具[13]。

        文本中詞匯間的關(guān)系難以依靠詞語(yǔ)本身獲得,只有將其轉(zhuǎn)換為向量形式并放入一個(gè)較大的語(yǔ)料庫(kù)中,才能判斷詞匯之間的關(guān)系[14]。

        Word2vec是Google于2013年推出的一個(gè)自然語(yǔ)言處理工具,它采用兩種神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型CBOW和Skip-gram模型實(shí)現(xiàn)詞的分布式表示[15]。CBOW模型和Skip-gram模型都屬于淺層的雙層神經(jīng)網(wǎng)絡(luò),包括輸入層、隱藏層和輸出層。CBOW模型的基本原理為輸入一個(gè)特定詞的上下文相關(guān)詞的詞向量,輸出這個(gè)特定詞的詞向量,而Skip-Gram模型的原理則是將特定的一個(gè)詞的詞向量作為輸入,輸出是特定詞對(duì)應(yīng)的上下文詞向量。Skip-gram模型的精度一般優(yōu)于CBOW模型[16],因此本文采用Skip-gram模型進(jìn)行訓(xùn)練。

        1.2 相似度計(jì)算

        相似度計(jì)算是實(shí)現(xiàn)問(wèn)答系統(tǒng)的重要一步[17],通過(guò)計(jì)算用戶(hù)輸入的問(wèn)句與知識(shí)庫(kù)中每一條知識(shí)所對(duì)應(yīng)問(wèn)題的相似度,返回相似度排名中較為靠前的知識(shí),從而確保答案更加精準(zhǔn)。計(jì)算語(yǔ)句相似度方法很多,包括計(jì)算余弦相似度[18]、N-gram相似度[19]等方法。

        (1)N-gram相似度是一種模糊匹配方法,通過(guò)兩個(gè)相似句子間的“差異”衡量相似度。計(jì)算方法為將原句子按長(zhǎng)度N(N一般取值為2或3)切分得到詞段,即原句中所有長(zhǎng)度為N的子字符串,對(duì)于這兩個(gè)句子,則可通過(guò)共有子串的數(shù)量定義相似度,公式如下:

        [P(T)=P(w1|begin)*P(w2|w1)*?*P(wn|wn-1)] (1)

        其中,[P(w1|begin)]可以理解為以[w1]開(kāi)頭的所有句子在句子總數(shù)中的比例,[P(w2|w1)]表示[w2,w1]同時(shí)出現(xiàn)的次數(shù)與[w1]出現(xiàn)的次數(shù)比值。

        (2)余弦相似度指利用向量空間中兩個(gè)向量夾角的余弦值表示兩個(gè)個(gè)體間差異的大小程度。余弦值越接近1表示夾角越接近0°,即兩個(gè)向量越相似;反之,余弦值越接近0表示夾角越大,說(shuō)明這兩個(gè)向量不同,稱(chēng)為“余弦相似性”。相比距離度量,余弦相似度更加注重兩個(gè)向量在方向上的差異,而非距離或長(zhǎng)度上的差異。

        [cos(θ)=i=1nxiyii=1nxi2*i=1nyi2]? ? (2)

        其中,[xi]為句子1中的某一個(gè)特征詞的詞向量,[yi]為句子2中某個(gè)特征的詞向量。

        2 基于詞向量的問(wèn)句相似度算法

        2.1 分詞處理

        將用戶(hù)輸入的問(wèn)句記作[Si],同時(shí)將知識(shí)庫(kù)中對(duì)應(yīng)的問(wèn)句記為[Ai],通過(guò)jieba分詞工具對(duì)[Si]和[Ai]進(jìn)行分詞,然后去除停用詞,得到一個(gè)由N個(gè)詞組成的句子[Si'={x1,x2,?,][xN}]與一個(gè)由M個(gè)詞組成的句子[Ai'={a1,a2,?,aM}]。

        2.2 分詞替換為標(biāo)準(zhǔn)詞

        近義詞采用人工錄入方式進(jìn)行。經(jīng)過(guò)多年積累,系統(tǒng)常用詞匯基本上都有比較全的近義詞集,其中詞條已達(dá)千萬(wàn)級(jí)。針對(duì)零售行業(yè)系統(tǒng)也作過(guò)相關(guān)業(yè)務(wù)詞的近義詞擴(kuò)展。

        除近義詞關(guān)系外,系統(tǒng)還考慮了其它關(guān)系,如 “檢驗(yàn)”是一個(gè)詞匯,包含“檢驗(yàn)流程”、“檢驗(yàn)單位”等,為這種“包含”關(guān)系定義 “檢驗(yàn)父類(lèi)”進(jìn)行管理?!皺z驗(yàn)”本身又可表述成“檢查”等,為這種同義詞關(guān)系定義 “檢驗(yàn)近類(lèi)”進(jìn)行管理。通過(guò)這種詞匯級(jí)的語(yǔ)義關(guān)系管理,最真實(shí)且精確地表達(dá)了詞匯本身的含義,從而為精確的語(yǔ)義理解打下基礎(chǔ),同時(shí)為每一種語(yǔ)義設(shè)定標(biāo)準(zhǔn),此分詞稱(chēng)為標(biāo)準(zhǔn)詞。

        此步驟把[A'i=a1,a2,a3,?,aM]中的各個(gè)分詞元素替換為標(biāo)準(zhǔn)詞。

        2.3 詞向量訓(xùn)練

        Word2vec的訓(xùn)練模型具有一個(gè)隱含層的神經(jīng)元網(wǎng)絡(luò),輸入詞匯表向量,以詞匯表為參照,對(duì)于訓(xùn)練樣本中的每個(gè)詞,若詞存在詞匯表中,則將其在詞匯表中的位置標(biāo)志置為1,否則置為0。輸出結(jié)果是詞匯表向量,對(duì)于訓(xùn)練樣本標(biāo)簽中的每一個(gè)詞,把在詞匯表中出現(xiàn)的位置值置為1,否則置為0,最終將輸入樣本中的詞轉(zhuǎn)化為128維的向量。

        使用Word2vec模型將[S,i]和[A,i]表示為詞向量:

        [xi'={ω1,ω2,?,ωn}](i=1,2,…,n)? ? ? ? ? ? ? ? (3)

        [aj'={φ1,φ2,?,φm}](j=1,2,…,m)? ? ? ? ? ? ? ? (4)

        其中[ωi]和[φi]分別表示詞向量[xi]和[aj]在第i維的向量值,[xi']和[aj']分別表示詞[xi]和詞[aj]由word2vec處理成的詞向量,則[Ai]與[Si]間的詞向量相似度為:

        [Sim1(Ai,Si)=i=1nωiφii=1nωi2*i=1nφi2]? (5)

        2-gram相似度計(jì)算:計(jì)算輸入問(wèn)句和知識(shí)中答案對(duì)應(yīng)的問(wèn)句之間的2-gram相似度前,分別計(jì)算[Ai]和[Si]的2-gram序列:

        [Aseqi={Bw1,w1w2,?,wn-1wn,wnE}] (6)

        [Sseqi={Bw'1,w'1w'2,?,w'n-1w'n,w'nE}] (7)

        其中[B]和[E]是特殊符號(hào),分別表示輸入問(wèn)句(知識(shí)庫(kù)中答案對(duì)應(yīng)的問(wèn)句)的開(kāi)始和輸入問(wèn)句(知識(shí)庫(kù)中答案對(duì)應(yīng)的問(wèn)句)的結(jié)束,則[Ai]和[Si]間的2-gram相似度為:

        [Sim2(Ai,Si)=|Aseqi?Sseqi||Aseqi?Sseqi|]? ?(8)

        搭配相似度計(jì)算:在計(jì)算輸入問(wèn)句和答案對(duì)應(yīng)的問(wèn)句之間搭配相似度前,對(duì)輸入問(wèn)句(知識(shí)庫(kù)中答案對(duì)應(yīng)的問(wèn)句)進(jìn)行搭配分析,獲取輸入問(wèn)句(知識(shí)庫(kù)中答案對(duì)應(yīng)的問(wèn)句)中的搭配對(duì),其中[Acoli]為[Ai]的詞搭配集合,[Scoli]為[Si]的詞搭配集合,則[Ai]和[Si]間的搭配相似度為:

        [Sim3(Ai,Si)=|Acoli?Scoli||Acoli?Scoli|]? ? (9)

        最終相似度計(jì)算:通過(guò)多特征的相似度融合算法計(jì)算輸入問(wèn)句與知識(shí)庫(kù)中答案對(duì)應(yīng)問(wèn)句的相似度為:

        [Sim(Ai,Si)=α1*Sim1(Ai,Si)+α2*Sim2(Ai,Si)+α3*Sim3(Ai,Si)] (10)

        其中[α1,α2,α3]分別表示這3種相似度權(quán)重,滿(mǎn)足[α1+][α2+α3=1]。

        3 系統(tǒng)設(shè)計(jì)

        食品安全問(wèn)答系統(tǒng)由食品安全知識(shí)庫(kù)、文本預(yù)處理、問(wèn)句與知識(shí)相似度計(jì)算以及答案生成4個(gè)部分組成。

        3.1 食品安全知識(shí)庫(kù)構(gòu)建

        食品安全知識(shí)庫(kù)構(gòu)建是食品安全問(wèn)答系統(tǒng)的基礎(chǔ)和重要環(huán)節(jié)。系統(tǒng)通過(guò)各種渠道收集食品安全領(lǐng)域知識(shí),對(duì)這些知識(shí)進(jìn)行分類(lèi)和整理后存入數(shù)據(jù)庫(kù)中。每條知識(shí)數(shù)據(jù)包含以下信息:所屬類(lèi)別、知識(shí)庫(kù)問(wèn)句、知識(shí)庫(kù)答案、知識(shí)來(lái)源。這些知識(shí)包含300個(gè)知識(shí)庫(kù)問(wèn)句和500個(gè)對(duì)應(yīng)的知識(shí)庫(kù)答案,其中食品安全法律問(wèn)句80個(gè),對(duì)應(yīng)的食品安全法律答案120個(gè);食品安全常識(shí)問(wèn)句90個(gè),對(duì)應(yīng)的食品安全常識(shí)答案140個(gè);偽劣食品防范方法問(wèn)句70個(gè),對(duì)應(yīng)的偽劣食品防范方法答案130個(gè);食品經(jīng)銷(xiāo)存儲(chǔ)管理辦法問(wèn)句60個(gè),對(duì)應(yīng)的食品經(jīng)銷(xiāo)存儲(chǔ)管理辦法110個(gè)。

        3.2 文本預(yù)處理

        (1)對(duì)食品安全知識(shí)庫(kù)中答案對(duì)應(yīng)的問(wèn)句進(jìn)行預(yù)處理,包括去除標(biāo)點(diǎn)、停用詞以及分詞等。本文采用的分詞工具為jieba分詞,jieba分詞支持3種分詞模式:將句子作最精確切分的精確模式、掃描出句子中所有可以合成為詞組的全模式、在精確模式上再度切分的搜索引擎模式。

        (2)分詞完成后對(duì)分詞結(jié)果采用術(shù)語(yǔ)語(yǔ)義網(wǎng)擴(kuò)展分詞語(yǔ)義網(wǎng)(semantic web)。語(yǔ)義網(wǎng)是一種描述事物的網(wǎng)絡(luò),運(yùn)用計(jì)算機(jī)能理解的方式構(gòu)建,如圖1所示。

        圖1 語(yǔ)義網(wǎng)結(jié)構(gòu)

        語(yǔ)義網(wǎng)由7層組成[20],分別為:

        (1)Unicode和URI?!敖y(tǒng)一字符編碼”與“統(tǒng)一資源定位”是語(yǔ)義網(wǎng)的基礎(chǔ),統(tǒng)一國(guó)際編碼格式以實(shí)現(xiàn)事物的統(tǒng)一表達(dá)。

        (2)XML和NS。用XML語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)與形式的剝離,提取出數(shù)據(jù),并將表現(xiàn)形式格式化。

        (3)RDF和EDF Schema。表示W(wǎng)eb上的元數(shù)據(jù)。

        (4)Ontology vocabulary。對(duì)數(shù)據(jù)資源分析,提取出語(yǔ)義信息。

        (5)Logic。提供語(yǔ)義推理規(guī)則。

        (6)Proof。在邏輯層上利用公理進(jìn)行推理與證明。

        (7)Trust。提供信任機(jī)制。

        本文利用術(shù)語(yǔ)語(yǔ)義網(wǎng)對(duì)分詞進(jìn)行擴(kuò)展,算法如下:

        算法1:分詞替換為標(biāo)準(zhǔn)詞算法

        輸入:一組分詞question1

        輸出:擴(kuò)展后的分詞組question2

        過(guò)程:

        For each i[∈]question1 do

        S = S.replace(i)//用術(shù)語(yǔ)語(yǔ)義網(wǎng)進(jìn)行標(biāo)準(zhǔn)詞替換

        End For

        擴(kuò)展后的分詞詞組在食品安全知識(shí)庫(kù)中不一定能找到答案對(duì)應(yīng)的問(wèn)句分詞,需要把分詞轉(zhuǎn)化為標(biāo)準(zhǔn)詞之后再查找答案對(duì)應(yīng)的問(wèn)句分詞。本文通過(guò)近義詞詞典找出標(biāo)準(zhǔn)詞。如“食品檢查”、“食品測(cè)試”在近義詞詞典中查找出標(biāo)準(zhǔn)詞為“食品檢驗(yàn)”。

        通過(guò)一系列處理將輸入問(wèn)句拆分成多個(gè)詞語(yǔ)組成的集合,為進(jìn)行基于詞向量的相似度計(jì)算作準(zhǔn)備。

        3.3 問(wèn)句相似度算法

        問(wèn)句與知識(shí)相似度計(jì)算是本系統(tǒng)核心功能,計(jì)算步驟如下:

        算法2:基于近義詞詞向量相似度的問(wèn)句相似度算法

        輸入:食品安全相關(guān)問(wèn)句[Si={x1,x2,?,xN}]

        輸出:?jiǎn)柧渑c知識(shí)庫(kù)中所有答案對(duì)應(yīng)問(wèn)句的相似度集合[Sim(Ai,Si)]

        (1)用戶(hù)輸入問(wèn)句,系統(tǒng)將輸入問(wèn)句去除標(biāo)點(diǎn)符號(hào)、去除停用詞和分詞。

        (2)For each i[∈]Si do

        i = i.replace()

        End for

        //在近義詞詞典中尋找分詞結(jié)果中詞匯的近義詞,并替換分詞為標(biāo)準(zhǔn)詞。

        (3)For each i[∈]Si do

        i = i.Word2vec()

        End for

        //利用Word2vec工具分別將分詞得到的結(jié)果及系統(tǒng)中的知識(shí)庫(kù)問(wèn)句轉(zhuǎn)化為詞向量。

        [Sim1(Ai,Si)]

        [Sim2(Ai,Si)]

        [Sim3(Ai,Si)]

        //Sim1為兩者詞向量間的相似度計(jì)算。Sim2為構(gòu)建輸入問(wèn)句詞集合與系統(tǒng)中知識(shí)庫(kù)問(wèn)句集合的2-gram序列,然后用輸入問(wèn)句詞集合的2-gram序列依次與系統(tǒng)中每一個(gè)知識(shí)庫(kù)問(wèn)句詞集合的2-gram序列進(jìn)行相似度計(jì)算。Sim3為對(duì)輸入問(wèn)句詞集合與知識(shí)庫(kù)問(wèn)句詞集合進(jìn)行搭配分析,獲得對(duì)應(yīng)的輸入問(wèn)句詞搭配集與知識(shí)庫(kù)問(wèn)句詞搭配集,并依次進(jìn)行問(wèn)句與每一個(gè)知識(shí)庫(kù)問(wèn)句的搭配相似度計(jì)算。

        [Sim(Ai,Si)=α1*Sim1(Ai,Si)+α2*Sim2(Ai,Si)+α3*Sim3(Ai,Si)]

        //綜合考慮多種相似度權(quán)重,進(jìn)行多特征的融合相似度計(jì)算,從而得出輸入問(wèn)句與系統(tǒng)中所有知識(shí)庫(kù)問(wèn)句的最終相似度。

        3.4 答案返回

        用戶(hù)輸入問(wèn)句,系統(tǒng)運(yùn)用輸入問(wèn)句與知識(shí)庫(kù)相似度算法求得輸入問(wèn)句與知識(shí)庫(kù)問(wèn)句相似度,判斷是否匹配(設(shè)立相似度閾值,超過(guò)閾值即為匹配),按匹配程度進(jìn)行排序,并將與輸入問(wèn)句匹配度最高的N個(gè)知識(shí)庫(kù)問(wèn)句對(duì)應(yīng)的答案返回給用戶(hù)。

        4 閾值計(jì)算

        詞向量模型訓(xùn)練完成后,隨機(jī)從測(cè)試數(shù)據(jù)集中抽取兩個(gè)答案對(duì)應(yīng)的問(wèn)句進(jìn)行相似度計(jì)算,得兩個(gè)問(wèn)句的相似度值記為x,真實(shí)值為y(相同問(wèn)句真實(shí)值記為1,不同的記為0)。重復(fù)此過(guò)程n次,則測(cè)試數(shù)據(jù)結(jié)果可表示為:

        [(X,Y)={(x1, y1),(x2, y2),(x3, y3),?,(xn, yn)}]

        滿(mǎn)足:

        xi∈[0,1] (1≤i≤n)

        yi = 0 or 1 (1≤i≤n)

        則閾值[λ]的求取過(guò)程可形式化為以下問(wèn)題:

        一個(gè)函數(shù):[F(x,λ)=1,xλ0,x<λ]

        求:閾值[λ],使得[mini=1n|F(xi,λ)-yi|]

        給出定義1:函數(shù)

        [F(λ)=i=1n|F(xi,λ)-yi|]

        在閾值算法計(jì)算中,精度P初始值為1000,abs函數(shù)用來(lái)計(jì)算絕對(duì)值,過(guò)程見(jiàn)算法3。

        算法3:閾值計(jì)算

        輸入:(X,Y),P

        輸出:λ

        初始化:sum1 = P,sum2 = 0,z = 0

        For? each (xi,yi)∈(X, Y)? do

        xi = xi×P

        yi = yi×P

        end for

        //把每一個(gè)相似度xi,和真實(shí)值yi都乘以精

        度P,使得xi∈[0,1000],yi=0 or 1000。

        For? each i∈[0,1000]? do

        For? each (xi,yi)∈(X, Y)? do

        If? xi >i :

        z=1000

        Else :

        z=0

        T=abs(z-yi)

        sum2=sum2 + T

        end if

        end for

        if? sum2 < sum1? then

        sum1=sum2

        λ=i

        end if

        end for//i從0開(kāi)始遍歷到1000,求出定義1函數(shù)F(λ)的最小值,同時(shí)也求出閾值λ

        5 數(shù)據(jù)集與評(píng)估方法

        5.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)所用數(shù)據(jù)來(lái)自食品安全知識(shí)庫(kù),包括食品安全相關(guān)法律、食品安全常識(shí)、偽劣食品防范方法和食品經(jīng)銷(xiāo)存儲(chǔ)管理辦法等4大類(lèi)共500條食品安全領(lǐng)域知識(shí)。

        5.2 評(píng)估標(biāo)準(zhǔn)

        (1)查準(zhǔn)率(Precision)。[S]表示食品安全知識(shí)問(wèn)答對(duì),[TN(S)]表示問(wèn)答系統(tǒng)返回知識(shí)中正確答案的個(gè)數(shù),[RN(S)]表示問(wèn)答系統(tǒng)返回所有答案的個(gè)數(shù),食品安全問(wèn)答系統(tǒng)的查準(zhǔn)率可表示為:

        [P(S)=TN(S)RN(S)] (7)

        (2)查全率(Recall)。[S]表示食品安全問(wèn)答對(duì),[TN(S)]表示問(wèn)答系統(tǒng)返回知識(shí)中正確答案的個(gè)數(shù),[AN(S)]表示問(wèn)答系統(tǒng)中所有正確答案的個(gè)數(shù),食品安全問(wèn)答系統(tǒng)的查全率可表示為:

        [R(S)=TN(S)AN(S)] (8)

        (3)F1-Measure。[P(S)]表示食品安全問(wèn)答系統(tǒng)的查準(zhǔn)率,[R(S)]表示食品安全問(wèn)答系統(tǒng)的查全率,食品安全問(wèn)答系統(tǒng)的F1-Measure可表示為:

        [F(S)=2*P(S)*R(S)P(S)+R(S)] (9)

        6 實(shí)驗(yàn)

        6.1 實(shí)驗(yàn)參數(shù)設(shè)置

        實(shí)驗(yàn)選用詞向量工具word2ve的Skip-gram模型進(jìn)行詞向量訓(xùn)練,抽樣匹配數(shù)(sample)設(shè)置為50 000,相似度閾值(threshold)設(shè)為0.6,匹配問(wèn)句數(shù)為3,返回知識(shí)數(shù)為5,進(jìn)程數(shù)(process_num)為10。

        6.2 實(shí)驗(yàn)過(guò)程

        用戶(hù)在系統(tǒng)內(nèi)輸入所要了解的食品安全問(wèn)題,問(wèn)答系統(tǒng)將用戶(hù)輸入的問(wèn)句與食品安全知識(shí)庫(kù)中的問(wèn)句進(jìn)行相似度計(jì)算,并將相似程度大于閾值的問(wèn)句答案返回給用戶(hù),由用戶(hù)判斷返回答案中正確答案的個(gè)數(shù),實(shí)驗(yàn)評(píng)估結(jié)果如表2所示。

        例句:

        食品檢驗(yàn)歸誰(shuí)管?

        分詞結(jié)果:

        食品,檢驗(yàn),歸誰(shuí),管

        匹配相似度最高的前3個(gè)問(wèn)句:

        食品檢驗(yàn)由誰(shuí)負(fù)責(zé)?

        例句與問(wèn)句1的句子相似度計(jì)算結(jié)果為0.75。

        食品抽樣檢查如何實(shí)施?

        例句與問(wèn)句2的句子相似度計(jì)算結(jié)果為0.65。

        食品抽樣檢驗(yàn)流程是什么?

        例句與問(wèn)句3的句子相似度計(jì)算結(jié)果為0.62。

        最佳結(jié)果:食品校驗(yàn)由誰(shuí)負(fù)責(zé)?

        返回答案:

        知識(shí)1:第八十四條?食品檢驗(yàn)機(jī)構(gòu)按照國(guó)家有關(guān)認(rèn)證認(rèn)可的規(guī)定取得資質(zhì)認(rèn)定后,方可從事食品檢驗(yàn)活動(dòng)。但是,法律另有規(guī)定的除外。食品檢驗(yàn)機(jī)構(gòu)的資質(zhì)認(rèn)定條件和檢驗(yàn)規(guī)范,由國(guó)務(wù)院食品藥品監(jiān)督管理部門(mén)規(guī)定。符合本法規(guī)定的食品檢驗(yàn)機(jī)構(gòu)出具的檢驗(yàn)報(bào)告具有同等效力。縣級(jí)以上人民政府應(yīng)當(dāng)整合食品檢驗(yàn)資源,實(shí)現(xiàn)資源共享。

        知識(shí)2:第八十五條?食品檢驗(yàn)由食品檢驗(yàn)機(jī)構(gòu)指定的檢驗(yàn)人獨(dú)立進(jìn)行。檢驗(yàn)人應(yīng)當(dāng)依照有關(guān)法律、法規(guī)的規(guī)定,并按照食品安全標(biāo)準(zhǔn)和檢驗(yàn)規(guī)范對(duì)食品進(jìn)行檢驗(yàn),尊重科學(xué),恪守職業(yè)道德,保證出具的檢驗(yàn)數(shù)據(jù)和結(jié)論客觀、公正,不得出具虛假檢驗(yàn)報(bào)告。

        知識(shí)3:第八十六條?食品檢驗(yàn)實(shí)行食品檢驗(yàn)機(jī)構(gòu)與檢驗(yàn)人負(fù)責(zé)制。食品檢驗(yàn)報(bào)告應(yīng)當(dāng)加蓋食品檢驗(yàn)機(jī)構(gòu)公章,并有檢驗(yàn)人的簽名或者蓋章。食品檢驗(yàn)機(jī)構(gòu)和檢驗(yàn)人對(duì)出具的食品檢驗(yàn)報(bào)告負(fù)責(zé)。

        知識(shí)4:第八十九條?食品生產(chǎn)企業(yè)可以自行對(duì)所生產(chǎn)的食品進(jìn)行檢驗(yàn),也可以委托符合本法規(guī)定的食品檢驗(yàn)機(jī)構(gòu)進(jìn)行檢驗(yàn)。

        表2 實(shí)驗(yàn)結(jié)果評(píng)估

        [問(wèn)句數(shù)\&查準(zhǔn)率(%)\&查全率(%)\&F1-Measure(%)\&20\&76\&69\&72\&40\&68\&80\&73\&60\&80\&79\&79\&80\&82\&82\&82\&100\&77\&81\&78\&]

        知識(shí)5:第八十七條?縣級(jí)以上人民政府食品藥品監(jiān)督管理部門(mén)應(yīng)當(dāng)對(duì)食品進(jìn)行定期或者不定期的抽樣檢驗(yàn),并依據(jù)有關(guān)規(guī)定公布檢驗(yàn)結(jié)果,不得免檢。進(jìn)行抽樣檢驗(yàn),應(yīng)當(dāng)購(gòu)買(mǎi)抽取的樣品,委托符合本法規(guī)定的食品檢驗(yàn)機(jī)構(gòu)進(jìn)行檢驗(yàn),并支付相關(guān)費(fèi)用;不得向食品生產(chǎn)經(jīng)營(yíng)者收取檢驗(yàn)費(fèi)和其它費(fèi)用。

        對(duì)于此例句,用戶(hù)判斷問(wèn)答系統(tǒng)返回答案中正確的個(gè)數(shù)為4,即查準(zhǔn)率為80%,用戶(hù)重復(fù)以上操作,可以得出結(jié)論如圖2所示,可以看出基于詞向量相似度的食品安全問(wèn)答系統(tǒng)在答案的查準(zhǔn)率上表現(xiàn)較好。

        圖2 實(shí)驗(yàn)結(jié)果

        7 結(jié)語(yǔ)

        本文構(gòu)建了基于詞向量相似度的食品安全問(wèn)答系統(tǒng)。通過(guò)引入近義詞詞典和詞向量相似度概念,使詞匯間的相似度計(jì)算變得更加準(zhǔn)確。同時(shí)設(shè)計(jì)了基于詞向量的多特征相似度算法,將句子相似度融入輸入問(wèn)句與食品安全知識(shí)庫(kù)問(wèn)句相似度計(jì)算,使答案生成更加嚴(yán)謹(jǐn)。

        通過(guò)研究問(wèn)答系統(tǒng)中問(wèn)句間的相似性,對(duì)詞向量空間構(gòu)建方法以及語(yǔ)句相似度相關(guān)計(jì)算方法有了更加深入的了解,對(duì)問(wèn)答系統(tǒng)工作流程有了一定認(rèn)識(shí)。下一步研究工作:通過(guò)擴(kuò)大語(yǔ)料庫(kù)規(guī)模和更深入挖掘問(wèn)句中的語(yǔ)義信息等方法,對(duì)食品安全問(wèn)答系統(tǒng)性能和準(zhǔn)確率進(jìn)行改進(jìn)。

        參考文獻(xiàn):

        [1] 毛先領(lǐng),李曉明. 問(wèn)答系統(tǒng)研究綜述[J]. 計(jì)算機(jī)科學(xué)與探索, 2012,6(3):193-207.

        [2] 于根,李曉戈,劉睿,等. 基于信息抽取技術(shù)的問(wèn)答系統(tǒng)[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2017,38(4):1051-1055.

        [3] 秦兵,劉挺,王洋,等. 基于常問(wèn)問(wèn)題集的中文問(wèn)答系統(tǒng)研究[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào), 2003, 35(10):1179-1182.

        [4] 蘇斐,高德利,葉晨. Web問(wèn)答系統(tǒng)中問(wèn)句理解的研究[J]. 測(cè)試技術(shù)學(xué)報(bào),2012,26(3):29-34.

        [5] 陶永芹. 專(zhuān)業(yè)領(lǐng)域智能問(wèn)答系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)應(yīng)用與軟件,2018(5):16-21.

        [6] 王燦輝,張敏,馬少平. 自然語(yǔ)言處理在信息檢索中的應(yīng)用綜述[J]. 中文信息學(xué)報(bào),2007,21(2):35-45.

        [7] 孫鐵利,劉延吉. 中文分詞技術(shù)的研究現(xiàn)狀與困難[J]. 信息技術(shù), 2009(7):187-189.

        [8] 常建秋,沈煒. 基于字符串匹配的中文分詞算法的研究[J]. 工業(yè)控制計(jì)算機(jī),2016, 29(2):115-116.

        [9] 蘇勇. 基于理解的漢語(yǔ)分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 成都:電子科技大學(xué),2011.

        [10] 李素建,劉群,張志勇,等. 語(yǔ)言信息處理技術(shù)中的最大熵模型方法[J]. 計(jì)算機(jī)科學(xué),2002,29(7):108-110.

        [11] 魏曉寧. 基于隱馬爾科夫模型的中文分詞研究[J]. 電腦知識(shí)與技術(shù),2007,4(21):885-886.

        [12] 馮連剛. 一種改進(jìn)的基于N元語(yǔ)法模型的中文分詞方法[J]. 自然科學(xué),2016(10):00284-00287.

        [13] SONG M,CHAMBERS T. Text mining with the Stanford CoreNLP[M]. Measuring Scholarly Impact. Springer International Publishing,2014:215-234.

        [14] 張志昌,周慧霞,姚東任,等. 基于詞向量的中文詞匯蘊(yùn)涵關(guān)系識(shí)別[J]. 計(jì)算機(jī)工程,2016,42(2):169-174.

        [15] 唐明,朱磊,鄒顯春. 基于Word2Vec的一種文檔向量表示[J]. 計(jì)算機(jī)科學(xué),2016,43(6):214-217.

        [16] 熊富林,鄧怡豪,唐曉晟. Word2vec的核心架構(gòu)及其應(yīng)用[J]. 南京師范大學(xué)學(xué)報(bào):工程技術(shù)版, 2015(1):43-48.

        [17] 王麗月,葉東毅. 面向游戲客服場(chǎng)景的自動(dòng)問(wèn)答系統(tǒng)研究與實(shí)現(xiàn)[J]. 計(jì)算機(jī)工程與應(yīng)用, 2016, 52(17):152-159.

        [18] 武永亮,趙書(shū)良,李長(zhǎng)鏡,等. 基于TF-ID F和余弦相似度的文本分類(lèi)方法[J]. 中文信息學(xué)報(bào),2017,31(5):138-145.

        [19] 宋彥,張桂平,蔡?hào)|風(fēng). 基于N-gram的句子相似度計(jì)算技術(shù)[C].全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議, 2007.

        [20] 李潔,丁穎. 語(yǔ)義網(wǎng)關(guān)鍵技術(shù)概述[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2007, 28(8):1831-1833.

        (責(zé)任編輯:杜能鋼)

        猜你喜歡
        食品安全
        關(guān)于加強(qiáng)食品安全政府監(jiān)管的若干思考
        完善我國(guó)食品召回制度的法律思考
        淺析食品安全犯罪的成因及其對(duì)策
        食品安全檢測(cè)技術(shù)研究現(xiàn)狀
        經(jīng)濟(jì)法視角下大學(xué)生網(wǎng)絡(luò)訂餐食品安全問(wèn)題分析
        市場(chǎng)經(jīng)濟(jì)下食品安全對(duì)經(jīng)濟(jì)發(fā)展的意義
        新媒體在食品安全監(jiān)管工作中的特點(diǎn)和作用
        食品安全存在的問(wèn)題和解決對(duì)策
        我國(guó)食品安全監(jiān)管面臨的挑戰(zhàn)及應(yīng)對(duì)措施分析
        科技視界(2016年21期)2016-10-17 20:50:50
        食品安全體系中物流的重要性
        少妇高潮久久蜜柚av| 美国黄色片一区二区三区| 亚洲成AV人片在一线观看| 国产理论亚洲天堂av| 日产乱码一二三区别免费l| 西西人体444www大胆无码视频| 91视频免费国产成人| 亲少妇摸少妇和少妇啪啪| 美丽小蜜桃1一3在线观看| 樱桃视频影院在线播放| 无遮挡亲胸捏胸免费视频| 久久亚洲精品成人综合| 亚洲av激情一区二区| 久久午夜无码鲁丝片午夜精品 | 亚洲av永久无码国产精品久久| 国产精品一区二区久久乐下载| 亚洲精品在线观看自拍| 亚洲a无码综合a国产av中文| 熟女人妻在线视频| 欧美激情中文字幕在线一区二区| 少妇性l交大片免费1一少| 国产精品无码一区二区三级 | 无码中文字幕日韩专区| 久久中文精品无码中文字幕| 欧美日韩国产乱了伦| 谷原希美中文字幕在线| 欧美牲交a欧美牲交aⅴ免费真| 欧美亚洲综合另类| 日本高清一区二区在线观看| 日本一二三区在线观看视频| 草草浮力地址线路①屁屁影院| 亚洲欧洲日韩免费无码h| 日韩一区二区三区人妻中文字幕| 亚洲综合欧美色五月俺也去| 国产熟女高潮视频| 无码伊人久久大香线蕉| 麻豆人妻性色av专区0000| 果冻传媒2021精品一区| 中文字幕无码人妻丝袜| 亚洲av色香蕉一区二区三区av| 亚州国产av一区二区三区伊在|