亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向食品安全監(jiān)理話題檢測(cè)方法的研究

        2016-12-14 08:36:06馮振海劉宏志
        關(guān)鍵詞:文檔準(zhǔn)確率監(jiān)理

        馮振海, 劉宏志

        (北京工商大學(xué) 計(jì)算機(jī)與信息工程學(xué)院, 北京 100048)

        面向食品安全監(jiān)理話題檢測(cè)方法的研究

        馮振海, 劉宏志

        (北京工商大學(xué) 計(jì)算機(jī)與信息工程學(xué)院, 北京 100048)

        食品安全問(wèn)題一直是國(guó)民熱切關(guān)注的話題,關(guān)系到社會(huì)的多個(gè)領(lǐng)域。為及時(shí)知曉食品安全領(lǐng)域關(guān)注的熱點(diǎn)問(wèn)題,對(duì)比了食品安全熱點(diǎn)話題與其他熱點(diǎn)話題在檢測(cè)方法上的異同,構(gòu)建了食品安全監(jiān)理話題檢測(cè)模型,運(yùn)用聚類(lèi)算法對(duì)食品安全數(shù)據(jù)進(jìn)行文本挖掘來(lái)實(shí)現(xiàn)話題檢測(cè),并對(duì)食品安全數(shù)據(jù)進(jìn)行分析。通過(guò)實(shí)驗(yàn)說(shuō)明,采用Single-Pass算法的評(píng)價(jià)優(yōu)于K-Means算法的評(píng)價(jià),能夠有效地對(duì)食品安全話題進(jìn)行檢測(cè)。

        食品安全監(jiān)理; 文本挖掘; 話題檢測(cè)

        食品是人類(lèi)生存和發(fā)展的必需物質(zhì),食品安全是重大的社會(huì)問(wèn)題,涉及國(guó)民的身體健康和生命安全,關(guān)系到社會(huì)的穩(wěn)定和發(fā)展。近年來(lái),食品安全問(wèn)題時(shí)有發(fā)生,每次都成為社會(huì)輿論關(guān)注的焦點(diǎn),影響著民眾對(duì)我國(guó)食品安全監(jiān)管的信任[1-2]。為了掌握民眾對(duì)食品安全的社會(huì)輿情,可以借鑒信息工程監(jiān)理的機(jī)制來(lái)實(shí)現(xiàn)對(duì)食品安全的監(jiān)督和管理?!氨O(jiān)理”和“監(jiān)管”都有監(jiān)督管理的意思,但它們有所不同。第一,依據(jù)不同。前者側(cè)重于技術(shù)規(guī)范、標(biāo)準(zhǔn),具有自主性,有利于大眾對(duì)食品安全的監(jiān)督;而后者側(cè)重法律法規(guī)、行政,具有強(qiáng)制性。第二,性質(zhì)不同?!氨O(jiān)理”屬于企業(yè)行為,“監(jiān)管”屬于政府行為。通過(guò)構(gòu)建食品安全監(jiān)理話題檢測(cè)模型,再利用K-Means算法和Single-Pass算法對(duì)食品文本數(shù)據(jù)進(jìn)行聚類(lèi),從而識(shí)別出一個(gè)個(gè)重要話題。這對(duì)監(jiān)管部門(mén)快速掌握社會(huì)大眾輿情有很大的幫助,相關(guān)部門(mén)根據(jù)實(shí)際情況可及時(shí)采取措施降低負(fù)面影響,力爭(zhēng)把食品安全問(wèn)題降到最低。

        1 食品安全監(jiān)理話題檢測(cè)機(jī)制及數(shù)據(jù)收集

        為能夠多方面對(duì)食品安全進(jìn)行監(jiān)督和管理,需要完善并豐富相應(yīng)的監(jiān)管機(jī)制?,F(xiàn)階段國(guó)內(nèi)已經(jīng)建立了食品安全監(jiān)理體系[3],物聯(lián)網(wǎng)[4]和云計(jì)算[5-6]在食品安全監(jiān)理方面得到了很好的應(yīng)用,從食品供應(yīng)鏈角度構(gòu)建預(yù)測(cè)模型[7],并進(jìn)行了深入的研究,有較好的理論基礎(chǔ)。Peng和Wu等[8-9]采用多種話題檢測(cè)方法,對(duì)話題進(jìn)行了追蹤和排名;另外,還有部分學(xué)者針對(duì)特定領(lǐng)域進(jìn)行話題的檢測(cè)[10-11]。在國(guó)外還有學(xué)者提出建立食品安全模型庫(kù)[12]的策略來(lái)提高食品安全的監(jiān)管效率。總的來(lái)說(shuō),國(guó)內(nèi)外大多數(shù)學(xué)者研究點(diǎn)集中在用戶興趣和用戶傳播影響力對(duì)話題檢測(cè)的影響。在輿論導(dǎo)向上,郭林宇等[13]探討了食品質(zhì)量的網(wǎng)絡(luò)輿情特點(diǎn)。本研究擬利用文本聚類(lèi)算法[14],通過(guò)語(yǔ)義分析食品安全的隱含知識(shí)來(lái)進(jìn)行話題檢測(cè)[15-16],從而實(shí)現(xiàn)食品安全話題的檢測(cè)。

        1.1 食品安全數(shù)據(jù)的采集

        食品安全數(shù)據(jù)的采集主要是對(duì)網(wǎng)頁(yè)的采集,即把從微博、論壇、貼吧等原始網(wǎng)頁(yè)或文本下載到本地計(jì)算機(jī)存儲(chǔ)設(shè)備上,作為處理的數(shù)據(jù)源。

        采集器是從食品安全數(shù)據(jù)種子網(wǎng)頁(yè)開(kāi)始,然后使用這些網(wǎng)頁(yè)中的鏈接再去獲取其他頁(yè)面。從已獲取到的網(wǎng)頁(yè)再一次獲取鏈接地址,然后根據(jù)地址去定位相應(yīng)的頁(yè)面并訪問(wèn)。重復(fù)這一過(guò)程,直到滿足結(jié)束條件為止。

        1.2 面向食品安全數(shù)據(jù)的獲取

        主題采集器是針對(duì)某一領(lǐng)域里的采集器,它和一般通用采集器最大的區(qū)別就是抓取的內(nèi)容只針對(duì)這一領(lǐng)域,在制定規(guī)則時(shí)只考慮特定領(lǐng)域就可以。一個(gè)采集器的采集流程如圖1。

        圖1 采集器采集流程Fig.1 Processes of crawling for food safety data

        設(shè)有一目標(biāo)主題集合為T(mén)={t1,t2…tn},ti表示一個(gè)主題文檔,與之對(duì)應(yīng)的有相應(yīng)的主題采集器。一組關(guān)鍵詞K={k1,k2…kn},表示一個(gè)主題資源的關(guān)鍵特征,在用一系列樣本集w來(lái)描述一個(gè)主題,其中w={,},ui是一個(gè)樣本URL:li=0或1,值為1表示ui與主題相關(guān),為0表示ui與主題無(wú)關(guān)。

        由于這些資源都是與某個(gè)主題相關(guān)的,它們必然存在共同的特征C={c1,c2…cn},ci表示提取出的共同特征,根據(jù)公共特征可以檢查網(wǎng)頁(yè)內(nèi)容是否符合判定規(guī)則[17]。

        實(shí)驗(yàn)數(shù)據(jù)采用該方法搜集,為了增加數(shù)據(jù)源的權(quán)威性,數(shù)據(jù)來(lái)源不僅包含互聯(lián)網(wǎng)的數(shù)據(jù),更主要是國(guó)家食品藥品監(jiān)督管理局定期發(fā)布的關(guān)于食品安全表格、文本、圖文等不同類(lèi)型的數(shù)據(jù)。這些食品安全數(shù)據(jù)表現(xiàn)為個(gè)體之間層次關(guān)系,并且呈現(xiàn)多維數(shù)據(jù)特征[18]。對(duì)數(shù)據(jù)進(jìn)行整理分析后就可以對(duì)數(shù)據(jù)預(yù)處理,使數(shù)據(jù)滿足模型的要求。

        1.3 食品安全數(shù)據(jù)預(yù)處理

        采集好數(shù)據(jù)后,有些數(shù)據(jù)通常不是實(shí)驗(yàn)所需要的理想數(shù)據(jù),需要對(duì)其進(jìn)行一些處理,主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約等操作[19-20]。

        2 食品安全監(jiān)理話題檢測(cè)模型

        話題檢測(cè)模型采用向量空間模型,是使用最廣泛的模型之一。該模型是將文檔表示為詞向量,是在文檔集上進(jìn)行搜索的一個(gè)框架,核心思想是文檔與查詢(xún)都是高維空間中的一個(gè)向量[21]。作為話題檢測(cè)的重點(diǎn)之一,向量空間模型的基本思路和構(gòu)建過(guò)程,可概括為5個(gè)方面。

        2.1 文檔向量

        在向量空間模型中,首先要計(jì)算文檔的詞頻率(TF)或者是計(jì)算逆向文檔頻率表(TF-IDF),然后得到一個(gè)數(shù)值的向量,該向量表示文檔。該模型是將非結(jié)構(gòu)化的文本內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化的多維空間向量,這樣做可以使得計(jì)算機(jī)能夠識(shí)別并進(jìn)行計(jì)算。

        設(shè)N是準(zhǔn)備實(shí)驗(yàn)的文本文檔的總數(shù),dfi為其中含有至少一次詞ti的文檔數(shù)目,fij為詞ti出現(xiàn)在文檔dj中的次數(shù)。那么dj中的ti的正規(guī)范化詞頻(定義為tfij)如式(1):

        (1)

        在式(1)中,分母取fij中最大的那個(gè)值,tfij=0代表ti在dj中沒(méi)有出現(xiàn)。|V|為文檔數(shù)據(jù)集的詞匯表的大小。

        詞ti的逆向文檔頻率(idfi)的計(jì)算公式如式(2):

        (2)

        從式(2)中我們可以看出,如果很多文檔中都含有文檔集中的這個(gè)詞,那么它的重要程度很低或者說(shuō)是不重要,也可以說(shuō)沒(méi)有區(qū)別度。詞逆向文檔頻率權(quán)值計(jì)算如式(3):

        wij=tfij×idfi。

        (3)

        一個(gè)非停用詞對(duì)于文檔集合上的搜索而言,具有兩個(gè)基本性質(zhì):

        1)對(duì)于一個(gè)文檔,該詞出現(xiàn)的次數(shù)越多,則該詞越重要;

        2)對(duì)于多個(gè)文檔構(gòu)成的文檔集,包含該詞的文檔數(shù)越少,則該詞越重要。

        2.2 話題相似度計(jì)算

        在文本挖掘過(guò)程中,一般要進(jìn)行文檔與主題、文檔與文檔相似度計(jì)算,實(shí)現(xiàn)文本聚類(lèi)。

        常用方法之一是通過(guò)計(jì)算2個(gè)向量?jī)?nèi)積空間夾角的余弦值來(lái)度量2個(gè)文本的相似性,可以應(yīng)用在任何維度的向量中,其計(jì)算公式如式(4)。

        (4)

        式(4)中,Wij是詞頻- 逆向文檔頻率(TF-IDF),q是查詢(xún)。余弦相似度用于用戶對(duì)內(nèi)容的評(píng)分,用來(lái)區(qū)分興趣的相似度和差異。

        2.3 食品安全話題檢測(cè)的步驟

        話題檢測(cè)的過(guò)程是從眾多的觀點(diǎn)中抽取所需的話題,然后根據(jù)檢測(cè)指標(biāo)和檢測(cè)條件判斷所抽取的話題是否是想要的話題內(nèi)容。檢測(cè)流程如圖2。

        圖2 話題檢測(cè)流程Fig.2 Processes of topic detection

        步驟1:數(shù)據(jù)準(zhǔn)備階段。采集官方發(fā)布的食品安全數(shù)據(jù)、各大網(wǎng)站食品安全的正文;把采集好的數(shù)據(jù)放入相應(yīng)的數(shù)據(jù)存儲(chǔ)介質(zhì)中。

        步驟2:數(shù)據(jù)預(yù)處理。主要包括對(duì)采集文本數(shù)據(jù)進(jìn)行去重、合并、變換、規(guī)約等操作;如果是文本數(shù)據(jù),還要對(duì)其進(jìn)行分詞操作。

        步驟3:話題的抽取。首先要計(jì)算食品安全相關(guān)文本相似度,然后利用Single-Pass算法抽取相應(yīng)的話題。

        步驟4:熱點(diǎn)話題識(shí)別。根據(jù)話題的檢測(cè)指標(biāo),判斷抽取出來(lái)的話題是否為熱點(diǎn)話題。

        2.4 食品安全話題檢測(cè)與其他話題檢測(cè)的區(qū)別

        食品安全話題檢測(cè)與互聯(lián)網(wǎng)熱點(diǎn)話題檢測(cè)方法上有區(qū)別也有關(guān)聯(lián),整體過(guò)程大致都是收集語(yǔ)料庫(kù)、分詞操作、詞頻統(tǒng)計(jì)、特征詞權(quán)重的計(jì)算以及采用不同的算法對(duì)語(yǔ)料庫(kù)做聚類(lèi)。但在實(shí)現(xiàn)過(guò)程中,還有許多不同于互聯(lián)網(wǎng)話題檢測(cè)的地方。

        2.4.1 語(yǔ)料庫(kù)的內(nèi)容選取

        食品安全話題檢測(cè)所需語(yǔ)料庫(kù)是針對(duì)食品安全數(shù)據(jù)相關(guān)的語(yǔ)料,該領(lǐng)域的語(yǔ)料庫(kù)內(nèi)容專(zhuān)一,數(shù)據(jù)特征鮮明。而互聯(lián)網(wǎng)話題檢測(cè)面對(duì)的是所有眾多的海量數(shù)據(jù),數(shù)據(jù)的內(nèi)容廣泛,結(jié)構(gòu)多元復(fù)雜,數(shù)據(jù)量驚人,難以整理和處理。

        2.4.2 熱點(diǎn)詞權(quán)值的計(jì)算

        熱點(diǎn)詞語(yǔ)通常是在論壇或者網(wǎng)頁(yè)中多次出現(xiàn)的詞語(yǔ),在同一個(gè)論壇中,會(huì)在多個(gè)文檔中出現(xiàn),這樣的詞語(yǔ)權(quán)重值就大。在食品安全語(yǔ)料庫(kù)中,我們選取出現(xiàn)頻率高的詞語(yǔ)作為熱點(diǎn)詞,這些詞語(yǔ)的權(quán)重值與互聯(lián)網(wǎng)的熱點(diǎn)詞的權(quán)重是不同的,也體現(xiàn)了不同語(yǔ)料庫(kù)相似度不同。

        2.5 聚類(lèi)算法的評(píng)價(jià)

        對(duì)語(yǔ)料庫(kù)數(shù)據(jù)處理后,使用聚類(lèi)算法對(duì)話題進(jìn)行識(shí)別和抽取,并對(duì)算法結(jié)果進(jìn)行評(píng)價(jià)。

        2.5.1 常用的評(píng)價(jià)標(biāo)準(zhǔn)

        常用的評(píng)價(jià)標(biāo)準(zhǔn)包括準(zhǔn)確率P、召回率R、模型綜合指標(biāo)F1-measure。

        準(zhǔn)確率P:反映檢出的文檔中有多高相關(guān)度,見(jiàn)式(5)。

        (5)

        式(5)中,a為相關(guān)文檔數(shù),b為不相關(guān)文檔數(shù)。

        召回率R:反映檢出的相關(guān)文檔數(shù)量,見(jiàn)式(6)。

        (6)

        式(6)中,c為未被檢出的相關(guān)文檔數(shù)。

        模型綜合指標(biāo),見(jiàn)式(7)。

        (7)

        召回率與準(zhǔn)確率在理論上是不相關(guān)的,但是在實(shí)際應(yīng)用中,準(zhǔn)確率高了相應(yīng)的召回率就低了。同樣的道理,準(zhǔn)確率低了對(duì)應(yīng)召回率就高了。在具體應(yīng)用中,到底哪個(gè)評(píng)估標(biāo)準(zhǔn)更為重要取決于計(jì)算結(jié)果的特性,為了平衡兩者的大小,可用模型綜合指標(biāo)F1-measure計(jì)算。

        2.5.2 替代性指標(biāo)P-R曲線

        P-R曲線作為一種評(píng)價(jià)指標(biāo),可以很直觀地描述出評(píng)價(jià)結(jié)果,并且可以隨著某一變量的變化而變化。在實(shí)際中,召回率與準(zhǔn)確率成負(fù)相關(guān)關(guān)系,即隨著召回率的升高準(zhǔn)確率就降低,反之,隨著召回率降低準(zhǔn)確率就升高。所以,召回率與準(zhǔn)確率曲線更能清晰地描述評(píng)價(jià)結(jié)果。

        3 食品安全話題檢測(cè)算法及分析

        本實(shí)驗(yàn)的話題檢測(cè)運(yùn)用K-Means算法和Single-Pass算法來(lái)實(shí)現(xiàn)對(duì)文本的聚類(lèi)。K-Means算法是基于原型的算法,它必須先定義聚類(lèi)中心,按照算法的迭代執(zhí)行,其算法復(fù)雜度為O(nkt),其中n為文檔數(shù)量,k為聚類(lèi)的個(gè)數(shù),t為要迭代的次數(shù)。Single-Pass算法是按照一定的次序,把第一個(gè)文檔當(dāng)作聚類(lèi)依據(jù),按照順序比較相似度,如果相似度達(dá)到閾值要求,將其歸入同類(lèi);否則,將選取新的聚類(lèi)依據(jù)再進(jìn)行上述操作,其算法復(fù)雜度為O(nk),其中n為文檔數(shù)量,k為聚類(lèi)的個(gè)數(shù),其內(nèi)存資源消耗小于K-Means算法的內(nèi)存資源消耗。

        實(shí)驗(yàn)所用到的食品安全數(shù)據(jù)來(lái)自國(guó)家食品藥品監(jiān)督管理局公布的食品安全數(shù)據(jù)以及各大網(wǎng)站的食品安全新聞數(shù)據(jù),經(jīng)過(guò)抓取最終獲得4144條食品安全數(shù)據(jù)。對(duì)這些數(shù)據(jù)進(jìn)行整理,從中檢測(cè)出排名前5的話題。

        采用K-Means算法聚類(lèi)實(shí)驗(yàn)結(jié)果見(jiàn)表1。

        采用Single-Pass算法聚類(lèi)實(shí)驗(yàn)結(jié)果見(jiàn)表2。

        通過(guò)比較發(fā)現(xiàn),采用Single-Pass算法在漏檢率和誤檢率方面都比K-Means算法效果更好。

        表1 K-Means算法聚類(lèi)實(shí)驗(yàn)結(jié)果

        表2 Single-Pass算法聚類(lèi)實(shí)驗(yàn)結(jié)果

        然后,再采用查全率和查準(zhǔn)率曲線來(lái)檢測(cè)效果,如圖3。

        圖3 兩種算法對(duì)應(yīng)的評(píng)價(jià)P-R曲線Fig.3 Comparison of two algorithms evaluations for P-R curve

        圖3是兩種算法的P-R曲線,正方形線代表Single-Pass算法的P-R曲線,三角形線代表K-Means算法的P-R曲線,該曲線動(dòng)態(tài)地反映了不同階段準(zhǔn)確率和召回率的表現(xiàn),當(dāng)召回率(recall)固定時(shí),正方形線對(duì)應(yīng)的準(zhǔn)確率(precision)數(shù)值大于三角形線的數(shù)值??偟膩?lái)說(shuō),Single-Pass算法的評(píng)價(jià)好于K-Means算法的評(píng)價(jià)。由此可見(jiàn),對(duì)于食品安全的文本聚類(lèi),采用Single-Pass算法更利于該實(shí)驗(yàn)進(jìn)行。

        4 結(jié) 論

        研究針對(duì)食品安全話題的發(fā)現(xiàn)過(guò)程和聚類(lèi)算法進(jìn)行了研究。通過(guò)對(duì)國(guó)內(nèi)外的話題檢測(cè)方法進(jìn)行詳細(xì)分析后,針對(duì)食品安全話題的特征構(gòu)建模型,并使用數(shù)據(jù)挖掘方法解決話題檢測(cè)問(wèn)題。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),采用Single-Pass算法在漏檢率、誤檢率、準(zhǔn)確率、召回率方面好于K-Means算法,提高了文本聚類(lèi)的精度。采用該方法對(duì)食品安全話題檢測(cè)具有一定的參考價(jià)值,便于對(duì)食品安全進(jìn)行監(jiān)督和管理,有利于降低食品安全問(wèn)題發(fā)生的概率。

        [1] 孫寶國(guó), 王靜, 孫金沅. 中國(guó)食品安全問(wèn)題與思考[J]. 中國(guó)食品學(xué)報(bào), 2013, 13(5):1-5. SUN Baoguo,WANG Jing,SUN Jinyuan.Perspectives on China food safety problems[J].Journal of Chinese Institute of Food Science and Technology, 2013, 13(5):1-5.

        [2] 孫寶國(guó), 周應(yīng)恒, 溫思美,等. 我國(guó)食品安全的監(jiān)管與治理政策研究:第93期“雙清論壇”學(xué)術(shù)綜述[J]. 中國(guó)科學(xué)基金, 2013(5):265-270. SUN Baoguo, ZHOU Yingheng, WEN Simei,et al. Research of China’s food safety supervision and governing policy: summary of the 93th shuangqing forum of NSFC[J]. Science Foundation in China,2013(5):265-270.

        [3] 張?jiān)葡? 劉宏志. 我國(guó)食品安全監(jiān)理體系研究[J].食品科學(xué)技術(shù)學(xué)報(bào),2014,32(1):77-82. ZHANG Yunxiao,LIU Hongzhi.Study on food safety surveillance system in China[J]. Journal of Food Science and Technology,2014,32(1):77-82.

        [4] 鄧小云, 劉宏志. 基于云計(jì)算的食品安全監(jiān)理研究[J].北京工商大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,30(4):75-78. DENG Xiaoyun,LIU Hongzhi.Study on food safety surveillance based on cloud computing[J]. Journal of Beijing Technology and Business University (Natural Science Edition),2012,30(4):75-78.

        [5] 李夢(mèng)尋, 劉宏志. 基于物聯(lián)網(wǎng)的食品安全監(jiān)理模型研究[J].北京工商大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,29(2):54-58. LI Mengxun,LIU Hongzhi.Study on food safety surveillance model based on internet of things[J]. Journal of Beijing Technology and Business University (Natural Science Edition),2011,29(2):54-58.

        [6] LIU Hongzhi,XIONG Jieqiong.Research on the city emergency logistics scheduling decision based on cloud theory based genetic algorithm[J].Communications in Computer and Information Science,2011,417:182-185.

        [7] 韓福霞,劉宏志. 基于云服務(wù)的食品安全監(jiān)理實(shí)時(shí)化研究[J]. 食品科學(xué)技術(shù)學(xué)報(bào),2015,33(3):74-78. HAN Fuxia, LIU Hongzhi. Study on real-time analysis in food safety surveillance based on cloud service[J].Journal of Food Science and Technology,2015, 33(3):74-78.

        [8] PENG Feifei,QIAO Xu,LI Gaoren. A research of hot topic detection through microblogging[C]∥2012 4th International Conference on Intelligent Human-Machine System and Cybernetics. Nanchang, China: IEEE, 2012:185-188.

        [9] WU X M,IDE I,SATON S. New topic tracking and re-ranking with query expansion based on near-duplicate detection[M]. Heidelberg: Springer, 2009:755-766.

        [10] 李勁,張華,吳浩雄,等. 基于特定領(lǐng)域的中文微博熱點(diǎn)話題挖掘系統(tǒng)BTopicMiner[J]. 計(jì)算機(jī)應(yīng)用,2012(8):2346-2349. LI Jin ,ZHANG Hua ,WU Haoxiong ,et al.BTopicMiner: domain-specific topic mining system for Chinese microblog[J]. Journal of Computer Applications, 2012(8):2346-2349.

        [11] ZHU Mingliang,HU Weiming,WU Ou. Topic detection for discussion threads with domain knowledge [C]∥Proc of International Conference on Web Intelligence and Inteligent Agent Technology. New York:ACM Press,2010:545-548.

        [12] PLAZA-RODRIGUEZ C, THOENS C, FALENSKI A, et al. A strategy to establish food safety model repositories[J].International Journal of Food Microbiology, 2015,204:81-90.

        [13] 郭林宇, 戚亞梅, 李艷,等. 農(nóng)產(chǎn)品質(zhì)量安全網(wǎng)絡(luò)輿情監(jiān)控體制機(jī)制研究[J]. 食品科學(xué), 2013, 34(3):312-316. GUO Linyu,QI Yamei,LI Yan,et al.Monitoring of internet public opinion toward agricultural products quality and safety[J].Food Science, 2013, 34(3):312-316.

        [14] WANG Chunhong, NAN Lili, REN Yaopeng. Research on the text clustering algorithm based on latent semantic analysis and optimization[C]∥2011 IEEE International Conference on CSAE. Shanghai: IEEE, 2011,4:470-473.

        [15] WANG Zhiming, HOU Xusheng. A topic detection method based on bicharacteristic vectors[C]. Wuhan: IEEE, 2009: 683-687.

        [16] CATALDI M, BALLATORE A, TIDDI I, et al. Good location, terrible food: detecting feature sentiment in user-generated reviews[J]. Social Network Analysis & Mining, 2013, 3(4):1149-1163.

        [17] ADAR E, TEEVAN J, DUMAIS S T, et al. The web changes everything: understanding the dynamics of web content[C]∥Proc 2nd ACM Int Conf on Web Search and Data Mining. Chicago ACM, 2009: 282-291.

        [18] 陳為, 沈則潛, 陶煜波, 等. 數(shù)據(jù)可視化 [M]. 北京:電子工業(yè)出版社, 2013: 10-20. CHEN Wei,SHEN Zeqian,TAO Yubo,et al.Data visualization[M].Beijing: Publishing House of Electronics Industry,2013: 10-20.

        [19] 聶飛霞,付敏. 數(shù)據(jù)預(yù)處理:數(shù)字圖書(shū)館的“清洗機(jī)”[J]. 圖書(shū)館界,2013(4):52-55. NIE Feixia,FU Min.Data preprocessing: digital library “washing machine”[J].Library World,2013(4):52-55.

        [20] 孟巍. 數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)質(zhì)量評(píng)價(jià)研究及其應(yīng)用[D]. 天津: 河北工業(yè)大學(xué),2004:48. MENG Wei.Evaluation and realization of data quality of data warehouse[D]. Tianjin: Hebei University of Technology,2004:48.

        [21] 郝文寧, 穆新國(guó), 陳剛,等. 基于軍事訓(xùn)練本體的文檔向量空間模型構(gòu)建[J]. 計(jì)算機(jī)應(yīng)用, 2012, 32:10-12. HAO Wenning,MU Xinguo,CHEN Gang,et al.Document vector space model construction based on ontology in military training[J].Journal of Computer Applications, 2012, 32:10-12.

        Research of Topic Detection Method for Food Safety Surveillance

        FENG Zhenhai, LIU Hongzhi*

        (SchoolofComputerScienceandInformationEngineering,BeijingTechnologyandBusinessUniversity,Beijing100048,China)

        Food safety problem has been a hot topic of national concern, which related to many areas of society. In order to know hot issues that relate to food safety in timely, food safety hot topics and other hot topics of the similarities and differences in detection methods were compared. The food safety surveillance topic detection model was constructed and the clustering algorithm was used for text mining for food safety data to achieve the topic detection. Through the experimental results, the evaluation of the Single-Pass algorithm was better than the K-Means algorithm, which could effectively detect food safety topics.

        food safety surveillance; text mining; topic detection

        檀彩蓮)

        10.3969/j.issn.2095-6002.2016.05.013

        2095-6002(2016)05-0089-06

        馮振海,劉宏志. 面向食品安全監(jiān)理話題檢測(cè)方法的研究[J]. 食品科學(xué)技術(shù)學(xué)報(bào),2016,34(5):89-94. FENG Zhenhai,LIU Hongzhi. Research of topic detection method for food safety surveillance[J]. Journal of Food Science and Technology, 2016,34(5):89-94.

        2015-07-13

        北京市屬高等學(xué)??茖W(xué)技術(shù)與研究生教育創(chuàng)新工程建設(shè)項(xiàng)目(PXM2012_014213_000037)。

        馮振海,男,碩士研究生,研究方向?yàn)樾畔⒐こ膛c食品安全監(jiān)理;

        *劉宏志,男,教授,博士,主要從事信息工程監(jiān)理、電子商務(wù)與電子政務(wù)等方面的研究。

        。

        TS201.6; R155; TP18

        A

        猜你喜歡
        文檔準(zhǔn)確率監(jiān)理
        有人一聲不吭向你扔了個(gè)文檔
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        關(guān)于建設(shè)工程監(jiān)理發(fā)展趨勢(shì)的探討
        工程監(jiān)理管理模式創(chuàng)新探索
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        琪琪av一区二区三区| 国产成人无码区免费网站| 亞洲綜合一區二區三區無碼| 亚洲一二三四五区中文字幕| 女优av一区二区在线观看| 亚洲天堂av中文字幕| 国产一区国产二区亚洲精品| 在线播放免费播放av片| 欧美在线专区| 国产精品毛片av一区二区三区| 亚洲女优中文字幕在线观看 | 亚洲成av人在线观看天堂无码| 国产欧美日韩网站| 日本激情久久精品人妻热| 国产在线视频一区二区天美蜜桃 | 2018天天躁夜夜躁狠狠躁| 色欲av自慰一区二区三区| 极品诱惑一区二区三区| 亚洲一区二区三区色偷偷| 国产卡一卡二卡3卡4乱码| 亚洲精品无码高潮喷水在线| 亚洲综合久久一本久道| 一区二区三区中文字幕脱狱者| 亚洲av无码国产精品色软件下戴| 亚洲成av人片天堂网九九| 全程国语对白资源在线观看| 曰韩内射六十七十老熟女影视| 无码a∨高潮抽搐流白浆| 高潮社区51视频在线观看| 国产白浆一区二区在线| 亚洲色爱免费观看视频| 亚洲电影一区二区三区 | 久久久av波多野一区二区| 在线高清精品第一区二区三区| 久久久亚洲精品蜜臀av| 免费a级毛片在线播放| 国产av一区二区精品久久凹凸| 国语精品视频在线观看不卡| 久久99热只有频精品8国语| 国产激情电影综合在线看| 久久一区二区三区四区|