亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本挖掘的食品添加劑知識圖譜構建和應用

        2023-11-07 11:45:44張寅升秦貝貝向劍勤張燕新王海燕
        食品工業(yè) 2023年10期
        關鍵詞:關聯(lián)可視化

        張寅升,秦貝貝,向劍勤,張燕新,王海燕*

        浙江工商大學(杭州 310018)

        食品添加劑是指為改善食品的品質和色、香、味以及為防腐和加工工藝的需要而加入食品中的化學合成或天然的物質[1]。添加劑的非法、過量使用和濫用情況持續(xù)存在,給民眾健康、行業(yè)發(fā)展以及政府監(jiān)管帶來挑戰(zhàn)。圍繞食品安全及添加劑監(jiān)管問題,國外部分學者認為食品安全監(jiān)管是各利益主體之間的博弈[2]。研究主題也多是關注于食品安全本身及社會背景,如消費者行為[3]及政府監(jiān)管方式等。國內學者則總結分析添加劑濫用引發(fā)的安全問題并提出對策[4-5]。同時,添加劑作用機理研究、檢測技術研發(fā)和膳食開發(fā)等方面的研究也未止步[6-8]。

        從現(xiàn)有文獻來看,針對食品安全及食品添加劑問題的研究大多集中在完善管理機制、提高添加劑檢測技術水平、發(fā)現(xiàn)添加劑的新應用領域等方面,運用文本挖掘分析食品添加劑的數(shù)據(jù)驅動型研究仍處于新興階段[9]?;谝陨媳尘?,文章通過關聯(lián)規(guī)則學習與文本挖掘技術,從政府抽檢數(shù)據(jù)和新聞通報等多渠道信息來源中獲取不同食品與相應食品添加劑的關聯(lián)強度/支持度,構建可視化的知識圖譜,借以直觀了解特定食品易含有的非法添加劑和食用添加劑種類,并應用時空演化分析,得到食品安全事件的區(qū)域性和季節(jié)性特征。

        1 方法

        1.1 方案思想

        數(shù)據(jù)資源是準確分析問題和科學決策的基礎,獲取到包含食品實體與添加劑實體之間關聯(lián)關系的知識圖譜是解決分析問題的關鍵。食品安全問題的信息具有極強的主題性,因此若要構建食品實體與添加劑實體的知識圖譜、實現(xiàn)食品安全事件的時空演化,需要構建食品安全主題語料庫并從中提取食品、添加劑、時間、地點等關鍵實體?;谏鲜鲞壿嫞恼轮兴玫降恼w研究方案見圖1。

        圖1 整體研究方案

        1.2 方案步驟

        第一步:數(shù)據(jù)采集與清洗。數(shù)據(jù)采集包括官方發(fā)布的食品添加劑界定文件以及通過網(wǎng)絡爬蟲工具收集食品安全相關的新聞報道、事件通報、網(wǎng)購評論、消費者輿情等文本數(shù)據(jù)。數(shù)據(jù)清洗時完成無用字符的刪除以及數(shù)據(jù)格式的轉換。網(wǎng)絡評論、消費者輿情等網(wǎng)絡文本可能涉及企業(yè)、法人或消費者的隱私信息,針對此類數(shù)據(jù),在數(shù)據(jù)采集和數(shù)據(jù)清洗階段將使用脫敏和匿名化技術處理。

        第二步:構建食品安全事件語料庫。語料庫中的每條文本記錄包含了食品安全事件的關鍵信息,如事件時間、地點、事件原因、不合格食品種類、非法或超量添加劑種類等特征。通過設置定期運行的爬蟲腳本,可以不斷更新和擴展該語料庫。

        第三步:構建知識圖譜。對語料庫中的信息完成分詞與詞頻統(tǒng)計操作,并進行基于詞典的命名實體識別(Dictionary-based named entity recognition,NER)與關聯(lián)提取,根據(jù)實體共現(xiàn)頻率構建食品和添加劑的知識圖譜,并使用力導向圖進行知識圖譜的交互可視化。

        第四步:時空演化分析。時空演化的可視化使用cpca(chinese_province_city_area_mapper)實現(xiàn),cpca可用于提取簡體中文字符串中省、市和區(qū),并能夠進行繪圖。在提取語料庫中的時空信息后應用cpca進行圖像的繪制。

        1.3 相關算法原理

        在構建食品實體與添加劑實體的知識圖譜時用到了力導向圖,其依托于力導向布局可視化算法實現(xiàn),在此對相關算法的原理進行介紹。

        1.3.1 力導向布局算法

        力導向布局算法的原理是自然界中電子之間的相互作用。在力導向布局算法中,各節(jié)點和連線的位置是通過斥力和引力的作用不斷更新的,在力的作用下節(jié)點經(jīng)過不斷位移之后趨于平衡[10]。

        力導向布局算法中的引力與斥力按式(1)和(2)計算。

        式(1)中:d為兩節(jié)點之間的笛卡爾距離;K為調節(jié)全局節(jié)點之間的斥力常量;符號“-”為斥力的表征方向。

        式(2)中:H為彈簧力的倔強系數(shù);Li為第i層的默認彈簧長度,且Li/Li+1=I,即第i層和第i+1層的邊長比值為一個固定常數(shù)I[11]。

        力導向布局算法因其結果具有良好的對稱性和局部聚合性而被廣泛應用于知識圖譜和復雜網(wǎng)絡的可視化中。

        2 試驗結果

        2.1 數(shù)據(jù)采集與清洗

        文章針對食品安全問題,使用了五類數(shù)據(jù)來源,見表1。其中從《食品監(jiān)督抽查不合格信息》《食品中可能違法添加的非食用物質和易濫用的食品添加劑名單》中整理出食品和添加劑的術語,作為初始的領域詞典。從《中國食品安全網(wǎng)-抽檢通告》《食安網(wǎng)-食品安全專欄》《食安網(wǎng)-曝光臺專欄》中挖掘食品安全事件中食品實體與添加劑實體的關聯(lián)關系及食品安全事件的時空實體,為構建知識圖譜和時空演化分析等應用奠定基礎。

        表1 數(shù)據(jù)來源

        2.2 構建語料庫

        2.2.1 構建初始領域詞典

        首先,從《食品監(jiān)督抽查不合格信息》《食品中可能違法添加的非食用物質和易濫用的食品添加劑名單》中獲取添加劑的術語,并手動添加缺失的添加劑術語,確定最終的添加劑名單。然后,按照(食品,添加劑,關聯(lián)強度)的格式對獲取到的食品和對應添加劑等數(shù)據(jù)進行提取處理,獲取到4 548種食品種類、275種添加劑及7 075組表示食品與相應添加劑關聯(lián)強度的組合信息。

        2.2.2 構建食品安全事件主題語料庫

        食品安全事件的關鍵信息包括事件時間、地點、事件原因、不合格食品種類、非法或超量添加劑種類等特征。通過網(wǎng)絡爬蟲工具收集“中國食品安全網(wǎng)-抽檢報告”“食安網(wǎng)-食品安全專欄”“食安網(wǎng)-曝光臺專欄”中與食品安全相關的文本數(shù)據(jù),對初始領域詞典進行補充,并根據(jù)食品安全事件的相關特征構建食品安全事件語料庫,最終得到一個包含13 698份文本的專題語料庫。

        2.3 知識圖譜構建

        2.3.1 命名實體提取

        2.3.1.1 分詞與詞頻統(tǒng)計

        常用的分詞工具有jieba、HanLP(漢語言處理包)、SnowNLP(中文的類庫)、Jiagu(甲骨NLP)、pyltp(哈工大語言云)等,通過對不同分詞工具的效果進行測試發(fā)現(xiàn),Jiagu(甲骨NLP)在MSR(微軟亞洲研究院語料庫)、PKU(人民日報語料庫)等多個數(shù)據(jù)集上表現(xiàn)最優(yōu)。因此,最終選用Jiagu(甲骨NLP)對所獲得食品安全事件主題語料庫進行分詞,接著利用遍歷對關鍵詞進行詞頻統(tǒng)計并實現(xiàn)詞云可視化。

        2.3.1.2 詞云可視化

        對語料庫中的食品實體與添加劑實體進行詞頻統(tǒng)計與可視化,詞云可視化效果見圖2。

        圖2 詞云可視化

        通過詞云可視化可以清晰關注到語料庫中食品種類和添加劑種類出現(xiàn)的頻率。在食品種類中,茶葉的出現(xiàn)次數(shù)最多;在添加劑種類中,鉛和鎘的出現(xiàn)次數(shù)居于首位。

        2.3.2 構建知識圖譜

        2.3.2.1 知識圖譜的構建

        知識圖譜構建的依據(jù)是食品實體和添加劑實體的共現(xiàn)頻率(關聯(lián)強度),語料庫中食品實體與添加劑實體關聯(lián)強度前十的組合見表2。

        表2 食品實體與添加劑實體的關聯(lián)強度(前10位)

        這十條語義關聯(lián)反映了不恰當使用食品添加劑的最典型、最廣泛的幾個場景,下面將逐一分析,并為監(jiān)管部門提供重點抽檢參考。

        鳊魚和黃鱔中檢測出環(huán)丙沙星的頻率高居榜首。環(huán)丙沙星(ciprofloxacin,CIP)是恩諾沙星(enrofloxacin,ENR)在動物體內發(fā)生脫乙基反應生成的具有活性的代謝產(chǎn)物,具有毒副作用且極易產(chǎn)生耐藥性。恩諾沙星是第一個動物專用的抗生素,人若是長期使用則會影響軟骨發(fā)育,產(chǎn)生畸形。目前NY 5071—2002《無公害食品漁用藥物使用準則》[12]已將環(huán)丙沙星列為禁用漁藥。GB 31650—2019《食品安全國家標準食品中獸藥最大殘留限量》[13]將水產(chǎn)動物中ENR及其代謝產(chǎn)物CIP的總殘留限量定為100 μg/kg,但近年來在各類食品的抽檢中,常有在淡水魚中檢測出超標恩諾沙星的問題。

        在年糕中檢測出的脫氫乙酸是能夠抑制酵母菌、霉菌繁殖的防腐劑,如按照國家規(guī)定的劑量使用食用后不會在體內殘留,但如果超量,則會造成皮膚問題,在2021年已被禁用;在豇豆中檢測出的甲氨基阿維菌素苯甲酸鹽(甲維鹽)則是一款常用綠色生物殺蟲劑,少量殘留對身體無害,但若是長期使用甲維鹽超標的食品則會對人體造成影響;海蜇中的鋁是由于多次使用鹽礬造成的,高濃度的鋁殘留會迫害人體腎臟和神經(jīng)系統(tǒng);香蕉和老姜中檢測出的噻蟲胺則是一種新型殺蟲劑,與常規(guī)農藥無交互抗性,但仍是要在標準劑量范圍內使用。

        2.3.2.2 知識圖譜的可視化

        前文完成各種食品類型和相應添加劑的關聯(lián)強度/支持度的提取,形成了食品實體和添加劑實體的知識圖譜,為使食品實體與添加劑實體的關聯(lián)情況更清晰直觀,提高關聯(lián)信息的可解讀性,文章基于Apache ECharts使用力導向圖實現(xiàn)了知識圖譜Web端的交互可視化,效果見圖3。

        通過對圖3的觀察可以得知,得到的關于[食品,添加劑,關聯(lián)強度]的知識圖譜直觀展示了同一食品類型與不同添加劑之間的關聯(lián)強度關系以及不同產(chǎn)品類型容易檢測出哪些添加劑。

        以我國大宗淡水養(yǎng)殖魚類鳊魚為例,鳊魚實體與添加劑實體關聯(lián)強度知識圖譜見圖4。在此次爬取的數(shù)據(jù)中,在鳊魚中檢測出了孔雀石綠、氯霉素、硝基呋喃代謝物、地西泮、培氟沙星、環(huán)丙沙星、恩諾沙星、磺胺類藥物和鋁共9種添加劑。

        圖4 鳊魚實體與添加劑實體關聯(lián)強度知識圖譜

        其中:孔雀石綠、氯霉素、硝基呋喃代謝物因致癌、致畸、引起再生障礙性貧血等副作用被列為禁用藥物[14];地西泮則是第二類精神藥品,有致癌風險;培氟沙星是一種通過干擾DNA的復制和菌體蛋白的合成發(fā)揮作用的抗生素,已被停用;起殺菌、防腐作用的環(huán)丙沙星、恩諾沙星、磺胺類藥物和鋁(鹽礬的殘留)常在鳊魚的加工環(huán)節(jié)中用到,但是常被檢測出超標,如環(huán)丙沙星和恩諾沙星的含量之和要<100 μg/kg、磺胺嘧啶等12種磺胺類總量要<100 μg/kg[15]。

        以上數(shù)據(jù)說明在鳊魚的加工制作中濫用環(huán)丙沙星、恩諾沙星、磺胺類藥物和鹽礬(殘留物為鋁)較為普遍,是監(jiān)管部門、消費者及相關上下游企業(yè)應重點關注的食品質量安全項目。綜上,構建出食品與相應添加劑的知識圖譜后,食品與添加劑之間的關系更為直觀,能夠提升社會公眾以及相關部門對食品安全現(xiàn)狀的認知,并指導后續(xù)的購買、抽檢、政策制定等行為。

        2.4 時空演化可視化

        知識圖譜本質上是由具有屬性的實體通過關系鏈接而成的網(wǎng)狀知識庫,單獨使用難以直觀表示食品安全事件的分布以及發(fā)展態(tài)勢,時空演化的可視化則充分利用了從新聞報道、網(wǎng)絡輿情等文本數(shù)據(jù)中實時提取食品安全事件的時間和地理信息,為特定的食品安全事件渲染時空演化過程,使得讀者了解重大事件的起源、發(fā)展和消亡,以及不同食品的區(qū)域性和季節(jié)性風險特征。

        根據(jù)語料庫中食品安全事件的時空信息,對2014—2022年間的數(shù)據(jù)以三年為一組進行可視化,同時按照季度分類進行可視化,得到如圖5和圖6所示的年份分布圖和季度分布圖。從圖5和圖6中可以直觀看出在不同年份下食品安全事件發(fā)生的分布特點以及各季度下食品安全事件發(fā)生的分布特點。圖中顏色越深,則表示該區(qū)域安全事件發(fā)生的頻率越高。

        圖5 食品安全事件年份分布圖

        圖6 食品安全事件季度分布圖

        以上介紹的知識圖譜交互可視化及時空演化技術,有望推廣到更多的應用場景中,能夠發(fā)現(xiàn)研究對象之間的隱含聯(lián)系,為決策行為提供支撐依據(jù)。

        3 結語與討論

        3.1 主要貢獻

        3.1.1 開放的、自動定期更新的專題語料庫

        基于目前由于食品添加劑相關數(shù)據(jù)多源異構造成的問題,初步整合互聯(lián)網(wǎng)上的分散數(shù)據(jù),部署了一個支持公開訪問、可自動更新的食品添加劑專題語料庫。該語料庫可以作為研究食品安全及食品添加劑問題的基礎性工具,提供已經(jīng)整理好的添加劑名單,相關研究可以基于此語料庫開展。

        3.1.2 開放的、自動定期更新的可視化知識圖譜和時空演化

        表示食品實體與添加劑實體關聯(lián)關系的可視化知識圖譜以及表示食品安全事件區(qū)域性、季節(jié)性風險特征的可視化時空演化同樣是自動更新且可公開訪問的。政府監(jiān)管部門、研究同行及其他想要了解食品安全問題的群體,均可通過此種方式對食品添加劑不恰當使用的實時情況以及食品安全事件的時空演化過程有一個直觀的掌握。

        3.2 討論及展望

        針對研究的不足之處,為能夠更簡便、準確地為決策行為提供依據(jù),表示食品實體與添加劑實體關聯(lián)度的知識圖譜仍需不斷完善,未來的研究可以從以下問題進行展開。

        3.2.1 語義粒度的細化處理

        研究在爬取添加劑實體信息時,未將添加劑進行細化分類,在實際應用中,添加劑可以按照不同的性質分為食用/不可食用,抑或是加工合成/天然形成,還可按照作用和功能分類為抗氧化劑、漂白劑、著色劑和營養(yǎng)強化劑等[1]。后續(xù)工作可以考慮將分類信息作為添加劑實體的屬性,細化語義粒度,構建更加詳細的知識圖譜應用。

        另外,目前只是對食品實體是否含有添加劑進行提取,而未對添加劑的含量進行判定和約束。科學表明,符合國家標準的合理適量的食品添加劑使用并不會對人體健康產(chǎn)生威脅。因此,后面還可以考慮將提取到的添加劑含量融合到語義關聯(lián)強度的計算中。

        在時空演化應用中,后續(xù)可以考慮細化到市縣級層次,在各個省份內做時空分析,以獲取地域性更強的時空演化規(guī)律。

        3.2.2 新命名實體的處理

        隨著食品技術和化學工業(yè)的發(fā)展,新型食品及新食品添加劑的產(chǎn)生是不可避免的,準確高效地識別新的命名實體是一個重要挑戰(zhàn)。采用經(jīng)典的基于詞典(dictionary-based)的方法,為發(fā)現(xiàn)新出現(xiàn)的命名實體,需要持續(xù)及時地更新領域詞典。為克服該不足,后面可以嘗試基于規(guī)則(rule-based)和代表最前沿(state-of-the-art,SOTA)的基于深度學習(deep learning-based,DL)的方法。其中,基于深度學習的命名實體識別方法能夠基于海量文本數(shù)據(jù),習得各種單詞之間的語義和句法關系,其魯棒性和有效性得到了保證[16]。

        3.2.3 APP/小程序的開發(fā)

        專題語料庫、知識圖譜以及代碼庫可服務于研究機構和學者的二次開發(fā)及科研,但對于普通消費者群體,存在一定的技術壁壘。為此,后續(xù)將進行APP/小程序的開發(fā),提供面向消費端的知識圖譜和時空演化等應用,并定期推送食品添加劑相關的事件統(tǒng)計信息。

        猜你喜歡
        關聯(lián)可視化
        自然資源可視化決策系統(tǒng)
        北京測繪(2022年6期)2022-08-01 09:19:06
        思維可視化
        師道·教研(2022年1期)2022-03-12 05:46:47
        基于Power BI的油田注水運行動態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        不懼于新,不困于形——一道函數(shù)“關聯(lián)”題的剖析與拓展
        “苦”的關聯(lián)
        當代陜西(2021年17期)2021-11-06 03:21:36
        自然資源可視化決策系統(tǒng)
        北京測繪(2021年7期)2021-07-28 07:01:18
        基于CGAL和OpenGL的海底地形三維可視化
        “一帶一路”遞進,關聯(lián)民生更緊
        當代陜西(2019年15期)2019-09-02 01:52:00
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        奇趣搭配
        91福利国产在线观看一区二区| 国产亚洲综合一区二区三区| 中文字幕日本人妻久久久免费| 无码三级在线看中文字幕完整版| 日韩人妻无码精品久久久不卡| 一二三四在线视频社区3| www久久久888| 日韩中文字幕久久久老色批| 日韩中文字幕有码午夜美女| 一本无码av中文出轨人妻| 国产裸体歌舞一区二区| 亚洲一区sm无码| 色综久久综合桃花网国产精品| 岛国熟女精品一区二区三区| 日本高清h色视频在线观看| 精品国产群3p在线观看| 综合人妻久久一区二区精品| 水蜜桃在线观看一区二区| 免费视频成人片在线观看| 亚洲 都市 校园 激情 另类| 中文字幕亚洲乱亚洲乱妇| 久久婷婷综合激情亚洲狠狠| 精品亚洲a∨无码一区二区三区 | 国产精品免费久久久久软件| 成人a在线观看| 国产精品成人有码在线观看| 巨爆中文字幕巨爆区爆乳| 啪啪无码人妻丰满熟妇| 亚洲网站免费看| 人妻有码av中文幕久久| 午夜无遮挡男女啪啪免费软件| 黄色资源在线观看| 丰满人妻无套内射视频| 加勒比色老久久爱综合网| 99久久久无码国产精品试看| 国产91在线|亚洲| 日本午夜精品一区二区三区| 狠狠色婷婷久久一区二区三区| 国产人成无码视频在线| 自拍情爱视频在线观看| √天堂中文官网在线|