亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘和分析的食品安全智能測評系統(tǒng)

        2019-08-20 07:27:08符雨童聶笑一肖毅
        現(xiàn)代計算機 2019年20期

        符雨童,聶笑一,肖毅

        (湖南農(nóng)業(yè)大學東方科技學院,長沙410128)

        0 引言

        許多不良商家因為利益等因素,通過虛假交易和評價欺騙電商平臺的搜索引擎,借機獲得優(yōu)等的排名,從而得到巨額的流量與用戶資源獲得訂單。為了解決這個問題,我們的食品安全智能測評系統(tǒng)從大量混雜的數(shù)據(jù)中提取隱藏在其中真實、有用的目標數(shù)據(jù),利用處理后的真實評分數(shù)據(jù),為人們尤其是18-35 歲青年上班族推薦性價比最高的美食店鋪。模型系統(tǒng)利用樸素貝葉斯等算法,篩除美團、大眾點評中的不實評論,根據(jù)有效數(shù)據(jù)為每個店鋪重新打分,為使用者呈現(xiàn)最真實的食品信息情況以及根據(jù)評分高低和使用者需求為其推薦相應(yīng)的性價比最高的店鋪。讓使用者及時掌握真實的店鋪好評率波動情況,以及從清洗過的有效評論中分析區(qū)分出每個店鋪每個菜肴的好壞與否,為消費者提供正確評價的信息。

        1 相關(guān)工作

        食品安全數(shù)據(jù)分析離不開對大量評論與賣家概述的抓取,本文采用PHPQuery 和CURL 的類方法采集數(shù)據(jù)。即時更新各個店鋪的評價的變化情況,并將數(shù)據(jù)可視化,以圖表的形式給點餐者呈現(xiàn)店鋪某一時間段的好評率波動圖。通過圖表分析模式輔助點餐者找到安全的美食店鋪,給青年上班族來極大的便捷,實現(xiàn)食品食用的安全性。

        本階段項目中主要運用主流的PHP 服務(wù)器端語言和JavaScript、HTML 前端技術(shù)語言的支撐來完成模型系統(tǒng)。

        2 算法描述

        圖1 模型構(gòu)建結(jié)構(gòu)圖

        2.1 數(shù)據(jù)采集

        使用PHPQuery 采集數(shù)據(jù),實際上是通過鏈接地址找到源碼,再將源碼轉(zhuǎn)換為jQuery 語法,然后通過jQuery 語法獲得大量的評價數(shù)據(jù)(約500000 條)。

        $curl=curl_init();

        curl_setopt($curl,CURLOPT_URL,'http://www.baidu.com');

        curl_setopt($curl,CURLOPT_HEADER,1);

        curl_setopt($curl,CURLOPT_RETURNTRANSFER,1);

        $data=curl_exec($curl);

        curl_close($curl);

        var_dump($data);

        ?>

        在代碼中首先初始化一個CURL 的對象,然后設(shè)置所要抓取的URL,配置CURL 參數(shù)要求結(jié)果保存到字符串中或者輸出到屏幕。之后運行CURL 請求網(wǎng)頁。最后關(guān)閉URL 請求,顯示所獲得的信息數(shù)據(jù)。

        2.2 數(shù)據(jù)分析

        通過PHPQuery 和CURL 的類方法采集食品數(shù)據(jù)的評價后,本模型系統(tǒng)的重難點在于如何對這些冗雜數(shù)據(jù)進行清洗和篩選。針對如何提取有效真實的評價,我們做出了以下的處理:

        2.2.1 得到清洗數(shù)據(jù)后的好評率

        經(jīng)過粗略的評論瀏覽,我們得到以下幾種無效評論。

        (1)全是標點符號或者只有一兩個字,如表1所示。

        表1

        這種情況可以利用正則表達式來去除。

        (2)湊字數(shù)、灌水,不含任何產(chǎn)品的特征的語句

        此種評論的處理方法有兩種。一種是觀察評論中涉及的名詞是否是食品相關(guān)的詞語,如[色澤,香味,氣味]但實際情況會十分復雜,例如:

        “真的很不錯”、“太美味了”...

        因為評價中缺少主語,所以機器并不知道它評價的是什么。這里我們反過來,假設(shè)每一類無效評論都有類似的關(guān)鍵詞,一個評論中的詞語只要有一些垃圾評論關(guān)鍵詞,我們就把它判定為無效評論。當然并也不需要給定所有的無效評論詞,利用TF-IDF 可以通過一個詞語順藤摸瓜關(guān)聯(lián)到其他類似的詞語。當然,我們也可以利用文本相似性算法尋找。

        2.2.2 語義理解

        語義理解是非常復雜的課題,本文中不追求絕對精準,僅希望能對外賣店鋪的評論有一個快速的理解,找出用戶使用最多的形容類詞語。

        (1)數(shù)據(jù)云圖。它會統(tǒng)計一段文本中各個詞語出現(xiàn)的次數(shù)(頻數(shù)),頻數(shù)越大,在詞云中對應(yīng)的字體也越大。通過觀察詞云,我們可以知道一段文本主要在講哪些東西。

        通過將主題分解提煉出的關(guān)鍵詞并生成詞云。

        %matplotlib inline

        Warningds.filterwarnings(“ignore”)

        for k in[‘正分’,’負分’]

        keywords=comments . get_keywords(comments . scores==k)

        Print(‘{}的關(guān)鍵詞為:’.format(k)+’|’.jain(keywords))

        comments.find_topic(comments.scores==k,n_topics=5);

        filename=’wordcloud of{}’.format(k)

        comments . genwordcloud(comments.scores==k,filename=filename);

        Print(‘=’*20)

        應(yīng)用如下:

        圖2 詞云圖

        (2)通過關(guān)聯(lián)分析尋找顯性特征-形容詞對,需要克服以下難點:

        ①語句不只含名詞-形容詞對,兩個名詞,形容詞-動詞對等都有可能;

        ②沒有考慮兩個詞語在文本之間的距離。例如名詞位于第一句話中,形容詞則是最后一句話中。

        表2 詞頻權(quán)重比

        關(guān)聯(lián)分析只會挖掘支持度大于一定數(shù)值的特征,我們稱這種特征為“常見特征”。除此之外還有支持挖掘度沒有超過一定值的特征,我們把它叫做“不常見特征”,不常見特征根據(jù)食品的最常見評價詞反向挖掘得出。挖掘過程中將大數(shù)據(jù)關(guān)聯(lián)分析中處理過程按特征性任務(wù)分解,不同任務(wù)繼續(xù)分解為子任務(wù),不同任務(wù)在不同的模塊或?qū)恿髦袇f(xié)作完成相關(guān)性分析。

        利用用戶對店鋪其評價的語義,篩選出一系列有代表性的特征關(guān)鍵詞,如:

        口感度關(guān)鍵字:好吃|美味|不好吃|還行 等進行分析。

        匹配關(guān)鍵字:利用MySQL 的全文搜索進行關(guān)鍵字匹配。

        自定義關(guān)鍵字,將每條評論取出,利用PHP 函數(shù)匹配與自定義關(guān)鍵字相符的記錄。

        利用App 使用者對店鋪評價的優(yōu)劣,主要表現(xiàn)評論中重復字與重復性評論的剔除,評論字數(shù)小于10剔除。

        (3)樸素貝葉斯算法

        分析詞云、關(guān)鍵詞和主題可以區(qū)分出集中在正面評價和負面評價中的詞語。但是這個時候詞語中并沒有配套的情感,本測評模型系統(tǒng)中用到基于貝葉斯定理與特征條件獨立假設(shè)的分類方法的樸素貝葉斯數(shù)據(jù)情感數(shù)據(jù)算法來判斷一句話的情感方向是正面的還是負面的。

        樸素貝葉斯其實是由以下的聯(lián)合概率公式推導出來:

        P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y)P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y)

        其中P(Y)P(Y)叫做先驗概率,P(Y|X)P(Y|X)叫做后驗概率,P(Y,X)P(Y,X)叫做聯(lián)合概率。

        用樸素貝葉斯進行文本特征提取和分類。

        flag='sklearn'

        deleteNs=range(0,1000,20)

        test_accuracy_list=[]

        for deleteN in deleteNs:

        #feature_words=words_dict(all_words_list,deleteN)

        feature_words=words_dict(all_words_list,deleteN,stopwords_set)

        train_feature_list, test_feature_list = text_features(train_data_list,test_data_list,feature_words,flag)

        test_accuracy=text_classifier(train_feature_list,test_feature_list,train_class_list,test_class_list,flag)

        test_accuracy_list.append(test_accuracy)

        print test_accuracy_list

        (4)TextRank

        TextRank 算法是一種用于文本的基于圖的排序算法,可以給出一段文本的關(guān)鍵詞,適用于食品評價安全模型系統(tǒng)的構(gòu)建。其基本思想來源于谷歌的PageRank算法,通過把文本分割成若干組成單元(單詞、句子)并建立圖模型,利用投票機制對文本中的重要成分進行排序,僅利用單篇文檔本身的信息即可實現(xiàn)關(guān)鍵詞提取、文摘。和LDA、HMM 等模型不同,TextRank 不需要事先對多篇文檔進行學習訓練,因其簡潔有效而得到廣泛應(yīng)用。

        TextRank 公式推導為:

        cm=defaultdict(int)

        words=tuple(self.tokenizer.cut(sentence))

        for i,wp in enumerate(words):#(enumerate 枚舉的方式進行)

        if self.pairfilter(wp):

        for j in xrange(i+1,i+self.span):

        if j>=len(words):

        break

        if not self.pairfilter(words[j]):

        continue

        if allowPOS and withFlag:

        cm[(wp,words[j])]+=1

        else:

        cm[(wp.word,words[j].word)]+=1

        3 實驗

        圖3 功能展示

        3.1 評價監(jiān)測工具

        通過特定的算法,篩選出美團、大眾點評中各店鋪網(wǎng)站真實的評價及評分,并利用真實信息為店鋪重新打分以及顯示出真實評價。

        3.2 好評率趨勢分析圖

        圖4 調(diào)研店鋪好評率分析

        如下,即時更新各個店鋪的評價的變化情況,并將數(shù)據(jù)可視化,以圖表的形式給點餐者呈現(xiàn)店鋪某一時間段的好評率波動圖。通過圖表分析模式輔助點餐者找到真正健康安全的美食店鋪,給青年上班族來極大的便捷。

        3.3 個性化菜譜即時推送

        根據(jù)用戶的瀏覽足跡以及店鋪收藏情況,每隔三天會為用戶打造一份包括早中晚三餐的個性化菜單,并以郵件的形式發(fā)送給每一位用戶。

        4 結(jié)語

        在本食品評論監(jiān)測模型系統(tǒng)中,首先是利用了PHPQuery 和CURL 的類方法采集原始數(shù)據(jù);接下來,將采集下來的分散數(shù)據(jù)清洗、冗余去重得到干凈數(shù)據(jù);然后,提取評價信息主題中關(guān)鍵詞,根據(jù)詞語出現(xiàn)頻率生成數(shù)據(jù)詞云圖,接著通過關(guān)聯(lián)分析判斷提取出食品特征描述的形容詞;最后,使用樸素貝葉斯數(shù)據(jù)模型機器判斷配套的情感,并通過構(gòu)建TextRank 文本網(wǎng)絡(luò)圖,迭代計算得到句子權(quán)重做出排序建立圖模型,生成可視化好評率趨勢分析圖。

        在數(shù)據(jù)挖掘和分析中對數(shù)據(jù)模型的優(yōu)化是數(shù)據(jù)挖掘任務(wù)在網(wǎng)絡(luò)環(huán)境進行中的關(guān)鍵。本節(jié)中,優(yōu)化的目的是為了保證篩選評價的真實性及將基于大數(shù)據(jù)挖掘的分散式搜取數(shù)據(jù)順利轉(zhuǎn)化為直觀性、聯(lián)系性可視化圖表,只有真實性的數(shù)據(jù)才能保證可視化圖表的準確性,真正做到對廣大人民群眾的用餐安全問題負責。

        經(jīng)過一段時間的網(wǎng)絡(luò)外賣評論數(shù)據(jù)的檢測調(diào)研后,我們繪制出調(diào)研店鋪的好評率分析圖。具體機制

        魔鬼身材极品女神在线| a级国产乱理伦片在线播放| 亚洲 欧美 影音先锋| 国产品精品久久久久中文| 人妻被公上司喝醉在线中文字幕| 神马影院午夜dy888| 国产做a爱片久久毛片a片| 日批视频免费在线观看| 最新中文字幕乱码在线| 亚洲 欧美 偷自乱 图片| 国产69精品久久久久999小说| 国产乱人伦AV在线麻豆A| 美腿丝袜中文字幕在线观看| 一区二区三区人妻少妇| 亚洲成a v人片在线观看| 亚洲AV一二三四区四色婷婷| 亚洲精品国产第一区三区| 精品无码av无码专区| 人妻少妇精品专区性色av| 久久亚洲日本免费高清一区| 东京热加勒比国产精品| 中文字幕精品一区二区精品| 国产mv在线天堂mv免费观看| 中文字幕亚洲精品码专区| 91精品啪在线观九色| 日韩av东京社区男人的天堂| 日韩精品区欧美在线一区| 国产成人久久精品二区三区| 色窝窝亚洲av网在线观看| 四虎影库久免费视频| 亚洲人成无码网站十八禁| 亚洲一区二区三区国产| 挺进朋友人妻雪白的身体韩国电影| 久久久久中文字幕精品无码免费| 国产一区二三区中文字幕| 亚洲av无码专区在线| www国产亚洲精品久久网站| 丰满人妻AV无码一区二区三区| 精华国产一区二区三区| 久久精品国产亚洲av电影网| 久久人妻AV无码一区二区|