亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于網(wǎng)絡(luò)評論的美食推薦系統(tǒng)

2022-04-07 08:40:10鄧涵兮陳志華

中國傳媒科技 2022年3期

鄧涵兮陳志華

（1.中國傳媒大學(xué)國內(nèi)交流與合作處，北京100024；2.福州大學(xué)計算機與大數(shù)據(jù)學(xué)院，福建福州350108）

導(dǎo)語

近年來，隨著人民生活質(zhì)量逐漸提高，人們對于美食也越加講究，不僅食物要滿足顧客的味蕾，服務(wù)與價格也要符合顧客的期望。[1]雖然現(xiàn)今網(wǎng)絡(luò)已非常普及，人人都可以在網(wǎng)絡(luò)上分享自己的用餐經(jīng)驗，然而面對眾多來源的評語，要能快速且正確地認(rèn)識一家餐廳仍是一件困難的事。

基于美食推薦的實時需要，文章提出一套基于網(wǎng)絡(luò)評論的美食推薦系統(tǒng)“食況轉(zhuǎn)播系統(tǒng)”，以提供各家餐廳之介紹與評論摘要。讓人們可以快速決定最佳的用餐地點，甚至在陌生的環(huán)境，也能避免“踩雷”的情況發(fā)生。

1.系統(tǒng)設(shè)計

本研究所設(shè)計的“食況轉(zhuǎn)播系統(tǒng)”所提供功能包括：網(wǎng)頁內(nèi)容擷取機器人、多文本自動摘要技術(shù)（Multiple Document Summarization，MDS）[2]、云計算技術(shù)等設(shè)計。

通過網(wǎng)頁內(nèi)容擷取機器人用百度等搜索引擎對網(wǎng)頁相關(guān)信息進行搜尋，于各個網(wǎng)頁中找尋相關(guān)美食評論信息，擷取機器人子系統(tǒng)將其爬行（Crawl）數(shù)據(jù)和經(jīng)過剖析（Parse）后，將相關(guān)的信息存為Blog Corpus。最后，再利用多文本自動摘要技術(shù)，將相關(guān)網(wǎng)頁Corpus中的美食評論擷取出來，并制成摘要形式，提供給用戶飲食決策參考，用戶可以通過本系統(tǒng)所設(shè)計的人機接口進行查詢，整體系統(tǒng)處理之流程如圖1所示。

圖1 食況轉(zhuǎn)播系統(tǒng)流程圖

1.1 網(wǎng)頁內(nèi)容擷取機器人

網(wǎng)頁內(nèi)容擷取機器人主要提供有模糊搜尋機制、網(wǎng)頁爬蟲（HTML Crawler），以及網(wǎng)頁剖析器（HTML Parser）等功能，各功能說明分述如下。

1.1.1 模糊搜尋機制

模糊搜尋機制提供模糊運算與判斷，建立搜尋相關(guān)的關(guān)鍵詞字庫，以關(guān)鍵詞字庫內(nèi)容主動向百度搜尋進行搜尋。

1.1.2 網(wǎng)頁爬蟲

網(wǎng)頁爬蟲將百度搜尋后結(jié)果（如回傳的各個網(wǎng)頁內(nèi)容）進行爬行，追蹤相關(guān)連結(jié)網(wǎng)頁并將HTML內(nèi)容暫存。

1.1.3 網(wǎng)頁剖析器

網(wǎng)頁剖析器將網(wǎng)頁爬蟲取得的網(wǎng)頁進行HTML tag解讀，取得主要信息，并有效去除相關(guān)特殊字符（如單引號和雙引號）和避免數(shù)據(jù)庫隱碼攻擊等問題，建立Web Corpus以利后續(xù)之多文本自動摘要之推論。

1.2 多文本自動摘要技術(shù)

“食況轉(zhuǎn)播系統(tǒng)”結(jié)合多文本自動摘要技術(shù)，實時將各個網(wǎng)頁中相關(guān)美食網(wǎng)站的評論進行自動摘要，有效減少信息量，提取出重點評論摘要，讓使用者能快速瀏覽過去吃過該餐廳或美食消費者的看法與經(jīng)驗。

多文本自動摘要技術(shù)主要參考MEAD套件[3]進行系統(tǒng)實踐，將網(wǎng)頁Corpus中相關(guān)之美食評論輸入至自動摘要模塊中，并由于數(shù)據(jù)龐大需有效和快速的平行運算，故將把此模塊實踐于Hadoop平臺中，并以MapReduce進行實踐，其通過數(shù)據(jù)預(yù)先處理（Preprocess）、特征選?。‵eature Selected）、分類器（Classifier）、重新排序器（Reranker）、產(chǎn)出摘要（Summery）等步驟進行自動摘要提取，詳細功能設(shè)計分述如下。

1.2.1 數(shù)據(jù)預(yù)先處理

將網(wǎng)頁內(nèi)容擷取機器人處理后的HTML進行擷取，并依序定義各個文章（Document）編號和語句（Sentence）編號，以進行各語句權(quán)重計算和摘要產(chǎn)生。

1.2.2 特征選取

“食況轉(zhuǎn)播系統(tǒng)”主要采用主題字詞（Thematic Words）和評論字詞（Comments Terms）兩個特征（Feature）進行字詞子句的權(quán)重計算。

1.2.2.1主題字詞

計算某個語句的主題字詞出現(xiàn)的次數(shù)，當(dāng)出現(xiàn)的次數(shù)越多則代表該語句與目標(biāo)主題的關(guān)系越強烈。[4]對于評論文件中的第i個語句si而言，該語句si共包含ni個字詞w，主題字詞評分計算方式如公式（1）所示。

1.2.2.2 評論字詞

計算某個語句的評論字詞出現(xiàn)的次數(shù)，當(dāng)出現(xiàn)的次數(shù)越多則代表該語句越具評論意義。[5]對于評論文件中的第i個語句si而言，該語句si共包含ni個字詞w，評論字詞評分計算方式如公式（2）所示。

1.2.3 分類器

就每個特征來討論，每個特征的重要程度有所不同，分類器主要在于做加權(quán)總和，計算出各個語句的權(quán)重，計算方式如公式（3）所示。

1.2.4 重新排序器

主要在于重新計算語句與語句之間的相似度，并設(shè)定門坎值以進行過濾，取出重要且彼此之間相似度不會太高的語句，最后再依設(shè)定的壓縮率進行提?。╡xtract）。

1.2.5 產(chǎn)出摘要

將重新排序器所提取出的語句順序，依數(shù)據(jù)預(yù)先處理之文章（Document）編號、語句（Sentence）編號和原始評論文件進行對應(yīng)（Mapping），取得多評論自動摘要內(nèi)容，并把最后結(jié)果產(chǎn)出，提供給使用者快速瀏覽參考。

1.3 云計算技術(shù)

網(wǎng)絡(luò)充斥著大量且繁雜的網(wǎng)頁內(nèi)容，當(dāng)分析網(wǎng)頁內(nèi)容時將會因為網(wǎng)頁數(shù)量和內(nèi)文數(shù)量而造成的大量運算。由于執(zhí)行效能考慮，文章將采用云計算進行平行處理，以Hadoop平臺進行實踐（Chen et al.，2012），將每篇評論文章的語句分別執(zhí)行，以快速地計算每個語句的分?jǐn)?shù)，并取得最重要的語句，提供使用者決策參考。

2.系統(tǒng)實踐

本研究設(shè)計的系統(tǒng)可提供給一般民眾使用，使用者可以通過手機連結(jié)至“食況轉(zhuǎn)播系統(tǒng)”，再由系統(tǒng)提供各家餐廳的介紹與評論摘要。讓人們可以快速地決定最佳的用餐地點，甚至在陌生的環(huán)境，也能避免誤”踩地雷“的情況發(fā)生。

“食況轉(zhuǎn)播系統(tǒng)”中，使用者端可達到各個美食餐廳的簡介、各個美食的相關(guān)評論。本研究通過網(wǎng)頁內(nèi)容擷取機器人擷取相關(guān)的美食評論文章，并通過多文本自動摘要技術(shù)提供美食評論摘要，以提供使用者飲食決策參考。如圖2所示，使用者可輸入欲查詢的店家名稱，以搜尋該店家的相關(guān)美食評論摘要，以下以“夏慕尼”為例進行說明。當(dāng)使用者輸入店家名稱，并點擊“美食評論”時，提供該店家過去消費過的使用者經(jīng)驗，并進行文本自動摘要，通過算法摘錄出重要的評論語句，讓使用者可以快速地進行決策參考，如圖3所示。最后，提供地圖導(dǎo)覽功能（如圖4所示）引導(dǎo)消費家前往餐廳。

圖2 主功能畫面

圖3 美食評論畫面

圖4 地圖導(dǎo)覽畫面

結(jié)語

本研究著重于使用者對餐廳選擇的決策需要，發(fā)展一套基于網(wǎng)絡(luò)評論的美食推薦系統(tǒng)“食況轉(zhuǎn)播系統(tǒng)”，結(jié)合人工智能和信息檢索技術(shù)，從“傳媒”向“智媒”轉(zhuǎn)變[6-7]，搜集并統(tǒng)計餐廳相關(guān)信息的推薦，并結(jié)合餐廳介紹與相關(guān)評論，將網(wǎng)絡(luò)信息（例如：博客、愛評網(wǎng)、以及Blog等相關(guān)美食評論）進行自動摘要處理，供使用者快速認(rèn)識該餐廳，評估是否合適作為用餐地點。未來可以嘗試將此系統(tǒng)模型應(yīng)用于各行各業(yè)的評論摘要和推薦信息中，例如旅游業(yè)。