鄧涵兮 陳志華
(1.中國傳媒大學(xué)國內(nèi)交流與合作處,北京100024;2.福州大學(xué)計算機與大數(shù)據(jù)學(xué)院,福建 福州350108)
近年來,隨著人民生活質(zhì)量逐漸提高,人們對于美食也越加講究,不僅食物要滿足顧客的味蕾,服務(wù)與價格也要符合顧客的期望。[1]雖然現(xiàn)今網(wǎng)絡(luò)已非常普及,人人都可以在網(wǎng)絡(luò)上分享自己的用餐經(jīng)驗,然而面對眾多來源的評語,要能快速且正確地認(rèn)識一家餐廳仍是一件困難的事。
基于美食推薦的實時需要,文章提出一套基于網(wǎng)絡(luò)評論的美食推薦系統(tǒng)“食況轉(zhuǎn)播系統(tǒng)”,以提供各家餐廳之介紹與評論摘要。讓人們可以快速決定最佳的用餐地點,甚至在陌生的環(huán)境,也能避免“踩雷”的情況發(fā)生。
本研究所設(shè)計的“食況轉(zhuǎn)播系統(tǒng)”所提供功能包括:網(wǎng)頁內(nèi)容擷取機器人、多文本自動摘要技術(shù)(Multiple Document Summarization,MDS)[2]、云計算技術(shù)等設(shè)計。
通過網(wǎng)頁內(nèi)容擷取機器人用百度等搜索引擎對網(wǎng)頁相關(guān)信息進行搜尋,于各個網(wǎng)頁中找尋相關(guān)美食評論信息,擷取機器人子系統(tǒng)將其爬行(Crawl)數(shù)據(jù)和經(jīng)過剖析(Parse)后,將相關(guān)的信息存為Blog Corpus。最后,再利用多文本自動摘要技術(shù),將相關(guān)網(wǎng)頁Corpus中的美食評論擷取出來,并制成摘要形式,提供給用戶飲食決策參考,用戶可以通過本系統(tǒng)所設(shè)計的人機接口進行查詢,整體系統(tǒng)處理之流程如圖1所示。
圖1 食況轉(zhuǎn)播系統(tǒng)流程圖
網(wǎng)頁內(nèi)容擷取機器人主要提供有模糊搜尋機制、網(wǎng)頁爬蟲(HTML Crawler),以及網(wǎng)頁剖析器(HTML Parser)等功能,各功能說明分述如下。
1.1.1 模糊搜尋機制
模糊搜尋機制提供模糊運算與判斷,建立搜尋相關(guān)的關(guān)鍵詞字庫,以關(guān)鍵詞字庫內(nèi)容主動向百度搜尋進行搜尋。
1.1.2 網(wǎng)頁爬蟲
網(wǎng)頁爬蟲將百度搜尋后結(jié)果(如回傳的各個網(wǎng)頁內(nèi)容)進行爬行,追蹤相關(guān)連結(jié)網(wǎng)頁并將HTML內(nèi)容暫存。
1.1.3 網(wǎng)頁剖析器
網(wǎng)頁剖析器將網(wǎng)頁爬蟲取得的網(wǎng)頁進行HTML tag解讀,取得主要信息,并有效去除相關(guān)特殊字符(如單引號和雙引號)和避免數(shù)據(jù)庫隱碼攻擊等問題,建立Web Corpus以利后續(xù)之多文本自動摘要之推論。
“食況轉(zhuǎn)播系統(tǒng)”結(jié)合多文本自動摘要技術(shù),實時將各個網(wǎng)頁中相關(guān)美食網(wǎng)站的評論進行自動摘要,有效減少信息量,提取出重點評論摘要,讓使用者能快速瀏覽過去吃過該餐廳或美食消費者的看法與經(jīng)驗。
多文本自動摘要技術(shù)主要參考MEAD套件[3]進行系統(tǒng)實踐,將網(wǎng)頁Corpus中相關(guān)之美食評論輸入至自動摘要模塊中,并由于數(shù)據(jù)龐大需有效和快速的平行運算,故將把此模塊實踐于Hadoop平臺中,并以MapReduce進行實踐,其通過數(shù)據(jù)預(yù)先處理(Preprocess)、特征選?。‵eature Selected)、分類器(Classifier)、重新排序器(Reranker)、產(chǎn)出摘要(Summery)等步驟進行自動摘要提取,詳細功能設(shè)計分述如下。
1.2.1 數(shù)據(jù)預(yù)先處理
將網(wǎng)頁內(nèi)容擷取機器人處理后的HTML進行擷取,并依序定義各個文章(Document)編號和語句(Sentence)編號,以進行各語句權(quán)重計算和摘要產(chǎn)生。
1.2.2 特征選取
“食況轉(zhuǎn)播系統(tǒng)”主要采用主題字詞(Thematic Words)和評論字詞(Comments Terms)兩個特征(Feature)進行字詞子句的權(quán)重計算。
1.2.2.1主題字詞
計算某個語句的主題字詞出現(xiàn)的次數(shù),當(dāng)出現(xiàn)的次數(shù)越多則代表該語句與目標(biāo)主題的關(guān)系越強烈。[4]對于評論文件中的第i個語句si而言,該語句si共包含ni個字詞w,主題字詞評分計算方式如公式(1)所示。
1.2.2.2 評論字詞
計算某個語句的評論字詞出現(xiàn)的次數(shù),當(dāng)出現(xiàn)的次數(shù)越多則代表該語句越具評論意義。[5]對于評論文件中的第i個語句si而言,該語句si共包含ni個字詞w,評論字詞評分計算方式如公式(2)所示。
1.2.3 分類器
就每個特征來討論,每個特征的重要程度有所不同,分類器主要在于做加權(quán)總和,計算出各個語句的權(quán)重,計算方式如公式(3)所示。
1.2.4 重新排序器
主要在于重新計算語句與語句之間的相似度,并設(shè)定門坎值以進行過濾,取出重要且彼此之間相似度不會太高的語句,最后再依設(shè)定的壓縮率進行提?。╡xtract)。
1.2.5 產(chǎn)出摘要
將重新排序器所提取出的語句順序,依數(shù)據(jù)預(yù)先處理之文章(Document)編號、語句(Sentence)編號和原始評論文件進行對應(yīng)(Mapping),取得多評論自動摘要內(nèi)容,并把最后結(jié)果產(chǎn)出,提供給使用者快速瀏覽參考。
網(wǎng)絡(luò)充斥著大量且繁雜的網(wǎng)頁內(nèi)容,當(dāng)分析網(wǎng)頁內(nèi)容時將會因為網(wǎng)頁數(shù)量和內(nèi)文數(shù)量而造成的大量運算。由于執(zhí)行效能考慮,文章將采用云計算進行平行處理,以Hadoop平臺進行實踐(Chen et al.,2012),將每篇評論文章的語句分別執(zhí)行,以快速地計算每個語句的分?jǐn)?shù),并取得最重要的語句,提供使用者決策參考。
本研究設(shè)計的系統(tǒng)可提供給一般民眾使用,使用者可以通過手機連結(jié)至“食況轉(zhuǎn)播系統(tǒng)”,再由系統(tǒng)提供各家餐廳的介紹與評論摘要。讓人們可以快速地決定最佳的用餐地點,甚至在陌生的環(huán)境,也能避免誤”踩地雷“的情況發(fā)生。
“食況轉(zhuǎn)播系統(tǒng)”中,使用者端可達到各個美食餐廳的簡介、各個美食的相關(guān)評論。本研究通過網(wǎng)頁內(nèi)容擷取機器人擷取相關(guān)的美食評論文章,并通過多文本自動摘要技術(shù)提供美食評論摘要,以提供使用者飲食決策參考。如圖2所示,使用者可輸入欲查詢的店家名稱,以搜尋該店家的相關(guān)美食評論摘要,以下以“夏慕尼”為例進行說明。當(dāng)使用者輸入店家名稱,并點擊“美食評論”時,提供該店家過去消費過的使用者經(jīng)驗,并進行文本自動摘要,通過算法摘錄出重要的評論語句,讓使用者可以快速地進行決策參考,如圖3所示。最后,提供地圖導(dǎo)覽功能(如圖4所示)引導(dǎo)消費家前往餐廳。
圖2 主功能畫面
圖3 美食評論畫面
圖4 地圖導(dǎo)覽畫面
本研究著重于使用者對餐廳選擇的決策需要,發(fā)展一套基于網(wǎng)絡(luò)評論的美食推薦系統(tǒng)“食況轉(zhuǎn)播系統(tǒng)”,結(jié)合人工智能和信息檢索技術(shù),從“傳媒”向“智媒”轉(zhuǎn)變[6-7],搜集并統(tǒng)計餐廳相關(guān)信息的推薦,并結(jié)合餐廳介紹與相關(guān)評論,將網(wǎng)絡(luò)信息(例如:博客、愛評網(wǎng)、以及Blog等相關(guān)美食評論)進行自動摘要處理,供使用者快速認(rèn)識該餐廳,評估是否合適作為用餐地點。未來可以嘗試將此系統(tǒng)模型應(yīng)用于各行各業(yè)的評論摘要和推薦信息中,例如旅游業(yè)。