亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合口碑和地理位置的競爭關(guān)系量化模型*

        2020-05-13 04:51:42李艾鮮喬少杰元昌安
        計(jì)算機(jī)與生活 2020年5期
        關(guān)鍵詞:餐廳實(shí)體競爭

        李艾鮮,喬少杰,韓 楠,元昌安,黃 萍,彭 京,周 凱

        1.成都信息工程大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,成都 610225

        2.成都信息工程大學(xué) 軟件工程學(xué)院,成都 610225

        3.成都信息工程大學(xué) 軟件自動生成與智能服務(wù)四川省重點(diǎn)實(shí)驗(yàn)室,成都 610225

        4.成都信息工程大學(xué) 管理學(xué)院,成都 610103

        5.南寧師范大學(xué),南寧 530001

        6.四川省公安廳,成都 610014

        1 引言

        識別競爭對手、量化競爭關(guān)系是幫助企業(yè)、商家保持核心競爭力的重要方法[1]?,F(xiàn)有研究通過專利挖掘[2-3]、用戶評論[4-5]挖掘等方法識別競爭對手,鮮有競爭關(guān)系量化研究。翟東偉[6]構(gòu)建主題-機(jī)構(gòu)模型對專利機(jī)構(gòu)的主題和競爭關(guān)系進(jìn)行分析。Rodriguez 等人[7]提出了一種基于圖形核的度量方法識別競爭對手。陳元等人[8]從Web 用戶評論中構(gòu)建企業(yè)競爭情報挖掘模型獲取企業(yè)產(chǎn)品競爭情報。聶卉等人[9]通過Word2Vec 結(jié)合依存語法分析在線評論進(jìn)行領(lǐng)域特征詞典構(gòu)建和用戶觀點(diǎn)抽取。上述工作僅實(shí)現(xiàn)了競爭情報的挖掘和競爭對手的識別,不能反映出實(shí)體間競爭關(guān)系的強(qiáng)弱。Yang 等人[10]提出主題因子圖模型來量化推斷企業(yè)間的競爭關(guān)系,但采用半監(jiān)督學(xué)習(xí)方法,其實(shí)用性有限。上述研究均未考慮地理位置對競爭關(guān)系的影響,顯然存在局限。

        研究動機(jī):口碑傳播已被證明對消費(fèi)者的購買決策起著重要的作用[11]。通過融合消費(fèi)者口碑與地理位置信息進(jìn)一步改進(jìn)現(xiàn)有競爭關(guān)系挖掘方法,提升模型的實(shí)用性、客觀性和準(zhǔn)確性。電商企業(yè)可以將本文提出的新方法應(yīng)用于評論特征抽取、評論內(nèi)容中的企業(yè)競爭對手識別,將競爭關(guān)系發(fā)現(xiàn)與量化輸出相結(jié)合,克服傳統(tǒng)的競爭關(guān)系挖掘方法不考慮地理位置信息影響的缺點(diǎn)。融合消費(fèi)者口碑和實(shí)體空間位置兩大因素,科學(xué)地量化實(shí)體間競爭關(guān)系。

        2 理論基礎(chǔ)

        本文中定義的實(shí)體包括但不限于企業(yè)、商店、餐廳等。首先給出競爭關(guān)系網(wǎng)絡(luò)的定義。

        定義1(競爭關(guān)系網(wǎng)絡(luò))網(wǎng)絡(luò)G=(V,E,S,L),V是實(shí)體的集合,E?V×V表示實(shí)體間的關(guān)系,S表示該實(shí)體所有消費(fèi)者的評論,L代表實(shí)體的地理位置。

        定義2(實(shí)體主題模型)實(shí)體的全部消費(fèi)者評論集合θd的主題模型是單詞{P(w|θd)}的多項(xiàng)分布。一個餐廳ei的所有消費(fèi)者評論是從餐廳的主題模型θd中抽樣形成的。

        定義3(困惑度[12])用來度量一個概率分布或概率模型預(yù)測結(jié)果的好壞程度,定義如下所示:

        其中,p(w)表示LDA(latent Dirichlet allocation)模型中任意一個詞w的概率,定義為:

        式(2)中,w代表詞,z代表主題,d代表文檔,N表示測試集中出現(xiàn)的所有詞的數(shù)量(不排重)。p(z|d)表示從文檔d抽取主題z的概率值,p(w|z)表示從主題z中抽取詞w的概率值。因?yàn)長DA 是詞袋模型,困惑度是語料庫的極大似然估計(jì),即所有詞的概率乘積,因此對于未知分布的數(shù)據(jù)集,其困惑度的值越小,說明主題模型越好,記錄該條件下LDA 主題模型取得的主題數(shù)量為K(K為最優(yōu)值)。

        定義4(空間相鄰關(guān)系)當(dāng)兩個實(shí)體在地理空間中的最短路徑小于或等于給定閾值ξ時,稱兩個實(shí)體空間相鄰,用neighbor表示,定義如下:

        當(dāng)空間中兩個實(shí)體滿足式(3)時,說明空間中的實(shí)體對象ei和ej相鄰。

        3 競爭關(guān)系量化

        本文基于消費(fèi)者口碑(用戶評論)和地理位置信息設(shè)計(jì)了LTM(location &topical model)模型,量化實(shí)體間競爭關(guān)系,輔助實(shí)體進(jìn)行商業(yè)決策。

        3.1 消費(fèi)者口碑主題提取

        消費(fèi)者口碑是由消費(fèi)者評論文本構(gòu)成的文檔數(shù)據(jù),LDA 模型將主題視為詞匯的概率分布,文檔是主題的隨機(jī)混合[13]。本文通過LDA 主題模型提取實(shí)體消費(fèi)者評論的主題與主題詞。根據(jù)主題模型提出的主題和主題詞分布,綜合咨詢專家意見和評價,建立“主題-特征”規(guī)則。依次對所有口碑評論進(jìn)行規(guī)則匹配,統(tǒng)計(jì)規(guī)則匹配頻率計(jì)算口碑相似度。

        本文把實(shí)體i記為ei,其對應(yīng)的所有消費(fèi)者口碑評論視為一篇文檔。假設(shè)有n個實(shí)體,那么對應(yīng)n篇文檔。假設(shè)有K個主題,則實(shí)體i的文本中的第j個詞匯wij可以表示為:

        式中,d為n篇文檔的集合,zi是潛在變量,代表第j個詞匯標(biāo)簽wij取自該主題,p(wij|zi)是詞匯wij屬于主題zi的概率,p(zi|d)表示給定主題zi屬于當(dāng)前文本的概率。

        主題提取先統(tǒng)計(jì)d中出現(xiàn)過的詞匯(不計(jì)重)W,制作詞匯表,現(xiàn)假設(shè)K個主題形成D個文本,以W個唯一性詞匯表示,記φk=p(wij|zi=k)為主題zi下W個詞匯的多項(xiàng)分布,其中wij是W個唯一性詞匯表中的詞匯。記θn=p(zi|d)為文檔d在K個主題上的多項(xiàng)分布。于是,文檔d中詞匯w的概率可表示為:

        LDA 模型在上作Dirichlet(α)的先驗(yàn)概率假設(shè),在上同樣作Dirichlet(β)的先驗(yàn)假設(shè),得到LDA 模型各層參數(shù)之間依賴關(guān)系的數(shù)學(xué)表述[14]如下:

        LDA 主題提取模型需要給定數(shù)據(jù)集和主題的數(shù)量K,根據(jù)定義3 采用困惑度來確定K的取值。

        3.2 消費(fèi)者口碑相似度量化

        在消費(fèi)者口碑中,競爭關(guān)系越大的實(shí)體,其消費(fèi)者的評論相似度越高。某商店消費(fèi)者評論出現(xiàn)頻率最高的詞匯是“好喝”“干凈”“服務(wù)”,其中“好喝”是針對奶茶口味,“干凈”是針對設(shè)備,“服務(wù)”是針對店鋪環(huán)境的。相似評論說明:在A 商店消費(fèi)的消費(fèi)者,有很大可能會在與A 相似度高的B 商店消費(fèi)。因此需要對消費(fèi)者口碑進(jìn)行相似度量化。

        根據(jù)主題模型建立“主題-特征”規(guī)則。依次對n篇文檔利用式(6)進(jìn)行規(guī)則匹配。

        “主題-特征”在本文檔中出現(xiàn)則為匹配成功,否則為失敗。以某一餐廳的評論為例,存在規(guī)則“foodnice”,則在該餐廳的所有用戶口碑評論中搜索“foodnice”是否同時存在,若存在則匹配成功,score=1;反之失敗,score=0 。為了得每個實(shí)體的規(guī)則匹配分?jǐn)?shù),設(shè)計(jì)打分函數(shù)Sei:

        式(7)為統(tǒng)計(jì)匹配成功的頻率,式中ei代表第i個實(shí)體用戶評論數(shù)據(jù),作為函數(shù)的輸入;R代表規(guī)則數(shù)量;D代表規(guī)則數(shù)量;ni表示ei中詞的數(shù)量;scored代表第i個實(shí)體匹配規(guī)則r后得到的分?jǐn)?shù)。匹配完D個規(guī)則后,實(shí)體i獲得一個分?jǐn)?shù)score。

        式(8)用于計(jì)算用戶評論相似度。simij表示實(shí)體i與j的相似度。sim值越小,說明實(shí)體相似度越大。

        算法1消費(fèi)者口碑量化算法

        算法1 的基本思想為:LDA 主題提取過程(第1行~第10 行),從參數(shù)為α的Dirichlet 分布中抽樣生成第i個文檔ni的主題分布θn;從參數(shù)為β的Dirichlet 分布中抽樣生成第k個主題的詞分布φk;對于每一個詞wij及其所屬主題zi,首先從多項(xiàng)式分布θn中抽樣得到zi=p(zi|θn),然后從多項(xiàng)式分布φk中抽樣得到wij=p(wij|zi,φk);求口碑相似度(第11 行~第15 行)。算法中的采樣方法為Gibbs 采樣[15]。參數(shù)說明如表1 所示。

        Table 1 Parameters and description of algorithm 1表1 算法1 參數(shù)及說明

        時間復(fù)雜性分析:算法1時間復(fù)雜度為O(K×N),其中K表示主題數(shù)量,N表示文檔的總數(shù)。

        3.3 地理位置相似度量化

        本節(jié)設(shè)計(jì)了符合地理位置屬性在實(shí)際生活中對競爭關(guān)系影響特點(diǎn)的相似度量化函數(shù)。dis是距離矩陣,disij表示餐廳i與餐廳j之間的距離。算法的核心是將具有相似距離關(guān)系的餐廳聚集到一起,并賦予它們相同的影響因子α,最終由實(shí)體距離影響力量化函數(shù)M(disij)輸出實(shí)體距離影響力量化結(jié)果。

        根據(jù)定義4,以存在相鄰關(guān)系的實(shí)體i、j的相鄰關(guān)系neighbor(ei,ej)作為聚類的初始值,使用KNN(Knearest neighbor)算法對實(shí)體的經(jīng)度緯度進(jìn)行聚類得到n個簇,記為C,C={C1,C2,…,Cn}。實(shí)際生活中,距離的遠(yuǎn)近將影響實(shí)競爭關(guān)系的強(qiáng)弱。把地理位置具有相似的點(diǎn)聚集到一起,同一個簇內(nèi),在地理位置屬性上存在相似關(guān)系。不同的簇則相似性較弱。在互聯(lián)網(wǎng)中,相距較遠(yuǎn)的實(shí)體也可能存在競爭關(guān)系。以美團(tuán)為例,理發(fā)店A 和理發(fā)店B 相距5 km,但其主營業(yè)務(wù)一樣,任然存在競爭關(guān)系。單純地考慮距離來評價競爭關(guān)系會夸大距離對結(jié)果的影響,這顯然是不合理的,因此本文引入地理位置屬性影響因子α={α1,α2,…,αn},定義如下:

        式中,Ci為簇i內(nèi)點(diǎn)的數(shù)量,n表示簇的數(shù)量。α的作用包括:(1)調(diào)整距離對競爭關(guān)系的影響,強(qiáng)化簇內(nèi)競爭關(guān)系,弱化簇間競爭關(guān)系;(2)給相似點(diǎn)賦相同的權(quán)重值,簡化參數(shù)。

        由實(shí)體距離影響力量化函數(shù):

        輸出實(shí)體距離影響力量化結(jié)果,式(10)中disij表示一個二維矩陣,矩陣的行代表實(shí)體ei,矩陣的列代表實(shí)體ej,矩陣第i行第j列存放ei到ej的距離。M(disij)值越小,說明競爭關(guān)系越強(qiáng)。

        3.4 LTM 模型

        在圖G=(V,E,S,L)中,矩陣E中的值表示競爭關(guān)系的強(qiáng)弱。本文提出競爭關(guān)系量化函數(shù)φij,融合3.1節(jié)及3.2 節(jié)消費(fèi)者口碑量化結(jié)果simij、實(shí)體地理位置屬性影響力量化結(jié)果M(disij),其公式為:

        Eij表示實(shí)體i與實(shí)體j競爭關(guān)系歸一化結(jié)果:

        競爭關(guān)系量化算法參數(shù)說明如表2 所示。

        Table 2 Parameters and description of algorithm 2表2 算法2 參數(shù)及說明

        算法2競爭關(guān)系量化算法

        算法2 工作原理:計(jì)算競爭關(guān)系量化值φij(第1行~第5 行);查找φij中的最大值(第6 行),查找φij中的最小值(第7 行);對競爭關(guān)系量化結(jié)果進(jìn)行歸一化處理(第8 行~第12 行)。

        時間復(fù)雜性分析:通過分析算法2,可知其時間復(fù)雜度為O(N2),N表示實(shí)體數(shù)量。

        4 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)使用的數(shù)據(jù)為美國肯塔基州北部的城市Louisville地區(qū)Yelp網(wǎng)站上的餐廳數(shù)據(jù),包含2 375個餐廳ID 及其地理位置屬性和66 156 條用戶評論。實(shí)驗(yàn)硬件平臺為:Intel?CoreTMi5-4200M CPU 2.50 GHz,操作系統(tǒng)平臺為Windows 10。

        4.1 主題提取與相似度計(jì)算

        在主題提取階段,通過多次迭代得到困惑度變化曲線,并確定最佳主題數(shù)。實(shí)驗(yàn)中發(fā)現(xiàn)輸入相同主題數(shù),困惑度會有細(xì)微的波動。因此同一主題數(shù)采用多次實(shí)驗(yàn)取均值得到一條穩(wěn)定的困惑度曲線。

        如圖1 所示,當(dāng)主題數(shù)量為60 時,困惑度曲線穩(wěn)定收斂,說明該條件下模型對于實(shí)驗(yàn)數(shù)據(jù)集中的有效信息擬合較好,因此最佳的主題數(shù)取值為60。

        Fig.1 Curve of perplexity圖1 困惑度曲線

        根據(jù)主題提取結(jié)果,經(jīng)過咨詢領(lǐng)域?qū)<?,合并相似主題后,得到如表3 所示的規(guī)則。

        Table 3 Rules table of“Topic-Feature”表3“主題-特征”規(guī)則表

        通過3.2 節(jié)的方法對數(shù)據(jù)集中的2 375 個餐廳進(jìn)行打分,本文以其中5 家餐廳為例,結(jié)果如表4 所示。根據(jù)式(8)計(jì)算餐廳之間的相似度,矩陣的行數(shù)表示i實(shí)體,列數(shù)表示j實(shí)體,simij表示餐廳i和餐廳j的消費(fèi)者口碑相似度。

        4.2 競爭關(guān)系量化

        以表4 所述餐廳為例根據(jù)定義4 計(jì)算餐廳i與餐廳j之間的距離,實(shí)驗(yàn)將閾值θ設(shè)置為1 000 m,則數(shù)據(jù)中具有neighbor關(guān)系的點(diǎn)有20 個。實(shí)驗(yàn)中采用KNN 聚類算法,使用歐氏距離作為度量函數(shù),把地理位置屬性相似的餐廳聚為一類,重復(fù)20 次,選聚類結(jié)果和neighbor關(guān)系點(diǎn)重合度最高的結(jié)果作為實(shí)驗(yàn)的聚類結(jié)果。根據(jù)聚類結(jié)果,由式(9)計(jì)算得到α值,其值是簇內(nèi)的餐廳距離計(jì)算的權(quán)重,實(shí)驗(yàn)中簇與簇之間的α取0.02。

        Table 4 Rating score of rules matching表4 規(guī)則匹配評分表

        根據(jù)式(10)計(jì)算餐廳競爭關(guān)系地理位置屬性影響力量化結(jié)果M(disij)。根據(jù)3.4 節(jié)所提方法,得到最終的餐廳間競爭關(guān)系量化結(jié)果??梢暬瘮?shù)據(jù)集中前5 個餐廳之間的競爭關(guān)系,如圖2 所示。

        Fig.2 Visualized results of competitive relationship圖2 競爭關(guān)系量化結(jié)果

        使用僅考慮口碑對競爭關(guān)系影響的TM(topical model)模型進(jìn)行對比實(shí)驗(yàn),其結(jié)果如圖3 所示。

        Fig.3 Comparison results of TM and LTM models圖3 TM 與LTM 模型對比實(shí)驗(yàn)結(jié)果

        圖3 橫軸Rij代表餐廳i與餐廳j進(jìn)行比較,縱軸Eij代表餐廳i與餐廳j的競爭關(guān)系量化結(jié)果,由于篇幅限制圖3 僅給出實(shí)驗(yàn)的前10 個量化結(jié)果。通過圖3 可以發(fā)現(xiàn):(1)TM 模型曲線波動很大,說明僅僅靠用戶口碑評論量化競爭關(guān)系容易會出現(xiàn)極端情況;(2)以第5 個點(diǎn)和第6 個點(diǎn)為例,餐廳之間的競爭關(guān)系幾乎為0,這顯然不符合日常規(guī)律。因此僅僅靠口碑量化競爭關(guān)系是不準(zhǔn)確的,因?yàn)橥惒蛷d的用戶評論用詞的重合度容易出現(xiàn)極端情況,不能很好地描述餐廳實(shí)際的競爭關(guān)系。圖3 中LTM 模型在考慮地理位置屬性后,對競爭關(guān)系的刻畫符合實(shí)際情況。以Yelp 網(wǎng)站而言,不論餐廳在城市的哪個角度,都不應(yīng)該出現(xiàn)競爭關(guān)系為0 的情況,因?yàn)橄M(fèi)者完全可以驅(qū)車前往,即使是相距很遠(yuǎn)的餐廳也應(yīng)該存在競爭關(guān)系。綜上,LTM 模型能較好地刻畫餐廳之間的競爭關(guān)系。

        5 結(jié)束語

        本文考慮消費(fèi)者口碑和實(shí)體地理位置屬性,提出LTM 模型,量化表達(dá)消費(fèi)者口碑和地理位置屬性對實(shí)體競爭關(guān)系的影響。未來的研究工作包括:(1)進(jìn)一步挖掘?qū)嶓w競爭關(guān)系影響因素,例如時間屬性對競爭關(guān)系的影響;(2)現(xiàn)有競爭關(guān)系量化算法存在大量重復(fù)計(jì)算,設(shè)計(jì)新的算法降低時間復(fù)雜度,提升時間效率。

        猜你喜歡
        餐廳實(shí)體競爭
        TARENTUM萄木餐廳
        LUNAR餐廳
        城里的怪餐廳
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        感謝競爭
        兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        “秀色可餐”的虛擬餐廳
        華人時刊(2017年23期)2017-04-18 11:56:38
        兒時不競爭,長大才勝出
        国产精品午夜福利亚洲综合网| 欧美一片二片午夜福利在线快| 野外三级国产在线观看| 午夜精品人妻中字字幕| 日本一区二区三区高清在线视频| 国产99在线 | 亚洲| 男女超爽视频免费播放| 精品高清国产乱子伦| 国产精品亚洲综合久久| 精品国产乱码久久久久久婷婷 | 一本色道久久88加勒比—综合| аⅴ天堂中文在线网| 亚洲国产美女精品久久久| 天天躁日日操狠狠操欧美老妇| 精品黄色一区二区三区| 久久精品国产成人午夜福利| 国产一区二区精品久久| 亚洲AV无码精品一区二区三区l| 久久亚洲精品中文字幕蜜潮| 久久天天躁狠狠躁夜夜av浪潮| 涩涩鲁精品亚洲一区二区| 蜜臀av色欲a片无码精品一区| 性一交一乱一伦| 国产精品无码久久AⅤ人妖| 日韩美女av一区二区| 色哟哟精品视频在线观看| 日韩亚洲中字无码一区二区三区| 亚洲又黄又大又爽毛片| 极品粉嫩小仙女高潮喷水操av| 久久精品国产视频在热| 人妻无码aⅴ中文系列久久免费 | 大陆成人精品自拍视频在线观看| 成人无码av一区二区| 国产思思99re99在线观看| 久久久婷婷综合亚洲av| 国产农村妇女精品一区| 国产大片黄在线观看| 国产看黄网站又黄又爽又色| 国产V亚洲V天堂A无码| 免费av日韩一区二区| 99国产精品无码|