亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)近鄰傳播聚類挖掘算法的競(jìng)爭(zhēng)情報(bào)研究

        2022-06-09 07:46:52李廣明張海濤
        關(guān)鍵詞:優(yōu)化

        李廣明,于 健,張海濤

        (1.天津傳媒學(xué)院 圖書館,天津 300381;2.天津大學(xué) 智能與計(jì)算學(xué)部,天津 300072;3.天津師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,天津 300387)

        大數(shù)據(jù)分析技術(shù)的發(fā)展給企業(yè)競(jìng)爭(zhēng)情報(bào)分析帶來(lái)新的發(fā)展機(jī)遇[1],通過(guò)大數(shù)據(jù)技術(shù)對(duì)企業(yè)競(jìng)爭(zhēng)情報(bào)數(shù)據(jù)進(jìn)行挖掘分析,可以獲得企業(yè)自身乃至于企業(yè)所在的整個(gè)行業(yè)的競(jìng)爭(zhēng)情報(bào)內(nèi)在數(shù)關(guān)聯(lián)數(shù)據(jù)。企業(yè)競(jìng)爭(zhēng)情報(bào)分析根據(jù)需求不同,可以建立不同的企業(yè)競(jìng)爭(zhēng)分析模型,但是這些分析模型的建立需要大量統(tǒng)計(jì)數(shù)據(jù)支持。聚類作為大規(guī)模數(shù)據(jù)統(tǒng)計(jì)分析的常用方法,能夠有效挖掘海量異構(gòu)多維數(shù)據(jù)之間的關(guān)系,為競(jìng)爭(zhēng)情報(bào)數(shù)據(jù)各種模型分析提供數(shù)據(jù)支持。

        當(dāng)前,關(guān)于競(jìng)爭(zhēng)情報(bào)分析中的聚類應(yīng)用研究較多。曹鈺等[2]對(duì)企業(yè)競(jìng)爭(zhēng)情報(bào)數(shù)據(jù)進(jìn)行特征因子提取,然后采用K-means聚類進(jìn)行數(shù)據(jù)情報(bào)分析,分析效果較好。張振華等[3]重點(diǎn)對(duì)商業(yè)競(jìng)爭(zhēng)情報(bào)進(jìn)行分析,主要數(shù)據(jù)來(lái)源為商品的在線評(píng)論數(shù)據(jù),運(yùn)用文本挖掘方法完成情報(bào)分析,有效提取相應(yīng)商品的用戶偏好。洪磊等[4]對(duì)公安情報(bào)數(shù)據(jù)進(jìn)行了分析,數(shù)據(jù)來(lái)源為CNKI文獻(xiàn)數(shù)據(jù),分析了近年來(lái)公安情報(bào)數(shù)據(jù)的研究熱點(diǎn)內(nèi)容。以上文獻(xiàn)用不同的數(shù)據(jù)采集方法獲得了競(jìng)爭(zhēng)情報(bào)樣本,并進(jìn)行了競(jìng)爭(zhēng)情報(bào)分析,但是不同情報(bào)數(shù)據(jù)來(lái)源造成的情報(bào)樣本異構(gòu)性,為競(jìng)爭(zhēng)情報(bào)分析帶來(lái)了新的挑戰(zhàn)。

        近鄰傳播(Affinity propagation,AP)聚類算法作為一種較為新穎的聚類方法,與傳統(tǒng)聚類方法相比,無(wú)需事先給定聚類數(shù)目,且具有更好的聚類性能和效率。因此,本文采用AP聚類算法應(yīng)用于競(jìng)爭(zhēng)情報(bào)分析。但是傳統(tǒng)AP聚類算法的性能對(duì)偏向參數(shù)的依賴度較高,因此本文提出采用布谷鳥(niǎo)算法對(duì)AP聚類的偏向參數(shù)進(jìn)行優(yōu)化,以提高AP算法在競(jìng)爭(zhēng)情報(bào)分析中的適用性。

        1 基于聚類的競(jìng)爭(zhēng)情報(bào)分析

        企業(yè)競(jìng)爭(zhēng)情報(bào)根據(jù)內(nèi)外部競(jìng)爭(zhēng)環(huán)境分析結(jié)果,制定企業(yè)發(fā)展戰(zhàn)略,對(duì)戰(zhàn)略進(jìn)行評(píng)估后進(jìn)行實(shí)施,并根據(jù)競(jìng)爭(zhēng)環(huán)境變化檢驗(yàn)戰(zhàn)略的有效性。在企業(yè)競(jìng)爭(zhēng)情報(bào)研究中,競(jìng)爭(zhēng)情報(bào)的收集和分析最關(guān)鍵,前者是競(jìng)爭(zhēng)情報(bào)樣本獲取的手段,通過(guò)不同渠道和手段來(lái)獲取競(jìng)爭(zhēng)情報(bào)數(shù)據(jù);后者通過(guò)對(duì)競(jìng)爭(zhēng)情報(bào)數(shù)據(jù)樣本進(jìn)行挖掘分析來(lái)獲得競(jìng)爭(zhēng)情報(bào)分析結(jié)果。

        競(jìng)爭(zhēng)情報(bào)數(shù)據(jù)樣本收集的廣度和維度為競(jìng)爭(zhēng)情報(bào)分析提供了數(shù)據(jù)支持。一般而言,競(jìng)爭(zhēng)情報(bào)數(shù)據(jù)收集流程如圖1所示[5]。

        圖1 競(jìng)爭(zhēng)情報(bào)樣本采集

        競(jìng)爭(zhēng)情報(bào)分析將大規(guī)模的競(jìng)爭(zhēng)情報(bào)數(shù)據(jù)進(jìn)行量化及歸一化處理,然后通過(guò)大數(shù)據(jù)分析方法形成統(tǒng)計(jì)庫(kù),接著根據(jù)競(jìng)爭(zhēng)情報(bào)服務(wù)需求建立相應(yīng)的分析模型,除了對(duì)數(shù)據(jù)的分析之外,還需要結(jié)合行業(yè)管理及情報(bào)分析師經(jīng)驗(yàn)協(xié)同評(píng)估分析模型結(jié)果,最后獲得競(jìng)爭(zhēng)情報(bào)分析結(jié)果,并生成競(jìng)爭(zhēng)情報(bào)服務(wù)供需求方使用,其具體流程如圖2所示。

        圖2 競(jìng)爭(zhēng)情報(bào)分析流程

        本文研究主要集中在分析系統(tǒng)的前半部分,即分析模型的統(tǒng)計(jì)庫(kù)形成,采用聚類算法完成競(jìng)爭(zhēng)情報(bào)數(shù)據(jù)統(tǒng)計(jì)。

        2 改進(jìn)的AP聚類

        2.1 AP聚類

        設(shè)S(i,j)為樣本i與j之間的相似度,表示方法為[6]

        根據(jù)式(1)得到待聚類的所有點(diǎn)的相似度矩陣,其中對(duì)角線元素稱為偏向參數(shù)P,P一般設(shè)定為相同值。在實(shí)際聚類時(shí),P值對(duì)聚類類別數(shù)影響較大,在操作時(shí)應(yīng)合理設(shè)置。

        r(i,j)表示吸引度函數(shù),a(i,j)表示隸屬度函數(shù),其組成矩陣R=[r(i,j)]N×N和隸屬度矩陣A=[a(i,j)]N×N,當(dāng)r(i,j)+a(i,j)越大,表示點(diǎn)i和j的相似程度越大。

        r(i,j)和a(i,j)的更新過(guò)程為[7]

        r(j,j)為節(jié)點(diǎn)j的自吸引度。

        當(dāng)i=j時(shí),a(i,j)的計(jì)算公式變?yōu)閇8]

        在式(2)等式兩邊均加上a(i,j),則有

        設(shè)E=[e(i,j)]N×N=[r(i,j)+a(i,j)]N×N,那么E=R+A稱為決策陣,定義Γ=[τ(i,j)]N×N=[s(i,j)+a(i,j)]N×N,那么Γ=S+A為潛力陣。式(5)變?yōu)?/p>

        在R和A的更新中為了防止震蕩,引入阻尼?(?∈[0,1)),其有效平衡了震蕩消除和收斂速度。T時(shí)刻的R和A分別為[9]

        樣本t的AP聚類輪廓(Silhouette)評(píng)價(jià)指標(biāo)

        a(t)為t與同類別其他點(diǎn)的距離的均值,b(t)=min{d(t,C i)},Sil(t)取值[-1,1]。

        2.2 布谷鳥(niǎo)搜索(Cuckoo Search,CS)算法

        設(shè)鳥(niǎo)群包含N只布谷鳥(niǎo),初始位置為X0=,鳥(niǎo)巢被宿主發(fā)現(xiàn)概率為Pa,設(shè)最優(yōu)鳥(niǎo)巢和最優(yōu)適應(yīng)度為和。

        布谷鳥(niǎo)飛行服從分布[10]

        式中:s表示飛行步長(zhǎng)。布谷鳥(niǎo)位置更新方法為[11]

        式中:t=1,2,3,…,n;α為移動(dòng)步長(zhǎng);Levy(λ)服從萊維分布[12]

        式中:u、v分別服從u~N(0,σ2u)和v~N(0,σ2v)的分布,λ=1.5。

        式中:ζ為Gamma函數(shù)。

        設(shè)第t次飛行后適應(yīng)度最優(yōu)解,,其中1<t≤T。令r∈[0,1],滿足r<Pa則不進(jìn)行位置更新,在r>Pa的條件下繼續(xù)飛行執(zhí)行鳥(niǎo)巢位置更新[13]

        2.3 布谷鳥(niǎo)優(yōu)化的AP聚類流程

        適應(yīng)度函數(shù)是群體智能優(yōu)化算法尋優(yōu)的統(tǒng)稱,在面向不同問(wèn)題時(shí)需進(jìn)行具體設(shè)計(jì),而本文AP聚類應(yīng)用采用了輪廓指標(biāo)作為適應(yīng)度函數(shù)。將P作為鳥(niǎo)巢位置,設(shè)Sil(t)為適應(yīng)度函數(shù)。首先獲得待聚類的競(jìng)爭(zhēng)情報(bào)樣本,然后計(jì)算樣本S(i,j)矩陣,設(shè)布谷鳥(niǎo)巢個(gè)數(shù)為N,最大迭代次數(shù)Tmax,初始化r(i,j)=0、a(i,j)=0,然后進(jìn)行CS-AP聚類,其算法流程如圖3所示。

        圖3 CS-AP聚類算法流程圖

        3 實(shí)例測(cè)試結(jié)果與分析

        3.1 試驗(yàn)環(huán)境

        為了驗(yàn)證布谷鳥(niǎo)優(yōu)化的AP聚類算法在競(jìng)爭(zhēng)情報(bào)中的應(yīng)用性能,進(jìn)行實(shí)例測(cè)試。試驗(yàn)環(huán)境為臺(tái)式電腦,操作系統(tǒng)為開(kāi)源Linux系列的Ubuntu 21.04(Hirsute Hippo)正式版,CPU為英特爾I7,內(nèi)存8G,顯卡為GTX970,軟件為MATLAB R2013b。本文數(shù)據(jù)源為中關(guān)村在線,對(duì)10個(gè)不同手機(jī)制造商的共計(jì)100款手機(jī)信息進(jìn)行了爬蟲(chóng)抓取,對(duì)100個(gè)手機(jī)商品進(jìn)行競(jìng)爭(zhēng)情報(bào)分析,訓(xùn)練和測(cè)試比例為8∶2,抓取的數(shù)據(jù)特征包括手機(jī)型號(hào)、CPU、內(nèi)存、攝像頭特征、OS、用戶評(píng)價(jià)等。首先采用布谷鳥(niǎo)優(yōu)化的AP聚類算法對(duì)樣本進(jìn)行聚類,分析手機(jī)性能和用戶評(píng)價(jià)聚類結(jié)果;其次分別采用AP算法和布谷鳥(niǎo)優(yōu)化的AP算法對(duì)樣本進(jìn)行聚類,分析兩者聚類結(jié)果的聚類樣本類間距離性能;最后分別驗(yàn)證常用聚類算法和本文算法在分析手機(jī)競(jìng)爭(zhēng)情報(bào)聚類中的性能。

        3.2 數(shù)據(jù)的預(yù)處理

        本文采用L1范數(shù)正則化來(lái)完成特征選擇。首先計(jì)算L1范數(shù)評(píng)分值,并將適應(yīng)度的閥值設(shè)置為0.6,以便減少數(shù)據(jù)維度。然后,通過(guò)簡(jiǎn)單快捷的均值方差歸一化方法對(duì)清洗和特征選擇后的樣本進(jìn)行歸一化,具體計(jì)算公式如下

        式中:min表示下界值,max表示上界值,X表示輸入特征值,Xscale表示歸一化后的特征值。

        3.3 CS-AP聚類結(jié)果

        根據(jù)抓取的手機(jī)性能參數(shù)進(jìn)行CS-AP聚類計(jì)算,選取輪廓評(píng)價(jià)指標(biāo)作為聚類結(jié)束條件。CS的主要參數(shù)Pa=0.25,λ=1.5,α=1,AP算法?=0.7。完成聚類時(shí),手機(jī)樣本按性能優(yōu)劣從高到低被分為了4類,聚類結(jié)果如表1所示。

        表1 手機(jī)性能聚類

        下面對(duì)用戶評(píng)價(jià)進(jìn)行分詞提取,然后采用CS-AP聚類,用戶評(píng)價(jià)等級(jí)按照從高到低被分為了1~5等,聚類結(jié)果如表2所示。

        表2 手機(jī)用戶評(píng)價(jià)聚類

        對(duì)比表1和表2,可以獲取多種手機(jī)的行業(yè)競(jìng)爭(zhēng)情報(bào)數(shù)據(jù),比如手機(jī)性能優(yōu)劣與用戶評(píng)價(jià)等級(jí)并沒(méi)有直接聯(lián)系,高配性能手機(jī)樣本共有9個(gè),但是高配中用戶評(píng)價(jià)為優(yōu)秀的只有29個(gè)樣本,原因可能是用戶覺(jué)得這款手機(jī)性價(jià)比不高,或者高配的性能并沒(méi)有得到用戶的認(rèn)可,這就可以為這款手機(jī)制造商的產(chǎn)品性能改進(jìn)和產(chǎn)品定價(jià)提供幫助。同時(shí)根據(jù)表1和表2數(shù)據(jù),可以具體分析出手機(jī)的哪些性能因素是用戶最關(guān)心最在意的,這樣也方便手機(jī)行業(yè)進(jìn)行調(diào)整設(shè)計(jì)及生產(chǎn)戰(zhàn)略,優(yōu)化制造成本優(yōu)化。

        3.4 AP和CS-AP聚類性能對(duì)比

        為了進(jìn)一步驗(yàn)證布谷鳥(niǎo)算法在AP聚類中的優(yōu)化性能,分別采用AP算法和CS-AP算法對(duì)手機(jī)樣本進(jìn)行聚類測(cè)試,計(jì)算各手機(jī)樣本到各自聚類中心的歐式距離,結(jié)果如圖4所示。

        圖4 AP和CS-AP算法的歐式距離

        從圖4可以看出,AP算法的各樣本點(diǎn)至類別中心點(diǎn)的距離基本在0.2左右波動(dòng),而CS-AP算法的歐式距離基本在0.13左右波動(dòng),CS-AP優(yōu)于AP。另一方面,AP算法的距離波動(dòng)幅度更大,而CS-AP算法的距離波動(dòng)偏小,這表明CS-AP算法的類間距離更小,聚類的中心點(diǎn)選擇更優(yōu)。原因是采用CS算法對(duì)偏置參數(shù)P進(jìn)行優(yōu)化后,聚類類別數(shù)和聚類中心點(diǎn)數(shù)選擇更加合理,AP算法能夠獲得更好的聚類效果。

        采用AP和CS-AP算法對(duì)80個(gè)樣本的輪廓性能進(jìn)行測(cè)試,計(jì)算方法參照式(9),結(jié)果如表3所示。

        表3 AP和CS-AP算法的輪廓性能

        從表3可知,CS-AP的80個(gè)樣本的平均值為0.829 5,明顯優(yōu)于AP算法的0.731 6,而且標(biāo)準(zhǔn)差更優(yōu)。這表明經(jīng)過(guò)CS優(yōu)化后,聚類效果得到了明顯改善,樣本的類間分布更緊密、更靠近聚類中心,下面對(duì)兩者的收斂性能進(jìn)行測(cè)試。

        從圖5可以看出,經(jīng)過(guò)AP迭代,兩種算法的Sil值標(biāo)準(zhǔn)差快速減小直至穩(wěn)定,但是對(duì)比發(fā)現(xiàn),AP算法在迭代過(guò)程中出現(xiàn)多次標(biāo)準(zhǔn)差局部收斂的假象,在迭代次數(shù)為[18,22]、[37,39]等階段,標(biāo)準(zhǔn)差幾乎沒(méi)發(fā)生變化,而CS-AP算法的標(biāo)準(zhǔn)差一直在減小。在迭代50次后,CS-AP算法達(dá)到穩(wěn)定,收斂于0.25左右,而AP算法迭代80次后才收斂于0.5,因此CS-AP算法的收斂性能更優(yōu)。經(jīng)過(guò)CS優(yōu)化后,AP算法能夠獲得更優(yōu)的偏置參數(shù)P,這為后續(xù)的聚類迭代運(yùn)算節(jié)省了時(shí)間,且取得了更優(yōu)的標(biāo)準(zhǔn)差值。

        圖5 AP和CS-AP算法的收斂性

        3.5 不同聚類算法的輪廓性能

        下面對(duì)常用競(jìng)爭(zhēng)情報(bào)聚類算法進(jìn)行聚類測(cè)試,比較其在手機(jī)行業(yè)競(jìng)爭(zhēng)情報(bào)中的性能,分別采用均值聚類算法[14]、層次聚類算法[15]、改進(jìn)的Kmeans算法[16]和CS-AP算法方法對(duì)80個(gè)手機(jī)樣本進(jìn)行測(cè)試。測(cè)試結(jié)果見(jiàn)圖6。

        圖6 不同聚類算法的輪廓性能

        圖6展示了4種算法的聚類過(guò)程中,所有手機(jī)樣本Sil均值的變化情況。Sil值越高,表明各聚類類別簇內(nèi)的節(jié)點(diǎn)集中度更高,聚類效果更好。從圖6可知,CS-AP算法的輪廓性能最優(yōu),穩(wěn)定時(shí)的值為0.9,改進(jìn)的K-means次之,層次聚類最差約為0.7;從聚類時(shí)間來(lái)看,層次和均值聚類最好,在20 s內(nèi)獲得了穩(wěn)定的聚類結(jié)果,改進(jìn)的K-means和CS-AP算法均需要24 s才能收斂,這是因?yàn)镵-means和CS-AP的聚類過(guò)程均需多次迭代。

        4 結(jié)束語(yǔ)

        為了提高競(jìng)爭(zhēng)情報(bào)分析的有效性,采用AP聚類算法對(duì)競(jìng)爭(zhēng)情報(bào)數(shù)據(jù)進(jìn)行分析,并通過(guò)布谷鳥(niǎo)對(duì)AP算法的偏置參數(shù)進(jìn)行優(yōu)化。試驗(yàn)結(jié)果表明,通過(guò)合理設(shè)置布谷鳥(niǎo)和AP算法參數(shù),對(duì)情報(bào)數(shù)據(jù)采集得到的數(shù)據(jù)源進(jìn)行聚類能夠獲得較好的聚類效果,以滿足競(jìng)爭(zhēng)情報(bào)分析的需要。下一步的研究將繼續(xù)優(yōu)化CS算法和AP算法參數(shù),以提高競(jìng)爭(zhēng)情報(bào)分析中的聚類效率,從而增強(qiáng)大規(guī)模競(jìng)爭(zhēng)情報(bào)數(shù)據(jù)分析的適用度。

        猜你喜歡
        優(yōu)化
        超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
        PEMFC流道的多目標(biāo)優(yōu)化
        能源工程(2022年1期)2022-03-29 01:06:28
        民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        由“形”啟“數(shù)”優(yōu)化運(yùn)算——以2021年解析幾何高考題為例
        圍繞“地、業(yè)、人”優(yōu)化產(chǎn)業(yè)扶貧
        事業(yè)單位中固定資產(chǎn)會(huì)計(jì)處理的優(yōu)化
        4K HDR性能大幅度優(yōu)化 JVC DLA-X8 18 BC
        幾種常見(jiàn)的負(fù)載均衡算法的優(yōu)化
        電子制作(2017年20期)2017-04-26 06:57:45
        无码人妻av一区二区三区蜜臀| 极品夫妻一区二区三区| 色佬精品免费在线视频| 人妻少妇不满足中文字幕| 国产一区二区三区四区五区vm| 成人精品免费av不卡在线观看| 视频一区精品中文字幕| 亚洲女初尝黑人巨高清| a级国产精品片在线观看| 综合色区亚洲熟妇另类| 东风日产车是不是国产的| 亚洲av套图一区二区| 国产精品丝袜美腿诱惑| 日本a级片免费网站观看| 精品国产乱码久久久久久影片| 91在线在线啪永久地址| 国产最新一区二区三区| 国产精品一区二区三区免费视频| 成人国产精品一区二区视频 | 黄色国产一区二区99| 天堂新版在线资源| 久久无码一二三四| 大红酸枝极品老料颜色| 国产精品激情自拍视频| 成人免费看吃奶视频网站| av少妇偷窃癖在线观看| 乳乱中文字幕熟女熟妇| 看全色黄大色黄大片 视频| 亚洲精品无码久久毛片| 亚洲一级av大片在线观看| 日本二一三区免费在线| a级大胆欧美人体大胆666| 国产亚洲欧洲AⅤ综合一区| 亚洲精品国产成人久久av盗摄| 中文字幕精品一区二区精品| 国产精品后入内射日本在线观看 | 东京热日本av在线观看| 国产av丝袜旗袍无码网站| 国产又黄又爽又无遮挡的视频| 99久久精品人妻一区二区三区 | 亚洲精品综合第一国产综合|