亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聚類分析在網(wǎng)絡(luò)調(diào)研中的應(yīng)用研究

        2008-12-31 00:00:00劉祎洋瞿彭志郝麗麗
        經(jīng)濟(jì)師 2008年11期

        摘 要:文章首先概述了當(dāng)前網(wǎng)絡(luò)調(diào)研的現(xiàn)狀,接著引入K均值和基于模型的EM聚類方法來(lái)分析網(wǎng)絡(luò)調(diào)研數(shù)據(jù),進(jìn)而研究了影響網(wǎng)絡(luò)調(diào)研聚類分析的各種因素,最后通過(guò)引入案例進(jìn)一步解釋同一數(shù)據(jù)應(yīng)用兩種方法得到不同分析結(jié)果的原因。

        關(guān)鍵詞:網(wǎng)絡(luò)調(diào)研 K均值 期望最大化 聚類

        中圖分類號(hào):F062.5文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1004-4914(2008)11-066-02

        一、引言

        隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和上網(wǎng)用戶的迅速增加,網(wǎng)絡(luò)調(diào)研成為企業(yè)決策的一種重要工具。

        二、網(wǎng)絡(luò)調(diào)研的現(xiàn)狀

        網(wǎng)絡(luò)調(diào)研是利用互聯(lián)網(wǎng)發(fā)掘和了解顧客需要、市場(chǎng)機(jī)會(huì)、競(jìng)爭(zhēng)對(duì)手、行業(yè)潮流、分銷(xiāo)渠道等方面的情況。其特點(diǎn)有:及時(shí)性,共享性,互動(dòng)性,成本低,隱匿性好。它是一項(xiàng)富于實(shí)踐的研究,國(guó)內(nèi)外開(kāi)展網(wǎng)絡(luò)調(diào)研的公司和研究機(jī)構(gòu)為數(shù)眾多,大多數(shù)是自助式網(wǎng)絡(luò)調(diào)研平臺(tái),例如,業(yè)內(nèi)最著名的SurveyMonkey是國(guó)外一家專業(yè)網(wǎng)絡(luò)調(diào)研公司,它擁有大量的問(wèn)卷樣本庫(kù),客戶可以根據(jù)需要選擇所需樣本庫(kù),設(shè)置題型、數(shù)據(jù)格式和范圍等。類似國(guó)內(nèi)有艾瑞調(diào)研網(wǎng),100調(diào)查網(wǎng)等,數(shù)據(jù)分析大多使用一般統(tǒng)計(jì)方法,很少考慮調(diào)研數(shù)據(jù)的特點(diǎn),難以提供更高級(jí)的數(shù)據(jù)挖掘分析和知識(shí)發(fā)現(xiàn)等解決方案。

        三、網(wǎng)絡(luò)調(diào)研中應(yīng)用的聚類方法研究

        聚類分析是數(shù)據(jù)挖掘中一個(gè)活躍的研究領(lǐng)域,分析算法分為劃分方法、層次方法、基于密度方法、基于網(wǎng)格方法和基于模型方法。網(wǎng)絡(luò)調(diào)研常用的方法是K均值方法和基于模型的EM方法。

        1.K均值方法。K均值(K-means)是基于原型的聚類技術(shù)創(chuàng)建對(duì)象的單層劃分,K均值算法以距離值的均值對(duì)聚類成員進(jìn)行分配,通常K均值聚類用于n維連續(xù)空間中的對(duì)象。K均值的算法表示為:首先從n個(gè)數(shù)據(jù)對(duì)象任意選擇k個(gè)對(duì)象作為初始聚類中心;而對(duì)于其它對(duì)象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計(jì)算每個(gè)所獲新聚類的聚類中心(該聚類中所有對(duì)象的均值);不斷重復(fù)這一過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù)。K均值方法被認(rèn)為是硬聚類(hard clustering),因?yàn)槊恳粋€(gè)對(duì)象只能被分配到一個(gè)聚類,聚類間不連接,也不相互重疊。

        K均值法在網(wǎng)絡(luò)調(diào)研中可以處理數(shù)字?jǐn)?shù)據(jù)和文檔數(shù)據(jù)。聚類目標(biāo)通常用一個(gè)目標(biāo)函數(shù)表示,該函數(shù)依賴與點(diǎn)之間或點(diǎn)到聚類中心的臨近型。對(duì)于數(shù)字?jǐn)?shù)據(jù),可以選用歐幾里德和曼哈頓距離以及切比雪夫距離作為度量聚類質(zhì)量的目標(biāo)函數(shù)。它的思想是計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到最近的聚類中心的度量距離,再計(jì)算已選度量的誤差平方和(SE)。如式:1

        其中,ci是第i個(gè)聚類,x是ci中的點(diǎn),ci是第i個(gè)聚類的均值,distance是度量距離。

        對(duì)第K個(gè)聚類中心對(duì)均值Ck求導(dǎo),令導(dǎo)數(shù)等于0,便可以得到SE最小值時(shí)的最佳聚類中心。接著重新計(jì)算聚類中心,進(jìn)一步最小化SE。反復(fù)此過(guò)程直到聚類中心不發(fā)生變化,即得到最優(yōu)聚類。

        對(duì)于文檔數(shù)據(jù)則考慮文檔數(shù)據(jù)的余弦相似性度量。最大化聚類中文檔與聚類中心的相似性,也可以通過(guò)對(duì)均值Ck求導(dǎo)等于零來(lái)證明聚類凝聚度(TC)的最佳聚類中心。

        2.基于模型的EM方法?;谀P虴M方法使用若干統(tǒng)計(jì)分布對(duì)數(shù)據(jù)進(jìn)行建模,假定有K個(gè)分布和m個(gè)對(duì)象X={x1,…,xm}。設(shè)第j個(gè)分布的參數(shù)為θj,θ={θ1,..,θj}。則prob(xi|θj)是第i個(gè)對(duì)象來(lái)自第j個(gè)分布的概率。選取第j個(gè)分布產(chǎn)生一個(gè)對(duì)象的概率由權(quán)值wj(1≤j≤k)給定,其中權(quán)值(概率)受限于其和為1的約束,即∑jk=1wj=1。考慮到調(diào)研的對(duì)象是獨(dú)立的方式產(chǎn)生,因此,整個(gè)對(duì)象集的概率是每個(gè)個(gè)體對(duì)象xi概率的乘積,

        3式中,每個(gè)分布描述一個(gè)不同的聚類,使用期望最大化(EM)算法來(lái)估計(jì)模型參數(shù)。EM算法表示為:給定參數(shù)值的一個(gè)猜測(cè),EM算法計(jì)算每個(gè)點(diǎn)屬于每個(gè)分布的概率,然后使用這些概率,計(jì)算參數(shù)的新的估計(jì),該迭代繼續(xù)到參數(shù)的估計(jì)不再改變?yōu)橹?。EM算法通過(guò)度量某對(duì)象的概率來(lái)決定該對(duì)象屬于哪一個(gè)聚類,這種技術(shù)被稱為軟聚類(soft clustering),它允許聚類之間重疊,允許模糊的邊界。

        基于模型方法的優(yōu)點(diǎn)在于它可以使用各種類型的分布,提供一種消除與數(shù)據(jù)相關(guān)聯(lián)的復(fù)雜性方法。但是基于模型方法需要處理和簡(jiǎn)化數(shù)據(jù),它不能處理具有大量分量的模型,聚類中的數(shù)據(jù)點(diǎn)過(guò)少以及含有噪聲和離群點(diǎn)也不能很好的處理。因此,在網(wǎng)絡(luò)問(wèn)卷分析時(shí)使用基于模型的方法需要手工或者計(jì)算機(jī)處理缺失點(diǎn)和異常點(diǎn)。

        四、影響網(wǎng)絡(luò)調(diào)研聚類分析的因素

        網(wǎng)絡(luò)調(diào)研的聚類分析涉及數(shù)學(xué)、計(jì)算機(jī)學(xué)、經(jīng)濟(jì)學(xué)、營(yíng)銷(xiāo)學(xué)、管理學(xué)、統(tǒng)計(jì)學(xué)等眾多學(xué)科,影響它的因素主要有:

        1.調(diào)研目的與對(duì)象的確立。內(nèi)容簡(jiǎn)單的調(diào)研往往不需要復(fù)雜的分析;而復(fù)雜的調(diào)研一般需要進(jìn)行深入的數(shù)據(jù)分析,因此,調(diào)研目的和對(duì)象的確立會(huì)影響問(wèn)卷的設(shè)置,以及數(shù)據(jù)分析的任務(wù)和復(fù)雜度。

        2.調(diào)研問(wèn)卷題目的設(shè)計(jì)。網(wǎng)絡(luò)調(diào)研題目設(shè)計(jì)必須具體、表述清楚、重點(diǎn)突出、整體結(jié)構(gòu)好。借助程序可以設(shè)置題目間的邏輯性和檢查答案,根據(jù)用戶選擇,程序自動(dòng)判斷所需做答的題目,大大簡(jiǎn)化了數(shù)據(jù)預(yù)處理階段的工作量并加強(qiáng)了數(shù)據(jù)的可靠性。

        3.數(shù)據(jù)庫(kù)的選擇和架構(gòu)。網(wǎng)絡(luò)調(diào)研必須以數(shù)據(jù)庫(kù)為依托,數(shù)據(jù)庫(kù)設(shè)計(jì)必須滿足范式要求,所有題目信息和做答情況存放于后臺(tái)數(shù)據(jù)庫(kù)中,呈現(xiàn)的問(wèn)卷則是一個(gè)負(fù)責(zé)與用戶交互的前臺(tái)頁(yè)面,這樣即使問(wèn)卷發(fā)生改動(dòng)也不會(huì)影響后期數(shù)據(jù)分析。問(wèn)卷簡(jiǎn)單,投放量小,數(shù)據(jù)分析時(shí)效強(qiáng)時(shí),選擇小型數(shù)據(jù)庫(kù)如Microsoft access。問(wèn)卷復(fù)雜,數(shù)據(jù)投放量大,數(shù)據(jù)分析力求準(zhǔn)確,需要一定的數(shù)據(jù)挖掘功能,選擇中大型如Microsoft SQL Server較為合適。

        4.數(shù)據(jù)和數(shù)據(jù)處理。描述數(shù)據(jù)對(duì)象的屬性可以是定量或定性,數(shù)據(jù)的類型決定使用何種工具和技術(shù)來(lái)分析數(shù)據(jù)。通過(guò)計(jì)算機(jī)程序設(shè)計(jì)錯(cuò)誤檢測(cè)及選項(xiàng)間的邏輯聯(lián)系,限制不符合規(guī)范和邏輯的數(shù)據(jù)向數(shù)據(jù)庫(kù)提交。

        5.聚類分析算法和軟件的選用。首先聚類結(jié)果要明確就需分離度很好(well-separated)的數(shù)據(jù)。如果聚類是擴(kuò)散且互相滲透,那么每種算法結(jié)果不同,界定邊界不清。其次,大多數(shù)聚類方法分析的僅是簡(jiǎn)單的一對(duì)一的關(guān)系。因?yàn)槌蓪?duì)的線性比較,減少了表達(dá)類型關(guān)系的計(jì)算量。因此,不同的聚類應(yīng)該選擇與之適用的方法和軟件。

        6.分析人員的專業(yè)能力。鑒于聚類分析的跨學(xué)科性、復(fù)雜性以及結(jié)果解釋的困難性,分析人員必須具備豐富的分析經(jīng)驗(yàn)和對(duì)所分析的實(shí)際問(wèn)題有著深入的了解。

        五、案例研究

        1.背景介紹。此次調(diào)研是為某一網(wǎng)絡(luò)調(diào)研公司設(shè)計(jì)的樣本庫(kù),調(diào)研對(duì)象為涵蓋各年齡段各收入段以及各地區(qū)不同行業(yè)的中國(guó)網(wǎng)民,使用Visual C#.net語(yǔ)言進(jìn)行開(kāi)發(fā),選用SQL Server2005為核心數(shù)據(jù)庫(kù)。通過(guò)EDM方式投放問(wèn)卷約為35000份,問(wèn)卷回饋約3800份,其中注冊(cè)用戶約2100多份。

        2.數(shù)據(jù)庫(kù)架構(gòu)。數(shù)據(jù)庫(kù)設(shè)計(jì)符合第三范式設(shè)計(jì)模式,設(shè)計(jì)數(shù)據(jù)表包括問(wèn)卷編號(hào)表(Questionnaire),問(wèn)卷類型表(QuestionType),問(wèn)題表(Question),矩陣列表(RecColumn),矩陣行表(RecRow),邏輯跳轉(zhuǎn)表(QuestionJump),用戶表(Users)以及問(wèn)卷回答表(Answers)。

        3.程序處理數(shù)據(jù)的三個(gè)階段。C#程序?qū)?shù)據(jù)的預(yù)處理分三個(gè)階段。第一階段通過(guò)與前臺(tái)Javascript配合,預(yù)先設(shè)置好題目選項(xiàng)間的邏輯檢查并且屏蔽提交不符合題目要求的數(shù)據(jù)。第二階段程序自動(dòng)將異常數(shù)據(jù)和缺失數(shù)據(jù)使用0代替。第三階段使用C#中的OLE DB驅(qū)動(dòng)提供的SQL語(yǔ)句可以設(shè)置條件查詢數(shù)據(jù)庫(kù),篩選出符合條件的數(shù)據(jù)。通過(guò)程序三階段處理,可以較好地保證數(shù)據(jù)質(zhì)量,為數(shù)據(jù)分析提供較完美的數(shù)據(jù)。

        4.K均值聚類分析?;贙均值的算法對(duì)問(wèn)卷中的職業(yè)和所購(gòu)買(mǎi)的手機(jī)品牌進(jìn)行分析,C#程序首先預(yù)處理沒(méi)有手機(jī)的人,再導(dǎo)出數(shù)據(jù)到SAS軟件,使用fastclus K均值方法編程(結(jié)果略)。

        5.基于模型EM算法聚類分析??梢允褂梦④汚nalysis Service(AS)的EM算法對(duì)上例進(jìn)行聚類分析。聚類分析在AS中是為數(shù)據(jù)挖掘的一種方法,其步驟如下: (1)建立數(shù)據(jù)源和挖掘項(xiàng)目。數(shù)據(jù)源為網(wǎng)絡(luò)調(diào)研的數(shù)據(jù)庫(kù),挖掘項(xiàng)目為Analysis Service項(xiàng)目。(2)設(shè)計(jì)數(shù)據(jù)源視圖。提交到數(shù)據(jù)的答案統(tǒng)一記錄在Answers表中,因此,必須在數(shù)據(jù)庫(kù)里建立視圖。(3)創(chuàng)建挖掘結(jié)構(gòu)和EM聚類模型。挖掘結(jié)構(gòu)和模型建立可以使用向?qū)Х绞揭部梢允褂脭?shù)據(jù)挖掘查詢語(yǔ)言進(jìn)行建立(DMX)。

        聚類分析和預(yù)測(cè)。聚類分析可以查看數(shù)據(jù)統(tǒng)計(jì)圖、分類關(guān)系圖、分類剖面圖、分類特征和分類對(duì)比也可以進(jìn)行聚類模型預(yù)測(cè)等。

        6.兩種方法的結(jié)果分析和比較。SAS軟件K均值算法將使用手機(jī)品牌的職業(yè)人分為5類,用回歸分析法對(duì)分類結(jié)果描述為:學(xué)生傾向于喜歡比較便宜、物美價(jià)廉的手機(jī);私營(yíng)企業(yè)管理人員、專業(yè)人員和私營(yíng)企業(yè)一般職員喜歡有品牌價(jià)值、不是很看重價(jià)格的諾基亞、聯(lián)想和三星等手機(jī);在各類人群當(dāng)中相比較而言,學(xué)生和私營(yíng)企業(yè)一般職員也會(huì)選擇另類的一些其他牌子手機(jī)。

        而基于模型的EM分析法AS默認(rèn)選擇分為10類,根據(jù)類別密度和緊密聯(lián)系度合并為5類。按數(shù)量大小從左排列顯示第10個(gè)分類比例分布平滑,各種品牌的手機(jī)都有人購(gòu)買(mǎi),這類被看作普通手機(jī)使用者,不太關(guān)注品牌。第5類學(xué)生和其他人員比例占絕對(duì)比例,而手機(jī)中三星、摩托、索愛(ài)和其他雜牌比例占大多數(shù),這類人群可以解釋為,以學(xué)生為主收入有限的群體,喜歡知名的時(shí)尚型但價(jià)格便宜的手機(jī)。第9類說(shuō)明中下等工薪階級(jí)重視品牌也重視價(jià)格。AS類關(guān)系圖顯示第7,8,4,2,9類關(guān)系緊密,說(shuō)明中上等收入層次和一部分學(xué)生可以看作有較高收入的人群,選擇主要為諾基亞品牌價(jià)值和質(zhì)量較好的機(jī)型。第6類,進(jìn)口手機(jī)占?jí)旱剐詢?yōu)勢(shì)且品牌比例均勻,使用者分布也較均勻,各行業(yè)都有忠實(shí)者,可以解釋市場(chǎng)上進(jìn)口手機(jī)比國(guó)產(chǎn)手機(jī)更受歡迎。

        K均值分析法聚類明確,聚類之間不相互連接,也不相互重疊,分析效率較高,容易分析,但是可能會(huì)導(dǎo)致分類之間缺乏一定的聯(lián)系,進(jìn)而隱藏分類間的潛在關(guān)系。EM分類沒(méi)有固定的邊界,聚類之間有概率重疊,因此,分析時(shí)需要對(duì)分析領(lǐng)域有豐富的經(jīng)驗(yàn),同時(shí)需要耗費(fèi)較高的系統(tǒng)資源和時(shí)間。就網(wǎng)絡(luò)調(diào)研的數(shù)據(jù)特點(diǎn),使用基于EM模型分析的效果更好。

        六、結(jié)語(yǔ)

        本文以網(wǎng)絡(luò)調(diào)研為研究對(duì)象,研究了與之適用的聚類分析K均值方法與基于模型的EM方法,通過(guò)案例,構(gòu)建了利于數(shù)據(jù)分析的網(wǎng)絡(luò)調(diào)研系統(tǒng),建立了調(diào)研數(shù)據(jù)庫(kù),并使用SAS軟件的K均值方法和SA軟件的基于模型EM方法對(duì)調(diào)研數(shù)據(jù)庫(kù)中數(shù)據(jù)進(jìn)行聚類分析,解釋了兩種方法不同的分析結(jié)果。

        本文下一步的研究重點(diǎn)是進(jìn)一步整合各種分析方法,建立一個(gè)能夠根據(jù)不同題目類型和要求自動(dòng)應(yīng)用分析方法的智能調(diào)研系統(tǒng),從而達(dá)到真正意義上的智能數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)水平。

        參考文獻(xiàn):

        1.鐘學(xué)云.電子商務(wù)時(shí)代對(duì)網(wǎng)絡(luò)調(diào)研的研究.經(jīng)濟(jì)管理論壇.中國(guó)科技信息,2006(3)

        2.鄭宇軍,杜家興.SQL Server2005Visual C#專業(yè)開(kāi)發(fā)精解[M].北京:清華大學(xué)出版社,2007

        (作者單位:上海大學(xué)國(guó)際工商與管理學(xué)院 上海 200444)

        (責(zé)編:賈偉)

        亚洲国产av一区二区四季| 狠狠干视频网站| 久久国产色av| 狠狠丁香激情久久综合| 日韩AV无码乱伦丝袜一区| 亚洲国产成人av毛片大全| 欧美精品一区二区精品久久| a人片在线观看苍苍影院| 久久精品性无码一区二区爱爱| 蜜桃av一区二区三区| 国产精品一区二区三区四区亚洲| 日韩精品一区二区三区在线视频| 一本大道av伊人久久综合| 久久精品国产亚洲av影院| 国产精品无码一区二区在线看| 波多野结衣国产一区二区三区| 视频一区二区三区中文字幕狠狠| 香蕉蜜桃av一区二区三区| 曰日本一级二级三级人人| 日日摸天天摸97狠狠婷婷| 亚洲av之男人的天堂网站| 色爱区综合激情五月综合小说 | 亚洲av无码乱码国产精品| 中文字幕亚洲欧美日韩2019| 中文字幕不卡高清免费| 国产精品三级av一区二区| 亚洲一本二区偷拍精品| 黄污在线观看一区二区三区三州| 亚洲avav天堂av在线网毛片| 亚洲美国产亚洲av| 日韩在线看片| 色视频日本一区二区三区| 午夜av天堂精品一区| 久久久久亚洲av成人片| 中文字字幕在线精品乱码| 国产精品6| 久久久www成人免费无遮挡大片| 亚洲精品一区二区三区国产| 国产禁区一区二区三区| 亚洲欧美成人一区二区在线电影| 亚洲专区一区二区在线观看|