摘 要:模糊法則歸納法(Fuzzy Rule Induction using GMDH,簡稱FRI方法)是近年來興起的非參數(shù)數(shù)據(jù)挖掘技術(shù),它將模糊建模技術(shù)和自組織數(shù)據(jù)挖掘建模技術(shù)相結(jié)合,在金融、經(jīng)濟等領(lǐng)域已經(jīng)得到了成功運用。文章分析了陜西省西安市和寶雞市兩地移動長話市場的消費者特征,在傳統(tǒng)市場調(diào)查分析方法評述的基礎(chǔ)上,進行了FRI方法運用于市場營銷領(lǐng)域的嘗試性研究。研究發(fā)現(xiàn),F(xiàn)RI方法適用細分市場的特征,即適用于差異比較明顯的細分市場特征的提取。
關(guān)鍵詞:模糊法則歸納法;市場調(diào)查;數(shù)據(jù)分析
中圖分類號:F272
文獻標識碼: A
文章編號:1003-7217(2007)03-0106-05
一、引言
市場調(diào)查的一個重要環(huán)節(jié)是調(diào)查數(shù)據(jù)分析。顧客感覺如何,怎樣看待企業(yè)的競爭對手及其產(chǎn)品與服務(wù),通過市場調(diào)查數(shù)據(jù)進行分析,有利于提升企業(yè)競爭力。市場調(diào)查數(shù)據(jù)分析常用統(tǒng)計方法,其中描述性分析是調(diào)查公司最常使用的方法,它操作簡單,通過百分比計算比較分析以發(fā)現(xiàn)市場特征。由于得到的結(jié)果要借助于分析人員的相關(guān)專業(yè)理論知識和經(jīng)驗才能翻譯成有信息價值的語言,該方法主觀性較強。此外,其它統(tǒng)計分析方法,如參數(shù)檢驗、回歸分析、因子分析和主成分分析等也常用于市場調(diào)查數(shù)據(jù)分析。這些方法各具特色,但使用它們或者需要假定數(shù)據(jù)總體符合一定的分布,或者要求數(shù)據(jù)有較強的相關(guān)性。由于市場調(diào)查多采用問卷調(diào)查形式,它的數(shù)據(jù)常呈現(xiàn)小樣本、噪聲大的特點,且定性數(shù)據(jù)多,難以找出數(shù)據(jù)的統(tǒng)計分布規(guī)律,因而使用這些統(tǒng)計方法的前提條件很難保證。
數(shù)據(jù)分組處理方法(Group Method of Data Handling,簡稱GMDH)是一種新興的數(shù)據(jù)挖掘方法,它由烏克蘭科學(xué)院A.G.Ivakhnenko院士于1969年提出[1]。GMDH建立在人類生存歷史中最古老、最富有成效的試探法則選擇學(xué)說基礎(chǔ)之上,它將黑箱思想、生物神經(jīng)元方法、歸納法和Gdel的數(shù)理邏輯方法有機地結(jié)合起來。GMDH具有揭示經(jīng)濟對象構(gòu)成因素的功能,能從眾多對經(jīng)濟對象有影響的因素中篩選出有重要影響的因素;對于有噪聲的小樣本數(shù)據(jù),它通過建立非物理模型,能給出較準確的擬合與過程預(yù)測。上世紀90年代,德國學(xué)者J.A.Mueller和軟件專家L.Frank將GMDH的基本思想用于其它數(shù)據(jù)挖掘方法,建立了非參數(shù)GMDH,并編制了功能強大的Knowledge Miner軟件,使GMDH從理論、方法和應(yīng)用諸方面上了一個新的平臺[2]。非參數(shù)GMDH由GMDH的思想運用于其它數(shù)據(jù)挖掘方法構(gòu)成,它包括:自組織模糊規(guī)則歸納(Self-Fuzzy Rule Induction using GMDH ,簡稱FRI)、客觀聚類分析(Objective Cluster Analysis,簡稱OCA)、相似體合成(Analog Complexing ,簡稱AC)[3]。非參數(shù)GMDH既保持了GMDH的適于有噪聲的小樣本數(shù)據(jù)分析建模預(yù)測的優(yōu)點,又具有相應(yīng)的數(shù)據(jù)挖掘方法的功能,它用于經(jīng)濟、金融、生態(tài)等復(fù)雜系統(tǒng)領(lǐng)域的建模分析已有許多成功實例,但未見有用于市場調(diào)查數(shù)據(jù)分析的研究。市場調(diào)查數(shù)據(jù)具有小樣本、有噪聲且定性數(shù)據(jù)多的特點,正好適宜使用非參數(shù)GMDH方法。因此,以下研究擬將FRI方法用于企業(yè)市場調(diào)查數(shù)據(jù)分析,以期給市場調(diào)查數(shù)據(jù)分析提供一條新的有效途徑。
二、FRI方法在市場調(diào)查中的運用
FRI本質(zhì)上是一種規(guī)則歸納的方法,應(yīng)用對象特點是輸入輸出變量模糊化具有實際意義,其用于市場調(diào)查數(shù)據(jù)分析主要是通過算法提取市場中不同消費者的特征規(guī)則。用這一特征規(guī)則來作為消費者特征的描述,它的應(yīng)用分為以下幾個步驟:
1.數(shù)據(jù)的預(yù)處理。市場調(diào)查的數(shù)據(jù)一般是通過調(diào)查問卷的形式取得,原始數(shù)據(jù)都是問題的選項,不能直接用于建模,必須進行預(yù)處理。首先從調(diào)查問卷中選取企業(yè)關(guān)心的問題和因素,將這些問題轉(zhuǎn)化為變量,并將每個消費者(樣本)對于問題的選擇轉(zhuǎn)化為對應(yīng)的變量值。調(diào)查問卷的問題一般包含三種形式:選擇題(包括單選和多選);填空題;打分和排序。對于單選題每一個選項轉(zhuǎn)換為一個0-1二值變量。被調(diào)查者選擇了哪一項,則對應(yīng)的變量值為1,其余項對應(yīng)的變量值均為0。如果多選和打分,則每個問題轉(zhuǎn)化一個變量,前者的值是被調(diào)查者選項的序號,后者則是打分的值。對于填空題,則直接將所填數(shù)值作為變量值。
2. 消費者群體的劃分和研究對象的選定。這由FRI算法本身的特點所決定的,F(xiàn)RI 算法是一種規(guī)則歸納的方法,它是通過不同群體的對比找出某一群體的主要特征,如果沒有群體的劃分,算法就不可能實現(xiàn)。在細分消費者群體后,可以根據(jù)實際情況選擇感興趣的群體進行研究。
3.數(shù)據(jù)的模糊化。這里需要分別對輸入變量和輸出變量進行模糊化。一般將所要研究的消費者特征屬性對應(yīng)的變量作為輸入變量,而以類別標志變量作為輸出變量。對于輸出變量一般構(gòu)造二三個等級的模糊子集進行模糊化,比如對于某一因素的評價值對應(yīng)的三個等級模糊子集為{重要}、{一般}和{不重要}。對于輸出變量 對應(yīng)的模糊向量 可以通過第二步中的消費者群體的劃分得到,對于第t個樣本的輸出變量yt對應(yīng)于一個m維的模糊向量( m表示劃分的消費者群體的數(shù)量,其中 表示樣本對于第j類群體的隸屬度。在實際的運用中,一般都簡單地取為0或1,即如果第t個樣本劃分到了第j個群體中,則 。
4.規(guī)則的提取及分析驗證。數(shù)據(jù)經(jīng)過模糊化以后,就可以運用FRI算法提取規(guī)則,分析消費者特征。假設(shè)將消費者細分為a和b兩類群體,通過算法得到規(guī)則:
IF
mn or h
THEN
a
這里可將邏輯符號OR連接的各部分分別稱為一個子規(guī)則,比如在上面提取的這個規(guī)則中,財經(jīng)理論與實踐(雙月刊)2007年第3期2007年第3期(總第147期)谷月東,鄭明翠:模糊法則歸納法在市場調(diào)查分析中的應(yīng)用研究就分別有mn和h兩個子規(guī)則。這里需要引入一個支持度(S)的概念,它代表規(guī)則的顯著程度。一般的數(shù)據(jù)挖掘中將支持度定義為:如果有規(guī)則AB,則支持度S是A∪B的事務(wù)占所有事物的百分比。這里將支持度定義為:對于子規(guī)則k,它的支持度Sk為一類樣本中符合規(guī)則k的樣本數(shù)占該類樣本總數(shù)的百分比[4]。之所以要引入這一概念是因為在實際的市場分析中,如果支持度較低,則說明具有該種規(guī)則特點的消費者占總體的很小一部分,因而對這部分消費者進行研究就沒有多大意義。在計算出每個子規(guī)則的支持度后,這里假設(shè)子規(guī)則mn的支持度為α%,子規(guī)則h的支持度為β%,則a類消費者的特征可以這樣闡述:α%的a類消費者具有mn的特點,β%的a類消費者具有h的特點。同時需要強調(diào)的是運用FRI分析得出的消費者的特征是關(guān)鍵性特征,即在所研究的消費者群體中比較明顯而在其它消費者群體中不太明顯,而對于不同的消費者中間共同特征,該算法在規(guī)則提取的過程中已經(jīng)舍去,這點與其它的數(shù)據(jù)挖掘方法是有區(qū)別的,需要注意。
5.相關(guān)建議的提出。進行市場調(diào)查的目的就是為企業(yè)的決策提供建議。因此,對于數(shù)據(jù)的分析最終還是要落實到為決策者提供關(guān)于市場和消費者的相關(guān)信息和有價值的建議。
三、移動長話市場實證分析
通過移動長話的實證分析可以發(fā)現(xiàn),對于在細分市場差異比較明顯時, FRI方法可以有效提取出不同細分市場各自獨有的特征。為了增強實證分析的說服力,選用了兩個具有代表性的市場進行分析。
(一)西安市手機長話細分市場特征分析
以西安市手機長話市場調(diào)查數(shù)據(jù)為基礎(chǔ)得到23個方面的問題形成35個輸入屬性變量。有140個樣本數(shù)據(jù),其中有103個是直撥的消費者和37個是使用IP卡的消費者。根據(jù)上述信息提取西安市市場直撥消費者和使用IP卡的消費者的特征信息,以供企業(yè)作營銷決策。
隨機選取120個樣本作為學(xué)習(xí)集,20個樣本作為驗證集 根據(jù)上述的步驟,運用軟件Knowledge Miner提取規(guī)則得到以下IP卡消費者和直撥消費者的特征規(guī)則。
對于規(guī)則(1)在學(xué)習(xí)集中17個分類錯誤,正確率為85.44%,在驗證集中3個分類錯誤,正確率為85%,可以用來描述IP卡使用者的特征。
規(guī)則(1)的解釋為:對用IP卡撥打國內(nèi)長途的費用比較了解(N—X1)并且對手機國內(nèi)漫游的費用組成比較了解的消費者(N—X2)或是認為使用IP卡相對于座機打長話便宜的消費者(P—X4)或文化程度較高(P—X10)、經(jīng)常使用短信減少話費(N—X6)、認為使用IP卡相對座機打長途方便(N—X5)的年輕消費者(N—X9)是IP卡的使用者。
規(guī)則(1)歸納出IP卡使用者的三種特征。通過市場調(diào)查數(shù)據(jù)得出具有這三種特征的消費者占IP卡的使用者的構(gòu)成為:48.64%的消費者對于手機用IP卡撥打國內(nèi)長途的費用(N—X1)和國內(nèi)漫游的費用(N—X2)組成比較了解;10.81%的消費者認為使用IP卡相對于座機打長話便宜(P—X4);51.35%消費者是文化程度較高(P—X10)、經(jīng)常使用短信減少話費(N—X6)、認為使用IP卡相對座機打長途查撥號方便(N—X5)的年輕人(N—X9)。
2. 直撥消費者的特征規(guī)則
IF ZO—X9
OR
P—X1 N—X4
THEN N—Y
(2)
對于規(guī)則(2)在學(xué)習(xí)集中24個分類錯誤,正確率為80%,在驗證集中3個分類錯誤,正確率為85%,模型精確度比較高,說明用模型提取的規(guī)則來解釋直撥消費者的特征是可行的。
規(guī)則(2)解釋為:中年消費者(ZO—X9)或是對于手機用IP卡撥打國內(nèi)長途的費用不了解(P—X1)并且認為直撥相對座機打長途比較方便的消費者(N—X4)是直撥消費者。由此可歸納出直撥業(yè)務(wù)的使用者的兩種特征。通過已有的市場調(diào)查數(shù)據(jù)得出具有這兩種特征的消費者占直撥消費者的構(gòu)成為: 46.60%消費者屬于中年人(ZO—X9);77.67%消費者對于手機用IP卡撥打國內(nèi)長途的費用不了解(P—X1)并且認為直撥相對座機打長途比較方便(N—X4)。
由(1)和(2)可以分析出,在西安市移動長話業(yè)務(wù)市場的消費者中,使用直撥的消費者和使用IP卡的消費者的特征是不同的:其一,使用IP卡消費者多數(shù)是文化層次較高的年輕人,使用IP卡主要是為了節(jié)省話費(占IP卡使用者的51.35%)。如果陜西省電信公司想要爭奪這部分消費者,則應(yīng)在該群體的集中地,例如高校開展營銷活動,同時推出相應(yīng)的業(yè)務(wù)時應(yīng)該把價格放在首位,并在撥打的方便性上做文章。其二,對于直撥的消費者來說,這個群體主要是中年人(占直撥消費者的46.60%),并且由規(guī)則可知,中年人一般都使用直撥。他們考慮的主要是方便性,對于價格或是不太在意,或是不太了解(占直撥消費者的77.67%)。如果電信想進入這個消費群體,則應(yīng)該著重在提高服務(wù)質(zhì)量、增加消費者的使用方便性方面下工夫。(二)寶雞市長話市場分析
以寶雞市手機長話市場調(diào)查數(shù)據(jù)為基礎(chǔ)得到23個方面的問題形成35個輸入屬性變量,有140個樣本數(shù)據(jù),其中有103個是直撥的消費者和37個是使用IP卡的消費者。根據(jù)上述信息提取寶雞市市場直撥消費者和使用IP卡的消費者的特征信息,以供企業(yè)作營銷決策。
隨機選取60個樣本作為學(xué)習(xí)集,27個樣本作為驗證集(NL=60,Nv=27),運用軟件Knowledge Miner提取規(guī)則得到IP卡消費者和直撥消費者的特征規(guī)則。
1. IP卡消費者的特征規(guī)則
IF P—X5
OR
N—X3 N—X81 N—X9
THEN P—Y
(3)
對于規(guī)則(3)在學(xué)習(xí)集中6個分類錯誤,正確率為90%,在驗證集中5個分類錯誤,正確率為81.48%,模型精確度比較高,說明用模型提取的規(guī)則來解釋IP卡消費者的特征是可行的。
對于規(guī)則(3)的解釋為:認為使用IP卡相對座機打長途不太方便(N—X5)的消費者或是認為固定電話撥打與手機長話撥打相比通話質(zhì)量較好(N—X3),對用IP卡撥打國內(nèi)長途的費用比較了解(N—X1)的年輕消費者(N—X9)是IP卡的使用者。
規(guī)則(3)歸納出IP卡使用者的兩種特征,通過調(diào)查數(shù)據(jù)得出具有這兩種特征的消費者占IP卡的使用者的構(gòu)成為:1)4.76%的消費者認為使用手機IP卡打長途不如使用座機方便(N—X5);2)66.67%%的消費者認為固定電話撥打長話比手機撥打通話質(zhì)量好(N—X3),對用IP卡撥打國內(nèi)長途的費用比較了解(N—X1)的年輕人(N—X9)。
對于特征1)來說,具有這種特征的消費者比例較小,可以將它忽略,因而寶雞市的IP卡消費者主要是具有特征2)所描述的特征。
2. 直撥消費者的特征規(guī)則
IF P—X3
OR
P—X1 P—X8 OR
ZO_X9
OR
P—X1 N—X7
THEN N—Y
(4)
對于規(guī)則(4)在學(xué)習(xí)集中有5個分類錯誤,正確率為91.67%,在驗證集中5個分類錯誤,正確率為81.48%,模型精確度也比較高,可以用來描述IP卡使用者的特征。
規(guī)則(4)解釋為:認為固定電話撥打與手機長話撥打相比通話質(zhì)量較差的消費者(P—X3),或是對于手機用IP卡撥打國內(nèi)長途的費用不了解(P—X1),并且使用手機的同時不用小靈通(P—X8)的消費者或是中年消費者(ZO—X9),或是離開本地到異地時仍然使用手機撥打或接聽電話(N—X7)并對于手機用IP卡撥打國內(nèi)長途的費用不了解(P—X1)的消費者是直撥消費者。規(guī)則(4)歸納出直撥業(yè)務(wù)的使用者四種特征,通過市場調(diào)查數(shù)據(jù)得出具有這四種特征的消費者占直撥消費者的構(gòu)成為: 1)3.03%的消費者認為固話撥打與手機長話撥打相比通話質(zhì)量較差(P—X3);2)72.73%消費者對于手機用IP卡撥打國內(nèi)長途的費用不了解(P—X1),并且使用手機的同時不用小靈通(P—X8);3)52.42%的消費者屬于中年人(ZO—X9);4)78.79%的消費者離開本地到異地時仍然使用手機撥打或接聽電話(N—X7)并對于手機用IP卡撥打國內(nèi)長途的費用不了解(P—X1)。
對于特征1)來說,具有這種特征的消費者比例較小,可以將它忽略,因而寶雞市的直撥消費者主要是具有2)3)4)所描述的特征。
由(3)和(4)可以分析出,在寶雞市移動長話業(yè)務(wù)的消費者中,使用直撥的消費者和使用IP卡的消費者各自的特征大體上與西安市一致。使用IP卡消費者多數(shù)是年輕人,使用IP卡主要是為了節(jié)省話費(占IP卡使用者的66.67%)。對于直撥的消費者來說,主要仍是中年人(占直撥消費者的52.42%)。稍有不同的IP卡的使用者中有66.67%的消費者認為手機IP卡通話質(zhì)量不如座機,因而電信如要爭奪寶雞市的這個消費群體,則可以大力宣傳座機打長途的通話質(zhì)量。而對于直撥消費者也發(fā)現(xiàn)了兩個新的特征,78.79% 的消費者離開本地到異地時仍然使用手機撥打或接聽電話,72.73%的消費者使用手機的同時不使用小靈通,說明寶雞市的這類消費者是手機的堅定使用者,陜西省電信公司通過推出小靈通進入這個細分市場非常困難。
四、結(jié) 論
通過上面對西安市和寶雞市電信長話市場用FRI方法提取規(guī)則的分析,可以得出兩個消費者群體特點:直撥消費者以中年人為主,IP卡的消費者以年輕人為主。用FRI方法建立的模型精確度較高(在學(xué)習(xí)集和驗證集上的分類精度都達到80%以上)。FRI方法提取了直撥消費者以中年人為主,IP卡的消費者以年輕人為主等特征(在IP卡的消費者中,年輕人所占比例為西安市81.08%,寶雞市90.47% ,在直撥消費者中,中年人所占比例為西安市46.60%,寶雞市52.42%)。這些特征在直撥和IP 卡兩個細分市場的差異是明顯的,說明如果不同的消費群體特征差異明顯,可以很好地利用FRI方法來提取各個群體消費者的特征。
參考文獻:
[1]劉普寅, 吳孟達. 模糊理論及其應(yīng)用[M].長沙: 國防科技大學(xué)出版社,1998.
[2]張永生.廠商規(guī)模無關(guān)論理論與經(jīng)驗證據(jù)[M].北京:中國人民大學(xué)出版社,2003.
[3]何躍. 模糊法則歸納法及GDP主要影響因素研究[J]. 電子科技大學(xué)學(xué)報,2002,31(1).
[4]鄭明翠, 賀昌政.自組織數(shù)據(jù)挖掘與回歸分析方法的比較研究[J].系統(tǒng)工程與電子技術(shù),2005,27(10).
附錄1:
X1-.是否知道手機用IP卡撥打國內(nèi)長途的費用組成:
1……知道
2……不知道
X2-.是否知道目前手機國內(nèi)漫游的費用組成:
1……知道
2……不知道
X3-.固話撥打與手機長話撥打相比:
1……通話質(zhì)量較好
2……通話質(zhì)量較差
X4-.手機長話撥打與固話撥打相比:
1……話費較貴
2……話費較便宜
X5-.手機長話撥打與固話撥打相比:
1……查撥號方便
2……查撥號不方便
X6-.經(jīng)常用手機短信方式來避免或減少手機長話:
1……是
2……偶爾用
3……不用
X7-.離開本地到異地時,是否使用手機撥打或接聽電話:
1……是
2……否
X8-.使用手機的同時,是否也使用小靈通呢:
1……是
2……沒有
X9-.被訪者的年齡:
1…青年人(35歲以下)
2…中年人(35-50歲)
3…中年人(50歲以上)
X10-.受教育程度:
1…初中以下
2…高中(中專/技校/職高)
3…大專以上
The Study on the Application of Fuzzy Rule Induction in the
Market Research Analysis GU Yuedong1,ZHEN Mingcui2
(1.The School of Economics and Finance, Xi'an Jiaotong University, Xi'an,Shanxi 710100,China;
2.The School of Management, Sichuan University, Chengdu,Sichuan 610000,China)Abstract:Fuzzy Rule Induction (FRI) is an advanced new tool in data mining. It combines fuzzy modeling technique and selforganising data mining technique, and has been successfully used in many fields such as finance, economic, etc. On the basis of reviewing traditional market research analysis method, FRI is applied to data analysis in marketing field as consumer features of mobile longdistance telephone market at Xi'an and Baoji in Shanxi province. The findings show that FRI can be applied to abstract the characteristics of the subdivided markets with obvious differences.
注:“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文 ?!?/p>