楊維娜,姜軍霞
(西安汽車職業(yè)大學,陜西 西安 710600)
近年來,隨著交通事業(yè)快速發(fā)展,二手車交易市場日益火爆,在互聯(lián)網(wǎng)時代背景下,二手車交易信息系統(tǒng)逐漸成為買賣雙方彼此進行交易的重要平臺,但在二手車交易系統(tǒng)中,往往存在諸多復雜、大規(guī)模的冗余信息,如車輛出售信息、拍賣信息、交易信息等,這些信息對于某些特定用戶來講,都有著重要參考價值,基于此,本文希望通過二手車交易系統(tǒng)中數(shù)據(jù)挖掘技術(shù)應用研究,挖掘掌握其中的數(shù)據(jù)規(guī)律,為二手車交易提供參考。
數(shù)據(jù)挖掘是指從大規(guī)模、海量的數(shù)據(jù)中提取或挖掘有價值的信息或知識,數(shù)據(jù)挖掘的過程可以理解為從數(shù)據(jù)集中挖掘潛在有用信息并對其進行高級處理的過程,其中包含了大量規(guī)律、模式、概念、規(guī)則、約束、條件等內(nèi)容,通過數(shù)據(jù)挖掘,可以幫助用戶進行決策。
數(shù)據(jù)挖掘是一項系統(tǒng)的工程,它一般分為數(shù)據(jù)選擇(從邏輯數(shù)據(jù)庫中選擇被挖掘數(shù)據(jù))、數(shù)據(jù)預處理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘和數(shù)據(jù)分析幾個步驟,首先在數(shù)據(jù)挖掘前需要定義業(yè)務對象,然后根據(jù)關(guān)聯(lián)規(guī)則,從不同數(shù)據(jù)源中整理數(shù)據(jù),在數(shù)據(jù)準備階段,需要進行數(shù)據(jù)選擇,數(shù)據(jù)的預處理,數(shù)據(jù)的轉(zhuǎn)換,最終才能實現(xiàn)知識的同化。其中,關(guān)聯(lián)規(guī)則為用戶進行數(shù)據(jù)篩選提供了合適的支持度和置信度,以便于在數(shù)據(jù)挖掘中可以發(fā)現(xiàn)和找出所有頻繁項集,根據(jù)預設(shè)條件自動生成強關(guān)聯(lián)規(guī)則,并輸出關(guān)聯(lián)規(guī)則集合。
基于FP樹的頻繁項目集挖掘算法又稱“FP-growth算法”,它是由韓家煒等人在Apriori算法基礎(chǔ)上提出的一種新的算法,這種算法的基本思想和原理是,在同一棵FP樹上壓縮所有的原始數(shù)據(jù)集,并進行二次掃描。與傳統(tǒng)的算法相比,F(xiàn)P-growth算法在數(shù)據(jù)挖掘中,并不產(chǎn)生候選項目集,所以數(shù)據(jù)挖掘效率和質(zhì)量更高。
FP-growth算法在數(shù)據(jù)挖掘過程中,通常分為兩個階段,首先需要對數(shù)據(jù)庫D進行掃描,并構(gòu)造FP-tree,得到結(jié)果集L,其次,要對根節(jié)點null進行創(chuàng)建,選擇頻繁項進行結(jié)果集排序,然后再進行FP-tree挖掘。這種數(shù)據(jù)挖掘方法基于頻繁模式進行遞歸挖掘,省去了數(shù)據(jù)挖掘中的候選測試環(huán)節(jié),數(shù)據(jù)庫無須重復掃描,結(jié)構(gòu)緊湊,搜索開銷較低,數(shù)據(jù)挖掘效率較高,因此將其運用到二手車交易系統(tǒng)數(shù)據(jù)挖掘中是切實可行的,具體步驟流程如圖1所示。
圖1 算法步驟
本研究采用的二手車交易系統(tǒng)數(shù)據(jù)挖掘技術(shù)操作工作平臺為“Windows 11”系統(tǒng),使用的數(shù)據(jù)挖掘計算機處理語言為“C#”語言,應用的計算機開發(fā)平臺為Microsoft Visual Studio 2015,計算機處理系統(tǒng)的實際運行內(nèi)存為4 GB,CPU為intel 2.6 GHz,在數(shù)據(jù)挖掘過程中,本研究主要采用FP-growth算法(基于FP樹的頻繁項目集挖掘算法),對某二手車交易系統(tǒng)數(shù)據(jù)庫中的相關(guān)使用年限、行駛里程、車載人數(shù)、車輛價格、車輛品牌等相關(guān)數(shù)據(jù)進行挖掘。
本研究在數(shù)據(jù)挖掘前,搜集整理了某二手車交易系統(tǒng)數(shù)據(jù)庫從2020年3月—2022年5月中旬的所有數(shù)據(jù)信息,這些數(shù)據(jù)主要包含訂單信息、車輛管理信息、車輛拍賣信息以及二手車基本信息等。
在數(shù)據(jù)挖掘前,本研究考慮到該二手車交易平臺中交易系統(tǒng)數(shù)據(jù)庫中的相關(guān)原始數(shù)據(jù)信息均未經(jīng)過數(shù)據(jù)處理,因此有些數(shù)據(jù)存在信息冗余和失真情況,比如二手車的顏色、類型、品牌、價格、年限、出售人姓名以及車載人數(shù)、車輛使用年限、保養(yǎng)狀況等,這些信息中,有些數(shù)據(jù)并沒有實際的使用價值,如二手車出售人的地址、姓名、電話信息等,均毫無數(shù)據(jù)挖掘價值,對于這些無用的數(shù)據(jù)信息來講,如果不加以排除和預處理,必然會影響到數(shù)據(jù)挖掘的效率和準確性,因此在數(shù)據(jù)挖掘前,必須要針對這些冗余無用信息數(shù)據(jù)進行預處理。以下為具體應用步驟。
3.2.1 將無效數(shù)據(jù)刪除
(1)將二手車交易系統(tǒng)數(shù)據(jù)庫中無用的數(shù)據(jù)屬性刪除,如二手車出售人模塊中的出售人姓名、地址、電話及購車人模塊中的購車人姓名、地址、電話等,這些數(shù)據(jù)信息對于本研究數(shù)據(jù)挖掘工作而言,沒有實際意義,因此可以將其從無效數(shù)據(jù)字段中予以刪除。
(2)將二手車交易系統(tǒng)各表中的臟數(shù)據(jù)、無用數(shù)據(jù)及不一致數(shù)據(jù)、不完整數(shù)據(jù)全部刪除。例如,購車人、車輛出售人等相關(guān)用戶注冊信息模塊中前后不一致、錯誤及不完整的數(shù)據(jù)信息均可刪除。
3.2.2 對部分數(shù)據(jù)進行整理、歸類和轉(zhuǎn)換
在數(shù)據(jù)預處理階段,需要針對某二手車交易數(shù)據(jù)庫中的部分數(shù)據(jù)進行整理、歸類和轉(zhuǎn)換,其中包含二手車車輛品牌、顏色、類型、里程、價格、人數(shù)、保養(yǎng)狀況、年限、購車人職業(yè)、性別和年齡等??紤]到該二手車交易數(shù)據(jù)庫中的原始數(shù)據(jù)表中的有些數(shù)據(jù)不屬于“布爾型”數(shù)據(jù)結(jié)構(gòu),因此與關(guān)聯(lián)規(guī)則挖掘算法基本規(guī)則明顯不符,為了確保數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)信息與本研究采用的關(guān)聯(lián)規(guī)則挖掘算法保持對應和一致,需要對其中的原始數(shù)據(jù)進行離散化轉(zhuǎn)換處理:
(1)二手車交易數(shù)據(jù)庫中原始數(shù)據(jù)量化屬性區(qū)間化和離散化?!癋P-growth關(guān)聯(lián)規(guī)則挖掘算法”要求將二手車交易數(shù)據(jù)庫中的部分數(shù)值型原始數(shù)據(jù)進行量化屬性區(qū)間化和離散化處理。比如,根據(jù)“布爾型”二手車交易數(shù)據(jù)庫中原始數(shù)據(jù)的實際取值分布規(guī)律,對二手車交易數(shù)據(jù)庫中數(shù)值型的屬性行駛里程進行區(qū)間化和離散化,即表示為:20(≤3萬千米)、21(3萬~7萬千米)、22(7萬~11萬千米)、23(11萬~19萬千米)、24(19萬~29萬千米)、25(29萬~39萬千米)、26(39萬~49萬千米)、27(49萬~59萬千米)、28(59萬千米以上),由此類推,本二手車交易數(shù)據(jù)庫中的其他部分數(shù)值也可按照此方法進行數(shù)值屬性轉(zhuǎn)化,將數(shù)值型的屬性數(shù)據(jù)劃分為分別包含幾個區(qū)間的布爾型數(shù)據(jù),最終均轉(zhuǎn)化為數(shù)字。
(2)二手車交易數(shù)據(jù)庫中原始數(shù)據(jù)類別屬性轉(zhuǎn)化。在數(shù)據(jù)挖掘過程中,二手車交易數(shù)據(jù)庫中原始數(shù)據(jù)的“備選屬性”同樣也需要進行類別轉(zhuǎn)換,例如,二手車交易數(shù)據(jù)庫中的性別屬性原始數(shù)據(jù),在數(shù)據(jù)挖掘前,也需要全部轉(zhuǎn)換為包含幾個具體區(qū)間的布爾類型數(shù)據(jù),如67(男)、68(女),按照此方法由此類推,本二手車交易數(shù)據(jù)庫中的其他部分數(shù)值也可按照此方法進行數(shù)值屬性轉(zhuǎn)化,將數(shù)值型的屬性數(shù)據(jù)劃分為分別包含幾個區(qū)間的布爾型數(shù)據(jù),最終均轉(zhuǎn)化為數(shù)字。接下來,本文就此舉例展開具體分析和說明,本二手車交易數(shù)據(jù)庫中一些備選項屬性記錄的字段名含義、屬性名稱對應關(guān)系以及經(jīng)數(shù)據(jù)轉(zhuǎn)換后的事務數(shù)據(jù)統(tǒng)計如表1至表3所示。
表1 二手車交易數(shù)據(jù)字段名
表2 二手車交易數(shù)據(jù)對應關(guān)系
表3 二手車交易數(shù)據(jù)挖掘轉(zhuǎn)換后的事務數(shù)據(jù)
基于上述算法關(guān)聯(lián)對應規(guī)則,本研究通過對經(jīng)整理與轉(zhuǎn)換后的二手車交易系統(tǒng)預處理數(shù)據(jù)進行數(shù)據(jù)挖掘,以上數(shù)據(jù)經(jīng)合并、整合和數(shù)據(jù)預處理,分類為消費者行為偏好、滿意度、忠誠度、個人信息四部分,如圖2所示。
圖2 二手車交易系統(tǒng)“消費者行為偏好”數(shù)據(jù)
我們研究所需要的挖掘數(shù)據(jù)除了部分客戶個人統(tǒng)計特征數(shù)據(jù)、行為偏好數(shù)據(jù)、滿意數(shù)據(jù)、忠誠度數(shù)據(jù)之外,還需將轉(zhuǎn)換后的事務數(shù)據(jù)輸入數(shù)據(jù)挖掘計算機系統(tǒng)中,分別設(shè)定最小支持度和最小置信度,其中=7%,=28%,由此基于FP樹的頻繁項目集挖掘算法輸出頻繁項集,并得到如表4所示的數(shù)據(jù)挖掘結(jié)果。
表4 基于FP—growth算法的二手車交易系統(tǒng)數(shù)據(jù)挖掘結(jié)果
通過數(shù)據(jù)挖掘整理,根據(jù)表4中數(shù)據(jù)統(tǒng)計結(jié)果可以看出,二手車交易數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則A表示黑色奔馳MPV汽車行駛里程在5~9千米范圍之內(nèi)的二手車比較受二手車購買車主的歡迎,而二手車交易數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則B表示寶馬SAV行車年限在3~5年之內(nèi)的汽車比較受男性車主的歡迎,規(guī)則C表示行駛里程在3~7年的路虎轎車更受女性購車主的青睞,規(guī)則D表示行駛里程在50~90千米的白色捷達轎車更受男性購車者的青睞,規(guī)則E表示行駛年限在3~7年,并且汽車行駛里程在30~100千米之內(nèi)的銀色別克轎車更受女性購車主的歡迎,規(guī)則F則表示行駛年限在1~2年的MPV紅旗轎車比較受男士的青睞,而且在二手車交易市場中成交數(shù)量較大。
本研究基于P樹的頻繁項目集挖掘算法,對某二手車交易系統(tǒng)中的車輛品牌、顏色、類型、行駛里程、行駛年限、買售人性別等相關(guān)數(shù)據(jù)信息進行分析和對比,基于FP-growth和FP-tree算法關(guān)聯(lián)規(guī)則,挖掘和總結(jié)其中的數(shù)據(jù)分布規(guī)律,從而為二手車市場中售車主與購買者雙方的信息交互提供了良好的價值載體。本研究認為,在數(shù)據(jù)挖掘過程中,基于算法關(guān)聯(lián)規(guī)則對二手車交易系統(tǒng)中的數(shù)據(jù)信息進行挖掘時,必須要充分做好數(shù)據(jù)挖掘前的數(shù)據(jù)篩選和數(shù)據(jù)準備及數(shù)據(jù)選擇工作,結(jié)合數(shù)據(jù)挖掘目標,通過設(shè)定核實的最小置信度和支持度,從而為合理地進行數(shù)據(jù)挖掘提供基礎(chǔ)。如果數(shù)據(jù)挖掘的參數(shù)值設(shè)定過大或過小,都會對最終的數(shù)據(jù)挖掘結(jié)果產(chǎn)生影響,從而不利于關(guān)聯(lián)規(guī)則的運行,由此可能會導致資源浪費,數(shù)據(jù)冗余,只有基于數(shù)據(jù)挖掘原理與算法進行數(shù)據(jù)預處理,經(jīng)過數(shù)據(jù)量化屬性離散化、類別屬性轉(zhuǎn)化,才能對整理和轉(zhuǎn)換后的二手車交易信息進行有效性挖掘。