陳皓琰
四川城市軌道交通職業(yè)學院籌備中心
基于文本挖掘的電子商務市場表現(xiàn)研究
陳皓琰
四川城市軌道交通職業(yè)學院籌備中心
大數(shù)據(jù)轉變成可視化數(shù)據(jù)依靠的是計算機領域中的文本挖掘技術。文本挖掘中最重要且最基本的應用是實現(xiàn)文本的分類和聚類,前者是有監(jiān)督的挖掘算法,后者是無監(jiān)督的挖掘算法。本文重點講述如何利用文本挖掘技術對當前的電子商務市場表現(xiàn)進行研究。
文本挖掘;電子商務;數(shù)據(jù)分析;爬蟲
文本挖掘指的是從文本數(shù)據(jù)中獲取有價值的信息和知識,它是數(shù)據(jù)挖掘中的一種方法。數(shù)據(jù)挖掘[1]也稱知識發(fā)現(xiàn)(KDD),是從數(shù)據(jù)庫中便捷地抽取出未知的、隱含的、有用的信息。
本文的研究背景是基于大數(shù)據(jù)下進行的,而對電子商務市場表現(xiàn)進行研究,采用的技術是本文挖掘技術。文本挖掘技術是一項非常重要的挖掘和展示數(shù)據(jù)結論的技術。通過本文的研究,希望能對電子商務的市場表現(xiàn)有一個更加清晰的認識。
數(shù)據(jù)挖掘中的文本挖掘與我們的生活息息相關,比如,搜索引擎上的新聞熱點推送,雖然少不了編輯人員的工作,但是在繁雜網(wǎng)絡信息中,脫離電腦僅靠人工是幾乎不可能完成的。最近一款流行的APP,<<頭條>>,它其實也是文本挖掘技術應用的一種展現(xiàn)。本文挖掘的一般流程如圖2-1所示:
圖2 -1文本挖掘一般流程
2.1 文本獲取
一般情況下,我們通過網(wǎng)頁的形式,獲取網(wǎng)絡文本,再將得到的文本建成文本數(shù)據(jù)庫(數(shù)據(jù)集)。在這個過程中,可利用爬蟲程序來爬取網(wǎng)絡中的信息。爬取的策略有廣度和深度爬取,根據(jù)用戶的需求,爬蟲也可分為主題爬蟲和通用爬蟲。主題爬蟲主要是在相關站點進行爬取或者爬取特定主題的文本,而通用爬蟲則一般對此不加限制,所以得到的文本量和內容更多?,F(xiàn)在網(wǎng)絡上已經(jīng)存在很多開源的爬蟲程序,也可根據(jù)獲取對象的情況自行編寫。
2.2 文本預處理
通過執(zhí)行爬蟲程序,我們獲取了大量的原始數(shù)據(jù)和相關資料,但網(wǎng)頁中存在很多我們不感興趣的信息,比如廣告、導航欄、html、js代碼、注釋等等。所以,我們還需要對文本中的信息進行篩選。這個步驟相當于做飯中洗菜的過程,沒有清洗過的食材,廚藝再好的人,我想也很難做出佳肴吧。
2.3 分詞系統(tǒng)
我們知道,文本中起到關鍵作用的是往往是一些關鍵詞,這些關鍵詞決定了文本取向。比如說一篇文章介紹的是體育相關的內容,我們只需要對文章中的關鍵詞進行分析就能得到想要的結果了。那么怎樣才能找到那些能夠影響主題的詞語呢?
在找出關鍵詞之前,要先獲取文本中所有的詞語。這個步驟需要用到一個分詞系統(tǒng)或者分詞工具?,F(xiàn)在針對中文分詞,出現(xiàn)了很多算法,有最大匹配法、最優(yōu)匹配法、機械匹配法、逆向匹配法、雙向匹配法等等。這里推薦使用中科院的分詞工具ICTCLAS[2],該工具是以北京大學計算機語言學研究所加工的《人民日報》語料庫為訓練語庫,基于層疊隱馬爾可夫模型的漢語分詞方法,是一個基于統(tǒng)計方法的、集成的一體化漢語詞法分析解決方案。
2.4 特征選擇
通過分詞工具的輔助,我們已經(jīng)把所有的詞進行了分類。但是這些詞中,并不都是所需要的,比如語氣詞、形容詞、標點符號。這些詞和字符在文中都大量存在,與文本關鍵詞無太大關系,所以可以刪除。
經(jīng)過處理,我們能夠得到一個文本集。有的詞會在這個文本集中大量出現(xiàn),有的只出現(xiàn)幾次而已。出現(xiàn)頻率低的詞通常不能決定文章的主題,而且文本集中內容越大,維度會越高,矩陣稀疏度隨之成比,嚴重影響到挖掘結果。國內外許多學者已經(jīng)在關鍵詞抽取領域中做了大量研究工作,簡立峰[3]使用PAT樹結構,利用詞與詞的聯(lián)系來對中文關鍵詞進行搜索,但是PAT樹模型的成本太大,本文引用權重計算方法TF-IDF(term frequency-inverse document frequency),該模型的主要思想是[4]:關鍵詞在文檔中權重為關鍵詞在文檔中出現(xiàn)的頻數(shù)反比于包含該特征詞的文檔書目。TF表示關鍵詞m在文檔D中出現(xiàn)的頻率,IDF表示所有文檔中出現(xiàn)關鍵詞m的文檔數(shù)目。
文本挖掘技術可以應用到各個領域當中,電子商務領域尤為廣泛。做過電商應用的朋友就會發(fā)現(xiàn),在工作過程中,業(yè)務的需求基本來源于數(shù)據(jù),這些數(shù)據(jù)主要靠文本挖掘來獲取。比如唯品會,其網(wǎng)站上商品的價格及展現(xiàn)形式都不是隨意設定的。唯品會的大數(shù)據(jù)部門,無時無刻不在運行著爬蟲程序,然后進行數(shù)據(jù)分析,尋找自己想要的商務數(shù)據(jù)。
3.1 數(shù)據(jù)爬蟲
本文中使用了Python開發(fā)的PyRailgun,它是一個簡潔、輕量、高效的網(wǎng)頁抓取框架。本人在其開源代碼的基礎上,加入了研究所需要的成分,然后設定好需要爬蟲的關鍵詞:電子商務、網(wǎng)購、商務公司、網(wǎng)購評價、商品評價、商品質量、公司融資、融資金額。這八個關鍵詞是程序重點爬蟲的對象,爬蟲程序執(zhí)行以后會將與其相關的數(shù)據(jù)保存下來。本次爬蟲程序不做深度爬蟲處理,以三級爬蟲為最多爬蟲層數(shù),數(shù)據(jù)量以10萬條為準,多于10萬條以上的數(shù)據(jù),不再存儲,避免數(shù)據(jù)量過大,處理周期冗長。
3.2 數(shù)據(jù)預處理
在數(shù)據(jù)預處理階段,本人設定了一些文本規(guī)則,將不相關的文本數(shù)據(jù)清除,只保留和預期目標相關的數(shù)據(jù)。數(shù)據(jù)預處理的規(guī)則如下:
(1)去除含廣告類的數(shù)據(jù),這部分數(shù)據(jù)與研究目標無直接聯(lián)系且數(shù)量巨大。
(2)數(shù)據(jù)分類:將與本文目標一致的數(shù)據(jù)劃分為一類。使用聚類分析算法,將其劃分為三類數(shù)據(jù):電子商務公司名稱數(shù)據(jù)、網(wǎng)購評價數(shù)據(jù)、公司融資數(shù)據(jù)。
(3)數(shù)據(jù)精簡去重,一個主題相關詞只保留一條。
3.3 數(shù)據(jù)細分
經(jīng)過數(shù)據(jù)預處理后,三種目標數(shù)據(jù)的純凈度大幅度提升。因為本文主要研究的是數(shù)據(jù)反應出的趨勢,所以要對數(shù)據(jù)再進行細分,規(guī)則如下:
(1)電子商務公司名稱數(shù)據(jù)
以公司名稱為重點關鍵詞,通過聚類分析算法進行數(shù)據(jù)分類。
(2)網(wǎng)購評價數(shù)據(jù)
數(shù)據(jù)相對零碎,比較難處理。本次實驗數(shù)據(jù)以天為單位,分好評與差評。
(3)公司融資數(shù)據(jù)
數(shù)據(jù)也是以公司名稱為重點關鍵詞:通過聚類分析算法,將各公司的融資數(shù)據(jù)情況劃分為一類,便于下一步的數(shù)據(jù)分析中挖掘重點融資情況。
3.4 數(shù)據(jù)分析
把分類好的數(shù)據(jù)進行匯總,即可得到所需的數(shù)據(jù)報表。
(1)電子商務公司名稱數(shù)據(jù)
匯總與電子商務有關的公司個數(shù)。
(2)網(wǎng)購評價數(shù)據(jù)
匯總好評和差評的頻次。
(3)公司融資數(shù)據(jù)
把各公司的每一輪融資結果,匯總成報表。
3.5 研究結論
(1)我國的電子商務公司一直處于增長的趨勢,由于文本程序每個季度執(zhí)行一次,數(shù)據(jù)量偏少,因此得到的結論是:從2015年10月份到2017年2月份期間,2016年4月份的新增公司數(shù)量最多。
(2)客戶對網(wǎng)購評價好壞的趨勢??蛻魧W(wǎng)購評價情況,在2015年10月份,網(wǎng)購給予差評的比例較大,基本占到了43%左右,但是隨著時間的推移,網(wǎng)購差評的比例越來越少,到了2017年1月份,已減少到了18%左右。說明客戶網(wǎng)購體驗的發(fā)展趨勢越來越好。
(3)電子商務創(chuàng)業(yè)型公司融資情況趨勢。在實驗范圍內,2016年4月的融資情況和融資數(shù)量最佳。
通過使用文本挖掘技術對電子商務市場表現(xiàn)展開應用,主要對一定時間內新增公司的數(shù)量趨勢、客戶對網(wǎng)購評價好壞的趨勢、電子商務創(chuàng)業(yè)型公司融資情況三個方面進行分析。
因為本次實驗的樣本有限,tf-idf方法也有不足之處[5],所以結論僅提供參考,期望有更好的云服務技術,對更多的數(shù)據(jù)進行專業(yè)級文本挖掘,進行更深層次的分析。
[1]JiaweiHan,Micheline Kamber.范明,孟小峰,等譯.數(shù)據(jù)挖掘概念與技術[M].北京:機械工業(yè)出版社,2001.
[2]劉群.漢英機器翻譯若干關鍵技術探究[M].北京:清華大學出版社,2008.
[3]Chien Lee Feng,PAT-tree-based Keyword extraction for Chinese information retrieval[C].Proceedings of the ACM SIGR InternationalConference on Information Retrieval,1997:50-59.
[4]Aizawa A.An Information-theoretic Perspective of tf-idfMeasures[J].Information Processingand Management,2003,39(1):45-65.
[5]徐建民,王金花,馬尾瑜.利用本體關聯(lián)度改進的TF-IDF特征詞提取方法[J].情報科學,2011,29(2):279-283.