亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于文本挖掘的電子商務市場表現(xiàn)研究

2017-05-09 17:46:34陳皓琰

科學中國人 2017年12期

關鍵詞：爬蟲分詞網(wǎng)購

陳皓琰

四川城市軌道交通職業(yè)學院籌備中心

基于文本挖掘的電子商務市場表現(xiàn)研究

陳皓琰

四川城市軌道交通職業(yè)學院籌備中心

大數(shù)據(jù)轉變成可視化數(shù)據(jù)依靠的是計算機領域中的文本挖掘技術。文本挖掘中最重要且最基本的應用是實現(xiàn)文本的分類和聚類，前者是有監(jiān)督的挖掘算法，后者是無監(jiān)督的挖掘算法。本文重點講述如何利用文本挖掘技術對當前的電子商務市場表現(xiàn)進行研究。

文本挖掘；電子商務；數(shù)據(jù)分析；爬蟲

1 引言

文本挖掘指的是從文本數(shù)據(jù)中獲取有價值的信息和知識，它是數(shù)據(jù)挖掘中的一種方法。數(shù)據(jù)挖掘[1]也稱知識發(fā)現(xiàn)（KDD），是從數(shù)據(jù)庫中便捷地抽取出未知的、隱含的、有用的信息。

本文的研究背景是基于大數(shù)據(jù)下進行的，而對電子商務市場表現(xiàn)進行研究，采用的技術是本文挖掘技術。文本挖掘技術是一項非常重要的挖掘和展示數(shù)據(jù)結論的技術。通過本文的研究，希望能對電子商務的市場表現(xiàn)有一個更加清晰的認識。

2 文本挖掘流程

數(shù)據(jù)挖掘中的文本挖掘與我們的生活息息相關，比如，搜索引擎上的新聞熱點推送，雖然少不了編輯人員的工作，但是在繁雜網(wǎng)絡信息中，脫離電腦僅靠人工是幾乎不可能完成的。最近一款流行的APP，＜＜頭條＞＞，它其實也是文本挖掘技術應用的一種展現(xiàn)。本文挖掘的一般流程如圖2-1所示：

圖2 -1文本挖掘一般流程

2.1 文本獲取

一般情況下，我們通過網(wǎng)頁的形式，獲取網(wǎng)絡文本，再將得到的文本建成文本數(shù)據(jù)庫（數(shù)據(jù)集）。在這個過程中，可利用爬蟲程序來爬取網(wǎng)絡中的信息。爬取的策略有廣度和深度爬取，根據(jù)用戶的需求，爬蟲也可分為主題爬蟲和通用爬蟲。主題爬蟲主要是在相關站點進行爬取或者爬取特定主題的文本，而通用爬蟲則一般對此不加限制，所以得到的文本量和內容更多?，F(xiàn)在網(wǎng)絡上已經(jīng)存在很多開源的爬蟲程序，也可根據(jù)獲取對象的情況自行編寫。

2.2 文本預處理

通過執(zhí)行爬蟲程序，我們獲取了大量的原始數(shù)據(jù)和相關資料，但網(wǎng)頁中存在很多我們不感興趣的信息，比如廣告、導航欄、html、js代碼、注釋等等。所以，我們還需要對文本中的信息進行篩選。這個步驟相當于做飯中洗菜的過程，沒有清洗過的食材，廚藝再好的人，我想也很難做出佳肴吧。

2.3 分詞系統(tǒng)

我們知道，文本中起到關鍵作用的是往往是一些關鍵詞，這些關鍵詞決定了文本取向。比如說一篇文章介紹的是體育相關的內容，我們只需要對文章中的關鍵詞進行分析就能得到想要的結果了。那么怎樣才能找到那些能夠影響主題的詞語呢？

在找出關鍵詞之前，要先獲取文本中所有的詞語。這個步驟需要用到一個分詞系統(tǒng)或者分詞工具?，F(xiàn)在針對中文分詞，出現(xiàn)了很多算法，有最大匹配法、最優(yōu)匹配法、機械匹配法、逆向匹配法、雙向匹配法等等。這里推薦使用中科院的分詞工具ICTCLAS[2]，該工具是以北京大學計算機語言學研究所加工的《人民日報》語料庫為訓練語庫，基于層疊隱馬爾可夫模型的漢語分詞方法，是一個基于統(tǒng)計方法的、集成的一體化漢語詞法分析解決方案。

2.4 特征選擇

通過分詞工具的輔助，我們已經(jīng)把所有的詞進行了分類。但是這些詞中，并不都是所需要的，比如語氣詞、形容詞、標點符號。這些詞和字符在文中都大量存在，與文本關鍵詞無太大關系，所以可以刪除。

經(jīng)過處理，我們能夠得到一個文本集。有的詞會在這個文本集中大量出現(xiàn)，有的只出現(xiàn)幾次而已。出現(xiàn)頻率低的詞通常不能決定文章的主題，而且文本集中內容越大，維度會越高，矩陣稀疏度隨之成比，嚴重影響到挖掘結果。國內外許多學者已經(jīng)在關鍵詞抽取領域中做了大量研究工作，簡立峰[3]使用PAT樹結構，利用詞與詞的聯(lián)系來對中文關鍵詞進行搜索，但是PAT樹模型的成本太大，本文引用權重計算方法TF-IDF（term frequency-inverse document frequency），該模型的主要思想是[4]：關鍵詞在文檔中權重為關鍵詞在文檔中出現(xiàn)的頻數(shù)反比于包含該特征詞的文檔書目。TF表示關鍵詞m在文檔D中出現(xiàn)的頻率，IDF表示所有文檔中出現(xiàn)關鍵詞m的文檔數(shù)目。

3 文本挖掘在電子商務市場表現(xiàn)研究方面的應用

文本挖掘技術可以應用到各個領域當中，電子商務領域尤為廣泛。做過電商應用的朋友就會發(fā)現(xiàn)，在工作過程中，業(yè)務的需求基本來源于數(shù)據(jù)，這些數(shù)據(jù)主要靠文本挖掘來獲取。比如唯品會，其網(wǎng)站上商品的價格及展現(xiàn)形式都不是隨意設定的。唯品會的大數(shù)據(jù)部門，無時無刻不在運行著爬蟲程序，然后進行數(shù)據(jù)分析，尋找自己想要的商務數(shù)據(jù)。

3.1 數(shù)據(jù)爬蟲

本文中使用了Python開發(fā)的PyRailgun，它是一個簡潔、輕量、高效的網(wǎng)頁抓取框架。本人在其開源代碼的基礎上，加入了研究所需要的成分，然后設定好需要爬蟲的關鍵詞：電子商務、網(wǎng)購、商務公司、網(wǎng)購評價、商品評價、商品質量、公司融資、融資金額。這八個關鍵詞是程序重點爬蟲的對象，爬蟲程序執(zhí)行以后會將與其相關的數(shù)據(jù)保存下來。本次爬蟲程序不做深度爬蟲處理，以三級爬蟲為最多爬蟲層數(shù)，數(shù)據(jù)量以10萬條為準，多于10萬條以上的數(shù)據(jù)，不再存儲，避免數(shù)據(jù)量過大，處理周期冗長。

3.2 數(shù)據(jù)預處理

在數(shù)據(jù)預處理階段，本人設定了一些文本規(guī)則，將不相關的文本數(shù)據(jù)清除，只保留和預期目標相關的數(shù)據(jù)。數(shù)據(jù)預處理的規(guī)則如下：

（1）去除含廣告類的數(shù)據(jù)，這部分數(shù)據(jù)與研究目標無直接聯(lián)系且數(shù)量巨大。

（2）數(shù)據(jù)分類：將與本文目標一致的數(shù)據(jù)劃分為一類。使用聚類分析算法，將其劃分為三類數(shù)據(jù)：電子商務公司名稱數(shù)據(jù)、網(wǎng)購評價數(shù)據(jù)、公司融資數(shù)據(jù)。

（3）數(shù)據(jù)精簡去重，一個主題相關詞只保留一條。

3.3 數(shù)據(jù)細分

經(jīng)過數(shù)據(jù)預處理后，三種目標數(shù)據(jù)的純凈度大幅度提升。因為本文主要研究的是數(shù)據(jù)反應出的趨勢，所以要對數(shù)據(jù)再進行細分，規(guī)則如下：

（1）電子商務公司名稱數(shù)據(jù)

以公司名稱為重點關鍵詞，通過聚類分析算法進行數(shù)據(jù)分類。

（2）網(wǎng)購評價數(shù)據(jù)

數(shù)據(jù)相對零碎，比較難處理。本次實驗數(shù)據(jù)以天為單位，分好評與差評。

（3）公司融資數(shù)據(jù)

數(shù)據(jù)也是以公司名稱為重點關鍵詞：通過聚類分析算法，將各公司的融資數(shù)據(jù)情況劃分為一類，便于下一步的數(shù)據(jù)分析中挖掘重點融資情況。

3.4 數(shù)據(jù)分析

把分類好的數(shù)據(jù)進行匯總，即可得到所需的數(shù)據(jù)報表。

（1）電子商務公司名稱數(shù)據(jù)

匯總與電子商務有關的公司個數(shù)。

（2）網(wǎng)購評價數(shù)據(jù)

匯總好評和差評的頻次。

（3）公司融資數(shù)據(jù)

把各公司的每一輪融資結果，匯總成報表。

3.5 研究結論

（1）我國的電子商務公司一直處于增長的趨勢，由于文本程序每個季度執(zhí)行一次，數(shù)據(jù)量偏少，因此得到的結論是：從2015年10月份到2017年2月份期間，2016年4月份的新增公司數(shù)量最多。

（2）客戶對網(wǎng)購評價好壞的趨勢?？蛻魧W(wǎng)購評價情況,在2015年10月份，網(wǎng)購給予差評的比例較大，基本占到了43%左右，但是隨著時間的推移，網(wǎng)購差評的比例越來越少，到了2017年1月份，已減少到了18%左右。說明客戶網(wǎng)購體驗的發(fā)展趨勢越來越好。

（3）電子商務創(chuàng)業(yè)型公司融資情況趨勢。在實驗范圍內，2016年4月的融資情況和融資數(shù)量最佳。

4 結束語

通過使用文本挖掘技術對電子商務市場表現(xiàn)展開應用，主要對一定時間內新增公司的數(shù)量趨勢、客戶對網(wǎng)購評價好壞的趨勢、電子商務創(chuàng)業(yè)型公司融資情況三個方面進行分析。

因為本次實驗的樣本有限，tf-idf方法也有不足之處[5]，所以結論僅提供參考，期望有更好的云服務技術，對更多的數(shù)據(jù)進行專業(yè)級文本挖掘，進行更深層次的分析。

[1]JiaweiHan,Micheline Kamber.范明，孟小峰，等譯.數(shù)據(jù)挖掘概念與技術[M].北京：機械工業(yè)出版社，2001.

[2]劉群.漢英機器翻譯若干關鍵技術探究[M].北京：清華大學出版社,2008.

[3]Chien Lee Feng,PAT-tree-based Keyword extraction for Chinese information retrieval[C].Proceedings of the ACM SIGR InternationalConference on Information Retrieval,1997：50-59.

[4]Aizawa A.An Information-theoretic Perspective of tf-idfMeasures[J].Information Processingand Management,2003,39（1）：45-65.

[5]徐建民，王金花，馬尾瑜.利用本體關聯(lián)度改進的TF-IDF特征詞提取方法[J].情報科學，2011,29（2）：279-283.