亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本挖掘的電子商務市場表現(xiàn)研究

        2017-05-09 17:46:34陳皓琰
        科學中國人 2017年12期
        關鍵詞:爬蟲分詞網(wǎng)購

        陳皓琰

        四川城市軌道交通職業(yè)學院籌備中心

        基于文本挖掘的電子商務市場表現(xiàn)研究

        陳皓琰

        四川城市軌道交通職業(yè)學院籌備中心

        大數(shù)據(jù)轉變成可視化數(shù)據(jù)依靠的是計算機領域中的文本挖掘技術。文本挖掘中最重要且最基本的應用是實現(xiàn)文本的分類和聚類,前者是有監(jiān)督的挖掘算法,后者是無監(jiān)督的挖掘算法。本文重點講述如何利用文本挖掘技術對當前的電子商務市場表現(xiàn)進行研究。

        文本挖掘;電子商務;數(shù)據(jù)分析;爬蟲

        1 引言

        文本挖掘指的是從文本數(shù)據(jù)中獲取有價值的信息和知識,它是數(shù)據(jù)挖掘中的一種方法。數(shù)據(jù)挖掘[1]也稱知識發(fā)現(xiàn)(KDD),是從數(shù)據(jù)庫中便捷地抽取出未知的、隱含的、有用的信息。

        本文的研究背景是基于大數(shù)據(jù)下進行的,而對電子商務市場表現(xiàn)進行研究,采用的技術是本文挖掘技術。文本挖掘技術是一項非常重要的挖掘和展示數(shù)據(jù)結論的技術。通過本文的研究,希望能對電子商務的市場表現(xiàn)有一個更加清晰的認識。

        2 文本挖掘流程

        數(shù)據(jù)挖掘中的文本挖掘與我們的生活息息相關,比如,搜索引擎上的新聞熱點推送,雖然少不了編輯人員的工作,但是在繁雜網(wǎng)絡信息中,脫離電腦僅靠人工是幾乎不可能完成的。最近一款流行的APP,<<頭條>>,它其實也是文本挖掘技術應用的一種展現(xiàn)。本文挖掘的一般流程如圖2-1所示:

        圖2 -1文本挖掘一般流程

        2.1 文本獲取

        一般情況下,我們通過網(wǎng)頁的形式,獲取網(wǎng)絡文本,再將得到的文本建成文本數(shù)據(jù)庫(數(shù)據(jù)集)。在這個過程中,可利用爬蟲程序來爬取網(wǎng)絡中的信息。爬取的策略有廣度和深度爬取,根據(jù)用戶的需求,爬蟲也可分為主題爬蟲和通用爬蟲。主題爬蟲主要是在相關站點進行爬取或者爬取特定主題的文本,而通用爬蟲則一般對此不加限制,所以得到的文本量和內容更多?,F(xiàn)在網(wǎng)絡上已經(jīng)存在很多開源的爬蟲程序,也可根據(jù)獲取對象的情況自行編寫。

        2.2 文本預處理

        通過執(zhí)行爬蟲程序,我們獲取了大量的原始數(shù)據(jù)和相關資料,但網(wǎng)頁中存在很多我們不感興趣的信息,比如廣告、導航欄、html、js代碼、注釋等等。所以,我們還需要對文本中的信息進行篩選。這個步驟相當于做飯中洗菜的過程,沒有清洗過的食材,廚藝再好的人,我想也很難做出佳肴吧。

        2.3 分詞系統(tǒng)

        我們知道,文本中起到關鍵作用的是往往是一些關鍵詞,這些關鍵詞決定了文本取向。比如說一篇文章介紹的是體育相關的內容,我們只需要對文章中的關鍵詞進行分析就能得到想要的結果了。那么怎樣才能找到那些能夠影響主題的詞語呢?

        在找出關鍵詞之前,要先獲取文本中所有的詞語。這個步驟需要用到一個分詞系統(tǒng)或者分詞工具?,F(xiàn)在針對中文分詞,出現(xiàn)了很多算法,有最大匹配法、最優(yōu)匹配法、機械匹配法、逆向匹配法、雙向匹配法等等。這里推薦使用中科院的分詞工具ICTCLAS[2],該工具是以北京大學計算機語言學研究所加工的《人民日報》語料庫為訓練語庫,基于層疊隱馬爾可夫模型的漢語分詞方法,是一個基于統(tǒng)計方法的、集成的一體化漢語詞法分析解決方案。

        2.4 特征選擇

        通過分詞工具的輔助,我們已經(jīng)把所有的詞進行了分類。但是這些詞中,并不都是所需要的,比如語氣詞、形容詞、標點符號。這些詞和字符在文中都大量存在,與文本關鍵詞無太大關系,所以可以刪除。

        經(jīng)過處理,我們能夠得到一個文本集。有的詞會在這個文本集中大量出現(xiàn),有的只出現(xiàn)幾次而已。出現(xiàn)頻率低的詞通常不能決定文章的主題,而且文本集中內容越大,維度會越高,矩陣稀疏度隨之成比,嚴重影響到挖掘結果。國內外許多學者已經(jīng)在關鍵詞抽取領域中做了大量研究工作,簡立峰[3]使用PAT樹結構,利用詞與詞的聯(lián)系來對中文關鍵詞進行搜索,但是PAT樹模型的成本太大,本文引用權重計算方法TF-IDF(term frequency-inverse document frequency),該模型的主要思想是[4]:關鍵詞在文檔中權重為關鍵詞在文檔中出現(xiàn)的頻數(shù)反比于包含該特征詞的文檔書目。TF表示關鍵詞m在文檔D中出現(xiàn)的頻率,IDF表示所有文檔中出現(xiàn)關鍵詞m的文檔數(shù)目。

        3 文本挖掘在電子商務市場表現(xiàn)研究方面的應用

        文本挖掘技術可以應用到各個領域當中,電子商務領域尤為廣泛。做過電商應用的朋友就會發(fā)現(xiàn),在工作過程中,業(yè)務的需求基本來源于數(shù)據(jù),這些數(shù)據(jù)主要靠文本挖掘來獲取。比如唯品會,其網(wǎng)站上商品的價格及展現(xiàn)形式都不是隨意設定的。唯品會的大數(shù)據(jù)部門,無時無刻不在運行著爬蟲程序,然后進行數(shù)據(jù)分析,尋找自己想要的商務數(shù)據(jù)。

        3.1 數(shù)據(jù)爬蟲

        本文中使用了Python開發(fā)的PyRailgun,它是一個簡潔、輕量、高效的網(wǎng)頁抓取框架。本人在其開源代碼的基礎上,加入了研究所需要的成分,然后設定好需要爬蟲的關鍵詞:電子商務、網(wǎng)購、商務公司、網(wǎng)購評價、商品評價、商品質量、公司融資、融資金額。這八個關鍵詞是程序重點爬蟲的對象,爬蟲程序執(zhí)行以后會將與其相關的數(shù)據(jù)保存下來。本次爬蟲程序不做深度爬蟲處理,以三級爬蟲為最多爬蟲層數(shù),數(shù)據(jù)量以10萬條為準,多于10萬條以上的數(shù)據(jù),不再存儲,避免數(shù)據(jù)量過大,處理周期冗長。

        3.2 數(shù)據(jù)預處理

        在數(shù)據(jù)預處理階段,本人設定了一些文本規(guī)則,將不相關的文本數(shù)據(jù)清除,只保留和預期目標相關的數(shù)據(jù)。數(shù)據(jù)預處理的規(guī)則如下:

        (1)去除含廣告類的數(shù)據(jù),這部分數(shù)據(jù)與研究目標無直接聯(lián)系且數(shù)量巨大。

        (2)數(shù)據(jù)分類:將與本文目標一致的數(shù)據(jù)劃分為一類。使用聚類分析算法,將其劃分為三類數(shù)據(jù):電子商務公司名稱數(shù)據(jù)、網(wǎng)購評價數(shù)據(jù)、公司融資數(shù)據(jù)。

        (3)數(shù)據(jù)精簡去重,一個主題相關詞只保留一條。

        3.3 數(shù)據(jù)細分

        經(jīng)過數(shù)據(jù)預處理后,三種目標數(shù)據(jù)的純凈度大幅度提升。因為本文主要研究的是數(shù)據(jù)反應出的趨勢,所以要對數(shù)據(jù)再進行細分,規(guī)則如下:

        (1)電子商務公司名稱數(shù)據(jù)

        以公司名稱為重點關鍵詞,通過聚類分析算法進行數(shù)據(jù)分類。

        (2)網(wǎng)購評價數(shù)據(jù)

        數(shù)據(jù)相對零碎,比較難處理。本次實驗數(shù)據(jù)以天為單位,分好評與差評。

        (3)公司融資數(shù)據(jù)

        數(shù)據(jù)也是以公司名稱為重點關鍵詞:通過聚類分析算法,將各公司的融資數(shù)據(jù)情況劃分為一類,便于下一步的數(shù)據(jù)分析中挖掘重點融資情況。

        3.4 數(shù)據(jù)分析

        把分類好的數(shù)據(jù)進行匯總,即可得到所需的數(shù)據(jù)報表。

        (1)電子商務公司名稱數(shù)據(jù)

        匯總與電子商務有關的公司個數(shù)。

        (2)網(wǎng)購評價數(shù)據(jù)

        匯總好評和差評的頻次。

        (3)公司融資數(shù)據(jù)

        把各公司的每一輪融資結果,匯總成報表。

        3.5 研究結論

        (1)我國的電子商務公司一直處于增長的趨勢,由于文本程序每個季度執(zhí)行一次,數(shù)據(jù)量偏少,因此得到的結論是:從2015年10月份到2017年2月份期間,2016年4月份的新增公司數(shù)量最多。

        (2)客戶對網(wǎng)購評價好壞的趨勢??蛻魧W(wǎng)購評價情況,在2015年10月份,網(wǎng)購給予差評的比例較大,基本占到了43%左右,但是隨著時間的推移,網(wǎng)購差評的比例越來越少,到了2017年1月份,已減少到了18%左右。說明客戶網(wǎng)購體驗的發(fā)展趨勢越來越好。

        (3)電子商務創(chuàng)業(yè)型公司融資情況趨勢。在實驗范圍內,2016年4月的融資情況和融資數(shù)量最佳。

        4 結束語

        通過使用文本挖掘技術對電子商務市場表現(xiàn)展開應用,主要對一定時間內新增公司的數(shù)量趨勢、客戶對網(wǎng)購評價好壞的趨勢、電子商務創(chuàng)業(yè)型公司融資情況三個方面進行分析。

        因為本次實驗的樣本有限,tf-idf方法也有不足之處[5],所以結論僅提供參考,期望有更好的云服務技術,對更多的數(shù)據(jù)進行專業(yè)級文本挖掘,進行更深層次的分析。

        [1]JiaweiHan,Micheline Kamber.范明,孟小峰,等譯.數(shù)據(jù)挖掘概念與技術[M].北京:機械工業(yè)出版社,2001.

        [2]劉群.漢英機器翻譯若干關鍵技術探究[M].北京:清華大學出版社,2008.

        [3]Chien Lee Feng,PAT-tree-based Keyword extraction for Chinese information retrieval[C].Proceedings of the ACM SIGR InternationalConference on Information Retrieval,1997:50-59.

        [4]Aizawa A.An Information-theoretic Perspective of tf-idfMeasures[J].Information Processingand Management,2003,39(1):45-65.

        [5]徐建民,王金花,馬尾瑜.利用本體關聯(lián)度改進的TF-IDF特征詞提取方法[J].情報科學,2011,29(2):279-283.

        猜你喜歡
        爬蟲分詞網(wǎng)購
        利用網(wǎng)絡爬蟲技術驗證房地產(chǎn)灰犀牛之說
        教老媽網(wǎng)購
        基于Python的網(wǎng)絡爬蟲和反爬蟲技術研究
        網(wǎng)購寒假作業(yè)
        網(wǎng)購寒假作業(yè)
        結巴分詞在詞云中的應用
        智富時代(2019年6期)2019-07-24 10:33:16
        網(wǎng)購那些事兒
        商周刊(2018年23期)2018-11-26 01:22:22
        利用爬蟲技術的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡爬蟲技術
        電子制作(2017年9期)2017-04-17 03:00:46
        值得重視的分詞的特殊用法
        在线观看国产成人自拍视频| 国产三级国产精品三级在专区| 欧美中日韩免费观看网站| 真人做人试看60分钟免费视频| 国产人与zoxxxx另类| 精品少妇人妻av无码久久| 三级4级全黄60分钟| 女人做爰高潮呻吟17分钟| 欧美成人形色生活片| 国产成人精品麻豆| 亚洲图片第二页| 青青自拍视频成人免费观看| 久久免费看视频少妇高潮| 日本办公室三级在线观看| 国内自拍偷国视频系列| 白白在线视频免费观看嘛| 久久久久成人精品免费播放动漫| 一本色道久久综合狠狠躁篇| 最爽无遮挡行房视频| 后入内射欧美99二区视频| 麻豆国产乱人伦精品一区二区| 国产精品乱子伦一区二区三区 | 996久久国产精品线观看| 国产盗摄XXXX视频XXXX| 国产大片在线观看三级| 日本一区二区免费在线看| 亚洲国产成人极品综合| 国产精品videossex久久发布| 久久久久久久波多野结衣高潮| 久久综合狠狠综合久久| 国产日产高清欧美一区| 精品无码成人片一区二区| 青青草久热手机在线视频观看| 日韩亚洲国产中文字幕| 亚洲av久播在线一区二区| 狠狠综合久久av一区二区| 亚洲视频一区| 国产高清a| 午夜婷婷国产麻豆精品| 色播视频在线观看麻豆| 日本丰满老妇bbw|