李明杰 劉小飛
摘 ?要:大數(shù)據(jù)技術的迅猛發(fā)展帶來商業(yè)運行模式的巨變,這種改變正從云端潛移默化地滲透到每一個置身其中的消費者身上。從數(shù)據(jù)分析的角度去處理和解決問題,用大量數(shù)據(jù)分析得出的結論是最有效、最科學的,這一觀點正逐步被所有人接受。本文將從實際案例出發(fā),描述現(xiàn)有大數(shù)據(jù)商業(yè)分析模式,并展示其中最常用的MapReduce文本分析技術。
關鍵詞:用戶追蹤;數(shù)據(jù)分析;MapReduce
中圖分類號:TP391.1 ? ? ?文獻標識碼:A 文章編號:2096-4706(2019)13-0013-03
Application of MapReduce Text Analysis Technology in Business Model
LI Mingjie,LIU Xiaofei
(School of Information & Intelligence Engineering,University of Sanya,Sanya ?572022,China)
Abstract:The rapid development of big data technology has brought about tremendous changes in business operation mode,which is imperceptibly penetrating into every consumer in the cloud. From the perspective of data analysis to deal with problems and solve problems,a large number of data analysis concluded that the most effective and scientific,this view is gradually accepted by all. In this paper,we will describe the existing business analysis model of large data based on practical cases,and show the most commonly used MapReduce text analysis technology.
Keywords:user tracking;data analysis;MapReduce
0 ?引 ?言
大數(shù)據(jù)的發(fā)展帶來了商業(yè)模式的改變,其技術的不斷進步帶來了前所未有的商機。大數(shù)據(jù)技術可以使得商業(yè)公司提升現(xiàn)有數(shù)據(jù)庫的性能,使其更現(xiàn)代化;對于目前存在的機會,更具有洞察力;更快速地獲取信息,探索并利用新的機會。下面我們介紹兩種常見的商業(yè)應用。
1 ?問題的提出
第一種應用是面向廣告公司的,或者是有投放廣告訴求的公司,他們希望可以使用大數(shù)據(jù)技術在線上接觸到特定的目標群體并且能在網(wǎng)絡上追蹤目標消費者。第二種應用我們以亞馬遜為例,分析如何使用大數(shù)據(jù)來增加銷量,并幫助其針對各類消費者提供個性化的產品和服務。
2 ?基于大數(shù)據(jù)背景的解題思路
針對第一種應用,我們給出這樣一種思路:若使得廣告公司或者公司可以使用大數(shù)據(jù)在線上接觸到特定的目標群體并且能在網(wǎng)絡上追蹤目標消費者,其實質就是利用大數(shù)據(jù)分析得出18歲-25歲這部分人群最經常瀏覽的網(wǎng)站平臺以及瀏覽時間,以此指導廣告公司的最佳廣告投放位置和投放時間。具體實施步驟如下:
(1)首先是數(shù)據(jù)收集階段,可考慮在網(wǎng)絡主流社交平臺上投放廣告,比如國內的QQ、國外的Facebook、Twitter等等。在沒有任何先驗知識的情況下,這時期各平臺的投放比例和投放時間應平均且一致。經過一段時間的投放后,通過對點擊廣告并下單的實際消費者進行追蹤,對其在社交平臺上的瀏覽痕跡,比如發(fā)表的評論或點贊等信息進行收集和整理,得出消費者的分布情況,并重點對18歲-25歲這個年齡段的群體進行進一步分析,得出他們感興趣的方面,比如提及“歐冠”“NBA”等詞匯的比例達到70%,提及“游戲”“疲勞”等詞匯的達到20%,其他有10%。則可以進一步追蹤目標消費者。
(2)改進階段。一是根據(jù)收集分析得出的各大社交平臺上的實際點擊頻率和點擊時間,改變各平臺的投放比例和投放時間;二是根據(jù)分析得出的關鍵詞匯對目標消費者進行追蹤投放,比如70%都提及了體育類詞匯,則可以在QQ的體育專欄或NBA專欄中投放廣告,并且在廣告語中加入“運動”“無極限”類的關鍵詞。
針對第二種亞馬遜的服務需求,則需兼顧大眾營銷和個性營銷之間的平衡。一是大眾營銷,即利用自身平臺和公共社交平臺收集的數(shù)據(jù)分析,重點改善亞馬遜平臺自身的品牌形象,產品推薦和價格設定等;二是優(yōu)質消費者的定制化個性營銷,即注冊會員服務等等,追蹤會員人群的消費特點,針對性的定制服務。具體實施步驟如下:
(1)增加銷量的一個簡單方法是根據(jù)亞馬遜網(wǎng)站上的搜索關鍵詞,進行數(shù)據(jù)分析,得出關鍵詞的搜索頻率,在網(wǎng)站主頁醒目位置提供這些關鍵詞對應消費品的展示,增加點擊量。除此之外,在各大社交網(wǎng)站平臺,搜索關于亞馬遜產品和服務的評價,通過分析,完善自身服務水平,并使得產品有更加明確的消費群體指向。
(2)設置商品的普通價格和會員價格,使得更多人從普通消費者轉變?yōu)闀T消費者,這樣亞馬遜可以獲得更多關于該消費者的個人信息(比如:email、手機號碼等),也更有利于追蹤該消費者的消費習慣。根據(jù)大量的消費者的消費數(shù)據(jù),分析得出不同的消費者類型,比如A類型的消費者每次買完兒童讀物之后還會去瀏覽女性化妝品,可以據(jù)此為這類用戶設定好相應產品的鏈接,讓其在購買兒童讀物的時候,方便地跳轉到化妝品頁面。而且這樣分解成不同的消費者類型后,當有類似購買行為的消費者出現(xiàn)的時候,系統(tǒng)也可以將其歸類到某種消費類型中,以便為其提供更好的服務,而原本屬于類型A的消費者如果購買習慣發(fā)生了變化,通過數(shù)據(jù)分析后,要迅速更新他的消費類型,將其歸為更符合他現(xiàn)在消費習慣的類型中。
以上即是在大數(shù)據(jù)背景下常見的兩種商業(yè)思維模式,這其中數(shù)據(jù)分析扮演著非常重要的角色,而利用MapReduce進行文本分析是其中最常用的技術手段。
3 ?MapReduce基礎
隨著網(wǎng)絡用戶的急劇增加,原有的網(wǎng)頁爬取和頻率查詢類應用無法應對未來的需求。為了可以高速地處理大量數(shù)據(jù),商業(yè)公司開始使用網(wǎng)絡中集群形式的分布計算機。分布式新算法要求必須與數(shù)據(jù)的位置以及處理數(shù)據(jù)的應用程序的位置無關。為了實現(xiàn)這一算法,一種新的泛型編程模型誕生了,這就是MapReduce。MapReduce這個名字來源于兩種已存在的編程語言功能的結合,也就是Map和Reduce。
MapReduce具有如下特性:
(1)時序安排。將一項工作分割為各個單獨的任務,再由應用程序的Map和Reduce來進行處理。
(2)同步。通過保持追蹤任務及時來同時執(zhí)行多個進程。
(3)代碼數(shù)據(jù)協(xié)同定位。在執(zhí)行相關進程和處理相關數(shù)據(jù)之前,把代碼和與其相關的數(shù)據(jù)放到同一個節(jié)點上。
(4)錯誤處理。在一個Hadoop集群中,可以跨節(jié)點來有效地處理錯誤。
要讓MapReduce高效地工作需要一個合適的算法:從大量的數(shù)據(jù)或者記錄開始,對數(shù)據(jù)進行迭代,利用Map功能提取有效信息并且創(chuàng)建一個輸出列表,整理輸出列表進行優(yōu)化以便后續(xù)處理,利用Reduce功能來計算一系列的結果,產生最終的輸出。
4 ?MapReduce文本分析
對于各種形式的文本分析而言,LineCount應用程序是一個不可或缺的統(tǒng)計工具。想分析文本,我們必須知道文本中的行數(shù)、字數(shù)和單詞數(shù)。此外,這些參數(shù)的出現(xiàn)頻率也有助于我們對數(shù)(值)進行分類。本文實驗中,我們將借助Eclipse集成開發(fā)環(huán)境(IDE)編寫MapReduce程序,以統(tǒng)計給定文本文件的行數(shù)。下面給出具體實驗步驟:
(1)在Ubuntu上安裝Eclipse、Hadoop和JDK,在Eclipse中創(chuàng)建新的Java Project,在其中添加必要的jar包文件,如圖1所示。
(2)創(chuàng)建包,并在包中創(chuàng)建“LineCount”類,其核心代碼如圖2所示。
(3)將LineCount項目導出為jar文件。啟動Hadoop,復制所要分析的文件(文件名為loaddata1)到HDFS,重命名為LOAD,如圖3所示。
(4)運行MapReduce程序,如圖4所示。
(5)最后將結果導出到文本文件并查看,如圖5所示。
5 ?結 ?論
在大數(shù)據(jù)背景下,我們需要轉變自身思維,從數(shù)據(jù)分析的角度去處理問題和解決問題,認同大量數(shù)據(jù)分析得出結論的有效性和科學性。掌握大數(shù)據(jù)分析的常用技術,體會大數(shù)據(jù)背景下的商業(yè)模式變革。
參考文獻:
[1] 王永昌,朱立谷.面向Twitter情感分析的文本預處理方法研究 [J].中國傳媒大學學報(自然科學版),2019,26(2):31-38.
[2] 冒佳明,王鵬飛,趙然.MapReduce架構下Reduce任務的調度優(yōu)化 [J].無線互聯(lián)科技,2018,15(22):5-6.
[3] 陳先紅,宋發(fā)枝.互聯(lián)網(wǎng)新技術背景下的輿論傳播策略 [J].武漢理工大學學報(社會科學版),2019(3):1-6.
作者簡介:李明杰(1984-),男,漢族,吉林松原人,碩
士,副教授,研究方向:模式分析與人工智能;劉小飛(1984-),女,漢族,吉林敦化人,碩士,副教授,研究方向:動態(tài)規(guī)劃與規(guī)劃識別。