摘 要:信息技術(shù)與數(shù)字技術(shù)的高速發(fā)展與持續(xù)深入研究,使其影響范圍與應(yīng)用范圍不斷擴(kuò)大。目前,在經(jīng)濟(jì)穩(wěn)步發(fā)展的基礎(chǔ)上,我國(guó)各市場(chǎng)行業(yè)發(fā)展態(tài)勢(shì)良好,同時(shí)也對(duì)互聯(lián)網(wǎng)方面的應(yīng)用提出更高要求。文章首先對(duì)移動(dòng)互聯(lián)網(wǎng)用戶的行為特征展開(kāi)多方位描述;其次,闡明當(dāng)前移動(dòng)用戶在互聯(lián)網(wǎng)中行為特征的分析內(nèi)容與方法;最后根據(jù)上述內(nèi)容提出有效分析用戶行為特征的方案,為用戶行為研究提供理論支持。
關(guān)鍵詞:用戶行為;數(shù)字化技術(shù);數(shù)據(jù)分析;聚類算法
0 引言
數(shù)字化時(shí)代加快推進(jìn)社會(huì)各界對(duì)于信息的應(yīng)用與傳播。面對(duì)海量網(wǎng)絡(luò)數(shù)據(jù)信息,部分用戶沒(méi)有掌握高效便捷的信息分析方法,為解決這一問(wèn)題,應(yīng)從用戶行為分析入手,進(jìn)一步收集并掌握用戶的使用偏好與習(xí)慣信息,將獲取到的信息進(jìn)行整合與處理,以此輔助用戶提高信息查找效率,減少信息篩選任務(wù)量。信息在傳遞至用戶這一過(guò)程中,信息的提供者也具有選擇權(quán),使其根據(jù)用戶偏好進(jìn)行消息推送能夠有效降低推送成本,實(shí)現(xiàn)用戶與提供者之間的互利互惠。
1 互聯(lián)網(wǎng)用戶行為特點(diǎn)
數(shù)字時(shí)代互聯(lián)網(wǎng)用戶行為特征有以下5點(diǎn)。
第一,用戶具有隱蔽性。由于用戶以網(wǎng)絡(luò)為媒介進(jìn)行信息傳遞,用戶在其隱蔽性的特征下,利用電腦或移動(dòng)終端即可完成訊息的實(shí)時(shí)傳遞與接收,雖然用戶在信息傳送的過(guò)程中享受到一定的便捷性,但加大了用戶接收不實(shí)內(nèi)容的負(fù)面影響。
第二,互聯(lián)網(wǎng)用戶數(shù)值普遍偏高,互聯(lián)網(wǎng)用戶文化水平通常較高。一般情況下,網(wǎng)絡(luò)用戶對(duì)于網(wǎng)絡(luò)知識(shí)較為了解,能夠熟練開(kāi)展社交、購(gòu)物等活動(dòng),并具備網(wǎng)絡(luò)與電子產(chǎn)品升級(jí)的意識(shí)與能力。
第三,互聯(lián)網(wǎng)信息交際具有復(fù)雜性。不管是網(wǎng)絡(luò)媒介還是交互對(duì)象,都在海量數(shù)據(jù)與交叉任務(wù)的影響下變得復(fù)雜、煩瑣,這也使用戶行為呈現(xiàn)出多變的特征。因此,應(yīng)制定相應(yīng)的網(wǎng)絡(luò)用戶行為管理與約束準(zhǔn)則。
第四,突破原有時(shí)間與空間的限制。數(shù)字時(shí)代用戶通過(guò)網(wǎng)絡(luò)媒介即可與目標(biāo)用戶進(jìn)行連接,交互范圍與效果與之前相比有極大改善。
第五,判斷標(biāo)準(zhǔn)具有差異化。在突破時(shí)間與空間限制的背景下,用戶行為管理相對(duì)寬泛,網(wǎng)絡(luò)中的言行與判斷標(biāo)準(zhǔn)存在較大差異,必須通過(guò)完善的機(jī)制與法律對(duì)不符合標(biāo)準(zhǔn)的內(nèi)容進(jìn)行限制與規(guī)范[1]。
2 互聯(lián)網(wǎng)用戶行為分析內(nèi)容與方法
2.1 互聯(lián)網(wǎng)用戶行為分析內(nèi)容
分析用戶行為的目的就在于判斷用戶行為特征,而分析用戶行為特征就是開(kāi)展數(shù)據(jù)挖掘工作的核心任務(wù)。在以分析用戶行為特征為目的而展開(kāi)的信息分類過(guò)程中,有必要參照用戶的行為表現(xiàn)特征進(jìn)行分析。分析收集上來(lái)的數(shù)據(jù)信息,對(duì)用戶特征進(jìn)行歸納整理,并在用戶行為特征的基礎(chǔ)上統(tǒng)計(jì)其相應(yīng)的活動(dòng)規(guī)律,以此建立用戶行為模型,總結(jié)用戶行為模式的內(nèi)容。
2.2 互聯(lián)網(wǎng)用戶行為分析方法
針對(duì)用戶行為特征的分析,數(shù)據(jù)挖掘過(guò)程可以分為以下幾步:第一步,參照互聯(lián)網(wǎng)企業(yè)戰(zhàn)略規(guī)劃的發(fā)展方向和現(xiàn)階段企業(yè)的運(yùn)行特征,將問(wèn)題反映在商業(yè)廣告中,選擇目標(biāo)挖掘數(shù)據(jù),并進(jìn)行針對(duì)性的營(yíng)銷方案設(shè)計(jì),敲定研究?jī)?nèi)容和方法;第二步,基于收集到的信息,創(chuàng)建符合用戶行為特征的模型;第三步,數(shù)據(jù)挖掘還會(huì)通過(guò)判斷、選擇、整理、管理和減少變量等一系列列程序,提供最終所需的信息數(shù)據(jù);第四步,結(jié)合數(shù)據(jù)挖掘所得出的內(nèi)容結(jié)果與挖掘目標(biāo),判斷并選取最佳的算法;第五步,將計(jì)算整理的數(shù)據(jù)導(dǎo)入驗(yàn)證模型,查證用戶行為特征模型運(yùn)行效果的準(zhǔn)確性與實(shí)效性,利用數(shù)據(jù)挖掘技術(shù)的模型展開(kāi)深入驗(yàn)證;第六步,如果用戶行為特征分析模型沒(méi)有通過(guò)數(shù)據(jù)挖掘的驗(yàn)證,則需要改進(jìn)并重新建立一個(gè)新的用戶行為模型;第七步,用戶行為模型的結(jié)果將在最終環(huán)節(jié)以文字或圖表的形式進(jìn)行顯示,完成數(shù)據(jù)轉(zhuǎn)換;第八步,在數(shù)據(jù)挖掘模型的實(shí)際應(yīng)用過(guò)程中,還需要結(jié)合實(shí)際情況進(jìn)行不斷調(diào)整和優(yōu)化[2]。
2.3 聚類算法選擇
首先,統(tǒng)計(jì)資料:本文重點(diǎn)研究移動(dòng)用戶的行為數(shù)據(jù),并以此創(chuàng)建移動(dòng)用戶行為模型,以此利用數(shù)據(jù)挖掘算法對(duì)移動(dòng)終端的用戶行為進(jìn)行初步收集。
其次,聚類方式的選擇:以K-means聚類算法為主要應(yīng)用算法。由于數(shù)字化背景下的移動(dòng)用戶行為數(shù)據(jù)量非常大,需要在分析企業(yè)數(shù)據(jù)時(shí),采用一種聚類方法,該方法可以有效收集計(jì)算得出的分類結(jié)果,且計(jì)算效率較高,能夠完成海量數(shù)據(jù)的處理與分類。
最后,應(yīng)具備一個(gè)判斷標(biāo)準(zhǔn),以明確合理聚類的判斷準(zhǔn)則,使聚類算法運(yùn)行到最后。
3 互聯(lián)網(wǎng)用戶行為分析系統(tǒng)的構(gòu)建方法
3.1 互聯(lián)網(wǎng)用戶行為分析系統(tǒng)的總體架構(gòu)
移動(dòng)用戶的行為特征分析系統(tǒng)具有高效性、前瞻性以及易維護(hù)性,此外,用戶行為分析系統(tǒng)還需要開(kāi)放式架構(gòu)與外部服務(wù)器的移動(dòng)用戶行為分析系統(tǒng)。數(shù)據(jù)源層主要為用戶行為特征分析系統(tǒng)提供數(shù)據(jù)與管理服務(wù),系統(tǒng)所收集到的原始數(shù)據(jù)包括多個(gè)方面,例如:互聯(lián)網(wǎng)數(shù)據(jù)CRM系統(tǒng)、口頭信令系統(tǒng)等[3]。
3.2 互聯(lián)網(wǎng)用戶行為分析系統(tǒng)平臺(tái)搭建
Hadoop是具有良好可伸縮性和高可靠性的分布式系統(tǒng)。Hadoop平臺(tái)的主要組成部分包括MapReduce、HBase系列數(shù)據(jù)庫(kù)、ZooKeeper分布式應(yīng)用程序協(xié)調(diào)系統(tǒng)等。針對(duì)行為分析系統(tǒng),必須結(jié)合用戶訪問(wèn)內(nèi)容才能判斷用戶行為并作出最后分類?;诖?,公共網(wǎng)絡(luò)中的海量數(shù)據(jù)信息成為主要捕獲的對(duì)象。DNSMASQ可以使DHCP與DNS進(jìn)行有效融合,且DNS一般情況下具備解析DHCP做分配地址的功能。在DNSmasq工具域名的基礎(chǔ)上進(jìn)行數(shù)據(jù)緩存,此方法主要用于互聯(lián)網(wǎng)內(nèi)容爬取,并在Hadoop節(jié)點(diǎn)之間提供自定義域名解析的功能。
3.3 數(shù)據(jù)分析平臺(tái)總體架構(gòu)設(shè)計(jì)
結(jié)合用戶實(shí)際的應(yīng)用需求,可以將移動(dòng)終端的用戶行為分析系統(tǒng)劃分成以下幾個(gè)模塊:日志下載、任務(wù)統(tǒng)計(jì)調(diào)度、移動(dòng)用戶日志處理、結(jié)果統(tǒng)計(jì)入庫(kù)、日志分類等。移動(dòng)終端的用戶可以通過(guò)日志分類模塊功能對(duì)已經(jīng)完成下載的內(nèi)容進(jìn)行分析與知識(shí)庫(kù)匹配,實(shí)現(xiàn)對(duì)日志的精準(zhǔn)分類。
移動(dòng)用戶日志下載模塊:移動(dòng)終端用戶日志下載模塊的關(guān)鍵性功能是,進(jìn)入指定文件傳輸系統(tǒng)的服務(wù)器,找到并下載相應(yīng)話單,對(duì)沒(méi)有打上標(biāo)簽的文檔進(jìn)行統(tǒng)一化處理。此程序需要完成日志文檔的篩選與提取,并將用戶日志保存至Hadoop中的標(biāo)準(zhǔn)位置。同時(shí),此程序還能將移動(dòng)終端用戶流量使用過(guò)程中的信息與基礎(chǔ)類數(shù)據(jù)集進(jìn)行下載[4]。
任務(wù)統(tǒng)計(jì)調(diào)度模塊:此模塊的工作調(diào)度條件是根據(jù)定時(shí)設(shè)置的腳本,即以腳本為根據(jù)進(jìn)行后續(xù)工作,任務(wù)統(tǒng)計(jì)工作的執(zhí)行時(shí)間是用戶上傳或下載日志的前一天,并在固定周期內(nèi)展開(kāi)掃描任務(wù),將所有讀取得出的任務(wù)數(shù)據(jù)展開(kāi)進(jìn)一步統(tǒng)計(jì),并結(jié)合實(shí)際情況判斷任務(wù)的執(zhí)行情況是否滿足標(biāo)準(zhǔn)。
移動(dòng)端用戶日志處理模塊:移動(dòng)端用戶日志處理程序?qū)](méi)有進(jìn)行處理的話單文件從相應(yīng)的分布式HDFS文件系統(tǒng)中調(diào)取出來(lái),同時(shí)利用classify程序接口將當(dāng)日記錄記上標(biāo)簽,發(fā)揮haproxy能夠同時(shí)調(diào)節(jié)classify程序的功能,快速將相同IP下的數(shù)據(jù)爬取壓力進(jìn)行科學(xué)分擔(dān)。
結(jié)果統(tǒng)計(jì)入庫(kù)模塊:此模塊的主要工作內(nèi)容是對(duì)前一天的GPRS_LOG日志文件進(jìn)行梳理與整合。此模塊可以基于HDFS平臺(tái)對(duì)label程序展開(kāi)快速保存,實(shí)現(xiàn)文件的高效導(dǎo)入。結(jié)果統(tǒng)計(jì)入庫(kù)模塊將hive下設(shè)的script作為掃描目標(biāo),常規(guī)運(yùn)行狀態(tài)下的單位掃描時(shí)間為10 min,完成規(guī)律掃描,并將全部程序進(jìn)行有效讀取。
4 結(jié)語(yǔ)
綜上所述,面對(duì)數(shù)字時(shí)代變化與發(fā)展,有必要針對(duì)移動(dòng)互聯(lián)網(wǎng)用戶進(jìn)行有效、綜合分析方案的設(shè)計(jì),并以此輔助移動(dòng)互聯(lián)網(wǎng)運(yùn)營(yíng)商進(jìn)行相關(guān)業(yè)務(wù)拓展。本文以互聯(lián)網(wǎng)用戶操作特征、行為分析以及數(shù)據(jù)挖掘算法為出發(fā)點(diǎn),對(duì)數(shù)據(jù)分析中的各個(gè)模塊進(jìn)行詳細(xì)設(shè)計(jì),完成互聯(lián)網(wǎng)用戶行為分析系統(tǒng)的構(gòu)建。
基金項(xiàng)目:2017年度湖南省教育廳科學(xué)研究項(xiàng)目;項(xiàng)目編號(hào):17C0323。
作者簡(jiǎn)介:李志勇(1974— ),男,湖南長(zhǎng)沙人,講師,碩士;研究方向:大數(shù)據(jù),移動(dòng)互聯(lián)。
Analysis and research of Internet user behavior based on digital era
Li Zhiyong
(Hunan Mass Media Vocational and Technical College, Changsha 410100, China)
Abstract:With the rapid development and continuous in-depth research of information technology and digital technology, the scope of its influence and application is constantly expanding. At present, based on the steady development of the economy, Chinas various market industries are developing well, and also put forward higher requirements for the application of the Internet. Firstly, the paper describes the behavior characteristics of mobile Internet users from various aspects. Secondly, it clarifies the content and method of analyzing the behavior characteristics of mobile users in the Internet. Finally, according to the above content, the scheme of effective analysis of user behavior characteristics is put forward to provide theoretical support for user behavior research.
Key words:user behavior; digital technology; data analysis; clustering algorithm
[參考文獻(xiàn)]
[1]周學(xué)申.大數(shù)據(jù)技術(shù)視域下對(duì)用戶行為數(shù)據(jù)的分析與應(yīng)用思考[J].數(shù)字技術(shù)與應(yīng)用,2020(11):44-46.
[2]趙藝哲.社會(huì)認(rèn)知理論視域下社會(huì)化媒體的用戶參與行為分析[J].新媒體研究,2020(22):39-41.
[3]李江峽,馬艷,古海生,等.基于數(shù)據(jù)驅(qū)動(dòng)的用戶用能行為分析方法[J].智慧電力,2020(9):63-68.
[4]李丹.基于大數(shù)據(jù)挖掘的通信用戶行為分析[J].信息與電腦(理論版),2020(15):173-175.