王海洋 王寧 朱專專 王璐
摘 要:構(gòu)建一個基于人臉識別的智能大數(shù)據(jù)處理系統(tǒng),將圖片中提取的人臉數(shù)據(jù)特征上傳到HBase分布式數(shù)據(jù)庫中進(jìn)行存儲,使用Mahout提供的推薦、分類等數(shù)據(jù)挖掘算法進(jìn)行數(shù)據(jù)挖掘,使用Echarts框架將挖掘結(jié)果直觀顯示給用戶。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)可視化;數(shù)據(jù)挖掘;數(shù)據(jù)預(yù)處理
1 概述
面對互聯(lián)網(wǎng)絡(luò)的海量數(shù)據(jù),如何提取有用的信息并進(jìn)行數(shù)據(jù)分析和挖掘就顯得尤為重要。一般置于商場和公共場所的數(shù)字標(biāo)牌廣告機只具有信息顯示和信息發(fā)布功能,無法了解用戶更多行為,運用先進(jìn)的人臉識別技術(shù)和視頻智能分析技術(shù)提供一套完善的解決方案,能夠智能統(tǒng)計和分析用戶狀態(tài),幫助了解用戶的喜好。
基于人臉識別技術(shù)設(shè)計一個對人臉信息進(jìn)行智能處理的系統(tǒng),利用人臉識別技術(shù)統(tǒng)計商家數(shù)字標(biāo)牌內(nèi)容的觀看人數(shù)、觀看人的性別、年齡等信息,基于收集的數(shù)據(jù)利用大數(shù)據(jù)分析技術(shù)輔助產(chǎn)品提供者制定更加精準(zhǔn)、人性化的推廣方案和內(nèi)容。
2 關(guān)鍵技術(shù)簡介
2.1 Hadoop分布式數(shù)據(jù)處理平臺
Hadoop是基于MapReduce數(shù)據(jù)集計算框架對原始的數(shù)據(jù)集進(jìn)行處理的平臺,可以快速、高效的對海量數(shù)據(jù)進(jìn)行快速處理。
2.2 HBase分布式數(shù)據(jù)
HBase是基于Hadoop平臺的分布式的開源數(shù)據(jù)庫,是一種基于列存儲的、非關(guān)系型的數(shù)據(jù)庫。
2.3 Mahout數(shù)據(jù)挖掘工具
Mahout是Apache旗下的一款數(shù)據(jù)挖掘工具,可以運行在Hadoop平臺上對數(shù)據(jù)進(jìn)行處理,包含了諸多的挖掘算法,例如:聚類、分類、推薦等,對數(shù)據(jù)處理提供了極大的便利性。
2.4 Echarts數(shù)據(jù)可視化工具
Echarts商業(yè)報表技術(shù)是一個純的JavaScript的圖表庫,其中包含了諸多的商用圖表,例如:折線圖、柱狀圖、散點圖、K線圖、餅圖等等,提供了簡潔、直觀、生動、可交互的數(shù)據(jù)可視化圖表。
2.5 Face++人臉識別技術(shù)
Face++人臉識別技術(shù)可用于對圖片中人臉的檢測、微笑分析以及性別、年齡、種族、面部器官等坐標(biāo)數(shù)據(jù)的獲取。
3 系統(tǒng)功能描述
基于人臉識別的大數(shù)據(jù)智能處理系統(tǒng)首先通過人臉識別技術(shù)收集信息,利用大數(shù)據(jù)處理技術(shù)分析用戶對內(nèi)容的喜好,為不同性別、年齡、情緒狀態(tài)的用戶提供更加人性化的內(nèi)容,在不同時段投放不同內(nèi)容作出參考依據(jù),為用戶帶來更好體驗同時為投資者帶來更豐厚的回報。具體包括人臉識別和數(shù)據(jù)分析兩部分內(nèi)容。
3.1 人臉識別
(1)人臉檢測:通過攝像頭獲取人臉輪廓,提取特征生成特征數(shù)據(jù)庫。
(2)表情檢測:通過攝像頭判斷當(dāng)前人臉是否注視攝像頭,可識別睜眼、閉眼、眨眼等動作。
(3)姿態(tài)檢測:通過攝像頭判斷當(dāng)前人臉是平視、抬頭、低頭、左右轉(zhuǎn)頭等。
3.2 數(shù)據(jù)分析
通過人臉特征的提取,對其中的信息進(jìn)行分析,根據(jù)統(tǒng)計數(shù)據(jù),給出推薦的廣告位置和投放時間等信息,為商家提供參考依據(jù)。
4 系統(tǒng)構(gòu)建
4.1 系統(tǒng)設(shè)計
針對系統(tǒng)的功能描述,構(gòu)建分布式集群環(huán)境,通過圖片預(yù)處理、數(shù)據(jù)挖掘以及數(shù)據(jù)可視化三大核心模塊,完成系統(tǒng)的構(gòu)建。
(1)圖片預(yù)處理
在數(shù)據(jù)處理前期對圖片進(jìn)行預(yù)處理,利用Face++人臉識別技術(shù),提取人臉信息,并將其上傳到HBase分布式數(shù)據(jù)庫中進(jìn)行存儲。
(2)數(shù)據(jù)挖掘
使用Mahout開源的數(shù)據(jù)挖掘框架,進(jìn)行參數(shù)設(shè)置后調(diào)用推薦、分類算法進(jìn)行數(shù)據(jù)挖掘工作,獲取挖掘結(jié)果,并將其存放到數(shù)據(jù)庫中。
(3)數(shù)據(jù)可視化
從前臺獲取數(shù)據(jù)庫中存儲的挖掘結(jié)果,使用Echarts可視化工具進(jìn)行數(shù)據(jù)顯示。
4.2系統(tǒng)實現(xiàn)
(1)人種興趣圖
鼠標(biāo)放在某一區(qū)域時會顯示該人種所占的比例,點擊下載圖標(biāo)時可將整個圖表以圖片的形式保存下來。
(2)數(shù)據(jù)分布圖
查看每個區(qū)域的數(shù)據(jù)分布情況,直觀明了。
5 結(jié)束語
本系統(tǒng)可以快速的對大量的人臉數(shù)據(jù)進(jìn)行處理并提取出有效信息,在數(shù)據(jù)可視化平臺進(jìn)行數(shù)據(jù)展示,給用戶以直觀、生動的數(shù)據(jù)感受。同時,用戶可以對相關(guān)結(jié)果進(jìn)行下載、打印等操作。
參考文獻(xiàn)
[1]董西成.hadoop技術(shù)內(nèi)幕:深入解析YARN架構(gòu)設(shè)計與實現(xiàn)原理[M].北京:機械工業(yè)出版社,2013.
[2]張霄宏,雒芬,賈宗璞,等.一種適用于HadoopMapReduce環(huán)境的數(shù)據(jù)預(yù)取方法[J].西安電子科技大學(xué)學(xué)報(自然科學(xué)版),2014,41(2).
[3]萬兵,黃夢醒,段茜.一種基于資源預(yù)取的Hadoop作業(yè)調(diào)度算法[J].計算機應(yīng)用研究,2014,31(6).
[4]何榮波.MapReduce模型在Hadoop中的性能優(yōu)化及改進(jìn)[D].北京:北京化工大學(xué),2011.
作者簡介:王海洋,長春工業(yè)大學(xué)應(yīng)用技術(shù)學(xué)院計算機科學(xué)與技術(shù)專業(yè)152401班學(xué)生;王寧,長春工業(yè)大學(xué)應(yīng)用技術(shù)學(xué)院計算機科學(xué)與技術(shù)專業(yè)152401班學(xué)生;朱專專,長春工業(yè)大學(xué)應(yīng)用技術(shù)學(xué)院計算機科學(xué)與技術(shù)專業(yè)152401班學(xué)生。
*通訊作者:王璐(1980-),女,副教授。