亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Spark的分布式健康大數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

        2020-07-26 14:23:53吳磊歐陽(yáng)赫明
        軟件導(dǎo)刊 2020年7期
        關(guān)鍵詞:隨機(jī)森林大數(shù)據(jù)分析機(jī)器學(xué)習(xí)

        吳磊 歐陽(yáng)赫明

        摘 要:隨著各類(lèi)醫(yī)療健康信息數(shù)量的增長(zhǎng),如何利用醫(yī)療健康大數(shù)據(jù)輔助臨床診療和科研,已經(jīng)成為各醫(yī)療科研機(jī)構(gòu)普遍關(guān)注的問(wèn)題。針對(duì)該問(wèn)題,設(shè)計(jì)并實(shí)現(xiàn)了一種基于Spark的分布式健康大數(shù)據(jù)分析系統(tǒng)。系統(tǒng)采用大數(shù)據(jù)分析技術(shù)并基于隨機(jī)森林模型,應(yīng)用多個(gè)弱分類(lèi)器將多個(gè)決策樹(shù)獲得的結(jié)果進(jìn)行集成,基于該模型實(shí)現(xiàn)了睡眠質(zhì)量預(yù)測(cè),同時(shí)還研究了權(quán)重較高的影響因子。最終實(shí)驗(yàn)預(yù)測(cè)準(zhǔn)確率達(dá)96.84%。實(shí)驗(yàn)結(jié)果對(duì)于睡眠質(zhì)量分析具有一定參考意義,且系統(tǒng)能夠較好地滿(mǎn)足健康大數(shù)據(jù)的分析處理需求。

        關(guān)鍵詞:大數(shù)據(jù);大數(shù)據(jù)分析;Apache Spark;智能健康;機(jī)器學(xué)習(xí);隨機(jī)森林

        DOI:10. 11907/rjdk. 192546 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

        中圖分類(lèi)號(hào):TP319文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)007-0099-04

        The Design and Implementation of Distributed Health Big Data Analysis System

        Based on Spark

        WU Lei,OUYANG He-ming

        (School of Information, North China University of Technology, Beijing 100144, China)

        Abstract: With the growth of various types of medical health information, how to use medical health big data to assist clinical diagnosis and research has become a common concern of medical research institutions. Aiming at this problem, we propose a distributed health big data analysis system based on Spark. The system uses big data analysis technology based on the random forest model, and uses multiple weak classifiers to integrate the results obtained by multiple decision trees. Based on the model, the sleep quality prediction is realized, and the influence factors with higher weight are also studied. The final experimental prediction accuracy rate reached 96.84%. The experimental results have certain reference significance for the analysis of sleep quality, and the system can better meet the analysis and processing needs of healthy big data.

        Key Words: big data; big data analysis; Apache Spark; smart health; machine learning; random forest

        0 引言

        近年來(lái),醫(yī)療機(jī)構(gòu)信息化程度不斷提高,各類(lèi)醫(yī)療健康信息在數(shù)量上有著驚人增長(zhǎng)。健康大數(shù)據(jù)具有數(shù)據(jù)量大、多樣性突出的獨(dú)特性,如何利用健康大數(shù)據(jù)為臨床醫(yī)療服務(wù)仍然是一個(gè)值得討論的問(wèn)題。大數(shù)據(jù)分析的核心問(wèn)題是如何對(duì)這些數(shù)據(jù)進(jìn)行有效表達(dá)、解釋和學(xué)習(xí)[1]。

        Spark[2]是加州大學(xué)伯克利分校AMP實(shí)驗(yàn)室開(kāi)發(fā)的集群模式計(jì)算平臺(tái),其框架構(gòu)建以?xún)?nèi)存計(jì)算為基礎(chǔ)。而傳統(tǒng)Hadoop中使用的計(jì)算平臺(tái)是MapReduce[3]、MapReduce模型基于磁盤(pán)計(jì)算,運(yùn)行計(jì)算作業(yè)時(shí)的磁盤(pán)讀寫(xiě)有較大的時(shí)間和空間開(kāi)銷(xiāo)[4]。由于Spark模型基于內(nèi)存計(jì)算,因而運(yùn)行速度相比MapReduce更快,適合進(jìn)行大規(guī)模數(shù)據(jù)處理。

        Spark作為當(dāng)前最流行的大數(shù)據(jù)處理平臺(tái)之一,一直受到很多研究者的關(guān)注[5]。曹波等[6]在Spark平臺(tái)上實(shí)現(xiàn)了FP-Growth算法的并行計(jì)算,利用車(chē)牌記錄跟蹤車(chē)輛;王虹旭等[7]在Spark平臺(tái)上設(shè)計(jì)了一個(gè)并行數(shù)據(jù)分析系統(tǒng),該系統(tǒng)能夠?qū)A繑?shù)據(jù)進(jìn)行高效分析。針對(duì)醫(yī)療健康大數(shù)據(jù)分析帶來(lái)的多種挑戰(zhàn),很多研究者也進(jìn)行了相關(guān)研究。羅輝等在[8]大數(shù)據(jù)環(huán)境下實(shí)現(xiàn)了科研專(zhuān)病數(shù)據(jù)庫(kù)系統(tǒng)平臺(tái),對(duì)臨床數(shù)據(jù)進(jìn)行了集成整合與統(tǒng)計(jì)分析,但導(dǎo)入及處理數(shù)據(jù)的速度還有待提高;甘偉等[9]設(shè)計(jì)并實(shí)現(xiàn)了基于Hadoop分布式存儲(chǔ)的大數(shù)據(jù)臨床科研平臺(tái),并集成R語(yǔ)言實(shí)現(xiàn)了基本統(tǒng)計(jì)分析及高級(jí)挖掘算法,但機(jī)器學(xué)習(xí)結(jié)果的準(zhǔn)確度較低。

        本文設(shè)計(jì)并實(shí)現(xiàn)了一種基于Spark的分布式健康大數(shù)據(jù)分析系統(tǒng),利用彈性分布式數(shù)據(jù)集RDD(Resilient Distributed Dataset)[10]對(duì)數(shù)據(jù)進(jìn)行相應(yīng)操作,選取Spark on YARN[11]集群模式運(yùn)行,相比傳統(tǒng)的Hadoop平臺(tái)具有更高的容錯(cuò)性和更快的運(yùn)算速度;系統(tǒng)實(shí)現(xiàn)的基于隨機(jī)森林的睡眠質(zhì)量預(yù)測(cè)方法具有較高的預(yù)測(cè)準(zhǔn)確率,達(dá)到了96.84%。

        1 分布式Spark集群搭建

        系統(tǒng)構(gòu)建實(shí)驗(yàn)中,使用1臺(tái)物理機(jī)中的3臺(tái)Linux虛擬機(jī)組成擁有3個(gè)節(jié)點(diǎn)的分布式集群,其中包括1個(gè)Master節(jié)點(diǎn)和2個(gè)Worker節(jié)點(diǎn)。Master節(jié)點(diǎn)用于分配任務(wù)以及維護(hù)狀態(tài),因此采用的配置相對(duì)于Worker節(jié)點(diǎn)而言較高。處理器配置方面,Master節(jié)點(diǎn)機(jī)器使用2個(gè)4核處理器,Worker節(jié)點(diǎn)機(jī)器使用1個(gè)4核處理器。內(nèi)存配置方面,Master節(jié)點(diǎn)機(jī)器使用6GB內(nèi)存,Worker節(jié)點(diǎn)機(jī)器使用4GB內(nèi)存。網(wǎng)絡(luò)連接方式全部采用NAT方式,以便對(duì)節(jié)點(diǎn)的IP地址進(jìn)行配置和管理。物理機(jī)使用M.2 NVMe協(xié)議的固態(tài)硬盤(pán),固態(tài)硬盤(pán)相比于機(jī)械硬盤(pán)具有讀寫(xiě)效率高、壽命長(zhǎng)等優(yōu)勢(shì),對(duì)集群運(yùn)行速度與工作質(zhì)量有一定保障。由分布式集群所構(gòu)成的系統(tǒng),不僅對(duì)節(jié)點(diǎn)故障有一定容錯(cuò)性,而且能夠依據(jù)需求調(diào)整節(jié)點(diǎn)數(shù)量。

        1.1 Hadoop集群搭建

        系統(tǒng)的Spark運(yùn)行于YARN之上,需要預(yù)先安裝Hadoop,而Hadoop又需要JDK的支持,因此首先需要安裝JDK,然后配置各臺(tái)虛擬機(jī)之間的ssh免密碼登錄及防火墻,最后解壓Hadoop安裝包并修改相關(guān)的配置文件。配置文件包括hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml和slaves等。

        1.2 Spark集群搭建

        由于Spark運(yùn)行需要Scala的支持,因此在安裝Spark前需要先安裝Scala環(huán)境,然后從Spark的官方網(wǎng)站上下載Spark的源碼并使用Maven編譯。Spark文件配置需要將所有Worker節(jié)點(diǎn)的主機(jī)名寫(xiě)入每臺(tái)虛擬機(jī)中的Slaves文件中,并修改節(jié)點(diǎn)的Spark安裝目錄的Spark-env.sh文件。同時(shí),集群所有節(jié)點(diǎn)的Spark-env.sh文件和Slaves文件的內(nèi)容要保持完全一致[12]。完成以上配置后,使用Spark on YARN的方式啟動(dòng)Spark集群。啟動(dòng)后可以通過(guò)jps命令或在Master節(jié)點(diǎn)上使用瀏覽器訪(fǎng)問(wèn)localhost:8080查看啟動(dòng)情況,并可以通過(guò)Spark-submit提交一個(gè)Spark中的示例作業(yè)以測(cè)試集群運(yùn)行情況。

        1.3 Spark開(kāi)發(fā)環(huán)境配置

        系統(tǒng)的Spark應(yīng)用程序使用的開(kāi)發(fā)語(yǔ)言為Scala,因?yàn)镾park是Scala編寫(xiě)的,因而對(duì)Scala的支持性最好。IDE選擇業(yè)內(nèi)廣泛使用的IntelliJ IDEA,該軟件提供的Scala插件可以很好地支持Spark程序開(kāi)發(fā)。調(diào)試時(shí)使用Spark Local模式運(yùn)行Spark,可以直接在開(kāi)發(fā)環(huán)境中調(diào)試而不必將作業(yè)提交到Spark集群之上。

        2 睡眠質(zhì)量預(yù)測(cè)實(shí)現(xiàn)

        本文設(shè)計(jì)的數(shù)據(jù)分析系統(tǒng)通過(guò)Spark的MLlib實(shí)現(xiàn)了建模方法。系統(tǒng)首先將樣本數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集兩部分,再通過(guò)連接各種功能函數(shù)的操作節(jié)點(diǎn),并形成流程實(shí)現(xiàn)數(shù)據(jù)分析建模功能。

        2.1 隨機(jī)森林算法

        系統(tǒng)采用隨機(jī)森林算法實(shí)現(xiàn)了睡眠數(shù)據(jù)預(yù)測(cè)。選取睡眠數(shù)據(jù)的屬性創(chuàng)建相應(yīng)數(shù)據(jù)集,并提取相應(yīng)特征向量建立分類(lèi)模型。將系統(tǒng)采用的數(shù)據(jù)集分為兩個(gè)部分:70%作為訓(xùn)練數(shù)據(jù)用于訓(xùn)練模型,30%作為測(cè)試數(shù)據(jù)用于測(cè)試模型。

        隨機(jī)森林(Random Forest,RF)[13]利用節(jié)點(diǎn)隨機(jī)分裂技術(shù)和隨機(jī)重采樣技術(shù)構(gòu)建多棵決策樹(shù),分類(lèi)結(jié)果由投票決定。它具備了分析復(fù)雜相互作用分類(lèi)特征的能力,且對(duì)于缺失值和噪聲具有很好的魯棒性。此外,隨機(jī)森林的學(xué)習(xí)速度也較快。隨機(jī)森林可以作為高維數(shù)據(jù)的特征選擇工具[14],近年來(lái)已被廣泛應(yīng)用于各種分類(lèi)及預(yù)測(cè)等問(wèn)題中[15]。

        單棵決策樹(shù)普遍會(huì)存在過(guò)擬合現(xiàn)象,為避免這種現(xiàn)象,系統(tǒng)采用了隨機(jī)森林算法,即利用機(jī)器學(xué)習(xí)的集成學(xué)習(xí)思想,通過(guò)構(gòu)造多個(gè)弱分類(lèi)器并最終合成為一個(gè)強(qiáng)分類(lèi)器的方法,不僅有效減少了過(guò)擬合現(xiàn)象,而且提高了預(yù)測(cè)精度[16]。

        隨機(jī)森林是用多棵樹(shù)對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類(lèi)器,每顆樹(shù)h(X,βk)都有一票投票權(quán)以選擇最終分類(lèi)結(jié)果。分類(lèi)決策如式(1)所示。

        其中,H(x)表示隨機(jī)森林分類(lèi)結(jié)果,I(·)為示性函數(shù),hi(x)表示單個(gè)分類(lèi)結(jié)果,Y代表分類(lèi)目標(biāo)。該式取各決策樹(shù)結(jié)果中的多數(shù)作為最終結(jié)果[16]。

        2.2 模型構(gòu)建

        為計(jì)算出多個(gè)睡眠質(zhì)量影響因子中權(quán)重較大的因子,首先需要構(gòu)建預(yù)測(cè)模型,具體方法為:先設(shè)置K個(gè)弱分類(lèi)器,其中類(lèi)別純度使用Gini系數(shù)[17]進(jìn)行計(jì)算,再將相似樣本放在同一個(gè)弱分類(lèi)器中,最后使用K-means算法[18]進(jìn)行訓(xùn)練,并使用均值組合方式。在模型訓(xùn)練完成后,使用另外一組構(gòu)建好特征的樣本,經(jīng)過(guò)模型訓(xùn)練,最后評(píng)估模型。

        建模過(guò)程分為訓(xùn)練和測(cè)試兩個(gè)階段,如圖1所示。在訓(xùn)練階段,主要根據(jù)計(jì)算好特征的樣本,劃分好K個(gè)弱分類(lèi)樣本后,再進(jìn)行隨機(jī)森林訓(xùn)練。訓(xùn)練完成后,測(cè)試數(shù)據(jù)應(yīng)用訓(xùn)練好的預(yù)測(cè)模型可得到預(yù)測(cè)值,將預(yù)測(cè)值與實(shí)際值進(jìn)行運(yùn)算可得到模型的精度值,從而評(píng)估模型性能。

        系統(tǒng)針對(duì)睡眠質(zhì)量的多個(gè)影響因素展開(kāi)研究,數(shù)據(jù)采用Kaggle公司[19]提供的Sleep Cycle從2014-2018年的相關(guān)原始數(shù)據(jù)。Kaggle公司于2010年創(chuàng)立,并于2017年被谷歌公司收購(gòu),主要是為數(shù)據(jù)科學(xué)家和開(kāi)發(fā)商提供數(shù)據(jù)分享以及舉辦競(jìng)賽的平臺(tái)[19]。目前,許多科學(xué)家和開(kāi)發(fā)者都紛紛入駐這一平臺(tái)。

        系統(tǒng)采用的數(shù)據(jù)包含了睡眠相關(guān)的8個(gè)屬性,主要有:Start、End、Heartrate等,經(jīng)過(guò)預(yù)處理后的數(shù)據(jù)如表1所示,其中用Sleep Quality屬性值表示睡眠質(zhì)量的好與差。

        (1)構(gòu)建影響因子特征向量。數(shù)據(jù)集中每條樣本采用兩個(gè)類(lèi)別進(jìn)行標(biāo)記:-1(差)和1(好),每個(gè)樣本的特征包含如下字段:在數(shù)據(jù)屬性中Sleep quality用來(lái)表示睡眠質(zhì)量(-1 或1)。

        特征向量選取原始數(shù)據(jù)的全部8個(gè)屬性進(jìn)行構(gòu)建,特征:{“Start”,“End”,“Time in bed”,“Wake up”,“Stressful”,“Heartrate”,“Activity(steps/k)”,“Sleep quality”},將Start、End和Time in bed中的時(shí)間提取出來(lái)并轉(zhuǎn)換成小時(shí),再對(duì)每個(gè)維度的特征做變換后返回Dataframe,并增加標(biāo)簽列l(wèi)abel,其中數(shù)值1表示好,數(shù)值0表示差,如表2所示。

        (2)訓(xùn)練隨機(jī)森林分類(lèi)器。系統(tǒng)訓(xùn)練隨機(jī)森林分類(lèi)器的主要參數(shù)有:maxDepth:樹(shù)的最大深度;maxBins:最大分桶個(gè)數(shù),用于決定每個(gè)節(jié)點(diǎn)如何分裂;auto:每個(gè)節(jié)點(diǎn)分裂時(shí)是否自動(dòng)選擇參與特征的個(gè)數(shù);Seed:隨機(jī)數(shù)生成種子。

        系統(tǒng)采用的參數(shù)為:maxDepth:3、maxBins:20、auto:”auto”、Seed:4073。

        2.3 實(shí)驗(yàn)分析

        實(shí)驗(yàn)數(shù)據(jù)集共有887條數(shù)據(jù),其中Sleep quality屬性值表示睡眠質(zhì)量的好/差,為了分析影響因素與睡眠質(zhì)量之間的相關(guān)度,實(shí)驗(yàn)中選取了皮爾遜相關(guān)系數(shù)[20]進(jìn)行表征,并將各屬性的相關(guān)程度進(jìn)行排序,如表3所示,各屬性相關(guān)系數(shù)如圖2所示。

        通過(guò)計(jì)算各屬性與睡眠質(zhì)量的相關(guān)度可知,Start、Time in bed、Heartrate影響因子對(duì)于睡眠質(zhì)量的影響程度較大,對(duì)睡眠質(zhì)量的相關(guān)研究具有一定借鑒意義。

        系統(tǒng)采用管道學(xué)習(xí)訓(xùn)練模型,即Pipeline。在機(jī)器學(xué)習(xí)中,通常有一系列的算法在數(shù)據(jù)中處理和學(xué)習(xí)。Spark MLlib提供的機(jī)器學(xué)習(xí)算法API,可以將多個(gè)算法組合成一個(gè)獨(dú)立管道,之后管道會(huì)通過(guò)在參數(shù)網(wǎng)格上的不斷爬行自動(dòng)完成模型優(yōu)化,最后系統(tǒng)進(jìn)行預(yù)測(cè)時(shí)會(huì)使用通過(guò)管道訓(xùn)練得到的最優(yōu)模型。預(yù)測(cè)結(jié)果中Prediction標(biāo)簽為最終預(yù)測(cè)結(jié)果,如表4所示。

        將Label標(biāo)簽值與Prediction標(biāo)簽值進(jìn)行比較得到模型的預(yù)測(cè)精度值是96.84%,其中包含準(zhǔn)確預(yù)測(cè)條數(shù)859條,如圖3所示。預(yù)測(cè)結(jié)果表明,預(yù)測(cè)數(shù)據(jù)與原始數(shù)據(jù)擬合度較高。

        系統(tǒng)采用基于Spark和隨機(jī)森林算法的機(jī)器學(xué)習(xí)訓(xùn)練方法用于睡眠質(zhì)量預(yù)測(cè),取得較高準(zhǔn)確率,證明了采用隨機(jī)森林算法構(gòu)建的睡眠數(shù)據(jù)預(yù)測(cè)機(jī)制較為成功,具有一定參考意義。

        3 結(jié)語(yǔ)

        本文基于Spark設(shè)計(jì)并實(shí)現(xiàn)了一種分布式健康大數(shù)據(jù)分析系統(tǒng)。系統(tǒng)采用基于隨機(jī)森林模型的大數(shù)據(jù)分析技術(shù),將多個(gè)決策樹(shù)得出的結(jié)果進(jìn)行分析集成,訓(xùn)練模型采用管道學(xué)習(xí)方法,并將其應(yīng)用到睡眠質(zhì)量預(yù)測(cè)場(chǎng)景中,實(shí)驗(yàn)分析得出該模型預(yù)測(cè)精度值為96.84%。同時(shí),通過(guò)相關(guān)度分析獲得了與睡眠質(zhì)量相關(guān)度較高的3個(gè)影響因素Start、Time in bed、Heartrate,可以用作睡眠質(zhì)量分析指標(biāo)。同時(shí),系統(tǒng)還有很多待改進(jìn)之處,如集群運(yùn)行參數(shù)、模型訓(xùn)練參數(shù)調(diào)優(yōu)等。

        參考文獻(xiàn):

        [1] 程學(xué)旗,靳小龍,王元卓,等. 大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 軟件學(xué)報(bào),2014,25(9):1889-1908.

        [2] 李星,李濤. 基于Spark的推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2018,28(10):194-198.

        [3] 高莉莎,劉正濤,應(yīng)毅. 基于應(yīng)用程序的MapReduce性能優(yōu)化[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2015,25(7):96-99,106.

        [4] 于海浩. 基于Spark的抄襲檢測(cè)云計(jì)算框架研究[J]. 計(jì)算機(jī)光盤(pán)軟件與應(yīng)用,2014,17(11):110-112.

        [5] 張?zhí)裉?,孫紹華. 基于Spark的云計(jì)算平臺(tái)在實(shí)驗(yàn)室的應(yīng)用與實(shí)現(xiàn)[J]. 軟件導(dǎo)刊,2018,17(4):191-193.

        [6] 曹波,韓燕波,王桂玲. 基于車(chē)牌識(shí)別大數(shù)據(jù)的伴隨車(chē)輛組發(fā)現(xiàn)方法[J]. 計(jì)算機(jī)應(yīng)用,2015,35(11):3203-3207.

        [7] 王虹旭,吳斌,劉旸. 基于Spark的并行圖數(shù)據(jù)分析系統(tǒng)[J]. 計(jì)算機(jī)科學(xué)與探索,2015,9(9):1066-1074.

        [8] 羅輝,薛萬(wàn)國(guó),喬屾. 大數(shù)據(jù)環(huán)境下醫(yī)院科研專(zhuān)病數(shù)據(jù)庫(kù)建設(shè)[J]. 解放軍醫(yī)學(xué)院學(xué)報(bào),2019(8):713-718.

        [9] 甘偉,徐明明,陳聯(lián)忠,等. 大數(shù)據(jù)臨床科研平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 中國(guó)數(shù)字醫(yī)學(xué),2019,14(2):40-43.

        [10] GENG Y S. Spark standalone mode process analysis and data skew solutions[C]. Proceedings of 2017 IEEE 2nd Information Technology, Networking, Electronic and Automation Control Conference,2017:647-653.

        [11] 楊玉,張遠(yuǎn)夏. Spark on Yarn模式的電信大數(shù)據(jù)處理平臺(tái)[J]. 福建電腦,2019,35(3):34-38.

        [12] 李艷紅. 基于Spark平臺(tái)的大數(shù)據(jù)挖掘技術(shù)分析[J]. 科技資訊,2018,16(27):7-8.

        [13] BREIMAN L. Random forests[J]. Machine Learning,2001,45(1):5-32.

        [14] STROBL C,BOULESTEIX A L,KNEIB T,et al.Conditional variable importance for random forests[J].? BMC Bioinformatics,2008.

        [15] 姚登舉,楊靜,詹曉娟. 基于隨機(jī)森林的特征選擇算法[J]. 吉林大學(xué)學(xué)報(bào)(工學(xué)版),2014,44(1):137-141.

        [16] 苗立志,刁繼堯,婁沖,等. 基于Spark和隨機(jī)森林的乳腺癌風(fēng)險(xiǎn)預(yù)測(cè)分析[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2019(8):1-3.

        [17] 劉星毅. 一種新的決策樹(shù)分裂屬性選擇方法[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2008(5):70-72.

        [18] 唐浩,楊余旺,辛智斌. 基于MapReduce的單遍K-means聚類(lèi)算法[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2017,27(9):26-30.

        [19] 鄧仲華,劉斌. 數(shù)據(jù)挖掘應(yīng)用熱點(diǎn)研究——基于Kaggle競(jìng)賽數(shù)據(jù)[J]. 圖書(shū)館學(xué)研究,2019(6):2-9,23.

        [20] 姜亞斌,鄒任玲,劉建,等. 表面肌電信號(hào)的下肢痙攣信號(hào)特征分析與識(shí)別[J]. 電子科技,2017,30(11):38-41.

        (責(zé)任編輯:孫 娟)

        猜你喜歡
        隨機(jī)森林大數(shù)據(jù)分析機(jī)器學(xué)習(xí)
        隨機(jī)森林在棉蚜蟲(chóng)害等級(jí)預(yù)測(cè)中的應(yīng)用
        基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類(lèi)算法
        軟件(2016年7期)2017-02-07 15:54:01
        拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
        面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
        面向大數(shù)據(jù)分析的信息管理實(shí)踐教學(xué)體系構(gòu)建
        傳媒變局中的人口電視欄目困境與創(chuàng)新
        科技傳播(2016年19期)2016-12-27 14:35:21
        大數(shù)據(jù)分析的移動(dòng)端在網(wǎng)絡(luò)課堂教學(xué)中的應(yīng)用
        基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
        前綴字母為特征在維吾爾語(yǔ)文本情感分類(lèi)中的研究
        美女高潮无遮挡免费视频| 国产精品视频自拍在线| 中文字幕人妻在线中字| 婷婷五月综合丁香在线| 国产精品九九热| 中文字幕久久熟女人妻av免费 | 男女啪啪视频高清视频| 巨大巨粗巨长 黑人长吊| 精品一品国产午夜福利视频| 亚洲精品综合色区二区| 日日噜噜噜夜夜狠狠久久蜜桃| 摸丰满大乳奶水www免费| 国产做a爱片久久毛片a片 | 九色综合九色综合色鬼| 97久久超碰国产精品2021 | 欧美黑人乱大交| 69堂在线无码视频2020| 黄色精品一区二区三区| 丝袜美腿一区二区三区| 大胆欧美熟妇xxbbwwbw高潮了 | 人妻少妇偷人精品久久人妻| 天天综合天天爱天天做| 好日子在线观看视频大全免费动漫| 无码中文日韩Av| 日韩国产一区二区三区在线观看| 日产乱码一二三区别免费l| 中文人妻无码一区二区三区在线| 亚洲精品美女自拍偷拍| 日韩一二三四区在线观看| 男女做爰高清免费视频网站| 黑人巨大videos极度另类| 青青青伊人色综合久久| 亚洲午夜精品一区二区麻豆av| 最新亚洲人成网站在线观看| 热久久网站| 综合中文字幕亚洲一区二区三区| 邻居少妇张开腿让我爽了一夜 | 夜夜综合网| 国产一级自拍av播放| 99久久精品无码一区二区毛片| 四川丰满少妇被弄到高潮|