亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)下工程造價的數(shù)據(jù)挖掘問題分析

        2021-11-23 09:52:15袁雄
        商品與質(zhì)量 2021年20期
        關(guān)鍵詞:元組中心點數(shù)據(jù)挖掘

        袁雄

        株洲市盤龍湖建設(shè)投資開發(fā)有限公司 湖南株洲 412000

        在大數(shù)據(jù)背景下,工程造價數(shù)據(jù)呈現(xiàn)出數(shù)據(jù)類型、數(shù)據(jù)來源和數(shù)據(jù)表現(xiàn)形式多樣化的特點,增加了工程造價數(shù)據(jù)的海量性和繁雜性,易對工程造價管理決策帶來諸多干擾因素?;诖?,工程造價管理可以運(yùn)用數(shù)據(jù)挖掘技術(shù),提取出有價值、可靠性強(qiáng)的數(shù)據(jù)信息,輔助完成造價管理決策。工程造價數(shù)據(jù)挖掘流程主要包括數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)建模分析三個環(huán)節(jié),在數(shù)據(jù)挖掘過程中需要重點解決各個環(huán)節(jié)面臨的技術(shù)問題。

        1 大數(shù)據(jù)下工程造價數(shù)據(jù)挖掘存在的問題

        1.1 數(shù)據(jù)獲取問題

        數(shù)據(jù)獲取是工程造價數(shù)據(jù)挖掘的前提條件,直接影響著數(shù)據(jù)挖掘算法計算結(jié)果的準(zhǔn)確性。基于大數(shù)據(jù)環(huán)境下,工程造價數(shù)據(jù)獲取要重點解決數(shù)據(jù)來源問題。當(dāng)前,大部分工程造價數(shù)據(jù)來源于實地調(diào)查,通過實地走訪獲得數(shù)據(jù)信息,從中選取可信度較高的信息[1]。但是,由于實地調(diào)查獲得的數(shù)據(jù)易受調(diào)研機(jī)構(gòu)能力、調(diào)研人員素質(zhì)、數(shù)據(jù)采集方式、數(shù)據(jù)選取標(biāo)準(zhǔn)等因素的影響,造成數(shù)據(jù)可靠性偏低。

        1.2 數(shù)據(jù)清洗問題

        在工程造價數(shù)據(jù)采集之后要進(jìn)行海量數(shù)據(jù)清洗,抽取出適合數(shù)據(jù)建模分析的數(shù)據(jù)結(jié)構(gòu)。在數(shù)據(jù)清洗中,系統(tǒng)會自動隨機(jī)抽取海量數(shù)據(jù)中的樣本數(shù)據(jù),可能會出現(xiàn)數(shù)據(jù)錯誤、數(shù)據(jù)缺失等問題,降低數(shù)據(jù)的可用性和準(zhǔn)確性。具體表現(xiàn)為:數(shù)據(jù)屬性不全、數(shù)據(jù)特征值缺失、數(shù)據(jù)格式不一致、數(shù)據(jù)表現(xiàn)形式不同、數(shù)據(jù)本身錯誤等[2]。

        1.3 數(shù)據(jù)建模問題

        數(shù)據(jù)建模是工程造價數(shù)據(jù)挖掘的關(guān)鍵環(huán)節(jié),需要采用適當(dāng)?shù)乃惴ㄟM(jìn)行建模,提高數(shù)據(jù)分析的準(zhǔn)確性,為工程造價決策提供依據(jù)。但是,由于工程造價具備多維復(fù)雜性的特點,數(shù)據(jù)形式多樣,表現(xiàn)形式各有不同,并且數(shù)據(jù)變化程度也不盡相同,所以增加了數(shù)據(jù)建模的難度,很難通過采用一種算法解決工程造價中所有類型價格信息的建模問題。

        2 解決對策

        2.1 數(shù)據(jù)獲取——內(nèi)外部平臺獲取

        為解決數(shù)據(jù)獲取可靠性不足的問題,建議剔除實地調(diào)查方法,通過內(nèi)部數(shù)據(jù)平臺與外部數(shù)據(jù)平臺采集數(shù)據(jù),將數(shù)據(jù)可靠性控制在可接受的范圍內(nèi)。

        (1)內(nèi)部平臺采集。建筑企業(yè)自主建立工程造價數(shù)據(jù)庫,在內(nèi)部平臺上采集同類型工程項目的造價信息,將采集后數(shù)據(jù)信息導(dǎo)入新建的數(shù)據(jù)庫中進(jìn)行備用,并將其轉(zhuǎn)換為直接可用的目標(biāo)造價數(shù)據(jù)信息。在數(shù)據(jù)采集中,可以通過設(shè)置規(guī)范字段篩選出數(shù)據(jù)庫中相同字段的信息,提高數(shù)據(jù)采集效率。

        (2)外部平臺采集。工程造價人員將本地數(shù)據(jù)庫對接相應(yīng)的平臺接口,創(chuàng)建統(tǒng)一的數(shù)據(jù)交換格式,將外部平臺上的業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)變?yōu)楸镜財?shù)據(jù)庫規(guī)范的數(shù)據(jù)格式,完成數(shù)據(jù)采集。外部平臺主要是指具有一定權(quán)威性的工程造價官方網(wǎng)站和專業(yè)化程度高的工程造價信息網(wǎng)等[3]。

        2.2 數(shù)據(jù)清洗——數(shù)據(jù)預(yù)處理

        針對數(shù)據(jù)清洗中存在的問題,可采用以下方法進(jìn)行數(shù)據(jù)預(yù)處理。

        (1)處理數(shù)據(jù)缺失。在數(shù)據(jù)抽取中,可以采用以下兩種方法解決數(shù)據(jù)缺失問題:①舍棄元組。在數(shù)據(jù)抽取后,若數(shù)據(jù)元組缺失值超過總樣本數(shù)量的40%時,則必須將元組舍棄,不考慮該元組對數(shù)據(jù)挖掘的影響;②中心度量值填充。在元組符合可用條件后,填充處理缺失數(shù)據(jù),填充方法為中心度量值法。

        (2)處理噪點數(shù)據(jù)。在處理噪點數(shù)據(jù)時結(jié)合工程造價數(shù)據(jù)的特點以及數(shù)據(jù)采集方式,采用分箱平滑法。由于工程造價變化受市場經(jīng)濟(jì)總體變化的影響程度較高,其變化呈現(xiàn)出時間連續(xù)性的特點,在市場不發(fā)生較大波動的情況下,工程造價變化具有一定的規(guī)律性。所以,將工程造價數(shù)據(jù)的年度變化閾值范圍設(shè)置為20%,即超過平均值20%的數(shù)據(jù)視為噪點,需要在采樣區(qū)間內(nèi)重新計算數(shù)據(jù),修正數(shù)據(jù)。

        (3)處理數(shù)據(jù)格式。造價人員可以建立起數(shù)據(jù)采集模板,運(yùn)用采集模板處理符合模板格式要求的數(shù)據(jù),以保證數(shù)據(jù)格式一致。如,人工單價費(fèi)用模板格式為:①編號,格式“XXX”;②單價,格式“XX.XX”;③時間,格式“yyyy-mm-dd:hh:mm:ss”;④來源,格式“……”。

        2.3 數(shù)據(jù)建?!狵-means 聚類算法

        在工程造價中,材料費(fèi)用占工程造價的比重最高,約為70%左右,這使得材料費(fèi)用數(shù)據(jù)在工程造價決策中占據(jù)中重要地位。為此,本文重點研究材料價格的數(shù)據(jù)建模,結(jié)合材料數(shù)據(jù)的特點采用K-means聚類算法進(jìn)行建模,并利用Hadoop技術(shù)解算模型。聚類算法具備操作簡便,能夠處理異構(gòu)類型的大規(guī)模數(shù)據(jù),且無需提前進(jìn)行數(shù)據(jù)分類標(biāo)簽,可以大幅度提高數(shù)據(jù)處理效率。該算法的運(yùn)算流程為:①隨機(jī)抽取M個樣本,將樣本數(shù)據(jù)作為中心點,即M個中心點,將中心點存入一個文件中,作為全局變量;②依次采用Map函數(shù)、Combine函數(shù)、Reduce函數(shù)進(jìn)行求解,迭代出最優(yōu)解,最終解算出對應(yīng)節(jié)點的多維坐標(biāo)總和,求和后計算出樣本新的坐標(biāo)值。例如,在復(fù)合硅酸鹽水泥采購中,共有20家供應(yīng)商提供報價,單價范圍從316元-486元不等。采用聚類分析法生成初始數(shù)據(jù)集,比較數(shù)據(jù)集中每個樣本之間的距離,選擇與其他距離最遠(yuǎn)的點作為初始中心點,重新分類數(shù)據(jù),確定K值。通過數(shù)據(jù)建模,確定中心點共4個,分別為X1、X2、X3、X4對應(yīng)4、3、3、10個聚類數(shù)量,對應(yīng)的數(shù)值分別為316、402、486、427。由于X4對應(yīng)最多的聚類數(shù)量,所以初步判定復(fù)合硅酸鹽水泥的市場真實價格為427元。

        3 結(jié)語

        綜上所述,在工程造價管理中運(yùn)用數(shù)據(jù)挖掘技術(shù)有利于輔助做出正確的投資決策。在運(yùn)用數(shù)據(jù)挖掘技術(shù)時要重點解決數(shù)據(jù)獲取、數(shù)據(jù)清洗以及數(shù)據(jù)建模中的問題,完善數(shù)據(jù)挖掘技術(shù)應(yīng)用流程。在數(shù)據(jù)挖掘后,工程造價管理人員可以根據(jù)數(shù)據(jù)建模得出的計算結(jié)果,分析數(shù)據(jù)的可靠性,篩選出最有價值的造價數(shù)據(jù)。

        猜你喜歡
        元組中心點數(shù)據(jù)挖掘
        Python核心語法
        電腦報(2021年14期)2021-06-28 10:46:22
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        Scratch 3.9更新了什么?
        電腦報(2020年12期)2020-06-30 19:56:42
        如何設(shè)置造型中心點?
        電腦報(2019年4期)2019-09-10 07:22:44
        海量數(shù)據(jù)上有效的top-kSkyline查詢算法*
        基于減少檢索的負(fù)表約束優(yōu)化算法
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        漢字藝術(shù)結(jié)構(gòu)解析(二)中心點處筆畫應(yīng)緊奏
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        尋找視覺中心點
        大眾攝影(2015年9期)2015-09-06 17:05:41
        国产成人综合久久精品推荐免费 | 国产av国片精品| 色系免费一区二区三区| 色综合久久人妻精品日韩| 国产av在线观看久久| 亚洲精品乱码久久久久久蜜桃不卡| 亚洲一区视频在线| 国产一级一片内射在线| 风韵犹存丰满熟妇大屁股啪啪| 国产成人精品午夜二三区波多野| 美女黄18以下禁止观看| 国产喷白浆精品一区二区| 日本一区二区国产精品| 乱中年女人伦av一区二区| 婷婷四房播播| 特黄三级一区二区三区| 国产草逼视频免费观看| 国产精品久久久久9999赢消| 波多野结衣国产一区二区三区| 亚洲中文字幕在线第二页| 国产亚洲人成在线观看| 五月综合激情婷婷六月色窝| 国产精品入口牛牛影视| 国产一级av理论手机在线| 国产精品沙发午睡系列| 亚洲av无码精品色午夜| 国产一区二区丰满熟女人妻| 国产一区二区三区18p| 久久午夜羞羞影院免费观看| 丰满人妻无奈张开双腿av | 丁香五月亚洲综合在线| 久久久久久国产精品美女| 深夜福利国产| 久久中文字幕暴力一区| 三年中文在线观看免费大全| 亚洲综合国产精品一区二区99| 国产精品美女自在线观看| 最新欧美精品一区二区三区| 无码三级在线看中文字幕完整版| 亚洲红杏AV无码专区首页| 亚洲精品视频1区2区|