亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Hadoop技術(shù)的海量物流數(shù)據(jù)的處理

2018-12-08 11:17:54楊立雄

現(xiàn)代商貿(mào)工業(yè) 2018年31期

楊立雄

摘要：Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架，它以一種可靠、高效、可伸縮的方式進(jìn)行數(shù)據(jù)處理，能有效處理海量的物流數(shù)據(jù)。據(jù)此，以錦程物流網(wǎng)、中國物通網(wǎng)等物流企業(yè)為例，分析其物流數(shù)據(jù)處理。

關(guān)鍵詞：Hadoop技術(shù)；大數(shù)據(jù)；數(shù)據(jù)模型；物流信息平臺

中圖分類號：F25 文獻(xiàn)標(biāo)識碼：A doi：10.19311/j.cnki.1672-3198.2018.31.018

1 物流信息平臺介紹

1.1 物流信息平臺分類

物流信息平臺分類辦法多種多樣。按區(qū)域分有地方性的物流信息平臺和全國性的物流信息平臺。如湖南物流信息平臺、山東物流信息平臺屬地方性的物流信息平臺；發(fā)啦網(wǎng)、中國物通網(wǎng)則是全國性物流信息平臺。按運(yùn)營方可以分為主體自身運(yùn)營的物流信息平臺和第三方物流信息平臺；按組織方式則分為封閉式物流信息平臺和公共物物流信息平臺。封閉式方式如電子口岸系統(tǒng)、物流監(jiān)管系統(tǒng)、貿(mào)易集散地的交易系統(tǒng)。公共物流信息平臺如發(fā)啦網(wǎng)、錦程物流王、福州港口物流信息平臺和南昌物流信息平臺等。

1.2 物流信息平臺基本功能

物流信息平臺對可對物流信息進(jìn)行收集、存儲、處理、輸出等，成為決策的物流管理主要依據(jù)之一。以錦程物流網(wǎng)、中國物通網(wǎng)為例等。物流信息平臺主要功能有：

（1）B2B企業(yè)信息發(fā)布。

（2）OA辦公自動化系統(tǒng)。

（3）CRM客戶管理系統(tǒng)。

（4）PDOS進(jìn)銷存管理系統(tǒng)。

（5）TMS車輛運(yùn)輸管理系統(tǒng)。

（6）WMS倉儲管理系統(tǒng)。

（7）GPS衛(wèi)星定位系統(tǒng)等外設(shè)接口。

（8）業(yè)務(wù)系統(tǒng)接口。

（9）物流聯(lián)運(yùn)指揮中心系統(tǒng)。

（10）云計算、資源統(tǒng)一管理和調(diào)度，向用戶提供按需服務(wù)。

（11）用戶信用評價。

2 Hadoop技術(shù)在海量物流數(shù)據(jù)處理中的應(yīng)用

2.1 物流信息平臺基本框架

物流數(shù)據(jù)分析平臺可以分為接入層（Landing）、整合層（Integration）、表現(xiàn)層（Persentation）、語義層（Semantic）、終端用戶應(yīng)用（End-user applications）、元數(shù)據(jù)（Metadata）。

2.2 物流信息平臺框架分析

（1）接入層（Landing）：保持和物流信息系統(tǒng)相同的結(jié)構(gòu)，暫存原始數(shù)據(jù)。

（2）整合層（Integration）：物流企業(yè)數(shù)據(jù)經(jīng)整合后進(jìn)行持久存儲，創(chuàng)建物流數(shù)據(jù)存儲庫存。

（3）表現(xiàn)層（Presentation）：針對物流企業(yè)為滿足用戶需求，提供客觀數(shù)據(jù)，建立智能數(shù)據(jù)模型即“數(shù)據(jù)集市”。

（4）語義層（Semantic）：物流信息數(shù)據(jù)的表現(xiàn)方式、訪問控制方式。常見的有數(shù)據(jù)報表等。

（5）終端用戶應(yīng)用（End-user applications）：物流用戶獲得的最終結(jié)果。通過語義層工具，將表現(xiàn)層物流數(shù)據(jù)最終提供給用戶使用，常用的有儀表板、報表、圖表等形式。

（6）元數(shù)據(jù)（Metadata）：即物流原始數(shù)據(jù)。如物流倉儲、運(yùn)輸和配送等相關(guān)信息。

依靠Hadoop技術(shù)可建立物流信息數(shù)據(jù)湖。將物流數(shù)據(jù)直接存儲在HDFS、HBase或Hive內(nèi)部，也可用關(guān)系型數(shù)據(jù)庫建立物流數(shù)據(jù)湖。

3 物流信息平臺數(shù)據(jù)處理流程

3.1 物流信息平臺的數(shù)據(jù)處理流程

物流數(shù)據(jù)經(jīng)由外部數(shù)據(jù)的采集、分析、存儲等處理環(huán)節(jié)，最終提供給終端用戶使用。流程如圖3。

3.2 物流信息平臺的數(shù)據(jù)處理方式

物流數(shù)據(jù)分析基本方式是將數(shù)據(jù)源同步到物流數(shù)據(jù)平臺的存儲體系即物流數(shù)據(jù)湖。數(shù)據(jù)首先進(jìn)入到接入層，將外部數(shù)據(jù)同步到物流數(shù)據(jù)分析平臺，然后進(jìn)行同步分析，物流數(shù)據(jù)同步有定時和流式同步兩種方式：

（1）定時同步變是在指定時間觸發(fā)物流數(shù)據(jù)的同步動作。

（2）流式同步即物流的外部數(shù)據(jù)通過Kafka或MQ發(fā)送數(shù)據(jù)修改通知及內(nèi)容。

接入層物流數(shù)據(jù)處理過程如下：物流數(shù)據(jù)經(jīng)ETL處理步驟后進(jìn)入到數(shù)據(jù)倉庫，數(shù)據(jù)分析員基于物流數(shù)據(jù)倉庫的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和計算，數(shù)據(jù)倉庫是所有處理的基礎(chǔ)。在ETL處理過程中需獎物流數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、轉(zhuǎn)換，然后加載到數(shù)據(jù)倉庫，物流數(shù)據(jù)可以過濾或處理不合法、不完整的數(shù)據(jù)，數(shù)據(jù)狀態(tài)的表示要有一個統(tǒng)一的維度。物流信息平臺的在這一層就會將數(shù)據(jù)倉庫構(gòu)建成數(shù)據(jù)立方體、雪花或星型模式是構(gòu)建維度信息的理想選擇，錦程物流、中國物通采用了此方式。不過方式的選擇也有靈活性。有的物流信息平臺這一層只是統(tǒng)一了所有數(shù)據(jù)信息，沒有做數(shù)據(jù)立方體，如福州港口物流信息平臺和南昌物流信息等。

物流數(shù)據(jù)集市是對物流數(shù)據(jù)倉庫加工后的結(jié)果。物流數(shù)據(jù)集市通過對業(yè)務(wù)信息計算提取后得到的進(jìn)一步信息，與業(yè)務(wù)人員直接打交道。是物流數(shù)據(jù)倉庫的進(jìn)一步計算和深入分析的結(jié)果，構(gòu)建物流數(shù)據(jù)立方體是一種理想的方式。

3.3 基于Hadoop關(guān)鍵技術(shù)的物流信息平臺的數(shù)據(jù)處理

目前，錦程物流網(wǎng)、中國物通網(wǎng)基于Hadoop技術(shù)構(gòu)建的物流信息平臺的關(guān)鍵技術(shù)如下：

（1）物流數(shù)據(jù)存儲。

基于Hadoop技術(shù)的物流數(shù)據(jù)主要用到了HDFS、Hive和HBase技術(shù)。HDFS負(fù)責(zé)Hadoop平臺的文件存儲，用戶直接操縱文件是比較復(fù)雜的，使用分布式數(shù)據(jù)庫Hive或HBase構(gòu)建物流數(shù)據(jù)湖，將物流數(shù)據(jù)存儲到接入層、數(shù)據(jù)倉庫、數(shù)據(jù)集市。

Hive和HBase優(yōu)勢各異：HBase是基于NoSQL數(shù)據(jù)庫，數(shù)據(jù)隨機(jī)查詢和數(shù)據(jù)擴(kuò)展性能良好；而Hive是HDFS的數(shù)據(jù)庫，數(shù)據(jù)文件存放形式是HDFS文件（夾），存儲了表的存儲位置（即在HDFS中的位置）、存儲格式等元數(shù)據(jù)，Hive查詢使用SQL語言，即結(jié)構(gòu)化查詢方式，查詢中可用Map/Reduce解釋或執(zhí)行，滿足物流數(shù)據(jù)作廢對物流數(shù)據(jù)分析。錦程物流網(wǎng)、中國物通網(wǎng)更多的采用這種方式。

Hive數(shù)據(jù)格式靈活多樣。常用文本格式或二進(jìn)制格式。csv、json是文本格式的主要方式，二進(jìn)制格式則有parquet或orc，其格式的共性是都基于行列式的存儲，查詢時性簡單方便和靈活。選擇分區(qū)（partition）技術(shù)可以過濾以減少數(shù)據(jù)量。接入層可以選擇csv或json等文本格式，常不做分區(qū)，使數(shù)據(jù)同步性能更好。選擇orc或parquet數(shù)據(jù)倉庫，可以提高數(shù)據(jù)離線計算性能。

物流數(shù)據(jù)集市的處理則經(jīng)常將物流數(shù)據(jù)灌回到傳統(tǒng)數(shù)據(jù)庫（RDBMS），或者停留在物流數(shù)據(jù)分析平臺，錦程物流網(wǎng)、中國物通網(wǎng)使用NoSQL技術(shù)，以支撐供數(shù)據(jù)查詢，同時平臺使用到Apache Kylin技術(shù)以構(gòu)建物流數(shù)據(jù)立方體，方便SQL查詢。

（2）物流數(shù)據(jù)同步。

錦程物流網(wǎng)、中國物通網(wǎng)等通過數(shù)據(jù)同步功能將物流數(shù)據(jù)到達(dá)接入層，常用技術(shù)有Sqoop和Kafka。物流數(shù)據(jù)同步方式可分為全量同步和增量同步，物流企業(yè)物流數(shù)據(jù)規(guī)模小的表格可以采用全量同步方式，物流企業(yè)物流數(shù)據(jù)規(guī)模大的數(shù)據(jù)則采用增量同步方式。大表采用全量同步是耗時多，經(jīng)常采用增量同步，將變動同步到數(shù)據(jù)平臺執(zhí)行，以達(dá)到兩邊數(shù)據(jù)一致的目的。

物流大數(shù)據(jù)全量同步使用Sqoop技術(shù)來可則通過Kafka技術(shù)等MQ流式同步物流大數(shù)據(jù)，這樣外部物流數(shù)據(jù)源也會將變動發(fā)送到MQ中。

（3） ETL及離線計算。

物流企業(yè)使用Yarn來處理物流數(shù)據(jù)，以方便統(tǒng)一管理或調(diào)度計算資源。錦程物流網(wǎng)、中國物通網(wǎng)采用Map/Reduce，Spark SQL及Spark RDD了技術(shù)，對開發(fā)人員和用戶更友好，物流數(shù)據(jù)的計算效率更高，處理速度更快，與用戶粘合性也更好。Spark on Yarn也是物流企業(yè)數(shù)據(jù)分析和處理的一種理想選擇。

此外ETL也通過Spark SQL或Hive SQL來做數(shù)據(jù)處理，Hive在2.0以后能支持存儲過程，使用起來更便捷。如果出于綜合考慮的話Saprk SQL是更理想的選擇。

參考文獻(xiàn)

[1]林文輝.基于Hadoop的海量網(wǎng)絡(luò)數(shù)據(jù)處理平臺的關(guān)鍵技術(shù)研究[D].北京：北京郵電大學(xué)，2014.

[2]鄭文博.基于Hadoop的汽車整車物流管理系統(tǒng)的設(shè)計與實現(xiàn)[D].天津：天津大學(xué)，2017.

[3]魏斐翡.ECLHadoop：基于Hadoop的有效電子商務(wù)物流大數(shù)據(jù)處理策略[J].計算機(jī)工程與科學(xué)，2013，35（10）：65-71.

[4]王寅田.基于Hadoop的交通物流大數(shù)據(jù)處理系統(tǒng)設(shè)計與實現(xiàn)[D].上海：上海交通大學(xué)，2014.