亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)上評卷海量圖像數(shù)據(jù)云存儲(chǔ)技術(shù)應(yīng)用探析

        2017-09-12 03:36:17蔡武越
        中國考試 2017年6期
        關(guān)鍵詞:評卷存儲(chǔ)系統(tǒng)海量

        蔡武越

        (教育部考試中心,北京 100084)

        網(wǎng)上評卷海量圖像數(shù)據(jù)云存儲(chǔ)技術(shù)應(yīng)用探析

        蔡武越

        (教育部考試中心,北京 100084)

        針對目前國家教育考試網(wǎng)上評卷海量圖像文件的存儲(chǔ)管理問題,本文提出基于Hadoop的NoSqL云存儲(chǔ)方案,提高評卷海量數(shù)據(jù)安全性和存儲(chǔ)可靠性,構(gòu)建分布式、可擴(kuò)展、高可用性和可靠性的云存儲(chǔ)平臺(tái)。通過分析基于Hadoop平臺(tái)云計(jì)算體系和基于HDFS/HBase的云存儲(chǔ)技術(shù),結(jié)合網(wǎng)上評卷海量圖像文件的存儲(chǔ)需求和實(shí)際,規(guī)劃基于Hadoop/HDFS/HBase的國家教育考試云存儲(chǔ)中心的數(shù)據(jù)交換平臺(tái),并對在國家教育考試中深入應(yīng)用此平臺(tái)給出設(shè)計(jì)方案,提出發(fā)展愿景。

        教育考試;網(wǎng)上評卷;海量圖像數(shù)據(jù);云存儲(chǔ)

        1 引言

        網(wǎng)上評卷是教育考試信息化、數(shù)字化趨勢推動(dòng)下的現(xiàn)代化評卷管理模式,改變了過去紙質(zhì)試卷評閱中難以解決的效率、質(zhì)量和可控制性等關(guān)鍵問題。近年來,國家教育考試全部采用了網(wǎng)上評卷模式。網(wǎng)上評卷的基礎(chǔ)性工作之一就是將考生紙介質(zhì)答卷掃描成為符合評閱要求的電子圖片。在大規(guī)模考試中,一個(gè)考試項(xiàng)目一次考試就需要存儲(chǔ)、處理上億個(gè)圖像文件。由于網(wǎng)上評卷圖像文件屬于非結(jié)構(gòu)化數(shù)據(jù),使用關(guān)系數(shù)據(jù)庫往往會(huì)造成數(shù)據(jù)導(dǎo)入、導(dǎo)出、編輯修改的負(fù)擔(dān),所以目前大多數(shù)應(yīng)用系統(tǒng)中使用文件方式直接存儲(chǔ)在操作系統(tǒng)的管理平臺(tái)上,其安全性、可操作性都存在隱患。

        針對網(wǎng)上評卷的海量圖像文件及相關(guān)數(shù)據(jù)的管理問題,本文提出應(yīng)用NoSqL云存儲(chǔ)進(jìn)行管理的解決方案,可以較好地解決數(shù)據(jù)可靠性、傳遞效率、可檢索性、計(jì)算處理等方面的問題,為今后實(shí)現(xiàn)全國性網(wǎng)絡(luò)化存儲(chǔ)管理探索可行的技術(shù)模式。

        目前,在海量數(shù)據(jù)處理方面已經(jīng)形成了很多專業(yè)技術(shù),最為突出的是NoSqL數(shù)據(jù)庫技術(shù)。NoSqL數(shù)據(jù)庫技術(shù)大多采用鍵值方式存儲(chǔ)技術(shù)存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù),解決一般關(guān)系數(shù)據(jù)庫中的格式?jīng)_突和處理效率問題。同時(shí),在處理超大規(guī)模數(shù)據(jù)時(shí),需要采用分布式存儲(chǔ)方式,為保障可靠性、彈性伸縮、標(biāo)準(zhǔn)化服務(wù)等特性需要在云平臺(tái)上構(gòu)建存儲(chǔ)系統(tǒng)。

        云計(jì)算(cloud computing)是結(jié)合了分布式、并行計(jì)算、網(wǎng)絡(luò)存儲(chǔ)服務(wù)、虛擬化資源、負(fù)載均衡等技術(shù)提供的網(wǎng)絡(luò)計(jì)算服務(wù),其目標(biāo)是實(shí)現(xiàn)資源共享、定制服務(wù)和高性能網(wǎng)絡(luò)應(yīng)用服務(wù)[1]。實(shí)質(zhì)上,云計(jì)算的關(guān)鍵技術(shù)之一就是解決海量數(shù)據(jù)的存儲(chǔ)問題。當(dāng)云計(jì)算系統(tǒng)運(yùn)算和處理的核心是大量數(shù)據(jù)的存儲(chǔ)和管理時(shí),云計(jì)算系統(tǒng)中就需要配置大量的存儲(chǔ)設(shè)備并建立高可靠性、高效率和統(tǒng)一服務(wù)的存儲(chǔ)服務(wù),而云計(jì)算服務(wù)的主要目標(biāo)之一就是提供可定制、高可靠性的存儲(chǔ)服務(wù)。云存儲(chǔ)是一個(gè)以數(shù)據(jù)存儲(chǔ)和管理為核心的云計(jì)算系統(tǒng),使用云存儲(chǔ)技術(shù)解決大規(guī)模數(shù)據(jù)存儲(chǔ)和計(jì)算處理是今后很多應(yīng)用領(lǐng)域的海量數(shù)據(jù)解決方案,也是數(shù)據(jù)技術(shù)的未來發(fā)展方向。

        2 云存儲(chǔ)與NoSqL技術(shù)

        云存儲(chǔ)是云計(jì)算平臺(tái)提供的最基本的服務(wù),通過使用虛擬化和分布式技術(shù),將大量存儲(chǔ)資源虛擬化,提供可定制和高可靠性服務(wù),大大改善了過去單獨(dú)劃分使用存儲(chǔ)所造成的資源共享、可擴(kuò)展和可靠性問題,未來數(shù)據(jù)的存儲(chǔ)方式都會(huì)逐漸轉(zhuǎn)向云存儲(chǔ)。在各類數(shù)據(jù)存儲(chǔ)中,海量小文件(小于1MB的文件)是各類系統(tǒng)中遇到的最關(guān)鍵的存儲(chǔ)難題,超大規(guī)模網(wǎng)站的圖片資源、網(wǎng)頁等都面臨存儲(chǔ)和檢索問題,使用NoSqL技術(shù)可有效解決這類問題。將NoSqL數(shù)據(jù)庫部署在云平臺(tái)中可以實(shí)現(xiàn)較為完美的技術(shù)結(jié)合。

        2.1 云存儲(chǔ)技術(shù)

        云存儲(chǔ)(cloud storage)通過集群應(yīng)用、網(wǎng)格技術(shù)和分布式文件系統(tǒng)等功能完成海量數(shù)據(jù)的存儲(chǔ)和管理[2]。云存儲(chǔ)的核心是應(yīng)用軟件與存儲(chǔ)設(shè)備相結(jié)合,通過應(yīng)用軟件來實(shí)現(xiàn)存儲(chǔ)設(shè)備向存儲(chǔ)服務(wù)的轉(zhuǎn)變。將網(wǎng)絡(luò)中大量各種不同類型的存儲(chǔ)設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問功能。與傳統(tǒng)的存儲(chǔ)設(shè)備相比,云存儲(chǔ)不僅僅是一個(gè)硬件,而是一個(gè)網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備、服務(wù)器、應(yīng)用軟件、公用訪問接口、接入網(wǎng)和客戶端程序等多個(gè)部分組成的復(fù)雜系統(tǒng)[3]。

        通常,從云存儲(chǔ)的技術(shù)實(shí)現(xiàn)層次上看,從底層向上,可以分為存儲(chǔ)層、基礎(chǔ)管理層、應(yīng)用接口層、訪問層四個(gè)層次,如圖1所示。

        圖1 云存儲(chǔ)系統(tǒng)的結(jié)構(gòu)模型

        2.2 文件存儲(chǔ)技術(shù)

        將數(shù)據(jù)存儲(chǔ)在文件中是較為傳統(tǒng)的方式,目前很多中小型網(wǎng)站和操作系統(tǒng)中都使用文件存儲(chǔ)各類數(shù)據(jù)。云平臺(tái)中也提供了各類文件存儲(chǔ)技術(shù),現(xiàn)有的云存儲(chǔ)分布式文件系統(tǒng)包括GFS、HDFS、Lustre、FastDFS、PVFS、GPFS、PFS、Ceph和TFS等。它們的許多設(shè)計(jì)理念類似,同時(shí)也各有特色。GFS(Google File System)是Google公司為了滿足本公司需求而開發(fā)的基于Linux的專有分布式文件系統(tǒng)。Lustre由SUN公司開發(fā)和維護(hù),是一個(gè)集群文件系統(tǒng),規(guī)模大、安全可靠,具備高可用性,目前已經(jīng)運(yùn)用在一些領(lǐng)域,例如HP SFS產(chǎn)品等。它的下一代集群文件系統(tǒng)可以支持超過10 000個(gè)節(jié)點(diǎn),可以存儲(chǔ)數(shù)以PB的數(shù)據(jù)量。HDFS(Hadoop Distributed File System)主要用來存儲(chǔ)大文件。HDFS在存儲(chǔ)小文件時(shí),通常的做法是先將很多小文件合并成一個(gè)大文件再保存到HDFS,同時(shí)為這些小文件建立索引,以便進(jìn)行快速存取。典型技術(shù)包括Hadoop自帶的Archive、SequenceFile,但均需要用戶自己編寫程序,實(shí)現(xiàn)小文件的合并。TFS(Taobao File System)對HDFS的元數(shù)據(jù)存儲(chǔ)架構(gòu)進(jìn)行了調(diào)整。在元數(shù)據(jù)節(jié)點(diǎn)僅存放數(shù)據(jù)塊與數(shù)據(jù)節(jié)點(diǎn)的映射,而將文件與數(shù)據(jù)塊的映射關(guān)系保存到文件名,不再需要在元數(shù)據(jù)節(jié)點(diǎn)同時(shí)存放這兩類映射,在系統(tǒng)層面解決小文件問題。但由于文件名包含數(shù)據(jù)塊信息,為文件和數(shù)據(jù)塊建立了強(qiáng)關(guān)系,導(dǎo)致數(shù)據(jù)塊使用僵硬,TFS在文件的命名、移動(dòng)方面帶來新的問題,限制了其應(yīng)用范圍。

        以GFS、HDFS為代表的適用于流式訪問大文件的分布式存儲(chǔ)系統(tǒng),若直接用來存儲(chǔ)圖片,由于元數(shù)據(jù)膨脹,在擴(kuò)展性和性能方面均存在嚴(yán)重問題。文件系統(tǒng)本身僅能用來存儲(chǔ)文件,不能進(jìn)行信息管理和進(jìn)一步的數(shù)據(jù)處理分析。

        2.3 NoSqL數(shù)據(jù)庫技術(shù)

        NoSqL是Not Only SqL的簡稱,其目標(biāo)是設(shè)計(jì)實(shí)現(xiàn)一種超出傳統(tǒng)關(guān)系型數(shù)據(jù)庫(流行的名稱是“Sql數(shù)據(jù)庫”)的數(shù)據(jù)管理技術(shù),管理互聯(lián)網(wǎng)上海量數(shù)據(jù)尤其是海量小文件。在各類NoSqL技術(shù)中,Hadoop平臺(tái)的HBase是較為成熟和流行的系統(tǒng),由Apache開源社區(qū)開發(fā)提供[4]。

        HBase是Apache的Hadoop項(xiàng)目的子項(xiàng)目。HBase是基于Hadoop的NoSqL數(shù)據(jù)庫,是Hadoop分布式文件存儲(chǔ)系統(tǒng)HDFS支撐下的NoSqL數(shù)據(jù)庫。相比單純文件系統(tǒng),HBase很容易做權(quán)限控制,因?yàn)楹完P(guān)系數(shù)據(jù)庫一樣,權(quán)限的授予和回收都使用grant和revoke,且HBase更容易做數(shù)據(jù)分析和數(shù)據(jù)挖掘。某些場景下,也可以在Hive中創(chuàng)建外部表來訪問HBase表中的數(shù)據(jù),并可用Sqoop和關(guān)系型數(shù)據(jù)庫導(dǎo)入導(dǎo)出。如圖2所示。

        圖2 Hadoop生態(tài)體系

        3 網(wǎng)上評卷海量圖像文件存儲(chǔ)管理解決方案

        網(wǎng)上評卷圖像文件是評卷信息系統(tǒng)的基礎(chǔ)數(shù)據(jù),具有非結(jié)構(gòu)化、大數(shù)據(jù)的基本特征。針對目前可預(yù)計(jì)的一定時(shí)間范圍內(nèi),其存儲(chǔ)處理的數(shù)據(jù)量可以達(dá)到海量大數(shù)據(jù)的程度。以碩士研究生招生考試試卷掃描圖像及其考生信息數(shù)據(jù)為例,某東部省2017年度報(bào)名人數(shù)為18萬余人,其中報(bào)本省院校的有9萬余人,按照每人考試科目是4科、每科試卷掃描圖像為2~4個(gè)文件、每個(gè)文件大小為幾十KB到幾百KB計(jì)算,圖像容量大小約為0.21TB,全國總數(shù)據(jù)量可達(dá)到6.3TB。其中文件數(shù)目多,在操作系統(tǒng)環(huán)境下小圖片文件的存儲(chǔ)、管理較為困難。碩士研究生招生考試還是國家教育考試中規(guī)模較小的考試,其他考試數(shù)據(jù)量會(huì)更大,同時(shí)上述計(jì)算并沒有包括整圖、分圖、軌跡記錄等重復(fù)冗余性存儲(chǔ),隨著時(shí)間的增加,歷史數(shù)據(jù)量會(huì)爆炸性增長,海量數(shù)據(jù)存儲(chǔ)管理將是亟須解決的問題。

        從教育考試領(lǐng)域管理大發(fā)展來看,信息系統(tǒng)的統(tǒng)一整合和集中控制越來越重要,全國信息匯總與區(qū)域數(shù)據(jù)分發(fā)將成為常態(tài)化任務(wù)。例如,碩士研究生招生考試的特點(diǎn)要求各省之間做數(shù)據(jù)交換,目前的方式是人工攜帶數(shù)據(jù),集中拷貝后分發(fā),效率較低,且管理過程復(fù)雜,工作量龐大。各省獲取到數(shù)據(jù)后還得重新導(dǎo)入,無法實(shí)時(shí)、自動(dòng)交換和核查圖像,且歷年數(shù)據(jù)在跨系統(tǒng)應(yīng)用中存在障礙,難以完成進(jìn)一步的數(shù)據(jù)挖掘和應(yīng)用。

        采用Hadoop與HBase技術(shù),因?yàn)榛趦?nèi)容的海量圖像框架,不僅可以解決海量圖像的存儲(chǔ)與數(shù)據(jù)傳輸問題,還能將原本設(shè)計(jì)的圖像檢索算法直接移植到分布式環(huán)境中并行處理,依靠MapReduce集群的并行計(jì)算能力,實(shí)現(xiàn)對海量圖像的檢索。

        3.1 基本需求和需要解決的問題

        網(wǎng)上評卷海量圖像文件存儲(chǔ)平臺(tái)的基本需求是滿足數(shù)據(jù)管理和數(shù)據(jù)交換,具體包括以下幾個(gè)方面:(1)存儲(chǔ)系統(tǒng)需要支持應(yīng)用系統(tǒng)對數(shù)據(jù)的存取及檢索調(diào)用,使目前的文件管理狀態(tài)能夠過渡到數(shù)據(jù)庫管理狀態(tài)。(2)數(shù)據(jù)存取效率能夠滿足應(yīng)用系統(tǒng)的需求,在大規(guī)模評卷系統(tǒng)(3 000~5 000位評卷教師同時(shí)評閱)中能夠應(yīng)對圖像的并發(fā)調(diào)用。(3)滿足對數(shù)據(jù)的安全性、可靠性保存要求,在管理權(quán)限控制、底層硬件故障、異地容災(zāi)等方面具有技術(shù)支持。(4)解決數(shù)據(jù)切分、交換的問題,尤其是數(shù)據(jù)遷移的效率問題。(5)滿足系統(tǒng)的彈性擴(kuò)展需求。隨著數(shù)據(jù)信息總量的擴(kuò)大,存儲(chǔ)系統(tǒng)為了滿足需求必須不斷地動(dòng)態(tài)擴(kuò)大存儲(chǔ)規(guī)模。這使得存儲(chǔ)系統(tǒng)必須能夠支持新的存儲(chǔ)節(jié)點(diǎn)不斷加入,確保數(shù)據(jù)在各個(gè)存儲(chǔ)節(jié)點(diǎn)的均勻分布,滿足存儲(chǔ)空間以及網(wǎng)絡(luò)帶寬的負(fù)載均衡。(6)在海量的數(shù)據(jù)信息中,高效查找定位目標(biāo)數(shù)據(jù)是提高系統(tǒng)性能的關(guān)鍵。存儲(chǔ)系統(tǒng)必須可以高效完成數(shù)據(jù)尋址,最大限度地減少平均響應(yīng)時(shí)間,提供數(shù)據(jù)服務(wù)的吞吐量[5]。

        除上述需求之外,存儲(chǔ)系統(tǒng)應(yīng)該能夠支撐具有并行和分布式計(jì)算能力的開發(fā)平臺(tái),實(shí)現(xiàn)數(shù)據(jù)的動(dòng)態(tài)處理、數(shù)據(jù)分析、智能計(jì)算與挖掘,為數(shù)據(jù)的進(jìn)一步應(yīng)用奠定基礎(chǔ)。

        3.2 HBase海量小圖片管理原理及方法

        HBase是一個(gè)分布式的、持久的、強(qiáng)一致性的數(shù)據(jù)存儲(chǔ)系統(tǒng),具有優(yōu)異的讀寫性能。它是列存儲(chǔ)數(shù)據(jù)庫,底層通過HDFS做數(shù)據(jù)存儲(chǔ),更支持MapReduce的批量式計(jì)算和隨機(jī)查詢。近年來使用HBase的用戶數(shù)量迅猛增長,主要原因在于HBase產(chǎn)品變得更加可靠,性能更好,并且產(chǎn)生了更多成功的應(yīng)用領(lǐng)域和更龐大的用戶群體,而且越來越多的公司開始投入大量資源來支持和使用它。隨著越來越多的商業(yè)服務(wù)供應(yīng)商提供支持,大量用戶更加自信地將HBase應(yīng)用于關(guān)鍵數(shù)據(jù)管理。

        HBase存儲(chǔ)關(guān)鍵大規(guī)模數(shù)據(jù)具有以下幾個(gè)方面的優(yōu)勢:(1)高可靠性。HBase基于Bigtable技術(shù)開發(fā),運(yùn)行在Hadoop上,其基礎(chǔ)數(shù)據(jù)管理的平臺(tái)是HDFS,在文件管理層做了分布式數(shù)據(jù)冗余,具有高可靠性。很多大數(shù)據(jù)用戶的應(yīng)用案例也證明了其服務(wù)于海量數(shù)據(jù)的可靠性能力。(2)高并發(fā)讀寫。使用日志文件(HLOG)和內(nèi)存存儲(chǔ)將隨機(jī)寫轉(zhuǎn)換成順序?qū)懀WC穩(wěn)定的數(shù)據(jù)插入速率;讀寫?yīng)毩ⅲ@兩種操作沒有沖突。(3)高可用伸縮性。支撐能力可以隨服務(wù)器增長而線性增長,表的數(shù)據(jù)表按鍵值范圍自動(dòng)分片,分布在不同的機(jī)器上,實(shí)現(xiàn)自動(dòng)負(fù)載均衡。(4)讀寫的低延遲。由于采用了數(shù)據(jù)按列存儲(chǔ)和并發(fā)處理技術(shù),數(shù)據(jù)讀寫的延遲很低,適于大規(guī)模訪問數(shù)據(jù)的應(yīng)用系統(tǒng)。(5)低成本實(shí)現(xiàn)。當(dāng)數(shù)據(jù)量變得越來越多時(shí),數(shù)據(jù)存儲(chǔ)管理會(huì)形成越來越高的成本需求,使用傳統(tǒng)的專業(yè)存儲(chǔ)設(shè)備其成本和升級費(fèi)用將難以承受。而HBase基于Linux操作系統(tǒng)和分布式文件系統(tǒng)HDFS,支持較多壓縮算法,可以在廉價(jià)的PC上實(shí)現(xiàn),且成本較低[6]。

        通過上述對HBase數(shù)據(jù)存儲(chǔ)系統(tǒng)特性的分析,可以清楚地看到,該系統(tǒng)能夠滿足前面提到的網(wǎng)上評卷圖像文件管理的各種需求,尤其是Hadoop平臺(tái)的數(shù)據(jù)處理開發(fā)支撐能力,也能夠?yàn)檫M(jìn)一步開展數(shù)據(jù)分析提供支持。基于Hadoop和HDFS的NoSqL數(shù)據(jù)庫系統(tǒng),HBase的系統(tǒng)架構(gòu)和數(shù)據(jù)存儲(chǔ)管理方式如圖3所示[7]。

        3.3 使用HBase匯總和分發(fā)網(wǎng)上評卷圖像文件

        3.3.1 數(shù)據(jù)存儲(chǔ)工作模式

        使用HBase存儲(chǔ)網(wǎng)上評卷圖像文件的工作方式可以分為直接和間接兩種。如果建立統(tǒng)一的分布式平臺(tái),從圖像掃描采集、分割、匯總提交、支撐網(wǎng)上評卷系統(tǒng)、歸檔全過程進(jìn)行管理,則可以只在HBase中完成圖像數(shù)據(jù)的存儲(chǔ),可以稱為直接模式。如果結(jié)合目前的各類前段獨(dú)立系統(tǒng),將數(shù)據(jù)從各省采集系統(tǒng)中轉(zhuǎn)入HBase,然后再分發(fā)到各個(gè)系統(tǒng)中,則稱為間接模式[8]。

        圖3 HBase/HDFS/Hadoop數(shù)據(jù)存儲(chǔ)系統(tǒng)結(jié)構(gòu)

        HBase更適合管理海量圖像小文件。在存儲(chǔ)格式上,由于數(shù)據(jù)和坐標(biāo)都是以字節(jié)數(shù)組的形式存儲(chǔ)(視為字符串),可以支持存儲(chǔ)任意的數(shù)據(jù)類型。同時(shí),HBase是基于HDFS的簡單結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)技術(shù),被用來存儲(chǔ)圖片文件時(shí),具有系統(tǒng)層小文件合并、全局名字空間等多種優(yōu)勢。HBase是采用面向列的存儲(chǔ)模型,按列簇來存儲(chǔ)和處理數(shù)據(jù),即同一列簇的數(shù)據(jù)會(huì)連續(xù)存儲(chǔ)。HBase在存儲(chǔ)每個(gè)列簇時(shí),會(huì)以Key-Value的方式來存儲(chǔ)每行單元格(Cell)中的數(shù)據(jù),形成若干數(shù)據(jù)塊,然后把數(shù)據(jù)塊保存到HFile中,最后把HFile保存到后臺(tái)的HDFS上。HBase數(shù)據(jù)塊限制為64MB,由于用單元格存儲(chǔ)圖片小文件的內(nèi)容,存儲(chǔ)數(shù)據(jù)的過程實(shí)際上隱含了把圖片小文件打包的過程。若對于所有小于64M的圖片均進(jìn)行打包,則會(huì)加大打包文件的過程資源損耗,因此需要定一個(gè)閾值,當(dāng)文件大小超過該閾值后進(jìn)行打包操作,否則直接通過namenode進(jìn)行上傳。最新版本的Hadoop支持文件追加append操作,采用了“標(biāo)記法”對Mapfile打包小文件時(shí)的增刪改查進(jìn)行處理,從而能保證圖片存儲(chǔ)訪問的效率[9]。

        鑒于目前應(yīng)用前端整合的難度和系統(tǒng)的演變性,應(yīng)該先采用間接模式進(jìn)行數(shù)據(jù)管理,逐漸過渡到直接模式。間接管理模式下圖像數(shù)據(jù)的存儲(chǔ)處理過程如下:(1)海量圖片小文件處理模塊從用戶接口接收用戶上傳的文件。(2)處理模塊通過合并算法將符合條件的海量小文件進(jìn)行合并處理。(3)處理模塊通過文件寫入模塊將處理后的文件上傳至云存儲(chǔ),數(shù)據(jù)分發(fā)階段向用戶分發(fā)數(shù)據(jù)。(4)云存儲(chǔ)將待下載文件通過文件讀出模塊交付到海量小文件處理模塊。(5)處理模塊通過分離算法將經(jīng)過合并處理的文件進(jìn)行分離處理。(6)處理模塊將處理后的文件通過用戶接口發(fā)給用戶。

        3.3.2 數(shù)據(jù)分發(fā)工作方式

        由于答題卡圖像采集數(shù)據(jù)和網(wǎng)上評卷等系統(tǒng)運(yùn)行在省平臺(tái),各省之間需要進(jìn)行大規(guī)模的數(shù)據(jù)交換。在數(shù)據(jù)交換過程中,教育部考試中心(以下簡稱考試中心)可以應(yīng)用云存儲(chǔ)系統(tǒng)的大規(guī)模處理和高可靠性建立交換數(shù)據(jù)平臺(tái),各省考試院作為使用云存儲(chǔ)系統(tǒng)用戶進(jìn)行數(shù)據(jù)提供和提取。云存儲(chǔ)系統(tǒng)能夠有效創(chuàng)建、管理、維護(hù)中心交換區(qū)和各省云用戶區(qū)數(shù)據(jù)。考試中心為云用戶建立服務(wù)系統(tǒng),檢查接收各省用戶數(shù)據(jù),并進(jìn)行數(shù)據(jù)的分發(fā)和相應(yīng)處理??荚囍行膶υ拼鎯?chǔ)平臺(tái)進(jìn)行統(tǒng)一規(guī)劃,各省只要把需要分發(fā)的信息表的查詢和導(dǎo)出權(quán)限授予合適的用戶,即可實(shí)現(xiàn)初步的分發(fā)控制,如圖4所示。

        從互聯(lián)網(wǎng)和云計(jì)算技術(shù)的發(fā)展趨勢看,云存儲(chǔ)會(huì)逐漸代替領(lǐng)域用戶群的隔離式本地存儲(chǔ),計(jì)算處理也將會(huì)逐漸轉(zhuǎn)移到云計(jì)算方式。因此,從教育考試數(shù)據(jù)管理的長期應(yīng)用發(fā)展來看,建立云存儲(chǔ)體系勢在必行。在云存儲(chǔ)平臺(tái)中,考試中心和各省用戶都將作為云存儲(chǔ)的終端用戶,各個(gè)應(yīng)用系統(tǒng)將數(shù)據(jù)共享或分區(qū)管理在云平臺(tái)上,通過嚴(yán)格的權(quán)限限制和加密保護(hù),提供檢索、計(jì)算、上傳、下載等處理功能,以達(dá)到有效管理考試數(shù)據(jù)信息的目的。

        基于Hadoop/HDFS/HBase的云存儲(chǔ)是一種動(dòng)態(tài)可調(diào)整、基于互聯(lián)網(wǎng)的存儲(chǔ)解決方案。云存儲(chǔ)可以讓用戶很容易增加存儲(chǔ)容量,而且不需要購買、安裝和管理任何存儲(chǔ)基礎(chǔ)設(shè)施,卻提供了一個(gè)完善的備份、容災(zāi)數(shù)據(jù)中心。采用分布式存儲(chǔ)比采用共享存儲(chǔ)成本節(jié)省60%以上,擴(kuò)展性好,元數(shù)據(jù)字段可根據(jù)應(yīng)用情況靈活添加[10],系統(tǒng)存儲(chǔ)容量、并行處理能力可按需平滑擴(kuò)展。由HBase后臺(tái)處理圖片打包,避免了二次開發(fā);系統(tǒng)架構(gòu)統(tǒng)一、簡單,易管理維護(hù);支持根據(jù)圖片文件的多個(gè)屬性進(jìn)行綜合檢索;可自動(dòng)發(fā)現(xiàn)文件讀寫錯(cuò)誤,并進(jìn)行糾正。

        圖4 教育部考試中心與省數(shù)據(jù)交換系統(tǒng)示意圖

        4 發(fā)展與展望

        云計(jì)算技術(shù)目前已經(jīng)成為互聯(lián)網(wǎng)上的主流應(yīng)用支撐平臺(tái),各大互聯(lián)網(wǎng)公司都積極追逐云技術(shù)及其應(yīng)用,各類著名的互聯(lián)網(wǎng)應(yīng)用系統(tǒng)和網(wǎng)站也都采用云計(jì)算平臺(tái)進(jìn)行構(gòu)建,應(yīng)用云計(jì)算是未來信息系統(tǒng)的發(fā)展方向和趨勢。使用云存儲(chǔ)技術(shù)及流行的非結(jié)構(gòu)化平臺(tái)存儲(chǔ)網(wǎng)上評卷海量數(shù)據(jù)具有統(tǒng)一性、標(biāo)準(zhǔn)化和適應(yīng)主流技術(shù)的優(yōu)勢,目前由于云存儲(chǔ)技術(shù)復(fù)雜性較高,可選擇的系統(tǒng)平臺(tái)也較多,對各類技術(shù)的理解和掌握存在一定差異,導(dǎo)致考試系統(tǒng)(特別是網(wǎng)上評卷系統(tǒng))在應(yīng)用云計(jì)算技術(shù)提升業(yè)務(wù)支撐水平及運(yùn)維能力方面還處于研究和探索狀態(tài)。但是,隨著數(shù)據(jù)的積累和對系統(tǒng)信息處理、過程數(shù)據(jù)保護(hù)、全程化管理等業(yè)務(wù)的要求,教育考試數(shù)據(jù)量正在迅速增長,對數(shù)據(jù)管理能力和安全可靠性要求日益提高,傳統(tǒng)的單點(diǎn)或本地?cái)?shù)據(jù)管理技術(shù)方式已遠(yuǎn)遠(yuǎn)不能滿足其要求。從國家教育考試整體領(lǐng)域應(yīng)用層面統(tǒng)一規(guī)劃和利用好計(jì)算資源,采用分布式云存儲(chǔ)降低教育考試領(lǐng)域信息化成本,對提高信息處理能力和保障信息安全具有巨大的推動(dòng)作用,對進(jìn)一步提升國家教育考試信息化水平具有戰(zhàn)略意義。

        [1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169.

        [2]楊傳輝.大規(guī)模分布式存儲(chǔ)系統(tǒng)[M].北京:機(jī)械工業(yè)出版社,2016.

        [3]李智慧.大型網(wǎng)站技術(shù)架構(gòu)[M].北京:電子工業(yè)出版社,2013.

        [4]范東來.Hadoop海量數(shù)據(jù)處理[M].北京:人民郵電出版社,2016.

        [5]彭建烽,魏文國,鄭東煒,等.基于Hadoop的海量小文件合并的研究與設(shè)計(jì)[J].廣東技術(shù)師范學(xué)院學(xué)報(bào),2016,37(11).

        [6]施磊磊,施化吉,束長波,等.基于Hadoop和HBase的分布式索引模型的研究[J].信息技術(shù),2015(6).

        [7]孫趙旭.Hadoop平臺(tái)下基于HBase的海量數(shù)據(jù)處理研究[D].桂林:桂林理工大學(xué),2014.

        [8]GEORGE L.HBase權(quán)威指南[M].代志遠(yuǎn),劉佳,蔣杰,譯.北京:人民郵電出版社,2013.

        [9]葛微,羅圣美,周文輝,等.HiBase:一種基于分層式索引的高效HBase查詢技術(shù)與系統(tǒng)[J].計(jì)算機(jī)學(xué)報(bào),2016(1):140-153.

        [10]賀正紅,周婭,文締堯,等.面向HBase的大規(guī)模數(shù)據(jù)加載研究[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(6):231-237.

        Exploratory Analysis of the Application of Cloud Storage Technology for Massive Online Scoring Image Data

        CAI Wuyue
        (National Education Examinations Authority,Beijing 100084,China)

        In view of the storage and management problem of massive image data files in national education examination online marking system,a cloud storage solution is introduced in this paper,which is aimed to solve the issues on security and reliability and to create a distributed,scalability,high-availability and high-reliability platform.In light of analysis of Hadoop cloud computing system and HDFS/HBase cloud storage technology,based on the requirement of the storage for massive online scoring image files,a data exchange platform is proposed for the national education test cloud storage center based on Hadoop/HDFS/HBase.Ultimately,a plan as well as an attractive prospect is outlined for an in-depth application of this platform in national education examinations.

        Education Examinations;Online Scoring;Massive Image Data;Cloud Storage

        G405

        A

        1005-8427(2017)06-0048-7

        10.19360/j.cnki.11-3303/g4.2017.06.008

        (責(zé)任編輯:陳寧)

        蔡武越(1974—),男,教育部考試中心,工程師。

        猜你喜歡
        評卷存儲(chǔ)系統(tǒng)海量
        一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
        北京高考語文卷已現(xiàn)滿分作文
        分布式存儲(chǔ)系統(tǒng)在企業(yè)檔案管理中的應(yīng)用
        哈爾濱軸承(2020年2期)2020-11-06 09:22:36
        2019年對口升學(xué)考試網(wǎng)上評卷考生答題注意事項(xiàng)
        海量快遞垃圾正在“圍城”——“綠色快遞”勢在必行
        天河超算存儲(chǔ)系統(tǒng)在美創(chuàng)佳績
        “畫海”評卷
        教育(2016年49期)2017-03-20 02:23:28
        大規(guī)模考試網(wǎng)上評卷中趨中評分的成因探析
        一個(gè)圖形所蘊(yùn)含的“海量”巧題
        華為震撼發(fā)布新一代OceanStor 18000 V3系列高端存儲(chǔ)系統(tǒng)
        欧美一性一乱一交一视频| 日本骚色老妇视频网站| 日韩人妻一区二区中文字幕| 日韩美无码一区二区三区| 一本之道加勒比在线观看| 日本高清视频一区二区| 国产精品女同久久久久电影院| 日本熟妇色xxxxx欧美老妇| 日本亚洲欧美在线观看| 精品人妻久久av中文字幕| 人妻一区二区三区av| 芒果乱码国色天香| 五月天丁香久久| 亚洲免费看三级黄网站| 免费人成视频网站网址| av无码电影一区二区三区| 久久久无码人妻精品无码| 欧美亚洲日韩国产区| 久久精品性无码一区二区爱爱| 蜜桃av一区二区三区久久| 欧美黑人巨大videos精品| 久久国产热这里只有精品| 亚洲色成人网一二三区| 亚洲一区二区视频免费看| 久久影院午夜理论片无码| 最新系列国产专区|亚洲国产| 色综合天天网| 亚洲加勒比无码一区二区在线播放| 人妻少妇偷人精品一区二区| 日韩av激情在线观看| 亚洲中文无码成人影院在线播放 | 国产精品麻豆欧美日韩ww| 成人国产在线观看高清不卡| av福利资源在线观看| 国产一区二区三区在线观看完整版| 男人靠女人免费视频网站| 欧美国产日本精品一区二区三区 | 男女啪啪啪的高清视频| 亚洲人成综合第一网站| 男人添女人下部高潮全视频| 欧美日韩国产成人高清视|