周潤松
為了對大數據產品做深入了解,我們選擇了其中一個模塊MPP的數據庫產品做了測試。
為何選擇MPP數據庫
MPP數據庫有什么好處呢?過去我們更多的是結構化的數據,現在數據傳感設備采集成本越來越低,視頻、傳感器非結構化數據越來越多,通常又分為高密度數據和低密度數據,我們的傳感器持續(xù)采集,但大多時候沒有太大價值,只有在某些突變的時候會產生比較有價值的數據。對于傳統(tǒng)的高密度數據,我們以前是用傳統(tǒng)的關系型數據庫來管理,現在隨著數據容量的增大,到了TB級和PB級的話,傳統(tǒng)數據庫不一定能應付。
MPP數據庫產品有哪些特色?他能做到大運維處理,他是一種Shared Nothing Cluster方式,存儲使用統(tǒng)一存儲,我們把這些信息存儲在不同的主機節(jié)點上?,F在我們看到大的MPP的部署模式,可以支撐到數百臺的節(jié)點規(guī)模,同時他能夠支持到TB或者PB的處理,他的處理手段保證了我們系統(tǒng)的可擴展性和可用性,還有對于ACID的要求,MPP也做相應的支持。
指標體系的研究
我們的測試和研究得到國內很多廠商的支持,對于MPP測試指標,我們聯合了華為、武漢達夢、人大金倉、神州通用、南大通用五家企業(yè),做了大量工作。我們的測試主要關注功能性指標,包括安全性、兼容性、容錯性、可擴展性、效率。
我們在傳統(tǒng)上會把數據處理分析分成兩個類型,一種是OLTP面向事務處理;另一種是OLAP連接事務分析。在TPC國際標準組織發(fā)布一系列的基準測試模型或者標準,大家經常會聽到TPC-C,-E、-H,-C,-E是事務性,-H是數據庫OLAP的業(yè)務,大量的統(tǒng)計分析或者實時查詢的內容。TPC推出了-DS和-DI的標準,我們對-C、-E、-H做測試。后續(xù)對多數據融合業(yè)務類型會采用TPC-DI的標準做檢測,TPC-DS的模型模擬了大型的企業(yè)系統(tǒng),它的商店銷售或者庫存等相應的一些業(yè)務系統(tǒng),有14個維度表,這樣組成了一個相應的數據庫模型。
我們的測試有一個很重要原則,能夠模擬到實際的應用系統(tǒng),人們經常會問我們測出來一個數據,到底對我們現行的行業(yè)業(yè)務系統(tǒng)有多大參考價值?這就是業(yè)務模型存在的重要性,通過TPC-DS對MPP的數據庫或者對數據查詢系統(tǒng)做相應的性能測試評價。
相對于傳統(tǒng)的TPC-H有很多拓展,真正模擬大型的商業(yè)系統(tǒng),其中有很多查詢的業(yè)務類型,我們提到傳統(tǒng)的分析報告類型,或者迭代的OLAP型查詢,相對TPC+DS更加增強高性能的支持,對標準規(guī)范也有相應的支持,在表的容量和SQL語句進行增長,更加公正反映出真實的使用情況。
這個測試,前面提到的幾家企業(yè)都參與了三個輪次智能規(guī)范的編審。在安全性測試方面,有三個主要部分:身份鑒別、訪問控制、安全審計。身份鑒別里,數據庫基本上支持傳統(tǒng)的身份標識,有對口令的要求,對登錄次數沒有限制,在安全上有考慮,你重復用三次不允許你用一個號或者一定時間。有相應的角色劃分和權限控制。
可以看到,基本上數據庫是支持訪問控制的,部分廠商在用戶權限和授權方面是通過授權方式實現的,另外隔離沒有超出用戶的限制。
安全審計方面也是一樣,對于一個數據庫,他的訪問日志從安全角度來說是比較重要的,從訪問日志里會詳細記錄某一個人對一個系統(tǒng)做了怎樣的操作和變更。
兼容性方面,我們也做了很多探索。以符合我國推進安全可靠、自主可控的方式。目前硬件兼容方面,兼容龍芯CPU、飛騰CUP、軟件兼容方面,兼容中標麒麟操作系統(tǒng)、中科方德操作系統(tǒng)、普華操作系統(tǒng)等,
在容錯性方面,我們的節(jié)點恢復時效也是作為重點考量測定的,實際我們的節(jié)點能夠自動切換過來,有些廠商能做到主節(jié)點回來以后能再次切換回來備份。
擴展性相對來說是非常重要的環(huán)節(jié),在這個系統(tǒng)里,可以動態(tài)添加一個節(jié)點或者刪除一個節(jié)點,刪除的節(jié)點對我們的意義不是很重要,添加節(jié)點時有些廠商需要手動將數據重新做一次分配,對數據部分廠商能知道做到增量的數據平均分布,這是我們的指標測試。
數據庫測試結果
國產MPP數據庫安全性層面上還需加強,可參照GB/T20273-2006《數據庫管理系統(tǒng)安全基本要求》
國產MPP數據庫對國產主流芯片和操作系統(tǒng)兼容,產品本身具有自主知識產權,為大數據基礎軟件的安全可控奠定基礎
國產MPP數據庫在大規(guī)模數據倉庫、集市、分析決策系統(tǒng)中已投入使用,效益良好
國產MPP數據庫是大數據系統(tǒng)混合模式(關系數據庫、數據倉庫和新型大數據技術)下優(yōu)選策略
國產MPP數據庫在性能表現上還有進一步優(yōu)化的空間
未來,仍希望繼續(xù)推動行業(yè)的應用基準的測試,且測試更加貼近行業(yè)應用,具體來看,可能在這幾方面:
行業(yè)大數據應用基準測試模型研究
大數據平臺類產品比對測評
服務于行業(yè)用戶第三方產品與原型系統(tǒng)選型測試
大數據分析算法驗證測試
大數據可視化驗證測評
大數據行業(yè)示范應用系統(tǒng)測評
大數據系統(tǒng)安全測評(根據演講內容整理,未經本人審核)