亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        潤乾集算器:盡善盡美,必有所處

        2018-12-08 11:11:58程夢瑤
        軟件和集成電路 2018年9期
        關(guān)鍵詞:數(shù)據(jù)源報表計算能力

        程夢瑤

        潤乾集算器從醞釀走向商用,花了八年時間。在這八年間,集算器經(jīng)歷了四次大的重構(gòu)和無數(shù)次小的改造。要深刻理解用戶的痛點(diǎn)并提出有效解決方案,不流于表面,要做就要做到極致,這正是潤乾用多年時間打造集算器的初衷。

        在過去十多年,潤乾(北京潤乾信息系統(tǒng)技術(shù)有限公司)一直是國內(nèi)主流報表工具廠商。現(xiàn)任董事長蔣步星既是公司的創(chuàng)始人,也是公司的核心技術(shù)帶頭人,在他看來,在經(jīng)營報表的過程中,總能碰到用戶希望協(xié)助開發(fā)復(fù)雜報表,而報表的復(fù)雜性不僅體現(xiàn)在格式上,更多的是在數(shù)據(jù)方面,數(shù)據(jù)庫中的數(shù)據(jù)要經(jīng)過很多步驟的復(fù)雜運(yùn)算才能得到真正想到的數(shù)據(jù),而報表工具只能解決呈現(xiàn)環(huán)節(jié)那一步的少量計算,對于進(jìn)入報表工具的數(shù)據(jù)計算則無能為力。

        對于這個問題,業(yè)界并沒有什么好辦法。從2007年底開始,當(dāng)潤乾報表4.x版本趨于穩(wěn)定之后,蔣步星帶領(lǐng)團(tuán)隊開始著手研究這個問題。從2007年底到2015年后期開始進(jìn)入商用階段,這段時間被蔣步星稱做“八年抗戰(zhàn)”,最終,集算器作為獨(dú)立產(chǎn)品經(jīng)營,全面與報表工具脫鉤。

        計算本身就是個業(yè)務(wù)

        在技術(shù)上,集算器和報表工具是相互獨(dú)立的,但集算器也能夠和潤乾報表集成,甚至也能和其他報表工具集成?!霸谧畛跎虡I(yè)化時,我們還是把它作為報表工具的一個附件模塊組裝出來銷售,而沒有獨(dú)立經(jīng)營。但是,我們很快就發(fā)現(xiàn),計算本身就是個業(yè)務(wù),而且是比報表工具應(yīng)用面更加廣闊的業(yè)務(wù)。”蔣步星說。

        秉承“讓數(shù)據(jù)計算變得簡單、高效”的理念,潤乾集算器應(yīng)運(yùn)而生。

        通常情況下,人們習(xí)慣于用已經(jīng)熟知的概念來類比一個新產(chǎn)品,比如電動汽車是用電而不是燒油的汽車。但是,如果找不到這個對標(biāo)概念時,理解新產(chǎn)品就不那么容易了。比如在智能手機(jī)還沒發(fā)明的時代,你也很難解釋清楚iPhone是個什么東西。電話?便攜影音播放器?數(shù)碼相機(jī)?游戲機(jī)?手持工作設(shè)備?都是又都不是,功能太多時反而說不清了。

        “集算器類似,它能干的事有點(diǎn)多:報表數(shù)據(jù)源、ETL、大數(shù)據(jù)計算、文本分析、Excel處理、Java計算中間件、數(shù)據(jù)網(wǎng)關(guān)……每個應(yīng)用場景都足夠講半小時,如果正好和用戶的痛點(diǎn)匹配上,大家會聽得津津有味,而如果匹配不上,那就索然無味?!笔Y步星說。

        那么,集算器到底是什么呢?“有不少朋友和客戶問過我,能不能在一分鐘內(nèi)說清楚集算器是什么,仔細(xì)想想,到現(xiàn)在為止,這個答案還是不能!”即使一下子說不清,但還是得說,蔣步星談到。簡單講,集算器是用來做數(shù)據(jù)計算的技術(shù)產(chǎn)品,主要針對(半)結(jié)構(gòu)化數(shù)據(jù),它的使用人群是程序員,或者至少是有程序設(shè)計能力的分析人員,而不是不會編程的行業(yè)業(yè)務(wù)人員。

        從技術(shù)上看,集算器可以從三個方面去理解:

        其一,程序設(shè)計語言。集算器提供了獨(dú)特的語法體系和數(shù)據(jù)對象,使編寫結(jié)構(gòu)化數(shù)據(jù)計算更為簡捷方便,而且在多數(shù)場合能表現(xiàn)出更好的運(yùn)算性能,特別適合復(fù)雜的過程式運(yùn)算。在這方面的對標(biāo)技術(shù)大概是SQL、Java和Python。

        其二,數(shù)據(jù)計算引擎。集算器提供了不依賴于數(shù)據(jù)庫的計算能力,能夠獨(dú)立完成各類結(jié)構(gòu)化數(shù)據(jù)計算,而且特別強(qiáng)調(diào)集成性,易于嵌入應(yīng)用程序內(nèi)部,適合沒有數(shù)據(jù)庫或多個數(shù)據(jù)庫場景下的計算。這方面的對標(biāo)技術(shù)主要是數(shù)據(jù)庫和ETL工具。

        其三,大數(shù)據(jù)計算平臺。集算器還有自己的集群體系,可用于實(shí)施數(shù)據(jù)量較大的計算任務(wù),集算器集群為程序員提供可靈活控制任務(wù)分配的分布式計算環(huán)境,借以實(shí)現(xiàn)最合理、高效的算法。這方面的對標(biāo)技術(shù)主要是Hadoop和MPP數(shù)據(jù)庫。

        開放的計算能力

        上帝的歸上帝,愷撒的歸愷撒。

        計算是無處不在的,并不是所有計算都適合數(shù)據(jù)庫來實(shí)施,現(xiàn)代應(yīng)用中有許多數(shù)據(jù)庫之外的計算需求。很多年前,這個問題并不嚴(yán)重,因?yàn)槟莻€時候的許多應(yīng)用系統(tǒng)從交易到分析用一個中央數(shù)據(jù)庫全部搞定。而現(xiàn)在則有很大不同,出現(xiàn)了許多數(shù)據(jù)庫外的數(shù)據(jù),比如互聯(lián)網(wǎng)的網(wǎng)頁信息、Excel文件、機(jī)器產(chǎn)生的文本日志、云服務(wù)提供的XML或Json數(shù)據(jù)……這些數(shù)據(jù)都需要參與計算。

        另外,即使是在數(shù)據(jù)庫中的數(shù)據(jù),也可能因?yàn)樗鶎俚膽?yīng)用系統(tǒng)不同而存儲于不同的數(shù)據(jù)庫中,如果不同廠商的異構(gòu)數(shù)據(jù)庫需要混合計算時,就會涉及跨庫問題。雖然許多數(shù)據(jù)庫提供了跨庫能力,但性能和方便性都不理想。

        但集算器卻可以帶來不依賴于數(shù)據(jù)庫的計算能力,它提供了開放的計算能力!

        作為計算引擎,集算器并不關(guān)心數(shù)據(jù)放在什么類型的數(shù)據(jù)源中,它都可以取來計算,并且是實(shí)時計算。多個數(shù)據(jù)庫也僅僅是多個數(shù)據(jù)源而已,跨庫混合計算是很自然的事情。即使仍然要把外部數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫,但計算過程也可以由集算器來實(shí)施,而中間數(shù)據(jù)則完全不需要占用數(shù)據(jù)庫空間和計算資源,直接存放在文件系統(tǒng)中,管理上也更為簡單。

        換句話說,集算器可以讓數(shù)據(jù)庫專心致志去做它最擅長和最應(yīng)當(dāng)做的事情,比如存儲、一致性、模式及約束等,而不要僅僅為了獲得計算能力就去部署和擴(kuò)容更多的數(shù)據(jù)庫,這些計算能力可以由更便宜、更輕量級而且性能也更好的集算器來提供。

        在設(shè)計目標(biāo)上,集算器希望提升計算的描述效率和計算的執(zhí)行效率。蔣步星談到:“確切地說,集算器并不負(fù)責(zé)解決問題,想出(高效)算法是程序員的任務(wù)。集算器的任務(wù)就是提供更好的數(shù)據(jù)類型及相關(guān)的語法體系,使得編寫這類計算更容易更簡潔,更貼近人們的自然思維習(xí)慣?!?/p>

        大幅提升復(fù)雜運(yùn)算的性能

        作為一款理論創(chuàng)新產(chǎn)品,集算器的核心運(yùn)算引擎全部由潤乾團(tuán)隊自己編寫。“有些底層的基本計算,包括表達(dá)式計算、分組、過濾等也有通用性,但要形成一套完整的體系,并且保證足夠的性能,也還是要自己實(shí)現(xiàn)才能完全控制。而且,我們因?yàn)橛惺嗄觊_發(fā)報表工具的經(jīng)驗(yàn),這些底層計算本來就有豐富的積累?!笔Y步星補(bǔ)充道,集算器的實(shí)現(xiàn)技術(shù)和Hadoop也沒有關(guān)系,只是將Hadoop作為數(shù)據(jù)源對待,集算器集群的運(yùn)行不需要Hadoop環(huán)境。

        那么,這套支撐集算器的理論體系從何而來呢?這就需要溯源到上個世紀(jì)70年代了。關(guān)系代數(shù)是上個世紀(jì)70年代發(fā)明的理論,已經(jīng)有40多年歷史了,其間雖有多次完善,但并沒有發(fā)生關(guān)鍵性的革新。在發(fā)明關(guān)系代數(shù)的時代,計算機(jī)用于信息管理還不夠普及,數(shù)據(jù)計算需求相對簡單,用一些常規(guī)查詢統(tǒng)計方法就夠了。而當(dāng)代企業(yè)不用計算機(jī)管理已經(jīng)不可能運(yùn)轉(zhuǎn),數(shù)據(jù)計算需求的復(fù)雜度大大提高,那個時代的理論體系很難適應(yīng)這些新需求。

        “舉個例子,基于無序集合理論的關(guān)系代數(shù)很難處理有序計算,而有序計算又是用戶天然需要的(比上期、比去年同期等)。而且,那個時代的計算機(jī)硬件還很差,要確保實(shí)用性,代數(shù)理論的設(shè)計也只能適應(yīng)當(dāng)時的環(huán)境,不可能考慮到今天的硬件情況,具體來講主要是大內(nèi)存、多CPU和集群,SQL的基礎(chǔ)就是關(guān)系代數(shù),這使得SQL很難充分利用當(dāng)代計算機(jī)的硬件能力以獲得最優(yōu)的性能?!笔Y步星談到,這也是集算器能比SQL做得更好的原因。

        在此背景下,蔣步星帶領(lǐng)團(tuán)隊設(shè)計了新的語言SPL(Structured Process Language)?!癝PL能比SQL做得更好,是因?yàn)镾QL有點(diǎn)像是在用羅馬數(shù)字做運(yùn)算,非常別扭,而SPL像是用阿拉伯?dāng)?shù)字,會順手很多。性能上的優(yōu)勢也類似,SPL發(fā)明了許多乘法,這些運(yùn)算就不需要再用加法計算了?!?/p>

        蔣步星補(bǔ)充說:“集算器在許多場合中測試出來的性能優(yōu)勢表明,這并不是我們的程序代碼寫得比別人好,而是在模型上有優(yōu)勢,能夠采用復(fù)雜度更低的算法來實(shí)現(xiàn)。運(yùn)算越復(fù)雜時,我們就越有機(jī)會想出優(yōu)化算法,集算器的性能優(yōu)勢就越明顯,同時還會伴隨著代碼更簡單的好處,在運(yùn)用集算器的案例中常常會出現(xiàn)代碼短了數(shù)倍,性能卻能提升數(shù)倍的情況?!?/p>

        填補(bǔ)空白:定位中小規(guī)模的集群

        目前的大數(shù)據(jù)計算平臺大概是兩種:數(shù)據(jù)庫擴(kuò)容以及相關(guān)的MPP方案和Hadoop體系。數(shù)據(jù)庫本身擴(kuò)容能力有限,在數(shù)據(jù)量較大時就撐不住了,而且MPP方案的建設(shè)成本相當(dāng)高昂。而Hadoop體系的設(shè)計目標(biāo)是超大規(guī)模集群,要幾百甚至上千節(jié)點(diǎn)時才能顯露出優(yōu)勢來,它消耗了大量資源用于容錯和復(fù)雜的任務(wù)調(diào)度管理機(jī)制,在集群節(jié)點(diǎn)數(shù)不夠多時反而沒什么優(yōu)勢。這樣,傳統(tǒng)數(shù)據(jù)庫解決小數(shù)據(jù)量,Hadoop解決超大數(shù)據(jù)量,占大多數(shù)的中等規(guī)模應(yīng)用場景是個空白,目前用戶也只能用Hadoop來做。

        “殺雞用了牛刀,因?yàn)闆]有雞刀。集算器填補(bǔ)這一空白。集算器定位中小規(guī)模的集群,設(shè)計規(guī)模就是幾個到幾十個節(jié)點(diǎn),原則上不要超過一個交換機(jī),這是絕大多數(shù)用戶的實(shí)際場景?!笔Y步星說,在這個規(guī)模下,集算器不需要考慮太多容錯問題,也沒有太復(fù)雜的任務(wù)調(diào)度要求,把有限的資源盡量多地投入到計算本身中,從而獲得更優(yōu)的效率。

        對于集算器的下一步,蔣步星也想得很清楚:“集算器的下一步是數(shù)據(jù)庫和數(shù)據(jù)倉庫,并將演變成和傳統(tǒng)關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫正面競爭的產(chǎn)品。但是換個角度看,集算器也不會是一個階段性產(chǎn)品,即使演化出數(shù)據(jù)倉庫后,作為計算引擎的集算器仍然有存在的意義,并且會長期完善下去。因?yàn)閿?shù)據(jù)倉庫的計算能力是相對封閉的,也難以被嵌入到應(yīng)用程序中,而應(yīng)用中總會有大量庫外數(shù)據(jù),永遠(yuǎn)會需要開放且可以被集成的計算能力?!?/p>

        訪談實(shí)錄

        Q:中國大數(shù)據(jù)產(chǎn)業(yè)生態(tài)聯(lián)盟、《軟件和集成電路》雜志社

        A:北京潤乾信息系統(tǒng)技術(shù)有限公司董事長蔣步星

        Q:集算器能不能提供兼容SQL的語法?

        A:集算器不能基于關(guān)系代數(shù)來實(shí)現(xiàn)SQL。SQL難以獲得(開發(fā)和運(yùn)行的)高效率,本來就是關(guān)系代數(shù)造成的。這個問題是理論性的,不可能通過工程上的優(yōu)化來解決。想獲得高效率,就必須放棄關(guān)系代數(shù)。不過,對于簡單運(yùn)算,集算器也提供了SQL接口,畢竟用戶已經(jīng)習(xí)慣了,而對于復(fù)雜運(yùn)算,我們建議用戶學(xué)習(xí)SPL,會獲得更高的效率。

        Q:集算器采用開源技術(shù)嗎?

        A:集算器的核心運(yùn)算引擎沒有采用任何開源產(chǎn)品,完全是我們自己寫出來的。因?yàn)槔碚撃P筒煌?,也沒有什么開源產(chǎn)品可用。特別是,集算器不是Hadoop上的計算模塊,在設(shè)計集群方案時也沒有參考借鑒Hadoop體系,集算器的實(shí)現(xiàn)技術(shù)和Hadoop沒有關(guān)系,只是將Hadoop作為數(shù)據(jù)源對待,集算器集群的運(yùn)行不需要Hadoop環(huán)境。但是,我們在邊緣和外圍用了一些開源技術(shù),比如讀寫Excel文件就用了poi包,這個包做得挺好的,還有國際化本地語言排序、日志輸出等,另外,開發(fā)環(huán)境的外觀以及表達(dá)式的編輯也用了開源技術(shù)。

        Q:為什么一直堅持做基礎(chǔ)軟件而不做看起來更容易賺錢的應(yīng)用軟件?

        A:對潤乾來講,我們只是在做自己擅長且喜歡的事,只是樸素地想通過這種方式來經(jīng)營企業(yè),基礎(chǔ)軟件有更大的重復(fù)銷售量來獲得超額利潤,基礎(chǔ)軟件難度大更適合我們這種以技術(shù)為本的公司。這或許就是傳說中的情懷吧,要鉆研技術(shù)就必須有堅韌、持之以恒的態(tài)度和工匠精神,這能夠建立起更高的技術(shù)門檻,結(jié)果還可以轉(zhuǎn)化成利潤。正因如此,我們研發(fā)團(tuán)隊異常穩(wěn)定,很多“老研發(fā)”在這里一待就是18年,我們能做出別人做不出來的東西。

        行業(yè)應(yīng)用案例

        案例名稱:集算器助力構(gòu)建北京銀行綜合可視化智能系統(tǒng)

        核心特點(diǎn):

        北京銀行綜合可視化智能系統(tǒng)將以數(shù)據(jù)可視化服務(wù)體系搭建為基礎(chǔ),整個項目服務(wù)體系依托數(shù)據(jù)可視化規(guī)范、可視化服務(wù)平臺,結(jié)合分行領(lǐng)導(dǎo)層以及業(yè)務(wù)分析崗在研判分析、決策指揮等場景下的業(yè)務(wù)需求,形成可視化智能大屏產(chǎn)品,以多元化、專業(yè)化、友好化的視覺通道,實(shí)時、準(zhǔn)實(shí)時地將區(qū)域經(jīng)營動態(tài),產(chǎn)品熱度等以大屏智能交互的形式對外展開服務(wù)。

        應(yīng)用解讀:

        該架構(gòu)方案的數(shù)據(jù)源是由潤乾公司通過從Control-M到集算器輔助ETL、集算器數(shù)據(jù)緩沖層再到集算器倉庫來提供,用集算器倉庫的模型來存儲事實(shí)表和緯度表,用集算器的集文件(二進(jìn)制文件)與組表來做數(shù)據(jù)存儲,集算器在計算層負(fù)責(zé)計算單元,通過集算器應(yīng)用接口,用可視化化組件來做數(shù)據(jù)的呈現(xiàn)。

        應(yīng)用價值:

        在金融科技來臨的時代,各大行業(yè)已基本具備海量數(shù)據(jù)規(guī)模,成熟高效的數(shù)據(jù)平臺解決方案已經(jīng)成為大數(shù)據(jù)時代背景下的迫切需求。

        潤乾公司自主研發(fā)運(yùn)營的數(shù)據(jù)計算中間件,是一個通用性的輕量級大數(shù)據(jù)計算引擎,具有語法簡單、類庫豐富、集成性好、支持分步計算等特點(diǎn),可以幫助用戶實(shí)現(xiàn)提升開發(fā)效率、優(yōu)化應(yīng)用結(jié)構(gòu)、提升運(yùn)算性能等目標(biāo)。

        降低開發(fā)難度從而提高開發(fā)效率是集算器的設(shè)計初衷。用戶通過內(nèi)置的敏捷語法體系編寫簡單的代碼即可完成原來在SQL或Java中需要復(fù)雜編碼的計算,達(dá)到讓編碼簡單化的效果。

        優(yōu)化應(yīng)用結(jié)構(gòu)是集算器的重要作用。集算器是解釋執(zhí)行的語言,使用其實(shí)現(xiàn)數(shù)據(jù)算法可以降低應(yīng)用的耦合度;通過集算器將算法外置減少存儲過程數(shù)量,將數(shù)據(jù)外置減少中間表數(shù)量,從而優(yōu)化數(shù)據(jù)庫結(jié)構(gòu);集算器天然支持多樣性數(shù)據(jù)源,避免統(tǒng)一數(shù)據(jù)來源帶來的繁重工作,進(jìn)而優(yōu)化應(yīng)用結(jié)構(gòu)。

        提升運(yùn)算性能是集算器的顯著效果。集算器的敏捷語法體系和內(nèi)置的(半)結(jié)構(gòu)化計算類庫讓大部分計算的實(shí)現(xiàn)變得簡單的同時獲得更高性能。此外,集算器還提供了分步式計算功能,通過多機(jī)(PC)集群達(dá)到甚至超過小型機(jī)的性能,整體造價和維護(hù)成本更低。

        猜你喜歡
        數(shù)據(jù)源報表計算能力
        淺談如何提高小學(xué)生的計算能力
        小學(xué)生計算能力的提高策略
        甘肅教育(2021年10期)2021-11-02 06:14:02
        小學(xué)生計算能力的培養(yǎng)
        甘肅教育(2020年21期)2020-04-13 08:08:42
        LabWindows/CVI中Excel報表技術(shù)研究
        淺談小學(xué)生計算能力的培養(yǎng)
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        從三大報表讀懂養(yǎng)豬人的成績單
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
        分布式異構(gòu)數(shù)據(jù)源標(biāo)準(zhǔn)化查詢設(shè)計與實(shí)現(xiàn)
        手机AV片在线| 777亚洲精品乱码久久久久久| 久久99国产精一区二区三区| 国产精品沙发午睡系列990531| 精品国产黑色丝袜高跟鞋| 人妻久久999精品1024| 欧洲无码一级毛片无遮挡| 国内国外日产一区二区| 国产精品人妻熟女男人的天堂| 日韩欧美中文字幕公布| 久久无码av一区二区三区| 波多野结衣中文字幕久久| 久久九九有精品国产尤物| 激情亚洲综合熟女婷婷| 国产熟女露脸大叫高潮| 激情五月开心五月麻豆| 五月av综合av国产av| 毛多水多www偷窥小便| 亚洲第一网站免费视频| 亚洲 暴爽 AV人人爽日日碰 | 亚洲中文字幕诱惑第一页| av手机免费在线观看高潮| 98色婷婷在线| 麻豆国产人妻欲求不满谁演的 | 尤物视频在线观看| 女的把腿张开男的猛戳出浆| 亚洲精品一区二区视频| 亚洲国产综合精品中久| 日本高清在线一区二区三区| 特黄做受又粗又长又大又硬| 亲子乱aⅴ一区二区三区下载| 中文字幕久久久久人妻无码| 亚洲av五月天天堂网| 精品人妻一区二区三区狼人| 国产自国产自愉自愉免费24区| 亚洲av永久中文无码精品综合| 中文字幕乱码人妻一区二区三区 | 欧美精品中文字幕亚洲专区| 亚洲综合AV在线在线播放| 国产不卡一区在线视频| 成人一区二区三区国产|