李鏵(無錫科技職業(yè)學院 物聯(lián)網(wǎng)學院,江蘇 無錫214028)
基于大數(shù)據(jù)時代數(shù)據(jù)項數(shù)量“有限量”的探討
李鏵
(無錫科技職業(yè)學院 物聯(lián)網(wǎng)學院,江蘇 無錫214028)
隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)的使用覆蓋了社會的各個方面,隨著智慧城市的建設,數(shù)據(jù)涉及面也越來越廣,這觸及到一個基本的概念,即數(shù)據(jù)項的數(shù)量到底是無窮盡的還是有限量的。在數(shù)據(jù)項數(shù)量是有限量的情況下,這將改變有關數(shù)據(jù)應用研究和軟件工程理論等許多信息技術研究的理論基礎與方向,使得一個最簡單的問題涉及到大數(shù)據(jù)時代的核心概念,為此,確立大數(shù)據(jù)時代數(shù)據(jù)項數(shù)量是有限量的概念,將會對未來大數(shù)據(jù)時代的技術發(fā)展與數(shù)據(jù)應用產生深遠影響。
大數(shù)據(jù);數(shù)據(jù)項;軟件工程
隨著智慧城市項目的建設,信息技術的發(fā)展已進入大數(shù)據(jù)時代,物聯(lián)網(wǎng)和云計算技術為大數(shù)據(jù)的應用提供了技術支持與保障。在大數(shù)據(jù)發(fā)展應用過程中,相應的理論研究是必不可少的依據(jù)與指導。為此,確立在數(shù)據(jù)平臺建設和應用中數(shù)據(jù)項的數(shù)量是有限量的概念,是未來大數(shù)據(jù)應用過程中發(fā)展方向和發(fā)展方式的重要基礎。
在整體數(shù)據(jù)結構中,從理論出發(fā)點上確定數(shù)據(jù)項數(shù)量是無限量的還是無窮盡的問題,將影響到未來技術研究是面對具體數(shù)據(jù)項展開,還是面對相應的數(shù)據(jù)處理技術展開,為此數(shù)據(jù)項是否有限量的問題將確定未來技術研究發(fā)展的方向。筆者提出的觀點是:數(shù)據(jù)項數(shù)量是有限量的,只是這個限量的數(shù)量級大些。
數(shù)據(jù)項是指信息化系統(tǒng)中的數(shù)據(jù)項目,按照軟件工程E-R圖的定義,數(shù)據(jù)項是數(shù)據(jù)的屬性項,在數(shù)據(jù)庫中就是指每一個具體的數(shù)據(jù)字段。
大數(shù)據(jù)的研究是針對海量的數(shù)據(jù),按照數(shù)據(jù)項進行整理、分析,為此數(shù)據(jù)項的設置,關系到數(shù)據(jù)挖掘的質量和數(shù)據(jù)應用的效率。
未來大數(shù)據(jù)所面對的數(shù)據(jù)項數(shù)量是有限量的,只是這個限量的數(shù)量級大一些而已。對于這個基本概念也是隨著計算機應用系統(tǒng)的發(fā)展過程而逐步確立的。隨著各種應用系統(tǒng)的使用,信息系統(tǒng)的應用深入到生活、社會、自然界的各個角落,所涉及數(shù)據(jù)項數(shù)量將逐步增多,最終趨于極限值。信息系統(tǒng)的應用與數(shù)據(jù)應用可分為三個階段。
2.1第一階段:小規(guī)模系統(tǒng)應用
在第一階段,計算機應用系統(tǒng)的開發(fā)與應用都是以小規(guī)模應用和局部應用為主,每一個應用系統(tǒng)所涉及的數(shù)據(jù)項都有所不同,僅限于應用本身,數(shù)據(jù)量小,系統(tǒng)規(guī)模小,應用范圍小。系統(tǒng)應用以單機版或在局域網(wǎng)內使用為主。為此,人們看不到系統(tǒng)數(shù)據(jù)體系的全貌,只是立足于本系統(tǒng)夠用就好,系統(tǒng)的應用與發(fā)展關注的是如何建立應用系統(tǒng)。在這個過程中從應用到理論研究都是圍繞應用系統(tǒng)建設的方法展開的。
2.2第二階段:中等規(guī)模集成應用
隨著互聯(lián)網(wǎng)技術的發(fā)展,應用系統(tǒng)的規(guī)模逐步擴大,在某些行業(yè)或部門甚至出現(xiàn)了系統(tǒng)應用的全覆蓋。由此,涉及的數(shù)據(jù)項也越來越多,但這些數(shù)據(jù)項多數(shù)局限于某一個具體應用方向上,而且多年的系統(tǒng)應用積累了大量的具體數(shù)據(jù),技術的研究與發(fā)展側重點都放在了一定量數(shù)據(jù)的處理方面。由于系統(tǒng)應用受到行業(yè)或使用方向上的約束,數(shù)據(jù)項數(shù)量雖然很大,但局限于行業(yè)或應用方向內部,由此,形成了多個內部應用很廣泛,但彼此之間相對獨立的信息孤島。在這種情況下,對于數(shù)據(jù)的研究是以面向對象的方式開展系統(tǒng)建設和數(shù)據(jù)結構搭建的,系統(tǒng)研究圍繞數(shù)據(jù)的應用性進行理論建設和模型搭建,對數(shù)據(jù)問題的關注點是通過技術手段解決不同系統(tǒng)中存在的數(shù)據(jù)同類項的關聯(lián)上,所有數(shù)據(jù)局限于應用范圍。
2.3第三階段:大規(guī)模全面應用
隨著技術的發(fā)展,應用系統(tǒng)的規(guī)模越來越大,涉及的數(shù)據(jù)項的數(shù)量也越來越多,而且多年的系統(tǒng)應用也積累了大量的具體數(shù)據(jù),技術的研究與發(fā)展側重點都放在了理論建立和技術開發(fā)上。隨著智慧城市等大型信息化項目的實施,大數(shù)據(jù)的應用范圍越來越廣,應用系統(tǒng)的建設面臨的是各大系統(tǒng)之間的數(shù)據(jù)互換共享問題,而隨著應用的拓展,由于對數(shù)據(jù)本質的研究不夠,就出現(xiàn)了數(shù)據(jù)接口繁多,數(shù)據(jù)共享不充分等諸多問題。要解決這些問題,就要對整體數(shù)據(jù)結構進行規(guī)劃研究。
數(shù)據(jù)項數(shù)量是有限量的概念的理論依據(jù)主要有下述幾個方面。
3.1現(xiàn)實社會所包含的事物類型是有限量的
在現(xiàn)實社會中,所有的事物類型雖然數(shù)量龐大,但卻是有限量的,這本身就是一個基本的自然規(guī)律或者說是一個基本的社會規(guī)律,例如,行業(yè)數(shù)量是有限量的,雖然隨著社會發(fā)展,會不斷有新的行業(yè)出現(xiàn),但這都是在社會基本需求范疇內的,這表明世界再大,其所包含的事物也是有限量的,只是這個量值大一些。對于信息化管理的軟件系統(tǒng)來說,它所涉及和應用的范圍是不可能超過實際事物數(shù)量的,而作為記錄現(xiàn)實社會信息的數(shù)據(jù)項數(shù)量是不會超過現(xiàn)實社會的事物數(shù)量的,為此可以確定數(shù)據(jù)項的數(shù)量是有限量的概念。
3.2從軟件工程學的角度能夠確立數(shù)據(jù)項的數(shù)量是有限量的概念
軟件工程學作為計算機信息系統(tǒng)開發(fā)應用的理論指導,雖然到目前為止還是以方法研究為主導,但是在所確立的開發(fā)方法中對數(shù)據(jù)項提出的概念和理論,最終所得出的結論也是同樣的。軟件工程學中目前所確立的主要的也是最重要的開發(fā)方法與理論是面向對象的方法理論,在面向對象的方法和理論中,對于數(shù)據(jù)項的描述涵蓋在對對象、場景的描述之中,并且明確了“類”及類的上層“父類”和下層“子類”,以此為理論依據(jù),那么可以明確,“類”上層不斷向上聚集,不會是無限的,為此,數(shù)據(jù)項是有限量的,同樣“類”的下層是子類,不斷的分下去也不是無限的,否則系統(tǒng)的建立就沒有了依據(jù),所以數(shù)據(jù)項數(shù)量也可以確定是有限量的。因此,對于數(shù)據(jù)項數(shù)量是有限量的概念,是符合目前軟件工程學的理論基礎的,也是由目前軟件工程學理論所推演出來的。
3.3從信息系統(tǒng)的應用開發(fā)中能夠明確數(shù)據(jù)項的數(shù)量是有限量的概念
信息化系統(tǒng)的建設,從初期的單點應用發(fā)展到大數(shù)據(jù)應用的過程本身就是一個逐步挖掘數(shù)據(jù)、發(fā)現(xiàn)數(shù)據(jù)的過程,在智慧城市等大系統(tǒng)的建設過程中,已不再是解決都有什么數(shù)據(jù)的問題,而是圍繞這些分布在各個應用系統(tǒng)中的數(shù)據(jù)項的合并、對接、關聯(lián)和共享的問題,這也從大數(shù)據(jù)應用的角度證明了數(shù)據(jù)項的數(shù)量是有限量的概念。
為了保證和滿足未來大數(shù)據(jù)的應用,實現(xiàn)平臺數(shù)據(jù)的互聯(lián)互通,就要對數(shù)據(jù)結構體系進行研究。如何研究,首先涉及到的一個最基本的理論基礎就是數(shù)據(jù)項是有限量的還是無限量的問題。如果數(shù)據(jù)項是無限量的,那么采用的方式方法就是繼續(xù)以數(shù)據(jù)的應用方法研究為主導,對經常使用的數(shù)據(jù)進行定義;如果數(shù)據(jù)項是有限量的,那么研究方法將是對所有數(shù)據(jù)項進行逐一定義,形成統(tǒng)一的數(shù)據(jù)標準,最終覆蓋所有數(shù)據(jù),對于方法方面則圍繞定義的方法進行理論研究,并且在各個概念下建立相應的組織機構進行統(tǒng)一管理。
作為大數(shù)據(jù)應用的基礎,數(shù)據(jù)項的設定將起到關鍵的作用。在大數(shù)據(jù)時代,涉及到一個關鍵問題就是數(shù)據(jù)項到底是有限量的還是無限量的,將影響到未來技術的發(fā)展方向。有限量數(shù)據(jù)項與無限量數(shù)據(jù)項是兩個根本不同的概念,對于技術的發(fā)展影響也是完全不同的。目前,在無限量數(shù)據(jù)項概念下的大數(shù)據(jù)應用技術與體系將會存在極大的局限性,本文確立了數(shù)據(jù)項有限量的概念,將會對未來的大數(shù)據(jù)時代的技術發(fā)展和數(shù)據(jù)應用產生深遠影響。
4.1將影響未來數(shù)據(jù)挖掘技術的發(fā)展方向
目前的數(shù)據(jù)挖掘技術是針對不同系統(tǒng)產生的數(shù)據(jù)進行挖掘,也就是數(shù)據(jù)挖掘技術本身并不清楚要挖掘的數(shù)據(jù)情況,每次挖掘系統(tǒng)的使用,都需要使用者針對要挖掘的數(shù)據(jù)進行人工分析,構建模型,進行系統(tǒng)設置。
在數(shù)據(jù)項是有限量的情況下,數(shù)據(jù)挖掘技術將針對有限量的數(shù)據(jù)項建立數(shù)學模型,這個數(shù)據(jù)模型數(shù)量也將是有限量的,未來的數(shù)據(jù)挖掘技術將能夠針對具體數(shù)據(jù)應用來進行研究和發(fā)展,更多的是針對具體模型,而不是理論的研究,經過多年研究將會形成大數(shù)據(jù)挖掘的數(shù)據(jù)模型庫,任何應用只要在這個數(shù)據(jù)模型庫中找到已經完成的模式系統(tǒng)直接使用就可以了。
因此,在數(shù)據(jù)項有限量的情況下,未來大數(shù)據(jù)挖掘技術的發(fā)展將針對一個個具體應用展開研究,而不是對如何挖掘的技術進行理論研究。
4.2將影響軟件工程理論體系的調整
軟件工程學隨著軟件技術的發(fā)展而發(fā)展,其根本出發(fā)點是基于數(shù)據(jù)項是無限量的,每個系統(tǒng)的開發(fā)應用,都要針對所涉及的數(shù)據(jù)項進行分析,為此軟件工程學從理論方法上展開研究,如何進行數(shù)據(jù)項的研究,由此形成了面向過程、面向數(shù)據(jù)、面向對象等理論體系,為軟件技術的發(fā)展和信息化系統(tǒng)的發(fā)展起到了積極的作用。
如果數(shù)據(jù)項是有限量的,軟件工程學的理論基礎就發(fā)生了變化,如面向對象的軟件開發(fā)技術研究的是如何面向對象,而數(shù)據(jù)項既然是有限量的,那么就不用繼續(xù)從理論研究上去面向對象,可以直接面向每一個具體的數(shù)據(jù)對象進行研究,制定每一個數(shù)據(jù)項具體的技術標準,形成一個具體的針對應用的數(shù)據(jù)項應用庫,統(tǒng)一所有應用系統(tǒng)的數(shù)據(jù)項,形成應用標準,為構建商用的綜合數(shù)據(jù)平臺打下基礎。
因此,在數(shù)據(jù)項有限量的基礎上,軟件工程學的研究方法也將轉移到對具體數(shù)據(jù)項進行處理的研究上來,而不只是研究如何辦,如何做的理論問題了。
4.3將影響具體應用項目的開發(fā)
在目前情況下,每一個具體項目的開發(fā),都要經過需求分析、概要設計、詳細設計環(huán)節(jié),而后進入開發(fā)過程,在這些工作步驟中一項最重要的工作就是要進行數(shù)據(jù)項的收集、分析、設置,形成數(shù)據(jù)字典,而后按照數(shù)據(jù)字典進行數(shù)據(jù)庫的建立。這一過程工作量大、耗時長,基本要占用整個開發(fā)時間的30%。
在數(shù)據(jù)項有限量的理論基礎上,先構建綜合數(shù)據(jù)平臺,而后所有開發(fā)工作都在這個平臺上進行,這樣,應用系統(tǒng)開發(fā)工作將大為簡化,就某一項具體的開發(fā)工作而言,只要了解清楚數(shù)據(jù)的變化過程,針對變化過程進行開發(fā)即可,這將大大縮短應用系統(tǒng)的開發(fā)時間。而針對每一個具體開發(fā)形成一個模塊,逐步構建起具體應用模塊池,將徹底改變目前的軟件開發(fā)模式。在數(shù)據(jù)結構平臺上逐步形成針對應用的專用開發(fā)系統(tǒng),使應用系統(tǒng)的開發(fā)工作逐步實現(xiàn)自動化、智能化。
綜上所述,對于數(shù)據(jù)項是否有限量的問題可以得出一個結論,即數(shù)據(jù)項是有限量的,只是這個限量的數(shù)量級大一些。在數(shù)據(jù)項是有限量的情況下,各方面的技術發(fā)展應做好下述具體工作。
5.1構建整體數(shù)據(jù)架構和體系
從具體應用的角度出發(fā),在數(shù)據(jù)項是有限量的基礎上,要為每一個數(shù)據(jù)項找到具體的定位,由此建立一個整體數(shù)據(jù)架構體系。這項工作,需要對各個行業(yè)、條塊、體系的數(shù)據(jù)進行分析,從應用研究的層次提高到整體架構的層次上來,一是建立一套理論架構體系,來指導整體數(shù)據(jù)平臺的搭建;二是為每一個數(shù)據(jù)項進行定位,為具體應用的使用打下基礎,由此形成大數(shù)據(jù)時代數(shù)據(jù)挖掘的應用架構。
5.2制定統(tǒng)一的數(shù)據(jù)項標準
對有限量的每一個數(shù)據(jù)項制定標準,規(guī)范應用,形成統(tǒng)一的數(shù)據(jù)標準體系,規(guī)范數(shù)據(jù)應用行為,為大數(shù)據(jù)應用挖掘創(chuàng)造一個良好的數(shù)據(jù)環(huán)境。
5.3改變現(xiàn)有的開發(fā)模式
在有限數(shù)據(jù)項的情況下,研究每一個數(shù)據(jù)項與其他數(shù)據(jù)項之間的關系,研究數(shù)據(jù)項數(shù)據(jù)內容變化的邏輯關系,使軟件開發(fā)工作由每次都要進行全面分析過渡到只針對數(shù)據(jù)內容變化的具體應用開發(fā),改變開發(fā)模式,并在這個基礎上逐步形成應用系統(tǒng)開發(fā)平臺,在平臺中開發(fā)應用系統(tǒng),這將大大降低應用系統(tǒng)開發(fā)的難度,縮短開發(fā)周期。
5.4搭建相應的庫
這里所說的庫包括數(shù)據(jù)項字典庫、數(shù)據(jù)項關系庫、應用系統(tǒng)模塊庫。由相應的機構牽頭,進行相應庫的建設,形成標準,搭建起一個類似于LINUX系統(tǒng)應用平臺的體系,為整個應用系統(tǒng)開發(fā)提供服務。
大數(shù)據(jù)時代的云計算大平臺的建設工作在各地展開,需要理論的支持與研究,以上是筆者對大數(shù)據(jù)時代數(shù)據(jù)項是有限量的一些研究和看法,希望能夠拋磚引玉,有更多的研究者來共同探討大數(shù)據(jù)應用體系的建立。
[1]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013.
[2]李建義.數(shù)據(jù)庫原理及開發(fā)[M].北京:中國水利水電出版社,2005.
[3]艾伯特-拉斯洛巴拉巴西.爆發(fā)[M].北京:中國人民大學出版社,2012.
[4]賈曉飛.基于物聯(lián)網(wǎng)的大數(shù)據(jù)量實時信息交換策略研究[J].電子政務,2011(4).
[5]張敏霞.基于高并發(fā)及大數(shù)據(jù)量的B2B商務系統(tǒng)的設計與實現(xiàn)[J].河南工業(yè)大學學報(社會科學版),2009 (1).
[6]羅陸鋒,鄒湘軍,劉天湖,等.大數(shù)據(jù)量虛擬景觀的三維模型優(yōu)化與漫游[J].系統(tǒng)仿真學報,2009(6).
[7]任群,唐淑萍.大數(shù)據(jù)量內容文件管理系統(tǒng)的研究與應用[J].山東農業(yè)工程學院學報,2016(2).
[8]陳勇.大數(shù)據(jù)量多進程環(huán)境下生產者消費者模式實現(xiàn)研究[J].電腦編程技巧與維護,2015(24).
[9]郝楊楊,王玉平,黃有方.大數(shù)據(jù)環(huán)境下基于HBASE的訂單處理研究[J].中國物流與采購,2015(23).
[10]徐鉑韜,張毅,劉亞歐.移動單站定位的線路規(guī)劃技術研究[J].無線電工程,2014(6).
[11]王安全.SaaS模式下大數(shù)據(jù)量統(tǒng)計框架的研究和實現(xiàn)[J].計算技術與自動化,2009(2).
[13]楊緒坤,劉義勤.鐵路BIM設計系統(tǒng)中的大數(shù)據(jù)渲染技術研究[J].鐵道工程學報,2015(2).
[14]藍冬梅.大數(shù)據(jù)環(huán)境下高校圖書館開放獲取文獻的采訪策略[J].河南圖書館學刊,2016(1).
[15]朱濤.一種基于增量歸集的大數(shù)據(jù)量的數(shù)據(jù)查詢方法[J].電子世界,2014(17).
[16]張衛(wèi)華.淺談通過數(shù)據(jù)庫后臺數(shù)據(jù)評估業(yè)務系統(tǒng)的應用開展情況[J].科技與企業(yè),2011(13).
[17]孫中東.企業(yè)級數(shù)據(jù)治理框架下的數(shù)據(jù)質量管理[J].金融電子化,2011(6).
[18]侯冬梅,谷雨,谷新勝.大數(shù)據(jù)在科技、教育與信息領域的應用[J].計算機教育,2014(1).
Analysis of Data Items“Finite Quantity”in the Era of Big Data
LI Hua
(Wuxi Vocational Institute of Science and Technology,Jiangsu Wuxi 214028,China)
At the era of big data,data covers all aspects of society.With the building of smart city,data distributes more extensively,which is related to a basic concept—whether the number of data items is infinite or not?In the case of finite quantity,theoretical foundations and directions of information technology and software application research should be changed,which make a simple problem to be the core concepts of the era of big data,which generation a concept of data items finite quantity in the era of big data.It will have a significant impact on technology development and data application direction in the future era of big data.
big data;data items;software engineering
TP311
A
1673-2022(2016)03-0043-04
2016-06-11
李鏵(1962-),男,江蘇無錫人,高級工程師,研究方向為計算機軟件工程、軟件外包。