郭曉明
(大連理工大學(xué) 網(wǎng)絡(luò)與信息化中心,遼寧 大連 116023)
高校信息化環(huán)境中數(shù)據(jù)質(zhì)量問(wèn)題探析*
郭曉明
(大連理工大學(xué) 網(wǎng)絡(luò)與信息化中心,遼寧 大連 116023)
不同的數(shù)據(jù)環(huán)境存在不同的數(shù)據(jù)質(zhì)量問(wèn)題,本文首先介紹數(shù)據(jù)質(zhì)量的概念,分析了高校信息化中的四種數(shù)據(jù)環(huán)境及其關(guān)系,對(duì)比了不同數(shù)據(jù)環(huán)境中數(shù)據(jù)質(zhì)量問(wèn)題,最后給出了高校信息化建設(shè)中數(shù)據(jù)質(zhì)量問(wèn)題的處理建議。
高校信息化;數(shù)據(jù)環(huán)境;數(shù)據(jù)質(zhì)量;問(wèn)題探析
在信息技術(shù)快速發(fā)展的“互聯(lián)網(wǎng)+”時(shí)代,各個(gè)組織都擁有大量的數(shù)據(jù),并呈現(xiàn)爆炸式增長(zhǎng),但其中有用的信息卻很貧乏[1]。數(shù)據(jù)與信息的不對(duì)等,源自多個(gè)方面:一方面,數(shù)據(jù)與信息的外延有差別,信息來(lái)源于數(shù)據(jù)卻不能完全包含數(shù)據(jù);另一方面,信息技術(shù)未能完全解決信息化過(guò)程中數(shù)據(jù)與信息的問(wèn)題;最后,在信息化發(fā)展歷程中,組織或個(gè)體未能有效的保證作為信息載體的數(shù)據(jù)質(zhì)量,致使產(chǎn)生了很多無(wú)用的信息。[2]
數(shù)據(jù)與信息有關(guān)聯(lián),也有區(qū)別。數(shù)據(jù)是反映客觀事物屬性的記錄,是信息的具體表現(xiàn)形式,數(shù)據(jù)經(jīng)過(guò)加工處理之后,才成為信息。從信息論的觀點(diǎn)來(lái)看,描述信源的數(shù)據(jù)是信息和數(shù)據(jù)冗余之和,可以說(shuō)信息是數(shù)據(jù)的一個(gè)子集。就信息系統(tǒng)層面來(lái)說(shuō),數(shù)據(jù)是系統(tǒng)的輸入,是源材料,信息是系統(tǒng)的輸出,是產(chǎn)品[3]。 數(shù)據(jù)是信息的基礎(chǔ),數(shù)據(jù)質(zhì)量是信息質(zhì)量全面提升的重要保障。
高校信息化建設(shè)包括計(jì)算機(jī)化、網(wǎng)絡(luò)化、數(shù)字化、數(shù)據(jù)化、智慧化等不同階段:計(jì)算機(jī)化是高校信息化的最初階段,依賴于Excel文件或單機(jī)版的數(shù)據(jù)文件來(lái)管理各類數(shù)據(jù);網(wǎng)絡(luò)化則開(kāi)啟了數(shù)據(jù)共享的時(shí)代,也逐步出現(xiàn)了基于網(wǎng)絡(luò)的應(yīng)用數(shù)據(jù)庫(kù);數(shù)字化是在網(wǎng)絡(luò)化基礎(chǔ)上,著重于把所有的手工操作轉(zhuǎn)變?yōu)闃I(yè)務(wù)系統(tǒng),數(shù)據(jù)圍繞業(yè)務(wù)需求進(jìn)行構(gòu)建;數(shù)據(jù)化是在數(shù)字化基礎(chǔ)上,利用數(shù)據(jù)來(lái)對(duì)事物和現(xiàn)象進(jìn)行描述,使之能同時(shí)被人和IT設(shè)施所理解,數(shù)據(jù)可以反哺業(yè)務(wù)[4];智慧化是信息化發(fā)展的最新階段,數(shù)據(jù)變成現(xiàn)實(shí)環(huán)境感知的最基本元素,使信息世界和實(shí)體世界相互對(duì)應(yīng),并使信息世界具有智慧,成為“虛擬大腦”系統(tǒng)。這些發(fā)展階段造就了不同的信息化數(shù)據(jù)環(huán)境,總結(jié)起來(lái),可以定義為四種數(shù)據(jù)環(huán)境:數(shù)據(jù)文件環(huán)境、應(yīng)用數(shù)據(jù)庫(kù)環(huán)境、主題數(shù)據(jù)庫(kù)環(huán)境、信息檢索系統(tǒng)環(huán)境。[5]
在實(shí)際的高校信息化建設(shè)中,高校內(nèi)部部門(mén)、單位信息化建設(shè)存在很大的差異化和不平衡性,很難實(shí)現(xiàn)階段性的跨越,往往形成多個(gè)階段并存的局面,即在同一個(gè)時(shí)期存在多種多樣的數(shù)據(jù)環(huán)境。不同的數(shù)據(jù)環(huán)境存在不同的數(shù)據(jù)質(zhì)量問(wèn)題,本文首先介紹數(shù)據(jù)質(zhì)量的概念,分析了高校信息化中的四種數(shù)據(jù)環(huán)境及其關(guān)系,對(duì)比了不同數(shù)據(jù)環(huán)境中數(shù)據(jù)質(zhì)量問(wèn)題,最后給出了高校信息化建設(shè)中數(shù)據(jù)質(zhì)量問(wèn)題的處理建議。
各種應(yīng)用不斷產(chǎn)生和結(jié)束,而其中的數(shù)據(jù)則一直存在,劣質(zhì)數(shù)據(jù)使組織或個(gè)人不能做出有效的決策,只有高質(zhì)量的數(shù)據(jù),才能使各項(xiàng)工作高效的推進(jìn)。數(shù)據(jù)質(zhì)量不僅僅只涉及準(zhǔn)確性或者可靠性,而是多維的。Wang和Strong使用一個(gè)兩階段調(diào)查和兩階段分類研究的方式提出了一個(gè)典型的數(shù)據(jù)質(zhì)量層次框架[6],將從數(shù)據(jù)用戶那里收集的118個(gè)數(shù)據(jù)質(zhì)量特征合并為15個(gè)維度4個(gè)類別,如表1所示。
表1 Wang和Strong提出的數(shù)據(jù)質(zhì)量層次框架
還有一些組織和研究機(jī)構(gòu)也對(duì)數(shù)據(jù)質(zhì)量進(jìn)行了定義并形成了標(biāo)準(zhǔn),比如麻省理工大學(xué)、美國(guó)商務(wù)部、歐盟統(tǒng)計(jì)局、國(guó)際貨幣基金組織等??偟膩?lái)說(shuō),這些標(biāo)準(zhǔn)主要考慮了三個(gè)方面的內(nèi)容:一是注重從用戶角度來(lái)衡量數(shù)據(jù)質(zhì)量,強(qiáng)調(diào)用戶對(duì)數(shù)據(jù)的滿意程度;二是數(shù)據(jù)質(zhì)量是一個(gè)綜合性概念,需要建立一套有效的數(shù)據(jù)質(zhì)量管理體系,從多方面多角度評(píng)價(jià)數(shù)據(jù)好壞;三是把適用性、準(zhǔn)確性、適時(shí)性、完整性、一致性和可比性作為數(shù)據(jù)質(zhì)量的基本要素。[7]
1.數(shù)據(jù)文件環(huán)境
數(shù)據(jù)文件環(huán)境中,一般通過(guò)Excel等單機(jī)軟件完成數(shù)據(jù)的記錄和存儲(chǔ),數(shù)據(jù)可能用于輔助管理人員或者業(yè)務(wù)辦理人員完成各項(xiàng)工作的開(kāi)展,也可能用于工作內(nèi)容的備份和存檔。高校之所以還存在這類環(huán)境:一方面是很多人還不能從手工或使用Excel等簡(jiǎn)單軟件工作方式轉(zhuǎn)變成使用信息系統(tǒng)的工作方式,缺乏共享意識(shí)和整體觀念[8];另一方面是部分單位滿足于現(xiàn)有的工作方式,很難接收改變,或者缺少轉(zhuǎn)變所需要的資金和人才支撐。
這種數(shù)據(jù)環(huán)境下數(shù)據(jù)存儲(chǔ)在個(gè)人辦公計(jì)算機(jī)上,受眾面窄,沒(méi)有專門(mén)的訪問(wèn)控制和安全性策略,存儲(chǔ)和表示數(shù)據(jù)的方式以個(gè)人喜好為主,沒(méi)有固定的規(guī)范,數(shù)據(jù)的利用價(jià)值很低。
2.應(yīng)用數(shù)據(jù)庫(kù)環(huán)境
應(yīng)用數(shù)據(jù)庫(kù)是基于學(xué)校實(shí)際的業(yè)務(wù)需求出發(fā),通過(guò)面向過(guò)程的方式建立而成,主要服務(wù)于高校的各類MIS系統(tǒng)。很多高校并無(wú)專業(yè)的設(shè)計(jì)、開(kāi)發(fā)團(tuán)隊(duì),往往委托技術(shù)公司完成系統(tǒng)的設(shè)計(jì)、數(shù)據(jù)庫(kù)的構(gòu)建、功能的實(shí)現(xiàn)和系統(tǒng)的運(yùn)行維護(hù)。其數(shù)據(jù)的設(shè)計(jì)依賴于一些大家公認(rèn)的技術(shù)規(guī)范進(jìn)行,是比數(shù)據(jù)文件環(huán)境更高級(jí)的數(shù)據(jù)環(huán)境。
系統(tǒng)建設(shè)團(tuán)隊(duì)往往是由不懂技術(shù)的業(yè)務(wù)人員和不懂業(yè)務(wù)的技術(shù)人員組成,系統(tǒng)除了存儲(chǔ)業(yè)務(wù)功能所需要的必要數(shù)據(jù)外,也存儲(chǔ)了很多的冗余數(shù)據(jù),兩類數(shù)據(jù)之間并沒(méi)有明顯的界限,影響了管理層的決策工作。
系統(tǒng)建設(shè)依據(jù)于現(xiàn)有業(yè)務(wù)實(shí)現(xiàn),只能適應(yīng)過(guò)去,而很難適用未來(lái)。早期的MIS系統(tǒng)并未過(guò)多涉及業(yè)務(wù)之外的功能,如統(tǒng)計(jì)、匯總、查詢功能考慮不足,很多都只能進(jìn)行事后處理,通過(guò)人為參與的方式手工完成。若業(yè)務(wù)進(jìn)行了調(diào)整,則需要對(duì)系統(tǒng)進(jìn)行重大的改造,數(shù)據(jù)需重新轉(zhuǎn)換、清洗。
在應(yīng)用數(shù)據(jù)庫(kù)環(huán)境中,不同部門(mén)都建立了各自的信息系統(tǒng),系統(tǒng)之間的數(shù)據(jù)存在嚴(yán)重的異構(gòu)問(wèn)題:不同系統(tǒng)采用了不同的數(shù)據(jù)庫(kù)存儲(chǔ)系統(tǒng);系統(tǒng)服務(wù)于不同的業(yè)務(wù),其對(duì)數(shù)據(jù)存在不同的需求;同一類數(shù)據(jù),存儲(chǔ)的格式和表示的方法存在比較大差別。部門(mén)之間的數(shù)據(jù)存在互訪和交互問(wèn)題,漸漸成為了很多的信息孤島。
3.主題數(shù)據(jù)庫(kù)環(huán)境
主題數(shù)據(jù)庫(kù)環(huán)境是較高級(jí)的數(shù)據(jù)環(huán)境,由國(guó)際知名學(xué)者James Martin博士最先提出[9,10],他認(rèn)為主題數(shù)據(jù)庫(kù)環(huán)境是一個(gè)用以支持企業(yè)或組織決策分析處理的、面向主題的、經(jīng)過(guò)科學(xué)的規(guī)劃和設(shè)計(jì)、用DBMS建立起來(lái)的、具有共享性和一致性的、以主題數(shù)據(jù)庫(kù)為主的集成化數(shù)據(jù)環(huán)境,只有在這種數(shù)據(jù)環(huán)境中才能開(kāi)發(fā)和運(yùn)行集成化的信息系統(tǒng)[9]。高校在信息化建設(shè)的數(shù)字校園階段普遍引入此概念來(lái)構(gòu)建高校獨(dú)有的主題數(shù)據(jù)庫(kù)環(huán)境,此環(huán)境下的數(shù)據(jù)獨(dú)立于具體的部門(mén)和業(yè)務(wù)應(yīng)用,而是將全校各類業(yè)務(wù)數(shù)據(jù)進(jìn)行綜合組織整理后,按照學(xué)校概況、學(xué)生管理、教學(xué)管理、教職工管理、科研管理、財(cái)務(wù)管理、資產(chǎn)與設(shè)備管理、辦公管理、外事、檔案管理等業(yè)務(wù)主題劃分為相互關(guān)聯(lián)的數(shù)據(jù)類集合,每類集合作為支持業(yè)務(wù)組的穩(wěn)定數(shù)據(jù)基礎(chǔ),業(yè)務(wù)子集可以在此基礎(chǔ)上直接構(gòu)建,而不需要再設(shè)計(jì)新的數(shù)據(jù)庫(kù)。[10]
主題數(shù)據(jù)庫(kù)環(huán)境跳出了涉及眾多多變處理過(guò)程的業(yè)務(wù),而轉(zhuǎn)向更高層次的業(yè)務(wù)數(shù)據(jù)。但是主題數(shù)據(jù)庫(kù)環(huán)境中的數(shù)據(jù)大部分是來(lái)源于處于更低級(jí)數(shù)據(jù)環(huán)境中的各個(gè)業(yè)務(wù)系統(tǒng),這些數(shù)據(jù)通過(guò)各種集成技術(shù),進(jìn)行數(shù)據(jù)加載、清洗、轉(zhuǎn)換,最后進(jìn)行匯聚,此過(guò)程中只能解決一些形式上的數(shù)據(jù)質(zhì)量問(wèn)題,包括異構(gòu)、表達(dá)方式、存儲(chǔ)格式等等,而因?yàn)闃I(yè)務(wù)系統(tǒng)設(shè)計(jì)、具體執(zhí)行過(guò)程產(chǎn)生的更加深層次的質(zhì)量問(wèn)題很難解決,比如數(shù)據(jù)真實(shí)性、數(shù)據(jù)及時(shí)性、數(shù)據(jù)關(guān)聯(lián)性等。
4.信息檢索系統(tǒng)環(huán)境
信息檢索系統(tǒng)是建立在數(shù)據(jù)之上的系統(tǒng),以實(shí)現(xiàn)對(duì)數(shù)據(jù)的有效管理和利用,主要依據(jù)特定的信息需求對(duì)數(shù)據(jù)進(jìn)行收集、加工、存儲(chǔ)和檢索,從而為用戶提供信息服務(wù)。有專門(mén)針對(duì)某個(gè)內(nèi)容庫(kù)而建立的信息檢索系統(tǒng),比如期刊、圖書(shū)、專利、標(biāo)準(zhǔn)等,這些系統(tǒng)注重內(nèi)容庫(kù)的建設(shè)。而在高校信息化建設(shè)中的信息檢索系統(tǒng),是一個(gè)綜合性的系統(tǒng),其關(guān)注點(diǎn)已經(jīng)從業(yè)務(wù)、數(shù)據(jù)轉(zhuǎn)變?yōu)樾畔?,信息需求則來(lái)源于使用者、管理者、決策者等各類群體,這些用戶群體對(duì)信息的需求具有不確定性和多樣化的特性。為了有效構(gòu)建信息檢索系統(tǒng)環(huán)境,需要從信息需求反推數(shù)據(jù)構(gòu)建,從已有的數(shù)據(jù)中選擇、轉(zhuǎn)化、處理形成數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市,抑或從師生中直接收集信息,比如通過(guò)一張表建設(shè)工程完成。
信息檢索系統(tǒng)環(huán)境下,對(duì)數(shù)據(jù)質(zhì)量的要求很高,但是因?yàn)槠鋽?shù)據(jù)可能來(lái)源于數(shù)據(jù)文件、應(yīng)用數(shù)據(jù)庫(kù)、主題數(shù)據(jù)庫(kù)中的任何一種,導(dǎo)致其存在很多難以解決的數(shù)據(jù)質(zhì)量問(wèn)題。
5.數(shù)據(jù)環(huán)境關(guān)系
四種數(shù)據(jù)環(huán)境基本上都存在于當(dāng)前的高校信息建設(shè)中,其中應(yīng)用數(shù)據(jù)庫(kù)環(huán)境是主要部分,有一少部分為數(shù)據(jù)文件,主題數(shù)據(jù)庫(kù)和信息檢索系統(tǒng)環(huán)境是最主要的建設(shè)目標(biāo)。不同環(huán)境的中數(shù)據(jù)依次向更高級(jí)環(huán)境的數(shù)據(jù)服務(wù),數(shù)據(jù)文件作為應(yīng)用數(shù)據(jù)庫(kù)的輸入源之一,應(yīng)用數(shù)據(jù)庫(kù)則是主題數(shù)據(jù)庫(kù)的主要輸入源,主題數(shù)據(jù)庫(kù)是信息檢索系統(tǒng)的主要輸入源。具體如圖1所示。
圖1 數(shù)據(jù)環(huán)境之間的關(guān)系
數(shù)據(jù)文件環(huán)境下的數(shù)據(jù)是支撐業(yè)務(wù)人員的必須數(shù)據(jù),具有很高的可靠性,但是數(shù)據(jù)很容易過(guò)時(shí),需要人為的持續(xù)維護(hù),不然數(shù)據(jù)準(zhǔn)確性必然會(huì)降低,其數(shù)據(jù)用途和表達(dá)形式完全依賴于負(fù)責(zé)維護(hù)的個(gè)人。而在應(yīng)用數(shù)據(jù)庫(kù)環(huán)境下,業(yè)務(wù)涉及的數(shù)據(jù)需保證業(yè)務(wù)的正常運(yùn)轉(zhuǎn),具有很高的內(nèi)在質(zhì)量,而其它冗余數(shù)據(jù)往往不能有效保證其質(zhì)量,應(yīng)用數(shù)據(jù)庫(kù)涉及的業(yè)務(wù)范圍窄,其所涉及的上下文有限,數(shù)據(jù)存儲(chǔ)和表示以方便的方式為主,數(shù)據(jù)的訪問(wèn)安全性考慮也不周全。主題數(shù)據(jù)庫(kù)環(huán)境中的數(shù)據(jù)是服務(wù)于業(yè)務(wù)全域,可能是同一時(shí)期的不同業(yè)務(wù),或者同一業(yè)務(wù)不同時(shí)期的不同流程,涉及上下文范圍廣闊,需要保證很高的數(shù)據(jù)質(zhì)量,其數(shù)據(jù)來(lái)源于不同的異構(gòu)數(shù)據(jù)存儲(chǔ),需要采用規(guī)范、通用的存儲(chǔ)和表示方式,主題數(shù)據(jù)庫(kù)通過(guò)統(tǒng)一的出口提供數(shù)據(jù),訪問(wèn)質(zhì)量也有保障。信息檢索系統(tǒng)環(huán)境下用戶群體眾多,很多質(zhì)量問(wèn)題都能很容易在使用過(guò)程中顯現(xiàn),所以其數(shù)據(jù)質(zhì)量要求是最高的。四種環(huán)境的數(shù)據(jù)質(zhì)量情況對(duì)比如表2所示。
表2 不同數(shù)據(jù)環(huán)境下的數(shù)據(jù)質(zhì)量對(duì)比
高校數(shù)據(jù)質(zhì)量問(wèn)題來(lái)源有很多,有信息層面、技術(shù)層面、流程層面、管理層面[11],涉及的方面眾多,很難有效開(kāi)展全面的數(shù)據(jù)質(zhì)量管理策略,應(yīng)根據(jù)實(shí)際情況逐步改善現(xiàn)有問(wèn)題。
不同數(shù)據(jù)環(huán)境必然會(huì)很長(zhǎng)時(shí)間共存于高校的信息化建設(shè)中,試圖改變這種局面很難,而應(yīng)該考慮如何充分利用這種局面。特別是應(yīng)用數(shù)據(jù)庫(kù)環(huán)境,在信息化環(huán)境轉(zhuǎn)變中存在承上啟下的作用,必將長(zhǎng)期存在。要在對(duì)高校現(xiàn)有數(shù)據(jù)環(huán)境進(jìn)行充分調(diào)研基礎(chǔ)上,逐步調(diào)整改善:對(duì)于數(shù)據(jù)文件環(huán)境,盡量提高其環(huán)境級(jí)別;對(duì)于應(yīng)用數(shù)據(jù)庫(kù)環(huán)境中數(shù)據(jù),剝離其中的有用數(shù)據(jù)和冗余數(shù)據(jù),利用有用數(shù)據(jù)構(gòu)建更高級(jí)別的數(shù)據(jù)環(huán)境;對(duì)于主題數(shù)據(jù)庫(kù)環(huán)境,則應(yīng)以構(gòu)建此數(shù)據(jù)環(huán)境為手段和目標(biāo),使整體的數(shù)據(jù)質(zhì)量得以提升。
信息化建設(shè)持續(xù)推進(jìn)的過(guò)程中,將涌現(xiàn)越來(lái)越多的業(yè)務(wù)系統(tǒng),通過(guò)開(kāi)展信息化數(shù)據(jù)管理和規(guī)范服務(wù)以提高系統(tǒng)中關(guān)鍵數(shù)據(jù)的數(shù)據(jù)質(zhì)量,可以使數(shù)據(jù)更有價(jià)值,最終使數(shù)據(jù)效能最大化。
[1]隆益民.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[J].現(xiàn)代電子技術(shù), 2000(10):70-73.
[2]商廣娟.有效的數(shù)據(jù)質(zhì)量管理體系——21世紀(jì)管理的基石[J].航空標(biāo)準(zhǔn)化與質(zhì)量,2005(2):18-22.
[3]蘇強(qiáng),梁冰.信息質(zhì)量及其評(píng)價(jià)指標(biāo)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2000(7):63-65.
[4]宓詠.智慧時(shí)代數(shù)據(jù)服務(wù)的發(fā)展與思考[J].中國(guó)教育網(wǎng)絡(luò),2015(8):23-26.
[5]郭曉明,張巍.高校信息化建設(shè)中公共數(shù)據(jù)平臺(tái)的探討[J].中國(guó)教育信息化,2015(19):69-72.
[6]理查德等著.曹建軍,刁興春,許永平譯.信息質(zhì)量[M].國(guó)防工業(yè)出版社,2013.3.
[7]宋立榮,李思經(jīng).從數(shù)據(jù)質(zhì)量到信息質(zhì)量的發(fā)展[J].情報(bào)科學(xué),2010(2):182-186.
[8]陳翼.數(shù)據(jù)質(zhì)量理論與高校信息化應(yīng)用建設(shè)探索[J].實(shí)驗(yàn)技術(shù)與管理,2011(5):106-111.
[9]楊威,楊海君,沈葉忠.高校信息化建設(shè)中主題數(shù)據(jù)庫(kù)的作用與開(kāi)發(fā)[J].河海大學(xué)常州分校學(xué)報(bào),2003(4): 36-39.
[10]李麗,王倩宜,歐陽(yáng)榮彬,等.高校信息化建設(shè)中主題數(shù)據(jù)庫(kù)的規(guī)劃設(shè)計(jì)[J].中山大學(xué)學(xué)報(bào)(自然科學(xué)版), 2009(S1):168-170.
[11]賈春燕,趙亞萍,程艷旗.高校數(shù)字校園數(shù)據(jù)質(zhì)量管理研究[J].廣西大學(xué)學(xué)報(bào)(自然科學(xué)版),2011(S1):272-275.
(編輯:王曉明)
TP393
:B
:1673-8454(2016)15-0059-04
*本文系大連理工大學(xué)2014年度基本科研業(yè)務(wù)費(fèi)科研專項(xiàng)項(xiàng)目“高校信息化過(guò)程中人員信息數(shù)據(jù)質(zhì)量管理研究”(項(xiàng)目編號(hào): DUT14RC(5)03)的研究成果之一。