張 寧
(國(guó)家圖書館 北京 100081)
在信息時(shí)代,圖書館作為知識(shí)的寶庫(kù)和學(xué)術(shù)研究的支持者,承擔(dān)著重要的社會(huì)角色,面臨著越來(lái)越多的挑戰(zhàn)和需求。圖書館評(píng)估指標(biāo)管理作為一種系統(tǒng)性的方法,是評(píng)估圖書館績(jī)效和提升服務(wù)質(zhì)量的關(guān)鍵手段,能夠通過制定合適的指標(biāo),對(duì)圖書館績(jī)效和服務(wù)質(zhì)量進(jìn)行定量和定性評(píng)估。對(duì)于圖書館而言,評(píng)估指標(biāo)管理的重要性在于可幫助圖書館了解自身的運(yùn)行狀況,發(fā)現(xiàn)問題并加以改進(jìn),提升服務(wù)質(zhì)量,滿足用戶需求。
然而,圖書館評(píng)估指標(biāo)管理也面臨著諸多挑戰(zhàn),包括多樣性和復(fù)雜性、數(shù)據(jù)收集和分析、持續(xù)改進(jìn)和動(dòng)態(tài)調(diào)整、資源限制以及評(píng)估結(jié)果的使用和反饋等。為了應(yīng)對(duì)這些挑戰(zhàn),數(shù)據(jù)血緣關(guān)系作為一種關(guān)鍵技術(shù),發(fā)揮著重要作用。首先,數(shù)據(jù)血緣關(guān)系可以幫助圖書館評(píng)估指標(biāo)數(shù)據(jù)的可信度和可靠性,確保評(píng)估結(jié)果的準(zhǔn)確性和可比性;其次,數(shù)據(jù)血緣關(guān)系可以追蹤和記錄數(shù)據(jù)的變化和流動(dòng)過程,提供數(shù)據(jù)血緣的信息,幫助圖書館管理者了解數(shù)據(jù)的來(lái)源和使用情況,從而更好地評(píng)估指標(biāo)的有效性和可靠性。此外,數(shù)據(jù)血緣關(guān)系還可以幫助圖書館管理者發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,如數(shù)據(jù)錯(cuò)誤、數(shù)據(jù)丟失等,進(jìn)而采取相應(yīng)的糾正和改進(jìn)措施。
數(shù)據(jù)血緣關(guān)系分析是數(shù)據(jù)管理和治理中的一個(gè)概念,有時(shí)也被稱為數(shù)據(jù)血統(tǒng)、數(shù)據(jù)起源、數(shù)據(jù)系譜、數(shù)據(jù)族系、數(shù)據(jù)世系[1-3],是進(jìn)行數(shù)據(jù)治理的有效手段[4],用于描述數(shù)據(jù)之間的依賴關(guān)系和流動(dòng)路徑。在數(shù)據(jù)治理領(lǐng)域,數(shù)據(jù)血緣關(guān)系主要記錄了各種數(shù)據(jù)資源、數(shù)據(jù)項(xiàng)間的繼承與被繼承關(guān)系,并從歷史與事實(shí)的角度記錄每項(xiàng)數(shù)據(jù)在整個(gè)流程中的來(lái)源、傳遞、轉(zhuǎn)換、衍生過程[5]以及應(yīng)用情況,從而形成數(shù)據(jù)的傳播鏈條,可有效提升數(shù)據(jù)信息的可信度和可追溯性,為驗(yàn)證數(shù)據(jù)的真實(shí)性提供了有效的手段。一般來(lái)說(shuō),數(shù)據(jù)血緣關(guān)系可以分為四個(gè)層次,包括:①針對(duì)整個(gè)系統(tǒng)中數(shù)據(jù)流向和變化的系統(tǒng)級(jí)數(shù)據(jù)血緣;②在具體程序或應(yīng)用中流動(dòng)和變換的程序級(jí)數(shù)據(jù)血緣;③反映數(shù)據(jù)庫(kù)中表之間關(guān)系和數(shù)據(jù)流動(dòng)情況的表級(jí)數(shù)據(jù)血緣;④關(guān)注數(shù)據(jù)表中字段之間的關(guān)系和數(shù)據(jù)流動(dòng)情況的字段級(jí)數(shù)據(jù)血緣。
在形成方式上,數(shù)據(jù)血緣關(guān)系的形成基于數(shù)據(jù)的生成、傳遞和轉(zhuǎn)換過程。當(dāng)一個(gè)數(shù)據(jù)元素從一個(gè)地方(源)傳遞到另一個(gè)地方(目標(biāo))時(shí),他們之間的關(guān)系被建立。例如,當(dāng)數(shù)據(jù)在不同系統(tǒng)之間傳遞、在不同階段進(jìn)行轉(zhuǎn)換或者通過計(jì)算生成時(shí),數(shù)據(jù)血緣關(guān)系就會(huì)形成。
在表現(xiàn)形式上,數(shù)據(jù)血緣關(guān)系主要呈現(xiàn)的是一種描述數(shù)據(jù)之間聯(lián)系的圖狀結(jié)構(gòu),如有向無(wú)環(huán)圖(DAG),通過節(jié)點(diǎn)(數(shù)據(jù))和邊(關(guān)系)的連接來(lái)表示數(shù)據(jù)的流向和變化[6]。其中,每個(gè)節(jié)點(diǎn)都代表一個(gè)數(shù)據(jù)元素,每條邊都表示數(shù)據(jù)之間的直接或間接關(guān)聯(lián)。
在理論研究方面,國(guó)內(nèi)外關(guān)于數(shù)據(jù)血緣關(guān)系的研究主要經(jīng)歷了兩個(gè)階段,并且在每個(gè)階段均取得了一些進(jìn)展。
概念研究及定義拓展階段。在研究早期,關(guān)于數(shù)據(jù)血緣的研究主要集中在基本概念的確定和可能的應(yīng)用領(lǐng)域方面,其研究成果最早可追溯到20世紀(jì)90年代異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)的研究,此時(shí)的數(shù)據(jù)血緣關(guān)系被定義為“數(shù)據(jù)及其在數(shù)據(jù)庫(kù)間運(yùn)動(dòng)的起源”[7];隨后,Lanter在1991年將此概念擴(kuò)展到GIS領(lǐng)域,并對(duì)數(shù)據(jù)血緣的定義進(jìn)行了拓展,即對(duì)目標(biāo)數(shù)據(jù)衍生前的原始數(shù)據(jù)以及演變過程的描述[8];1997年Woodruff進(jìn)行了進(jìn)一步拓展,認(rèn)為數(shù)據(jù)血緣是所有關(guān)于數(shù)據(jù)信息的處理過程的集合[9];Greenwood等人對(duì)其進(jìn)行了再次拓展,認(rèn)為數(shù)據(jù)血緣是一種記錄工作流過程、注釋、實(shí)驗(yàn)過程的元數(shù)據(jù)[10];Goble則將其定義為“processing and transformations of data”,并拓寬了其應(yīng)用領(lǐng)域[11]。
應(yīng)用技術(shù)及方法研究階段。在定義研究的基礎(chǔ)上,學(xué)者們開展了對(duì)數(shù)據(jù)血緣技術(shù)及方法的研究,如Cui Yingwei等定義了數(shù)據(jù)血緣的整體知識(shí)體系以及相關(guān)技術(shù)定理[12],Buneman等使用輔助數(shù)據(jù)庫(kù)作為進(jìn)行數(shù)據(jù)血緣管理的特定工具[13],Li Jiyun等提出了一種用于物化視圖的基于前k個(gè)查詢的數(shù)據(jù)血緣追蹤算法等[14]。
在實(shí)際應(yīng)用方面,數(shù)據(jù)血緣關(guān)系作為數(shù)據(jù)管理的一個(gè)重要應(yīng)用,也隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展而不斷演化和完善,主要經(jīng)歷了以下幾個(gè)階段。
早期數(shù)據(jù)追蹤。在數(shù)據(jù)管理的早期階段,數(shù)據(jù)追蹤主要是基于手工記錄和文檔,缺乏系統(tǒng)化的方法。數(shù)據(jù)追溯主要通過編寫文檔、日志或元數(shù)據(jù)來(lái)記錄數(shù)據(jù)的來(lái)源和流向,其代表性成果包括人工編寫的文檔、數(shù)據(jù)日志、元數(shù)據(jù)管理系統(tǒng)的初步應(yīng)用。
數(shù)據(jù)庫(kù)系統(tǒng)和元數(shù)據(jù)管理。隨著數(shù)據(jù)庫(kù)技術(shù)的發(fā)展,數(shù)據(jù)血緣關(guān)系開始被應(yīng)用于數(shù)據(jù)庫(kù)管理系統(tǒng)。數(shù)據(jù)庫(kù)系統(tǒng)可以自動(dòng)記錄數(shù)據(jù)的操作和流向,元數(shù)據(jù)管理系統(tǒng)用于存儲(chǔ)和維護(hù)數(shù)據(jù)的元信息[15-16]。這一階段強(qiáng)調(diào)數(shù)據(jù)的結(jié)構(gòu)和操作,但對(duì)于跨系統(tǒng)和復(fù)雜數(shù)據(jù)流動(dòng)的追蹤還有待完善,其代表性成果包括數(shù)據(jù)庫(kù)事務(wù)日志、元數(shù)據(jù)管理系統(tǒng)、數(shù)據(jù)字典工具。
ETL工具和自動(dòng)化追蹤。隨著數(shù)據(jù)集成和ETL(抽取、轉(zhuǎn)換、加載)工具的興起,數(shù)據(jù)血緣關(guān)系的追蹤逐漸實(shí)現(xiàn)自動(dòng)化。ETL工具可以記錄數(shù)據(jù)轉(zhuǎn)換和加載過程,生成數(shù)據(jù)流程圖和血緣關(guān)系圖。這一階段強(qiáng)調(diào)數(shù)據(jù)流程的自動(dòng)追蹤和可視化[17],其代表性成果包括ETL工具(如Informatica、Talend)、數(shù)據(jù)流程圖、自動(dòng)生成的血緣關(guān)系圖。
大數(shù)據(jù)和分布式系統(tǒng)。隨著大數(shù)據(jù)和分布式計(jì)算的興起,數(shù)據(jù)血緣關(guān)系面臨嚴(yán)峻挑戰(zhàn),傳統(tǒng)的方法難以滿足分布式系統(tǒng)中的數(shù)據(jù)追蹤需求。新的技術(shù)和算法涌現(xiàn),解決了跨系統(tǒng)和大規(guī)模數(shù)據(jù)的血緣關(guān)系追蹤問題[18],其代表性成果包括分布式數(shù)據(jù)血緣關(guān)系算法、大數(shù)據(jù)平臺(tái)上的血緣關(guān)系可視化工具。
綜合數(shù)據(jù)治理平臺(tái)。當(dāng)前,數(shù)據(jù)血緣關(guān)系不僅被用于單一系統(tǒng)的數(shù)據(jù)追蹤,還被納入綜合數(shù)據(jù)治理平臺(tái)。這些平臺(tái)提供了更全面的數(shù)據(jù)管理、質(zhì)量評(píng)估和合規(guī)性監(jiān)控功能,將數(shù)據(jù)血緣關(guān)系作為關(guān)鍵組成部分,支持跨系統(tǒng)的數(shù)據(jù)追蹤和管理[19],其代表性成果包括綜合數(shù)據(jù)治理平臺(tái)(如Collibra、Alation等)以及數(shù)據(jù)血緣關(guān)系在大數(shù)據(jù)生態(tài)系統(tǒng)中的應(yīng)用等。
而在國(guó)內(nèi),關(guān)于數(shù)據(jù)血緣的研究并不多,目前可以查到的公開文獻(xiàn)有2002年戴超凡等系統(tǒng)性介紹的數(shù)據(jù)起源追蹤技術(shù),劉喜平等在2005年總結(jié)的數(shù)據(jù)起源主要方法和應(yīng)用,高明等對(duì)數(shù)據(jù)世系管理技術(shù)的總結(jié)[20]等。此外,也有部分高校對(duì)相關(guān)技術(shù)進(jìn)行了研究和應(yīng)用,如數(shù)據(jù)血緣分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[21]、元數(shù)據(jù)血緣關(guān)系映射技術(shù)[22]、數(shù)據(jù)血緣追蹤技術(shù)[23-24],以及其他關(guān)鍵技術(shù)研究[25-26]等。在商業(yè)應(yīng)用方面,數(shù)據(jù)血緣關(guān)系應(yīng)用隨著大數(shù)據(jù)、數(shù)據(jù)治理和數(shù)據(jù)安全的發(fā)展也逐漸受到越來(lái)越多的關(guān)注:①在具體應(yīng)用方面,許多大型企業(yè)和機(jī)構(gòu)開始采用數(shù)據(jù)治理平臺(tái)所提供的數(shù)據(jù)血緣關(guān)系追蹤和管理功能,以幫助用戶更好地理解數(shù)據(jù)的流向和變化,如數(shù)極科技、達(dá)觀數(shù)據(jù)等;②在數(shù)據(jù)質(zhì)量提升方面,通過追蹤數(shù)據(jù)血緣,企業(yè)可以快速定位數(shù)據(jù)質(zhì)量問題的根源,從而采取相應(yīng)措施來(lái)解決問題;③在金融行業(yè),數(shù)據(jù)血緣關(guān)系研究被廣泛應(yīng)用于風(fēng)險(xiǎn)控制、反欺詐等領(lǐng)域。通過分析數(shù)據(jù)血緣,金融機(jī)構(gòu)可以更好地理解數(shù)據(jù)的流動(dòng)路徑,從而識(shí)別潛在的風(fēng)險(xiǎn)[27-28]。
隨著數(shù)據(jù)血緣關(guān)系分析技術(shù)的不斷發(fā)展和應(yīng)用,圖書館作為知識(shí)資源的重要承載者,不僅需要管理海量圖書和資料,還要處理各種數(shù)字化信息。在這個(gè)信息時(shí)代,如何高效地管理、追蹤和利用這些數(shù)據(jù)和信息,已成為圖書館數(shù)據(jù)管理的重要課題。文章在國(guó)家重點(diǎn)研發(fā)計(jì)劃“公共文化資源服務(wù)效能評(píng)估及大數(shù)據(jù)分析平臺(tái)構(gòu)建”項(xiàng)目的背景下,以公共圖書館服務(wù)效能評(píng)估指標(biāo)管理為例,從引入數(shù)據(jù)血緣關(guān)系分析的必要性、具體應(yīng)用場(chǎng)景分析、技術(shù)路線設(shè)計(jì)等角度出發(fā),闡述了數(shù)據(jù)血緣關(guān)系分析在圖書館數(shù)據(jù)管理和治理領(lǐng)域的應(yīng)用,為圖書館解決數(shù)據(jù)管理問題提供了新思路和方法。
數(shù)字化時(shí)代下,隨著構(gòu)建全國(guó)智慧圖書館體系及評(píng)估體系進(jìn)程的不斷推進(jìn)[29],全國(guó)各級(jí)圖書館必將面臨海量數(shù)據(jù)管理和利用的挑戰(zhàn),尤其是在效能評(píng)估方面,隨著時(shí)間的推移和評(píng)估重點(diǎn)的變化,評(píng)估指標(biāo)及其對(duì)應(yīng)的源數(shù)據(jù)也會(huì)發(fā)生變化,需對(duì)其進(jìn)行相應(yīng)的修正,包括多層級(jí)指標(biāo)、多源數(shù)據(jù)彼此之間的對(duì)應(yīng)、引用、變換、計(jì)算、變更和修改等維護(hù)操作,指標(biāo)和數(shù)據(jù)之間關(guān)系的變化也會(huì)隨之變得復(fù)雜,且難以進(jìn)行人工梳理[30]。因此,數(shù)據(jù)血緣關(guān)系作為一種數(shù)據(jù)管理和分析工具,將其引入圖書館數(shù)據(jù)管理實(shí)踐就非常有必要,以公共圖書館服務(wù)效能評(píng)估指標(biāo)管理為例,引入數(shù)據(jù)血緣關(guān)系的必要性主要體現(xiàn)在以下幾個(gè)方面。
提升數(shù)據(jù)準(zhǔn)確性和可信度。數(shù)據(jù)血緣關(guān)系分析可以追蹤指標(biāo)數(shù)據(jù)的來(lái)源和傳遞路徑,幫助評(píng)估指標(biāo)管理人員了解指標(biāo)數(shù)據(jù)的準(zhǔn)確性和可信度。通過血緣關(guān)系分析,可以識(shí)別數(shù)據(jù)的原始來(lái)源、數(shù)據(jù)傳遞過程中的轉(zhuǎn)換和加工操作,從而確保指標(biāo)數(shù)據(jù)的可靠性。
提高指標(biāo)的分析成效。數(shù)據(jù)血緣關(guān)系分析可以幫助評(píng)估指標(biāo)管理人員更好地理解指標(biāo)之間的關(guān)系和依賴性。通過分析血緣關(guān)系,可以確定指標(biāo)之間的影響路徑和傳遞關(guān)系,揭示指標(biāo)之間的邏輯和因果關(guān)系。這有助于管理人員更好地解釋指標(biāo)的含義和背后的數(shù)據(jù)邏輯,提高指標(biāo)分析的準(zhǔn)確性和可解釋性。
有助于問題排查并加強(qiáng)數(shù)據(jù)質(zhì)量管理。數(shù)據(jù)血緣關(guān)系分析可以幫助評(píng)估指標(biāo)管理人員快速定位和排查數(shù)據(jù)質(zhì)量問題。通過追蹤數(shù)據(jù)的血緣關(guān)系,識(shí)別數(shù)據(jù)傳遞過程中可能出現(xiàn)的錯(cuò)誤、數(shù)據(jù)丟失或數(shù)據(jù)不一致等問題,有助于及時(shí)發(fā)現(xiàn)和解決數(shù)據(jù)質(zhì)量問題,提高指標(biāo)數(shù)據(jù)的準(zhǔn)確性和可靠性。
提供數(shù)據(jù)支持和決策依據(jù)。數(shù)據(jù)血緣關(guān)系分析為公共文化資源服務(wù)效能評(píng)估指標(biāo)管理提供了更全面的數(shù)據(jù)支持和決策依據(jù)。通過血緣關(guān)系分析,評(píng)估指標(biāo)管理人員可以了解指標(biāo)數(shù)據(jù)的變化和演化過程,為評(píng)估指標(biāo)的變動(dòng)提供背景和上下文信息;有助于監(jiān)控指標(biāo)的趨勢(shì)和變化,及時(shí)調(diào)整管理策略和采取相應(yīng)的措施。
正確理解公共文化資源服務(wù)效能評(píng)估指標(biāo)管理中的需求,是數(shù)據(jù)血緣關(guān)系分析得到有效應(yīng)用的基本前提。在公共圖書館服務(wù)效能評(píng)估指標(biāo)體系中,指標(biāo)與指標(biāo)之間、指標(biāo)與數(shù)據(jù)之間、數(shù)據(jù)與數(shù)據(jù)之間都存在著一定的聯(lián)系,且可組合成不同的需求場(chǎng)景。羅列場(chǎng)景能夠幫助我們準(zhǔn)確快速地構(gòu)建實(shí)際應(yīng)用場(chǎng)景,正如前文所述,在確定數(shù)據(jù)血緣追蹤著力點(diǎn)的基礎(chǔ)上,文章認(rèn)為公共文化資源服務(wù)效能評(píng)估指標(biāo)的數(shù)據(jù)血緣關(guān)系的主要內(nèi)容應(yīng)包括“指標(biāo)與指標(biāo)”“指標(biāo)與數(shù)據(jù)”“數(shù)據(jù)與數(shù)據(jù)”三種。因此在進(jìn)行實(shí)際場(chǎng)景分析時(shí),將上述三種關(guān)系作為文章主要的應(yīng)用場(chǎng)景,利用數(shù)據(jù)血緣關(guān)系分別厘清三者之間的聯(lián)系,以及跟蹤、描述、可視化相互之間的關(guān)系,從而構(gòu)建“指標(biāo)-指標(biāo)”“指標(biāo)-數(shù)據(jù)”“數(shù)據(jù)-數(shù)據(jù)”三個(gè)具體的子需求場(chǎng)景。
公共文化資源服務(wù)效能評(píng)估指標(biāo)管理是一項(xiàng)系統(tǒng)性的工作,需要在開展數(shù)據(jù)血緣追蹤時(shí)進(jìn)行全程追蹤。按照工作流程,整個(gè)追蹤過程可以分為三個(gè)著力點(diǎn)。
“指標(biāo)-指標(biāo)”血緣關(guān)系追蹤,即指標(biāo)內(nèi)部追蹤,指在評(píng)估指標(biāo)體系內(nèi)部,針對(duì)指標(biāo)本身的設(shè)定和定義、層級(jí)劃分、合成方法、上下級(jí)隸屬關(guān)系所進(jìn)行的血緣關(guān)系追蹤,目的是記錄并確認(rèn)各指標(biāo)屬性,厘清不同指標(biāo)之間的關(guān)聯(lián)關(guān)系,以提高指標(biāo)的準(zhǔn)確性和可信度。
“指標(biāo)-數(shù)據(jù)”血緣關(guān)系追蹤,即數(shù)據(jù)到指標(biāo)轉(zhuǎn)換過程追蹤,指發(fā)生在原始數(shù)據(jù)轉(zhuǎn)化為有意義的指標(biāo)的過程中所進(jìn)行的血緣關(guān)系追蹤。在基于指標(biāo)量化考核的條件下,指標(biāo)數(shù)據(jù)無(wú)論是在來(lái)源、格式,還是在量綱、單位上都有所不同,可能會(huì)存在比較復(fù)雜的數(shù)據(jù)整合、標(biāo)準(zhǔn)化、計(jì)算、權(quán)重處理等一系列操作。將數(shù)據(jù)血緣追蹤技術(shù)應(yīng)用于這一過程,記錄和理解數(shù)據(jù)向指標(biāo)轉(zhuǎn)換的過程,可以有效發(fā)現(xiàn)和糾正數(shù)據(jù)到指標(biāo)轉(zhuǎn)換過程中可能存在的各種錯(cuò)誤,進(jìn)而提高轉(zhuǎn)換過程的可信度。
“數(shù)據(jù)-數(shù)據(jù)”血緣關(guān)系追蹤,即數(shù)據(jù)內(nèi)部追蹤,指發(fā)生在源數(shù)據(jù)采集、清洗、整合和標(biāo)準(zhǔn)化過程中所進(jìn)行的血緣關(guān)系追蹤。數(shù)據(jù)血緣追蹤的內(nèi)容主要包括數(shù)據(jù)來(lái)源、數(shù)據(jù)傳輸、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗和處理規(guī)則、數(shù)據(jù)變更歷史等,要實(shí)現(xiàn)對(duì)其過程的全面了解和掌握,可以幫助解決數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)合規(guī)性、故障排查等各種問題。
明確數(shù)據(jù)血緣管理在指標(biāo)管理中的具體需求和待追蹤的內(nèi)容后,文章提出了總體設(shè)計(jì)思路和技術(shù)方案,具體如圖1所示。按照流程劃分,數(shù)據(jù)血緣關(guān)系對(duì)公共文化資源服務(wù)效能評(píng)估指標(biāo)管理的構(gòu)建工作主要分為以下三個(gè)步驟。
圖1 數(shù)據(jù)血緣關(guān)系分析技術(shù)路線圖
指標(biāo)整理與數(shù)據(jù)采集。對(duì)服務(wù)效能評(píng)估指標(biāo)及相應(yīng)數(shù)據(jù)進(jìn)行收集和整理,其中公共文化資源服務(wù)效能評(píng)估指標(biāo)是一套專注于我國(guó)公共文化資源服務(wù)效能領(lǐng)域的評(píng)估指標(biāo),是國(guó)家圖書館于2019年承擔(dān)的國(guó)家重點(diǎn)研發(fā)計(jì)劃“公共文化資源服務(wù)效能評(píng)估及大數(shù)據(jù)智能分析平臺(tái)構(gòu)建研究”的研究成果之一。該評(píng)估指標(biāo)是一套具有三級(jí)架構(gòu)體系的指標(biāo)體系,各級(jí)指標(biāo)以標(biāo)準(zhǔn)指數(shù)的形式表示,包括資源、服務(wù)、質(zhì)量、影響力、效率、公平六大維度,主要針對(duì)全國(guó)各級(jí)公共圖書館、文化館、文化站,從績(jī)效、成效和共生性三個(gè)方面對(duì)公共文化資源服務(wù)效能進(jìn)行多層級(jí)復(fù)合評(píng)估。在源數(shù)據(jù)方面,指標(biāo)源數(shù)據(jù)來(lái)自文化和旅游部2018—2022年全國(guó)各級(jí)公共圖書館、文化館、文化站服務(wù)效能相關(guān)的統(tǒng)計(jì)數(shù)據(jù),以及應(yīng)用示范單位國(guó)家圖書館、江蘇省文化館和成都圖書館的日常業(yè)務(wù)數(shù)據(jù)。
細(xì)化子需求場(chǎng)景并確定具體任務(wù)。在需求場(chǎng)景分析的基礎(chǔ)上,細(xì)化各子需求的具體任務(wù),包括:①“指標(biāo)-指標(biāo)”血緣關(guān)系需求場(chǎng)景,指在評(píng)估指標(biāo)體系內(nèi)部追蹤、梳理、表達(dá)不同指標(biāo)之間的血緣關(guān)系,包括追蹤不同層級(jí)指標(biāo)之間的包含與被包含關(guān)系、上下級(jí)指標(biāo)之間的分解與合成方法、同層級(jí)指標(biāo)之間的關(guān)系等;②“指標(biāo)-數(shù)據(jù)”血緣關(guān)系需求場(chǎng)景,指的是指標(biāo)與數(shù)據(jù)之間的關(guān)系,包括指標(biāo)與數(shù)據(jù)的對(duì)應(yīng)、合成和變換關(guān)系,并記錄數(shù)據(jù)合成指標(biāo)的具體技術(shù)路徑;③“數(shù)據(jù)-數(shù)據(jù)”血緣關(guān)系需求場(chǎng)景,指不同數(shù)據(jù)之間的關(guān)系,包括追蹤不同層級(jí)數(shù)據(jù)之間的組合關(guān)系、轉(zhuǎn)換關(guān)系、隸屬關(guān)系等以及具體的轉(zhuǎn)換路徑。
研究并選擇數(shù)據(jù)血緣關(guān)系追蹤與表達(dá)的關(guān)鍵技術(shù)。針對(duì)評(píng)估指標(biāo)數(shù)據(jù)血緣關(guān)系追蹤、結(jié)構(gòu)化表達(dá)和可視化展示等重點(diǎn)問題,從構(gòu)建數(shù)據(jù)血緣關(guān)系模型、數(shù)據(jù)血緣關(guān)系結(jié)構(gòu)化表達(dá)和存儲(chǔ)、數(shù)據(jù)血緣關(guān)系可視化三個(gè)方面出發(fā),研究并實(shí)現(xiàn)適用于公共文化資源服務(wù)效能評(píng)估指標(biāo)管理與維護(hù)的關(guān)鍵技術(shù)和方法。
在明確了公共文化資源服務(wù)效能評(píng)估指標(biāo)管理數(shù)據(jù)血緣分析的總體設(shè)計(jì)與實(shí)現(xiàn)思路后,本節(jié)將重點(diǎn)關(guān)注具體實(shí)現(xiàn)的關(guān)鍵技術(shù),并就其目標(biāo)和實(shí)現(xiàn)任務(wù)進(jìn)行闡述。
在子需求場(chǎng)景分析及具體任務(wù)細(xì)化的基礎(chǔ)上,文章構(gòu)建的數(shù)據(jù)血緣關(guān)系模型主要有三部分,分別為“指標(biāo)-指標(biāo)”血緣關(guān)系、“指標(biāo)-數(shù)據(jù)”血緣關(guān)系、“數(shù)據(jù)-數(shù)據(jù)”血緣關(guān)系,如圖2所示。
圖2 數(shù)據(jù)血緣關(guān)系模型構(gòu)建示例圖
模型基本術(shù)語(yǔ)約定。為了對(duì)模型進(jìn)行準(zhǔn)確和標(biāo)準(zhǔn)的表述,文章對(duì)模型術(shù)語(yǔ)進(jìn)行了基本約定:①根據(jù)數(shù)據(jù)的傳輸和指標(biāo)的合成方向規(guī)定上下游方向,其中源數(shù)據(jù)方向?yàn)樯嫌?,指?biāo)方向?yàn)橄掠危掠螖?shù)據(jù)或指標(biāo)由上游數(shù)據(jù)或指標(biāo)衍生或派生;②不同層數(shù)據(jù)或指標(biāo)之間的關(guān)系為上下游關(guān)系,同層數(shù)據(jù)或指標(biāo)之間為平級(jí)關(guān)系;③當(dāng)處于平級(jí)關(guān)系的兩個(gè)數(shù)據(jù)或指標(biāo)共同決定一個(gè)下游數(shù)據(jù)或指標(biāo)時(shí),這兩個(gè)處于平級(jí)關(guān)系的數(shù)據(jù)或指標(biāo)之間形成“并行關(guān)系”。
“指標(biāo)-指標(biāo)”血緣關(guān)系。主要目的是在評(píng)估指標(biāo)內(nèi)部追蹤、梳理、表達(dá)不同指標(biāo)之間的血緣關(guān)系,包括兩部分的任務(wù):①追蹤不同層級(jí)指標(biāo)之間的分解與合成路徑。由于上下級(jí)數(shù)據(jù)或指標(biāo)之間存在衍生或派生關(guān)系,可以利用數(shù)據(jù)血緣關(guān)系追蹤和記錄不同層級(jí)指標(biāo)的隸屬關(guān)系,如圖2中“上游指標(biāo)”所示,以公平維度指數(shù)為例,該指數(shù)可以由指標(biāo)指數(shù)10和指標(biāo)指數(shù)11合并而成,故可以將公平維度指數(shù)定義為指標(biāo)指數(shù)10和指標(biāo)指數(shù)11的“下游指標(biāo)”,指標(biāo)指數(shù)10和指標(biāo)指數(shù)11則為公平維度指數(shù)的“上游指標(biāo)”。②記錄同層級(jí)指標(biāo)之間的關(guān)系。如圖2中“并行指標(biāo)”所示,以資源維度指數(shù)為例,資源維度指數(shù)的“上游指標(biāo)”是指標(biāo)指數(shù)1和指標(biāo)指數(shù)2,二者同在一個(gè)層級(jí)且共同決定資源維度指數(shù),因此在數(shù)據(jù)血緣關(guān)系追蹤時(shí)可將二者定義為“并行指標(biāo)”。
“指標(biāo)-數(shù)據(jù)”血緣關(guān)系。主要目的是追蹤、表達(dá)評(píng)估指標(biāo)集合與標(biāo)準(zhǔn)化數(shù)據(jù)之間的血緣關(guān)系。在評(píng)估過程中,由于數(shù)據(jù)量綱存在差異,其評(píng)估指標(biāo)一般會(huì)采用標(biāo)準(zhǔn)化指數(shù)[31]的形式,并按照浮動(dòng)權(quán)重修正基礎(chǔ)權(quán)重的方式合成多個(gè)不同的源數(shù)據(jù)[32]。因此,指標(biāo)與數(shù)據(jù)之間會(huì)存在比較復(fù)雜的關(guān)系,需要明確血緣關(guān)系追蹤的主要任務(wù),包括:①通過數(shù)據(jù)標(biāo)識(shí)在數(shù)據(jù)元素中添加標(biāo)記或標(biāo)識(shí)符,以標(biāo)記其來(lái)源和關(guān)聯(lián)關(guān)系;②建立和管理數(shù)據(jù)元數(shù)據(jù),使用元數(shù)據(jù)描述數(shù)據(jù)的血緣關(guān)系和依賴關(guān)系,包括指標(biāo)實(shí)體、數(shù)據(jù)實(shí)體、屬性、關(guān)系等要素。
“數(shù)據(jù)-數(shù)據(jù)”血緣關(guān)系。主要目的是追蹤源數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)之間的組合、隸屬、轉(zhuǎn)換關(guān)系,與“指標(biāo)-指標(biāo)”血緣關(guān)系模型相同,“數(shù)據(jù)-數(shù)據(jù)”血緣關(guān)系模型也同樣存在“上下游數(shù)據(jù)”和“并行數(shù)據(jù)”,與上下游指標(biāo)原理相同,故這里不再贅述。
對(duì)評(píng)估指標(biāo)的數(shù)據(jù)血緣追蹤,需要在指標(biāo)制定和數(shù)據(jù)采集的過程中,利用元數(shù)據(jù)管理、數(shù)據(jù)流分析和標(biāo)識(shí)等技術(shù),追蹤和記錄指標(biāo)合成和組合關(guān)系,指標(biāo)與數(shù)據(jù)之間的聯(lián)系,數(shù)據(jù)的來(lái)源、變換和使用情況等,以了解指標(biāo)與指標(biāo)之間、指標(biāo)與數(shù)據(jù)之間、數(shù)據(jù)與數(shù)據(jù)之間的血緣關(guān)系。
確定指標(biāo)的來(lái)源。主要確定該指標(biāo)的原始數(shù)據(jù)或計(jì)算方法。追蹤數(shù)據(jù)的流動(dòng)路徑和數(shù)據(jù)轉(zhuǎn)換過程可以確定指標(biāo)的來(lái)源,即該指標(biāo)是通過哪些數(shù)據(jù)對(duì)象計(jì)算得出以及采用了何種計(jì)算與處理方法。
跟蹤指標(biāo)的傳遞路徑。主要記錄指標(biāo)在數(shù)據(jù)分析過程中從一個(gè)數(shù)據(jù)對(duì)象傳遞到另一個(gè)數(shù)據(jù)對(duì)象的路徑。跟蹤指標(biāo)的傳遞路徑可以了解指標(biāo)在數(shù)據(jù)處理過程中的流動(dòng)情況以及數(shù)據(jù)對(duì)象之間的依賴關(guān)系。
跟蹤源數(shù)據(jù)的傳遞路徑。追蹤和記錄源數(shù)據(jù)的流動(dòng)路徑,以確定數(shù)據(jù)從原始來(lái)源到最終使用的路徑,即原始數(shù)據(jù)與標(biāo)準(zhǔn)化數(shù)據(jù)之間的轉(zhuǎn)換路徑。
為了能從數(shù)據(jù)血緣追蹤中識(shí)別出關(guān)鍵信息,全面記錄數(shù)據(jù)之間的血緣關(guān)系,文章結(jié)合公共文化資源服務(wù)效能評(píng)估指標(biāo)的具體情況,利用特征工程的思想[33]定義了不同的關(guān)鍵信息,作為數(shù)據(jù)血緣追蹤特征識(shí)別點(diǎn),并利用這些特征識(shí)別點(diǎn)記錄不同節(jié)點(diǎn)之間的血緣關(guān)系。
特征識(shí)別點(diǎn)建立。如表1所示,根據(jù)本次血緣分析的需求和已收集數(shù)據(jù)的情況,文章將節(jié)點(diǎn)類型、節(jié)點(diǎn)名稱、節(jié)點(diǎn)等級(jí)、父節(jié)點(diǎn)和子節(jié)點(diǎn)等關(guān)鍵信息作為特征識(shí)別點(diǎn),并以特征識(shí)別點(diǎn)為基點(diǎn),開展關(guān)鍵信息匹配和抽取工作,同時(shí)針對(duì)不同的數(shù)據(jù)結(jié)構(gòu)分別采取相應(yīng)的處理措施:①對(duì)于結(jié)構(gòu)化數(shù)據(jù),采用字段檢索的方式,從數(shù)據(jù)庫(kù)中檢索相應(yīng)的字段信息;②對(duì)于非結(jié)構(gòu)化的文本信息,采用文本處理技術(shù)中的正則表達(dá)式方法,搜索、匹配符合特征識(shí)別點(diǎn)的文本信息。
表1 數(shù)據(jù)血緣關(guān)系特征識(shí)別點(diǎn)及其說(shuō)明
特征識(shí)別點(diǎn)表達(dá)。在基于特征識(shí)別點(diǎn)的數(shù)據(jù)血緣關(guān)系表達(dá)上,目前已經(jīng)有包括數(shù)據(jù)血緣圖、表格形式、元數(shù)據(jù)模型、樹形結(jié)構(gòu)等在內(nèi)的多種形式,但為了便于組織和存儲(chǔ),能夠以接口的形式提供給下游任務(wù)使用,文章采用了基于JSON格式實(shí)現(xiàn)標(biāo)準(zhǔn)化數(shù)據(jù)血緣關(guān)系表達(dá)方式的方法。JSON格式是一種輕量級(jí)的數(shù)據(jù)交換格式,適用于數(shù)據(jù)的存儲(chǔ)和傳輸,戚越曾在其研究中提出基于JSON格式描述信息的思想,并闡明了該種數(shù)據(jù)格式的優(yōu)勢(shì)和可復(fù)用的框架產(chǎn)出[34]。如圖3所示,文章在進(jìn)行數(shù)據(jù)血緣關(guān)系的結(jié)構(gòu)化表達(dá)時(shí),也采用了同樣的方法,在建立數(shù)據(jù)血緣關(guān)系特征識(shí)別點(diǎn)的基礎(chǔ)上,將追蹤結(jié)果轉(zhuǎn)化為基于JSON格式的標(biāo)準(zhǔn)化數(shù)據(jù)。
圖3 數(shù)據(jù)血緣關(guān)系結(jié)構(gòu)化表達(dá)方法實(shí)例
可視化展示是將各種實(shí)體對(duì)象之間的依賴關(guān)系以圖形化的形式呈現(xiàn),以幫助用戶更好地理解和分析各種實(shí)體之間的關(guān)系[35]。文章采用可視化展示技術(shù),利用數(shù)據(jù)可視化工具(如Tableau、Power BI等)以指標(biāo)、數(shù)據(jù)、表為節(jié)點(diǎn),以依賴關(guān)系為邊,繪制了相應(yīng)的有向網(wǎng)絡(luò)圖,呈現(xiàn)指標(biāo)與指標(biāo)、指標(biāo)與數(shù)據(jù)、數(shù)據(jù)與數(shù)據(jù)之間的依賴關(guān)系,如圖4所示。該圖展現(xiàn)的是指標(biāo)“線上各類活動(dòng)指數(shù)”一脈的血緣關(guān)系圖譜,其中紅色節(jié)點(diǎn)為指標(biāo)實(shí)體對(duì)象,綠色節(jié)點(diǎn)為數(shù)據(jù)實(shí)體對(duì)象,藍(lán)色節(jié)點(diǎn)為表實(shí)體對(duì)象,邊及紅色標(biāo)簽內(nèi)容為相關(guān)聯(lián)節(jié)點(diǎn)之間的上下游順序和關(guān)聯(lián)關(guān)系,其中節(jié)點(diǎn)代號(hào)對(duì)應(yīng)的表名具體見表2。
表2 “線上各類活動(dòng)指數(shù)”一脈各節(jié)點(diǎn)PageRank值
圖4 “線上各類活動(dòng)指數(shù)”一脈血緣關(guān)系圖譜
此外,為了保證生成的有向圖節(jié)點(diǎn)不重疊且美觀,在繪制有向圖的過程中,筆者采用了Fruchterman-Reingold布局算法對(duì)節(jié)點(diǎn)進(jìn)行重新布局,保持節(jié)點(diǎn)之間的相對(duì)距離,使得圖形具有較好的可讀性。
在構(gòu)建公共文化服務(wù)效能評(píng)估指標(biāo)血緣關(guān)系庫(kù)的基礎(chǔ)上,利用數(shù)據(jù)血緣關(guān)系建立評(píng)估指標(biāo)字典是確保評(píng)估體系準(zhǔn)確性和可靠性的關(guān)鍵步驟,在分析指標(biāo)之間的依賴關(guān)系、確定指標(biāo)的數(shù)據(jù)來(lái)源、指導(dǎo)指標(biāo)的計(jì)算和更新、分析指標(biāo)的重要性和影響力方面具有重要作用。文章以公共文化資源服務(wù)效能評(píng)估指標(biāo)中的實(shí)際指標(biāo)和數(shù)據(jù)為例,具體闡述相關(guān)方法和數(shù)據(jù)血緣關(guān)系所發(fā)揮的作用。
分析指標(biāo)之間的依賴關(guān)系。數(shù)據(jù)血緣關(guān)系能夠揭示指標(biāo)與指標(biāo)、指標(biāo)與數(shù)據(jù)、數(shù)據(jù)與數(shù)據(jù)之間的依賴關(guān)系,即哪些指標(biāo)(或數(shù)據(jù))是其他指標(biāo)(或數(shù)據(jù))的前置條件或上級(jí)指標(biāo)(或數(shù)據(jù))。通過了解上下游之間的相互關(guān)聯(lián),可以確保指標(biāo)(或數(shù)據(jù))在評(píng)估體系中的合理性和一致性。例如指標(biāo)“線上各類活動(dòng)總次數(shù)”是由上游指標(biāo)“線上各類活動(dòng)指數(shù)”轉(zhuǎn)換而來(lái),因此可記為:“線上各類活動(dòng)指數(shù)線上各類活動(dòng)總數(shù)”。
確定指標(biāo)的數(shù)據(jù)來(lái)源。除了記錄指標(biāo)(或數(shù)據(jù))之間的依賴關(guān)系外,數(shù)據(jù)血緣關(guān)系還可以幫助識(shí)別各個(gè)指標(biāo)所需數(shù)據(jù)的原始來(lái)源,即該指標(biāo)是由哪些數(shù)據(jù)構(gòu)成的,其不僅有助于相關(guān)主體及時(shí)獲得數(shù)據(jù),確保數(shù)據(jù)的準(zhǔn)確性和實(shí)時(shí)性,還能使之更好地理解指標(biāo)的意義和適用范圍。如指標(biāo)“線上展覽次數(shù)”,通過血緣關(guān)系追蹤可以確認(rèn)其原始數(shù)據(jù)有四處來(lái)源,分別為文旅部年鑒、國(guó)家圖書館統(tǒng)計(jì)年鑒、成都市圖書館統(tǒng)計(jì)年鑒、江蘇省文化館提交的數(shù)據(jù),但考慮到效能評(píng)估的適用范圍,故選擇文旅部年鑒作為源數(shù)據(jù)。
指導(dǎo)指標(biāo)的計(jì)算和更新。通過了解指標(biāo)的計(jì)算方法和依賴關(guān)系,可以確定每個(gè)指標(biāo)的計(jì)算步驟和公式,并確保計(jì)算的準(zhǔn)確性和可重復(fù)性。如指標(biāo)“線上各類活動(dòng)指數(shù)”是由上游指標(biāo)“線上培訓(xùn)指數(shù)”“線上講座指數(shù)”“線上展覽指數(shù)”三個(gè)指標(biāo)利用綜合指數(shù)合成的方法計(jì)算合成,因此可記為:“線上培訓(xùn)指數(shù)+線上講座指數(shù)+線上展覽指數(shù)線上各類活動(dòng)指數(shù)”。
分析指標(biāo)的重要性和影響力。通過了解指標(biāo)之間的相互影響和依賴關(guān)系,可以識(shí)別哪些指標(biāo)可對(duì)評(píng)估結(jié)果產(chǎn)生較大的影響,從而優(yōu)先保障這些指標(biāo)的數(shù)據(jù)質(zhì)量和準(zhǔn)確性。文章在繪制評(píng)估指標(biāo)血緣關(guān)系圖譜的基礎(chǔ)上,通過計(jì)算PageRank值來(lái)測(cè)度節(jié)點(diǎn)的影響力,PageRank值越大說(shuō)明節(jié)點(diǎn)影響力越大[36-37]。以圖4中各節(jié)點(diǎn)為例,筆者計(jì)算了各節(jié)點(diǎn)的PageRank值(詳見表2),其中PageRank最大值為0.1243,對(duì)應(yīng)的節(jié)點(diǎn)為“線上各類活動(dòng)指數(shù)”。
文章從場(chǎng)景分析、技術(shù)路線設(shè)計(jì)、關(guān)鍵技術(shù)探析等多個(gè)方面進(jìn)行了闡述和分析,并嘗試?yán)弥笜?biāo)字典應(yīng)用實(shí)例來(lái)說(shuō)明數(shù)據(jù)血緣關(guān)系在指標(biāo)管理和數(shù)據(jù)治理中的作用。與公共文化機(jī)構(gòu)傳統(tǒng)的指標(biāo)管理不同,基于數(shù)據(jù)血緣關(guān)系的指標(biāo)管理具有多方面的優(yōu)勢(shì)。
保障數(shù)據(jù)準(zhǔn)確性。能夠追蹤和記錄數(shù)據(jù)的源頭、傳輸路徑和轉(zhuǎn)換過程,確保數(shù)據(jù)的準(zhǔn)確性和可信度。通過清晰地展示數(shù)據(jù)的來(lái)源和變換過程,可以減少數(shù)據(jù)錯(cuò)誤和偏差,提高評(píng)估指標(biāo)的精確性。在公共文化資源服務(wù)效能評(píng)估中,數(shù)據(jù)的準(zhǔn)確性對(duì)于準(zhǔn)確評(píng)估文化資源的利用情況和效能至關(guān)重要。記錄和追蹤數(shù)據(jù)血緣關(guān)系,可以及時(shí)發(fā)現(xiàn)數(shù)據(jù)的異常和錯(cuò)誤,并采取相應(yīng)措施,保障數(shù)據(jù)的可靠性。
建立指標(biāo)關(guān)聯(lián)關(guān)系。建立指標(biāo)之間的關(guān)聯(lián)鏈,能夠清晰地展示指標(biāo)之間的上下游關(guān)系。公共文化資源服務(wù)效能評(píng)估會(huì)涉及多個(gè)指標(biāo)的綜合評(píng)估,指標(biāo)之間的關(guān)聯(lián)關(guān)系對(duì)于全面把握文化資源效能至關(guān)重要。分析數(shù)據(jù)血緣關(guān)系,可以更全面地了解指標(biāo)之間的相互影響和依賴關(guān)系,有助于評(píng)估者深入理解指標(biāo)的本質(zhì)含義,并更準(zhǔn)確地評(píng)估文化資源的效能。
增強(qiáng)數(shù)據(jù)追溯與可追蹤性。能夠追溯數(shù)據(jù)的歷史流程和傳播路徑,實(shí)現(xiàn)數(shù)據(jù)的全程追蹤。公共文化資源服務(wù)效能評(píng)估需要對(duì)數(shù)據(jù)的來(lái)源和傳遞進(jìn)行追溯,以確保數(shù)據(jù)的可信度和真實(shí)性。記錄數(shù)據(jù)血緣關(guān)系可以快速定位數(shù)據(jù)的來(lái)源和變動(dòng)情況,實(shí)現(xiàn)數(shù)據(jù)的全面追溯。在數(shù)據(jù)出現(xiàn)問題時(shí),也可以及時(shí)追溯數(shù)據(jù)的源頭,找到問題的根本原因,有針對(duì)性地進(jìn)行糾正和改進(jìn)。
有助于數(shù)據(jù)治理和管理。數(shù)據(jù)血緣關(guān)系有助于實(shí)現(xiàn)對(duì)數(shù)據(jù)的全面掌控,進(jìn)而進(jìn)行數(shù)據(jù)治理和管理。公共文化資源服務(wù)效能評(píng)估指標(biāo)管理會(huì)涉及大量數(shù)據(jù)的整合和分析。分析數(shù)據(jù)血緣關(guān)系可以全面了解數(shù)據(jù)的更新、變動(dòng)和流轉(zhuǎn)情況,實(shí)現(xiàn)數(shù)據(jù)的規(guī)范化管理。數(shù)據(jù)血緣關(guān)系的建立和維護(hù),有助于對(duì)數(shù)據(jù)進(jìn)行有效的管理和監(jiān)控,確保數(shù)據(jù)的規(guī)范化和合規(guī)性。
綜上所述,雖然數(shù)據(jù)血緣關(guān)系在公共文化資源服務(wù)效能評(píng)估指標(biāo)管理中具有明顯的優(yōu)勢(shì),但其在實(shí)際應(yīng)用中也面臨著一些挑戰(zhàn)和不足,需要進(jìn)一步完善和優(yōu)化,例如數(shù)據(jù)血緣關(guān)系的建立和維護(hù)需要一定的資本和技術(shù)支持,同時(shí),數(shù)據(jù)血緣關(guān)系分析的復(fù)雜性也存在一定的挑戰(zhàn)。因此,在使用數(shù)據(jù)血緣關(guān)系進(jìn)行指標(biāo)管理時(shí),需要充分考慮這些因素,綜合利用其優(yōu)勢(shì)并克服其不足,以確保指標(biāo)管理的準(zhǔn)確性和有效性。