□何思龍
由于近幾年各項(xiàng)業(yè)務(wù)不斷發(fā)展,臺里內(nèi)部產(chǎn)生了大量的非結(jié)構(gòu)化數(shù)據(jù),類型主要包括圖片、音視頻、文檔數(shù)據(jù)、合同電子件等,這些數(shù)據(jù)分散保存在每個(gè)員工的辦公電腦、OA 系統(tǒng)及作為郵件附件保存在郵件服務(wù)器上,數(shù)據(jù)存儲太分散。在這種激增的非結(jié)構(gòu)化數(shù)據(jù)面前,數(shù)據(jù)管理中心應(yīng)運(yùn)而生,數(shù)據(jù)管理中心采用分布式架構(gòu),解決了數(shù)據(jù)存儲的容量問題、安全問題;通過權(quán)限分配、流程審核解決了數(shù)據(jù)的管理問題;通過分享管理、API 接口,解決了數(shù)據(jù)共享問題。
數(shù)據(jù)管理中心還提供了PC 客戶端、手機(jī)客戶端、Web客戶端,方便使用者隨時(shí)對數(shù)據(jù)進(jìn)行管理、分享。
(一)數(shù)據(jù)可視化。本系統(tǒng)采用可視化的視覺及操作設(shè)計(jì),實(shí)現(xiàn)了數(shù)據(jù)可視化、流程可視化、文件可視化以及人機(jī)交互工程。通過對上傳文件的信息,按路徑、文件類型、文件信息、時(shí)間信息等要素進(jìn)行存儲、分析、建立索引,形成基于文件目錄、文件分類、文件檢索為一體的立體多維可視化。同時(shí),系統(tǒng)針對不同情況下的需要,設(shè)計(jì)了按文件名、時(shí)間、大小和名稱解析的排序方式。
(二)擴(kuò)展性。本系統(tǒng)在各個(gè)層級都進(jìn)行了可擴(kuò)展性的支持:1.在文件系統(tǒng)層,采用了分布對象文件系統(tǒng),支持水平擴(kuò)容,性能不隨系統(tǒng)的擴(kuò)容而下降;2.數(shù)據(jù)庫支持水平擴(kuò)展;3.轉(zhuǎn)碼集群及搜索引擎均支持?jǐn)U展;4.在對外提供的應(yīng)用服務(wù)器中,支持無限制條件的服務(wù)器擴(kuò)展。因此面對不斷增長的控件與計(jì)算需求,系統(tǒng)都可通過擴(kuò)容擴(kuò)展的方式進(jìn)行滿足。
(三)安全性。整個(gè)系統(tǒng)節(jié)點(diǎn)采用全冗余硬件架構(gòu)設(shè)計(jì)(風(fēng)扇、電源),包含掉電保護(hù)模塊,數(shù)據(jù)的安全策略均采用1 比1 備份方式,系統(tǒng)的單節(jié)點(diǎn)安全性相當(dāng)高。系統(tǒng)的文件底層采用了糾刪碼策略,即使有硬盤或服務(wù)器出現(xiàn)損壞,也能通過該策略恢復(fù)。在數(shù)據(jù)庫上采用了雙機(jī)熱備的形式,以保證數(shù)據(jù)的安全性,在丟失和損壞的情況下亦能回復(fù)。在通信方面采用身份認(rèn)證的方式,確保數(shù)據(jù)訪問的安全性。
(四)可靠性。 本系統(tǒng)由多個(gè)節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)均可提供獨(dú)立的服務(wù),在使用過程中,即使有節(jié)點(diǎn)因?yàn)榉N種原因產(chǎn)生故障,也不會影響系統(tǒng)的整體使用。當(dāng)故障排除后,重啟節(jié)點(diǎn),故障節(jié)點(diǎn)又會重新加入節(jié)點(diǎn)集群中。
(五)易用性。本系統(tǒng)在設(shè)計(jì)上以易用性為重要考慮方向,在功能設(shè)計(jì)及使用操作上,采用了接近桌面系統(tǒng)的設(shè)計(jì)模式,減少學(xué)習(xí)成本,增快上手時(shí)間。同時(shí),為滿足用戶基于不同終端的訪問需求,系統(tǒng)研發(fā)了WEB 網(wǎng)頁端、WINDOWS PC 程序端、安卓 APP 端及 IOS APP 端,最大程度滿足用戶在不同使用環(huán)境下的訪問需求。
在邏輯架構(gòu)上,廣西廣播電視臺數(shù)據(jù)管理系統(tǒng)主要由文件管理、權(quán)限管理、轉(zhuǎn)碼模塊、流程引擎、搜索引擎、日志模塊分組成。系統(tǒng)采用B/S 架構(gòu)完全建立了以上六個(gè)模塊,同時(shí)采用C/S 模式構(gòu)建了文件管理、轉(zhuǎn)碼模塊、流程引擎、搜索引擎,利用不同架構(gòu)的優(yōu)勢,滿足用戶不同終端的需求,各個(gè)模塊之間具有穩(wěn)定、易用、易維護(hù)等特性。在數(shù)據(jù)存儲上,同時(shí)使用結(jié)構(gòu)化數(shù)據(jù)庫和非結(jié)構(gòu)化數(shù)據(jù)庫,利用彼此的優(yōu)點(diǎn)構(gòu)建安全、高效的數(shù)據(jù)架構(gòu)。數(shù)據(jù)傳輸上,則采用RESTFUL 構(gòu)建接口,使用JSON 數(shù)據(jù)格式進(jìn)行傳輸,接口應(yīng)用于各個(gè)終端數(shù)據(jù)交互。
(一)文件管理模塊。 本系統(tǒng)可建立公共空間,實(shí)現(xiàn)數(shù)據(jù)隔離。建立文件夾,實(shí)現(xiàn)路徑管理。統(tǒng)配備文件特征識別模塊,開啟后可對進(jìn)入系統(tǒng)的文件進(jìn)行類型識別及過濾識別。系統(tǒng)同時(shí)支持編目模板配置,幫助文件管理員對文件進(jìn)行編目管理。此外,系統(tǒng)還可以通過智能目錄對文件文件夾進(jìn)行編目,通過對構(gòu)建條件的選擇和排序,可以根據(jù)需求生成各種規(guī)則及路徑的臨時(shí)目錄,并重組目錄中的文件。系統(tǒng)的文件管理模塊中還提供了文件的在線預(yù)覽功能,使用戶無需下載文件即可在線瀏覽文件。
(二)權(quán)限管理模塊。系統(tǒng)通過四層權(quán)限體系對用戶進(jìn)行權(quán)限管理,實(shí)現(xiàn)了權(quán)限管理的安全性與易用性:第一層是媒資空間外層權(quán)限,確保僅有媒資空間內(nèi)的人員才可訪問文件;第二層是媒資空間內(nèi)部權(quán)限,該權(quán)限由管理員指定,可為不同的人員、角色分配不同權(quán)限,人員角色之間權(quán)限會進(jìn)行疊加;第三是個(gè)人隱私權(quán)限,確保用戶自己的文件不被別人訪問;第四層是分享權(quán)限,通過加密的分享,打通以上三個(gè)層面的權(quán)限閉環(huán),允許將各個(gè)層面的訪問使用權(quán)限臨時(shí)分配給無權(quán)限人員。而在系統(tǒng)的管理上采用了兩種權(quán)限劃分:業(yè)務(wù)管理及系統(tǒng)管理權(quán)限。業(yè)務(wù)管理權(quán)限負(fù)責(zé)管理系統(tǒng)的日常維護(hù),如機(jī)構(gòu)、機(jī)構(gòu)、空間、轉(zhuǎn)碼配置的管理維護(hù)等;系統(tǒng)管理權(quán)限則負(fù)責(zé)對整個(gè)系統(tǒng)的控件、容量、文件特征、內(nèi)外網(wǎng)控制等進(jìn)行管理維護(hù)。
(三)流程引擎。流程引擎模塊應(yīng)用于流程的發(fā)起和審批,流程環(huán)節(jié)采用配置方式,可根據(jù)需求修改。流程引擎支持角色化配置,人員與角色脫離,增加了冗余性,同時(shí)在流程步驟中獨(dú)特地開創(chuàng)了并聯(lián)式審批及串聯(lián)式審批,靈活度大大提高。流程引擎可分空間布置,不同的空間擁有自己獨(dú)立的流程引擎模塊。
(四)轉(zhuǎn)碼模塊。轉(zhuǎn)碼模塊是由轉(zhuǎn)碼集群及消息隊(duì)列構(gòu)成,是對上傳文件進(jìn)行離線轉(zhuǎn)碼,從而支持跨終端的在線瀏覽以及離線文件處理。轉(zhuǎn)碼任務(wù)由系統(tǒng)根據(jù)用戶的請求或是系統(tǒng)對文件的類型判別自動生成,任務(wù)生成后加入消息隊(duì)列,以確保轉(zhuǎn)碼任務(wù)的可靠性與公平性。轉(zhuǎn)碼集群可以由N 轉(zhuǎn)碼機(jī)器組成,每臺機(jī)器可根據(jù)自身的配置情況進(jìn)行N 種轉(zhuǎn)碼任務(wù)執(zhí)行,轉(zhuǎn)碼集群從消息隊(duì)列中獲取任務(wù),并執(zhí)行轉(zhuǎn)碼任務(wù),到完成前會一直提交任務(wù)的完成進(jìn)度。轉(zhuǎn)碼集群支持水平擴(kuò)展,可滿足不斷擴(kuò)張的算力需求。系統(tǒng)目前支持圖片、音頻、視頻、文本的轉(zhuǎn)碼,其中視頻還支持了抽幀、打點(diǎn)、合并、轉(zhuǎn)碼等功能。
(五)搜索引擎。搜索引擎是數(shù)據(jù)管理中心的核心模塊之一,系統(tǒng)會將收集到的數(shù)據(jù)初步識別和處理后,傳輸給搜索引擎服務(wù)器,搜索引擎則為這些數(shù)據(jù)建立索引,向用戶提供文件管理服務(wù)。目前搜索引擎支持多種維度檢索,包括:名稱檢索、大小檢索、創(chuàng)建日期檢索、編目檢索及編目二次過濾。通過對檢索出的文件進(jìn)行預(yù)覽、編輯、分享、刪除、打開所在位置等,從而滿足各種數(shù)據(jù)檢索需求。
(六)日志模塊。用戶在空間所進(jìn)行的大部分操作都會留下日志記錄,僅有空間的管理員以上權(quán)限可進(jìn)行日志查詢,日志記模塊僅增強(qiáng)了空間使用規(guī)范性,還可通過日志模塊刪除文件恢復(fù)的功能,將誤刪或惡意刪除的文件恢復(fù),大大增強(qiáng)了空間的安全性。
(一)基于路徑和編目的智能目錄。系統(tǒng)可以將任意文件夾進(jìn)行智能目錄視圖轉(zhuǎn)換,轉(zhuǎn)換智能目錄視圖后,系統(tǒng)會對該目錄下的所有文件夾及文件進(jìn)行分析,提取其中的關(guān)鍵屬性,組成視圖的組成參數(shù),用戶可對這些參數(shù)進(jìn)行不同順序的選擇和組合,生成各種臨時(shí)路徑視圖。不同用戶面對同一目錄,可建立不同的智能目錄視圖,如圖所示。
(二)高效文件索引數(shù)據(jù)庫。 系統(tǒng)沒有用傳統(tǒng)的數(shù)據(jù)庫方式來建立數(shù)據(jù)的索引,因?yàn)閿?shù)據(jù)庫的字表結(jié)構(gòu)固定不易擴(kuò)展,非結(jié)構(gòu)化數(shù)據(jù)的超大數(shù)據(jù)規(guī)模更適合Hash 表 K/V 索引。系統(tǒng)匯總集成了智能搜索引擎,它主要實(shí)現(xiàn)信息采集、處理、檢索功能;結(jié)合分布式對象存儲的無限屬性的特性,可以靈活地實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的高維檢索、復(fù)雜條件檢索、模糊搜索、范圍搜索等功能,并且具備搜索結(jié)果分類、檢索摘要等功能為用戶提供體驗(yàn)更好、相關(guān)性和準(zhǔn)確度更高的結(jié)果。
(三)無限級編目。系統(tǒng)中允許用戶設(shè)定無限層級的編目,并可組裝中模板。與其他系統(tǒng)的編目相比,該編目具有極大的靈活性,可構(gòu)建與層級、重復(fù)度無關(guān)的編目;編目支持多種常用空間;極具特色的編目組建方式十分方便,同時(shí)可以滿足各種不通需求的編目結(jié)構(gòu)。
(四)轉(zhuǎn)碼集群。系統(tǒng)的轉(zhuǎn)碼集群自研而成,支持圖片、視頻、文本、音頻的離線處理及轉(zhuǎn)碼。該集群采用微服務(wù)架構(gòu),可根據(jù)不同機(jī)器啟用不同的轉(zhuǎn)碼服務(wù),最大限度利用配置高低不同的機(jī)器。該集群還支持?jǐn)U展,當(dāng)算力不足時(shí),可無縫添加機(jī)器加入轉(zhuǎn)碼集群。