亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隱私保護(hù)的高校大數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)

        2024-01-24 09:34:14姚莉娟廖冬琴
        無(wú)線互聯(lián)科技 2023年23期
        關(guān)鍵詞:數(shù)據(jù)挖掘模板校園

        姚莉娟,廖冬琴

        (成都紡織高等??茖W(xué)校,四川 成都 611731)

        0 引 言

        隨著近年校園信息化的巨大發(fā)展[1-2],高校信息化工作由硬件建設(shè)轉(zhuǎn)移到對(duì)數(shù)據(jù)的利用和發(fā)掘方向。當(dāng)前,各相關(guān)職能部門的一個(gè)工作方向就是探索高校大數(shù)據(jù)的分析與應(yīng)用。在大數(shù)據(jù)挖掘、分析、共享和開放的過(guò)程中,個(gè)人隱私數(shù)據(jù)泄露與實(shí)用化之間存在的較大矛盾也逐步顯現(xiàn)[3-4]。因此,這對(duì)校園大數(shù)據(jù)使用的隱私保護(hù)提出了迫切需求[5]。

        本文基于本校信息化數(shù)字化的實(shí)踐,以推動(dòng)校園大數(shù)據(jù)挖掘應(yīng)用為目標(biāo)。本文在分析校園教、學(xué)、食、住和行等各參與方對(duì)大數(shù)據(jù)應(yīng)用需求的基礎(chǔ)上,基于微服務(wù)結(jié)構(gòu),設(shè)計(jì)并實(shí)現(xiàn)了基于隱私保護(hù)的高校大數(shù)據(jù)挖掘平臺(tái)。

        1 基于校園大數(shù)據(jù)挖掘平臺(tái)的需求分析

        校園包括教學(xué)、后勤等各個(gè)部門。各部門的歷史數(shù)據(jù)量雖不是非常龐大,但數(shù)據(jù)收集整理和再處理都是各自為政。部門數(shù)據(jù)采集方式也很多樣,各個(gè)數(shù)據(jù)采集的核心思想和應(yīng)用目標(biāo)也各不相同。以上情況嚴(yán)重妨礙了對(duì)信息進(jìn)行進(jìn)一步綜合和分析的嘗試[6]。在新一期的智慧校園的建設(shè)中,筆者所在學(xué)校圖信中心著力將各部門的數(shù)據(jù)進(jìn)行了互聯(lián)互通,以信息中心為平臺(tái),重點(diǎn)進(jìn)行了各部門關(guān)鍵信息的映射[7]。該平臺(tái)的建設(shè)不僅為進(jìn)一步對(duì)社交類信息、媒體類信息、教育信息等進(jìn)行有效處理提供了可能,而且為提升校園大數(shù)據(jù)挖掘技術(shù)的應(yīng)用和管理水平提供了有力支撐。筆者對(duì)所在學(xué)校大數(shù)據(jù)需求進(jìn)行了詳細(xì)調(diào)研,得到了以下主要特點(diǎn)。

        1.1 應(yīng)用目標(biāo)差異大

        大數(shù)據(jù)和人工智能結(jié)合加速了知識(shí)的積累和推演,推動(dòng)了數(shù)據(jù)分析從經(jīng)驗(yàn)性定性分析逐步向科學(xué)性定量檢測(cè)轉(zhuǎn)變??陀^且量化的技術(shù)手段已在許多領(lǐng)域廣泛應(yīng)用,并將其得到的分析結(jié)果廣泛運(yùn)用于指導(dǎo)管理實(shí)踐,顯著提升了數(shù)據(jù)應(yīng)用水平。然而,眾所周知,由于數(shù)據(jù)分析和歸納必須依賴數(shù)據(jù)分析與管理人員的經(jīng)驗(yàn)和主觀判斷,數(shù)據(jù)建模水平一直以來(lái)都是信息挖掘和利用的瓶頸。因此,校園大數(shù)據(jù)挖掘平臺(tái)備受各方關(guān)注。

        各方所關(guān)注的數(shù)據(jù)集和數(shù)據(jù)粒度都有極大的差異。例如:教務(wù)部門關(guān)注學(xué)生學(xué)習(xí)質(zhì)量的指標(biāo)和教學(xué)質(zhì)量方面的數(shù)據(jù)挖掘;授課教師關(guān)注學(xué)生學(xué)習(xí)情況和知識(shí)點(diǎn)上的反饋;宿管則著眼于如何通過(guò)數(shù)據(jù)提供節(jié)能減耗方面的建議;后勤部門則專注于餐食預(yù)估和人員預(yù)測(cè)、安排等。因此,在建設(shè)平臺(tái)時(shí),研究者需要考慮如何科學(xué)性地進(jìn)行數(shù)據(jù)建模和算法實(shí)現(xiàn)。

        1.2 數(shù)據(jù)模型自定義程度高

        各參與方提出了不同的業(yè)務(wù)場(chǎng)景模型需求。不同業(yè)務(wù)場(chǎng)景模型對(duì)于數(shù)據(jù)集提出了各自獨(dú)特的定義。隨著實(shí)驗(yàn)平臺(tái)實(shí)驗(yàn)的深入,數(shù)據(jù)模型的數(shù)量會(huì)急劇增加。因此,在設(shè)計(jì)時(shí),平臺(tái)需要實(shí)現(xiàn)用戶可定義的數(shù)據(jù)抽取與清洗工作,以支撐不同的上層應(yīng)用。此外,消費(fèi)者通常使用含有時(shí)間戳的流式數(shù)據(jù),因此也需要解決在多指標(biāo)、復(fù)雜組合指標(biāo)情況下的增量計(jì)算問(wèn)題。綜上所述,建設(shè)平臺(tái)時(shí),開發(fā)者需要考慮復(fù)雜的模型資源分配,減少資源消耗并提高模型管理效率[8]。

        1.3 隱私泄露風(fēng)險(xiǎn)很高

        在未接入信息平臺(tái)之前,這些數(shù)據(jù)的使用僅限于特定部門。隨著數(shù)據(jù)聚合到信息中心,各參與方都希望從這海量的數(shù)據(jù)中發(fā)現(xiàn)有用信息。雖然多方參與其中可以充分激發(fā)數(shù)據(jù)的價(jià)值,但開放的使用環(huán)境也增加了隱私數(shù)據(jù)泄露風(fēng)險(xiǎn)。當(dāng)前的應(yīng)用中,數(shù)據(jù)源主要是通過(guò)采用數(shù)據(jù)脫敏、匿名化、假名化以及樣本化等方法在盡量保持原有數(shù)據(jù)的統(tǒng)計(jì)特征的基礎(chǔ)上保護(hù)個(gè)體隱私,并且通過(guò)泛化和隱匿等匿名算法平衡匿名處理后的數(shù)據(jù)精確度和數(shù)據(jù)分析的準(zhǔn)確度,為共享數(shù)據(jù)下的隱私保護(hù)提供了可能性。

        校園發(fā)布的數(shù)據(jù)集主要分2種情況:(1)結(jié)構(gòu)化關(guān)系型數(shù)據(jù)集。該類數(shù)據(jù)集發(fā)布時(shí)面臨的攻擊,Rocher[9]進(jìn)行了廣泛研究。(2)消費(fèi)數(shù)據(jù)、位置信息等時(shí)間序列或者位置序列的數(shù)據(jù)集。該類數(shù)據(jù)集的連續(xù)發(fā)布增加了更多的安全隱患,會(huì)導(dǎo)致個(gè)人隱私信息的泄漏。對(duì)該類數(shù)據(jù)集的隱私保護(hù)是當(dāng)前研究和實(shí)踐中備受關(guān)注的課題。

        校園大數(shù)據(jù)挖掘分析平臺(tái)是數(shù)據(jù)進(jìn)一步深化應(yīng)用的基礎(chǔ)和核心。平臺(tái)的建設(shè)涉及如數(shù)據(jù)授權(quán)、參與方反饋、模型資源分配和管理等各個(gè)方面。建設(shè)和實(shí)施過(guò)程中所提供的思路和數(shù)據(jù)模型,能夠有效提高數(shù)據(jù)保護(hù)和分析效率。

        2 基于隱私保護(hù)的校園大數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)

        2.1 基于微服務(wù)的系統(tǒng)設(shè)計(jì)

        為了滿足上述需求,本文采用微服務(wù)框架設(shè)計(jì)了大數(shù)據(jù)挖掘平臺(tái)[10],并利用成熟的SpringBoot進(jìn)行搭建。SpringBoot采用注釋標(biāo)簽進(jìn)行自動(dòng)配置,為平臺(tái)帶來(lái)了極大的靈活性。大數(shù)據(jù)處理算法組件和隱私處理組件采用Python大數(shù)據(jù)處理的相關(guān)算法庫(kù)實(shí)現(xiàn)。依靠Python豐富的算法庫(kù),為平臺(tái)帶來(lái)了極大的實(shí)用性。系統(tǒng)邏輯如圖1所示。

        圖1 基于隱私保護(hù)的高校大數(shù)據(jù)挖掘平臺(tái)系統(tǒng)

        系統(tǒng)由基礎(chǔ)設(shè)施層、公共技術(shù)層、服務(wù)層和展示層組成。

        服務(wù)層是本系統(tǒng)的核心部分,包含了微服務(wù)的網(wǎng)關(guān)和2個(gè)基本的微服務(wù)集合(業(yè)務(wù)中臺(tái)及數(shù)據(jù)中臺(tái))。為了簡(jiǎn)化設(shè)計(jì),本平臺(tái)將監(jiān)控和統(tǒng)一配置放置在服務(wù)層。網(wǎng)關(guān)通過(guò)發(fā)現(xiàn)和注冊(cè)機(jī)制將微服務(wù)接入系統(tǒng)。數(shù)據(jù)中臺(tái)包括數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)簽以及數(shù)據(jù)的公共算法。數(shù)據(jù)中臺(tái)具有很強(qiáng)擴(kuò)展性,可以根據(jù)系統(tǒng)應(yīng)用的深化增加這些公共的數(shù)據(jù)模型以增加系統(tǒng)的業(yè)務(wù)處理能力。業(yè)務(wù)中臺(tái)包括用戶管理、會(huì)話管理、任務(wù)管理和報(bào)表等微服務(wù)。大數(shù)據(jù)挖掘過(guò)程非常消耗時(shí)間和資源。為了提高用戶體驗(yàn),本平臺(tái)將挖掘任務(wù)以批處理的方式獨(dú)立運(yùn)行于系統(tǒng)后臺(tái),由業(yè)務(wù)中臺(tái)的會(huì)話組件和任務(wù)組件進(jìn)行管理。

        公共技術(shù)層包括業(yè)務(wù)系統(tǒng)必備的消息總線、搜索服務(wù)和代碼生成等功能?;赑ython的大數(shù)據(jù)挖掘基礎(chǔ)庫(kù)(scikit-learn),平臺(tái)提供了各種基礎(chǔ)算法?;诖?用戶可以將其裝配成需要的數(shù)據(jù)處理流。隱私處理以透明的方式嵌入數(shù)據(jù)處理流程,以確保在非授權(quán)情況下隱私安全得到保障,而在授權(quán)情況下應(yīng)用能夠保持一定的實(shí)用性。

        基礎(chǔ)設(shè)施層包括必備的數(shù)據(jù)暫存和緩存,以及與其他業(yè)務(wù)(教務(wù)、財(cái)務(wù)、學(xué)工等)數(shù)據(jù)系統(tǒng)無(wú)縫對(duì)接的透明接口。

        2.2 基于信息隱藏的隱私處理組件設(shè)計(jì)

        目前,對(duì)校園普遍存在的結(jié)構(gòu)化類型數(shù)據(jù)發(fā)布,本平臺(tái)根據(jù)數(shù)據(jù)結(jié)構(gòu)類型采用相應(yīng)的匿名模型(包括k-匿名模型、l-多樣性模型、t-近似模型以及個(gè)性化匿名模型)。這些匿名模型的基本處理流程是對(duì)結(jié)構(gòu)化數(shù)據(jù)中能確定實(shí)體身份的屬性集進(jìn)行求解,將數(shù)據(jù)分為直接標(biāo)識(shí)屬性、準(zhǔn)標(biāo)識(shí)符[11]、敏感屬性。本平臺(tái)不僅對(duì)實(shí)體的隱私信息數(shù)據(jù)進(jìn)行匿名化,同時(shí)還對(duì)提供確定實(shí)體身份的數(shù)據(jù)(包括顯示標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符)進(jìn)行了泛化保護(hù)。

        對(duì)于隨時(shí)間推移而形成的數(shù)據(jù)序列(如消費(fèi)數(shù)據(jù)等),本平臺(tái)的處理流程是將連續(xù)發(fā)布的數(shù)據(jù)視為多個(gè)靜態(tài)數(shù)據(jù)集,然后在這些數(shù)據(jù)集上應(yīng)用隱私模型來(lái)處理。同時(shí),為了進(jìn)一步提高隱私保護(hù)的性能,還基于數(shù)據(jù)集間的時(shí)序關(guān)系,對(duì)傳統(tǒng)匿名算法的參數(shù)進(jìn)行了動(dòng)態(tài)調(diào)整。

        通過(guò)對(duì)大數(shù)據(jù)挖掘平臺(tái)最終用戶的需求研究發(fā)現(xiàn),主要有3種需求:(1)大數(shù)據(jù)發(fā)布方期望組件的輸出應(yīng)用到各個(gè)數(shù)據(jù)發(fā)布和挖掘場(chǎng)景的時(shí)候,未授權(quán)的數(shù)據(jù)使用者只能獲得部分統(tǒng)計(jì)特性,無(wú)法識(shí)別到具體的“記錄”,以避免隱私泄露。(2)授權(quán)的數(shù)據(jù)使用方期望能夠獲得一些統(tǒng)計(jì)特性,不需要識(shí)別到具體的記錄,以避免隱私泄露。(3)授權(quán)的數(shù)據(jù)使用方期望能夠識(shí)別到具體的“記錄”,以提供一定的實(shí)用性。本系統(tǒng)設(shè)計(jì)了專用的隱私處理組件,以滿足兼顧匿名和實(shí)用性的需求。在組件設(shè)計(jì)中,將信息隱藏和匿名化相結(jié)合,系統(tǒng)中的數(shù)據(jù)隱私處理過(guò)程如圖2所示。

        圖2 隱私處理組件模型結(jié)構(gòu)

        圖中屬性分類模塊處理原始數(shù)據(jù)并形成隱私保護(hù)模型。為了簡(jiǎn)化算法并結(jié)合本平臺(tái)實(shí)際,將原始數(shù)據(jù)分為2類,包括交易類型數(shù)據(jù)和非交易類型數(shù)據(jù)。非交易類型數(shù)據(jù)處理流程:算法先對(duì)標(biāo)識(shí)屬性列、隱私屬性列進(jìn)行標(biāo)注,而其他列采用Nikolai[12]的方法(通過(guò)對(duì)屬性列組合值的統(tǒng)計(jì),獲得候選列組合集中的分組條目數(shù),最后將標(biāo)識(shí)出的最大部分唯一列組合作為準(zhǔn)標(biāo)識(shí)符)。交易類數(shù)據(jù)處理流程:由于消費(fèi)、門禁等均為時(shí)間序列數(shù)據(jù),卡ID為標(biāo)識(shí)屬性列。所有數(shù)據(jù)中的列設(shè)備ID、交易時(shí)間、交易金額等做部分隱匿處理。

        由圖中可看出:數(shù)據(jù)發(fā)布由以下幾個(gè)步驟組成(如圖2中的 ①):(1)平臺(tái)根據(jù)數(shù)據(jù)發(fā)布方使用場(chǎng)景及安全需求,為每一個(gè)結(jié)構(gòu)化數(shù)據(jù)列定義敏感標(biāo)識(shí)(包括標(biāo)識(shí)屬性、隱私屬性、敏感屬性、非敏感屬性)。(2)平臺(tái)構(gòu)建數(shù)據(jù)集字典,對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行預(yù)處理。(3)平臺(tái)屬性分類模塊分析出準(zhǔn)標(biāo)識(shí)屬性,保存到隱私保護(hù)模型中。

        當(dāng)用戶發(fā)起的大數(shù)據(jù)處理任務(wù)完成后,平臺(tái)將形成處理結(jié)果集。平臺(tái)將處理結(jié)果集再進(jìn)行一次隱私處理形成最終處理結(jié)果集(如圖2中的 ②和 ③):(1)屬性分類模塊分析處理結(jié)果合集,利用上述方法分析出準(zhǔn)標(biāo)識(shí)屬性,保存到隱私保護(hù)模型中。(2)信息隱藏模塊利用屬性分類模塊得到的敏感級(jí)別對(duì)相應(yīng)字段進(jìn)行脫敏和泛化處理,然后輸出最終處理結(jié)果集。其中,信息隱藏模塊和用戶會(huì)話信息相關(guān)聯(lián),可以通過(guò)權(quán)限管理對(duì)最后輸出的最終處理結(jié)果集的安全級(jí)別進(jìn)行操作。

        2.3 基于模板的數(shù)據(jù)挖掘輔助工具

        在進(jìn)行大數(shù)據(jù)的分析中,數(shù)據(jù)使用方必須具備必要的專業(yè)知識(shí),包括數(shù)理統(tǒng)計(jì)、計(jì)算機(jī)編程、人工智能和機(jī)器學(xué)習(xí)算法(邏輯回歸、決策樹等)。數(shù)據(jù)使用方還必須熟悉一系列的需求分析、數(shù)學(xué)建模、結(jié)果分析等流程及相關(guān)專業(yè)的工具。這對(duì)用戶單位提出了非常高的要求,現(xiàn)階段難以達(dá)到。因此,為了降低用戶使用門檻,本平臺(tái)初步構(gòu)建了一個(gè)基于模板的數(shù)據(jù)挖掘輔助工具。該模塊的目標(biāo)是基于對(duì)數(shù)據(jù)挖掘的結(jié)果和實(shí)際業(yè)務(wù)需求的案例,數(shù)據(jù)處理模板引導(dǎo)用戶提出需求,建立處理流程,并逐步實(shí)現(xiàn)真正的業(yè)務(wù)價(jià)值。數(shù)據(jù)挖掘模板建立流程如圖3所示。

        圖3 數(shù)據(jù)挖掘模板建立流程

        (1)需求調(diào)研階段:平臺(tái)將系統(tǒng)數(shù)據(jù)來(lái)源、類型等描述信息進(jìn)行網(wǎng)絡(luò)發(fā)布。

        (2)需求確認(rèn)階段:設(shè)計(jì)人員通過(guò)收集應(yīng)用方的業(yè)務(wù)需求和問(wèn)題,經(jīng)過(guò)深入分析、討論和確認(rèn)后,制定一個(gè)詳盡且可達(dá)成的方案。設(shè)計(jì)人員將數(shù)據(jù)挖掘的目標(biāo)進(jìn)行拆分并構(gòu)建各子目標(biāo)。

        (3)分析階段:分析人員對(duì)收集的數(shù)據(jù)做初步分析,包括識(shí)別數(shù)據(jù)質(zhì)量問(wèn)題、去除噪聲或不完整的數(shù)據(jù)等,以提高數(shù)據(jù)預(yù)處理的效率。分析人員進(jìn)一步探索清洗后的數(shù)據(jù),通過(guò)繪制圖表、計(jì)算特征量等手段發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律,為后續(xù)的數(shù)據(jù)建模提供基礎(chǔ)。

        (4)建模實(shí)施階段:建模人員選擇合適的數(shù)據(jù)模型進(jìn)行建模,并對(duì)模型進(jìn)行評(píng)估、優(yōu)化。在模型評(píng)估完成之后,程序設(shè)計(jì)人員將模型部署到實(shí)際應(yīng)用中。

        (5)模板部署階段:在這個(gè)過(guò)程中,程序設(shè)計(jì)人員抽取模型的參數(shù)設(shè)置、輸入輸出數(shù)據(jù)規(guī)范等問(wèn)題,以形成大數(shù)據(jù)挖掘模板。數(shù)據(jù)分析人員進(jìn)一步提煉高級(jí)的模板,并在實(shí)際應(yīng)用中持續(xù)對(duì)模型進(jìn)行監(jiān)控和優(yōu)化。

        在建立數(shù)據(jù)挖掘模板的過(guò)程中,多個(gè)崗位工作人員配合不斷實(shí)踐和迭代是十分關(guān)鍵的。只有在反復(fù)的實(shí)際應(yīng)用中,多方互相配合才能完善數(shù)據(jù)挖掘模板。同時(shí),建立數(shù)據(jù)挖掘模板并非一勞永逸的,需要根據(jù)實(shí)際情況進(jìn)行不斷調(diào)整和優(yōu)化。

        3 結(jié)語(yǔ)

        為了推動(dòng)校園大數(shù)據(jù)應(yīng)用,本文基于隱私保護(hù),采用微服務(wù)構(gòu)架設(shè)計(jì)和實(shí)現(xiàn)了一種滿足隱私保護(hù)的高校大數(shù)據(jù)挖掘平臺(tái)。實(shí)驗(yàn)證明,數(shù)據(jù)挖掘輔助模板可以增強(qiáng)大數(shù)據(jù)信息化的實(shí)用性,并為深度應(yīng)用提供參考。在實(shí)驗(yàn)中,筆者發(fā)現(xiàn)易用性還是限制大數(shù)據(jù)在校園進(jìn)一步應(yīng)用的痛點(diǎn)。筆者將對(duì)數(shù)據(jù)挖掘輔助模板工具進(jìn)一步優(yōu)化 ,并且可以嘗試依靠自然語(yǔ)言理解工具(如大型語(yǔ)言模型)去提升平臺(tái)的易用性。

        猜你喜歡
        數(shù)據(jù)挖掘模板校園
        鋁模板在高層建筑施工中的應(yīng)用
        鋁模板在高層建筑施工中的應(yīng)用
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        校園的早晨
        琴童(2017年3期)2017-04-05 14:49:04
        春滿校園
        鋁模板在高層建筑施工中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        城市綜改 可推廣的模板較少
        開心校園
        狠狠精品久久久无码中文字幕| 亚洲中文字幕综合网站| 久久国产精品婷婷激情| 男女性杂交内射妇女bbwxz| 国产极品久久久久极品| 国产日韩久久久久69影院| 少妇熟女天堂网av天堂| 亚洲av无码乱码在线观看性色| 69久久夜色精品国产69| 欧美日韩一区二区三区视频在线观看| 亚洲精品国产av成拍色拍| 日韩人妻少妇一区二区三区| 无码久久精品国产亚洲av影片| 国产欧美日本亚洲精品一4区| 国产精品日韩亚洲一区二区| 成人内射国产免费观看| 国产性猛交╳xxx乱大交| 亚洲人成网站www| 亚洲第一黄色免费网站| 色www视频永久免费| 亚洲成av人片天堂网九九| 国产免费一区二区三区三| 日本精品久久久久中文字幕| 亚洲人成人77777网站| 久久久婷婷综合五月天| 美女主播网红视频福利一区二区| 国产精品国产三级国av在线观看| 久久青青草原亚洲AV无码麻豆| 久久av少妇亚洲精品| 岳丰满多毛的大隂户| 亚洲综合色成在线播放| 新久久久高清黄色国产| 精品亚洲天堂一区二区三区| 国产国拍精品av在线观看按摩| 国产美女高潮流白浆在线观看| 特级国产一区二区三区| 国产内射爽爽大片视频社区在线| 最近日韩激情中文字幕| 亚洲第一页在线观看视频网站| 中文字幕av伊人av无码av| 免费夜色污私人影院在线观看|