亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聯(lián)邦學(xué)習(xí)的社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)挖掘研究*

        2023-12-11 14:46:08崔東浩張華亮
        當(dāng)代職業(yè)教育 2023年6期
        關(guān)鍵詞:數(shù)據(jù)挖掘用戶模型

        崔東浩 張華亮

        (1.上海市長(zhǎng)寧區(qū)業(yè)余大學(xué),上海 200336)

        (2.上海開放大學(xué)航空運(yùn)輸學(xué)院,上海 200336)

        一、問(wèn)題提出

        數(shù)字化學(xué)習(xí)是指學(xué)習(xí)者在數(shù)字化學(xué)習(xí)環(huán)境中,利用數(shù)字化學(xué)習(xí)資源,以數(shù)字化方式進(jìn)行學(xué)習(xí)的過(guò)程[1]。社區(qū)數(shù)字化學(xué)習(xí)是指在社區(qū)居民以數(shù)字化的方式進(jìn)行自主學(xué)習(xí)、協(xié)作學(xué)習(xí)的一種學(xué)習(xí)過(guò)程[2]。社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)是社區(qū)居民進(jìn)行數(shù)字化學(xué)習(xí)過(guò)程中所產(chǎn)生的數(shù)據(jù),其數(shù)據(jù)來(lái)源覆蓋全國(guó)各級(jí)各類社區(qū)數(shù)字化學(xué)習(xí)平臺(tái)。大數(shù)據(jù)環(huán)境下,通過(guò)數(shù)據(jù)挖掘深入探究學(xué)習(xí)行為以及學(xué)習(xí)行為數(shù)據(jù)背后隱藏的行為模式和學(xué)習(xí)績(jī)效關(guān)聯(lián)性,為社區(qū)居民提供更好的個(gè)性化學(xué)習(xí)支持服務(wù),已經(jīng)成為未來(lái)發(fā)展趨勢(shì)。

        2022 年11 月,OpenAI 公司發(fā)布的ChatGPT 上線兩個(gè)月活躍用戶數(shù)量破億,被稱為有史以來(lái)最好的人工智能聊天機(jī)器人[3]。近年來(lái)人工智能技術(shù)的發(fā)展進(jìn)入了新時(shí)代,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、學(xué)習(xí)分析等人工智能技術(shù),已經(jīng)逐漸融入教育各領(lǐng)域,“人工智能+教育”成為人工智能技術(shù)應(yīng)用的主要形態(tài)之一[4]。機(jī)器學(xué)習(xí)作為大數(shù)據(jù)驅(qū)動(dòng)的人工智能技術(shù),已成為數(shù)據(jù)挖掘和分析的重要方法[5]。傳統(tǒng)機(jī)器學(xué)習(xí)方法是基于數(shù)據(jù)的集中訓(xùn)練進(jìn)行數(shù)據(jù)挖掘[6],而集中收集和保存不同來(lái)源的分布式數(shù)據(jù),還要面臨個(gè)人隱私和數(shù)據(jù)安全相關(guān)的監(jiān)管,道德、法律及技術(shù)挑戰(zhàn)。有沒(méi)有一種新興機(jī)器學(xué)習(xí)技術(shù)適合社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)挖掘?能否從技術(shù)層面應(yīng)對(duì)個(gè)人隱私和數(shù)據(jù)安全方面的挑戰(zhàn)?社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)挖掘有哪些步驟?數(shù)據(jù)挖掘成果如何應(yīng)用到社區(qū)教育領(lǐng)域等問(wèn)題,亟須深入探討和研究。

        早在2016 年,谷歌首次提出聯(lián)邦學(xué)習(xí)(Federated Learning)理論[7]。作為機(jī)器學(xué)習(xí)的新范式,聯(lián)邦學(xué)習(xí)可以化解大數(shù)據(jù)發(fā)展所面臨的數(shù)據(jù)安全、數(shù)據(jù)隱私、數(shù)據(jù)孤島等難題[8],為社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)挖掘提供了新穎的解決方案。目前,聯(lián)邦學(xué)習(xí)已初步應(yīng)用于政府?dāng)?shù)據(jù)運(yùn)營(yíng)[9]、教育數(shù)據(jù)挖掘[10]、個(gè)性化推薦[11]、學(xué)生綜合素養(yǎng)評(píng)價(jià)[12]等領(lǐng)域。相較而言,聯(lián)邦學(xué)習(xí)在社區(qū)教育領(lǐng)域卻鮮有研究。本研究闡明社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)挖掘的意義,分析聯(lián)邦學(xué)習(xí)內(nèi)涵、核心優(yōu)勢(shì)、分類及應(yīng)用場(chǎng)景,并基于聯(lián)邦學(xué)習(xí)理論,探索社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)挖掘路徑以及聯(lián)邦學(xué)習(xí)在社區(qū)教育中的具體應(yīng)用,為社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)挖掘提供新的思路。

        二、社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)挖掘的意義

        社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)承載著社區(qū)居民進(jìn)行數(shù)字化學(xué)習(xí)的全部學(xué)習(xí)行為和學(xué)習(xí)成果,數(shù)據(jù)背后隱藏著社區(qū)居民多樣化的學(xué)習(xí)需求和學(xué)習(xí)偏好、學(xué)習(xí)行為模式和普遍學(xué)習(xí)規(guī)律,具有重要的數(shù)據(jù)價(jià)值,有必要進(jìn)行深入的數(shù)據(jù)挖掘和分析。

        (一)促進(jìn)社區(qū)居民個(gè)性化學(xué)習(xí)

        大數(shù)據(jù)環(huán)境下,社區(qū)居民的學(xué)習(xí)需求呈現(xiàn)多樣化、多元化發(fā)展態(tài)勢(shì)。社區(qū)不同人群學(xué)習(xí)需求存在差異性和傾向性,例如青少年學(xué)習(xí)者更關(guān)注個(gè)體發(fā)展需要,在職人員更關(guān)注工作與生活方面的學(xué)習(xí),而老年人更關(guān)注未來(lái)生活的學(xué)習(xí)[13]。用戶進(jìn)入學(xué)習(xí)平臺(tái)后,如未能及時(shí)得到滿意的學(xué)習(xí)資源推薦,未能感受有效的個(gè)性化服務(wù),用戶對(duì)學(xué)習(xí)平臺(tái)的使用體驗(yàn)則會(huì)受到影響,可能導(dǎo)致用戶放棄對(duì)學(xué)習(xí)平臺(tái)的使用。通過(guò)數(shù)據(jù)挖掘和分析,更好地掌握社區(qū)居民多樣化的學(xué)習(xí)需求和學(xué)習(xí)偏好,能更好地為社區(qū)居民提供有針對(duì)性的學(xué)習(xí)資源推薦和學(xué)習(xí)指導(dǎo)服務(wù),促進(jìn)社區(qū)居民個(gè)性化、精準(zhǔn)化和智慧化的學(xué)習(xí)。

        (二)提升社區(qū)教育管理決策水平

        傳統(tǒng)的管理決策往往基于直覺和經(jīng)驗(yàn),受決策者的知識(shí)結(jié)構(gòu)、成長(zhǎng)環(huán)境、性格秉性等主觀因素的影響,而大數(shù)據(jù)決策遵從將萬(wàn)物數(shù)據(jù)化的邏輯[14],在海量、完整、多維度的數(shù)據(jù)基礎(chǔ)上,通過(guò)數(shù)據(jù)挖掘找出數(shù)據(jù)背后隱藏的規(guī)律,有助于做出更加科學(xué)有效的決策?;谛屡d技術(shù)的社區(qū)數(shù)字化數(shù)據(jù)挖掘,能夠從技術(shù)層面解決數(shù)據(jù)來(lái)源少、覆蓋范圍不足等問(wèn)題,能夠體現(xiàn)社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)整體的價(jià)值,為社區(qū)教育決策者提供更加深入、廣泛和可信的數(shù)據(jù)支撐,提升社區(qū)教育管理決策水平。

        (三)提高社區(qū)教育學(xué)習(xí)成果認(rèn)證準(zhǔn)確性

        我國(guó)有著全球規(guī)模最大最復(fù)雜的多元化學(xué)習(xí)成果[15]。2019年2月,中共中央、國(guó)務(wù)院印發(fā)《中國(guó)教育現(xiàn)代化2035》,提出建立學(xué)習(xí)成果認(rèn)證制度、國(guó)家學(xué)分銀行制度、國(guó)家資歷框架[16]。其中,學(xué)習(xí)成果認(rèn)證是實(shí)施國(guó)家資歷框架的關(guān)鍵,是建設(shè)學(xué)分銀行的基礎(chǔ)。社區(qū)教育作為非正式教育形態(tài),其學(xué)習(xí)成果來(lái)源多樣且復(fù)雜,認(rèn)證過(guò)程存在效率低、成本高、信息不對(duì)稱和監(jiān)管缺失等問(wèn)題[17]。社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)記錄著學(xué)習(xí)者的學(xué)習(xí)行為和學(xué)習(xí)結(jié)果,是社區(qū)教育成果認(rèn)證的重要依據(jù),其數(shù)據(jù)挖掘可以提高學(xué)習(xí)成果認(rèn)證的準(zhǔn)確性和可信度,幫助社區(qū)教育管理者更加科學(xué)地進(jìn)行學(xué)習(xí)成果認(rèn)證。

        三、基于聯(lián)邦學(xué)習(xí)的社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)挖掘理論基礎(chǔ)

        當(dāng)前的人工智能技術(shù),尤其是機(jī)器學(xué)習(xí),為數(shù)據(jù)挖掘提供了有效的技術(shù)手段,而傳統(tǒng)的機(jī)器學(xué)習(xí)方法基于數(shù)據(jù)集中訓(xùn)練的方式進(jìn)行數(shù)據(jù)挖掘,不適應(yīng)用于分散在不同地區(qū)的社區(qū)數(shù)據(jù)化學(xué)習(xí)數(shù)據(jù)的挖掘上。聯(lián)邦學(xué)習(xí)方法突破數(shù)據(jù)集中訓(xùn)練的瓶頸,采用分布式機(jī)器學(xué)習(xí)方法進(jìn)行數(shù)據(jù)訓(xùn)練,能夠更好地實(shí)現(xiàn)社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)的挖掘和分析。

        (一)聯(lián)邦學(xué)習(xí)的定義及內(nèi)涵

        1.聯(lián)邦學(xué)習(xí)提出的背景

        人工智能的力量來(lái)自于大數(shù)據(jù),2016 年AlphaGo 在30 萬(wàn)盤人類對(duì)局棋譜的基礎(chǔ)上訓(xùn)練模型,擊敗了頂尖的人類圍棋職業(yè)選手。在傳統(tǒng)機(jī)器學(xué)習(xí)訓(xùn)練模型中,通常所有參與計(jì)算的數(shù)據(jù)擁有方都會(huì)被集中收集到中心服務(wù)器或者上傳到云上進(jìn)行處理。然而在大多數(shù)行業(yè)中數(shù)據(jù)往往以孤島的形式存在,由于行業(yè)競(jìng)爭(zhēng)、隱私安全、復(fù)雜的管理流程、高昂的成本等原因,打破數(shù)據(jù)壁壘、整合分散在全國(guó)各地的數(shù)據(jù)幾乎是不可能完成。

        集中收集和保存不同來(lái)源的數(shù)據(jù),面臨著諸多挑戰(zhàn)。其一,個(gè)人隱私保護(hù)已成為個(gè)人用戶和政府都高度關(guān)注的內(nèi)容,《中華人民共和國(guó)網(wǎng)絡(luò)安全法》《數(shù)據(jù)安全管理辦法(征求意見稿)》《中華人民共和國(guó)個(gè)人信息保護(hù)法(草案)》都針對(duì)數(shù)據(jù)安全與隱私保護(hù)提出了更嚴(yán)格的要求,集中收集和保存用戶數(shù)據(jù),會(huì)面臨與個(gè)人隱私和數(shù)據(jù)安全相關(guān)的監(jiān)管,道德、法律及技術(shù)的挑戰(zhàn)。其二,在大多數(shù)行業(yè),數(shù)據(jù)的產(chǎn)生、管理和維護(hù)需要花費(fèi)大量的時(shí)間、精力和費(fèi)用,這樣的數(shù)據(jù)具有重要的業(yè)務(wù)價(jià)值,使得這些數(shù)據(jù)不太可能被自由共享。相反,數(shù)據(jù)擁有方通常對(duì)他們管理的數(shù)據(jù)保持細(xì)致的控制,數(shù)據(jù)仍以孤島的形式存在,很難打通數(shù)據(jù)壁壘實(shí)現(xiàn)集中訓(xùn)練。其三,機(jī)器學(xué)習(xí)所需的訓(xùn)練數(shù)據(jù)很容易就達(dá)到TB 級(jí),數(shù)據(jù)本身是分布式的且數(shù)據(jù)量太大而不太可能集中存儲(chǔ)在單個(gè)機(jī)器上,集中式解決方案甚至不可取[18]。為了解決上述問(wèn)題,聯(lián)邦學(xué)習(xí)的概念應(yīng)運(yùn)而生。

        2.聯(lián)邦學(xué)習(xí)定義

        聯(lián)邦學(xué)習(xí)是一種帶有隱私保護(hù)、安全加密技術(shù)的分布式機(jī)器學(xué)習(xí)框架,旨在讓分散的各參與方在滿足不向其他參與方披露隱私數(shù)據(jù)的前提下,協(xié)作進(jìn)行機(jī)器學(xué)習(xí)模型訓(xùn)練[19]。聯(lián)邦學(xué)習(xí)強(qiáng)調(diào)的核心理念是“數(shù)據(jù)不動(dòng)模型動(dòng),數(shù)據(jù)可用不可見”,保證數(shù)據(jù)在不出本地的前提下,各參與方之間協(xié)同構(gòu)建訓(xùn)練模型。一方面,數(shù)據(jù)不出本地可以很好地保護(hù)用戶隱私和數(shù)據(jù)安全;另一方面,能充分利用各參與方的數(shù)據(jù)協(xié)同訓(xùn)練模型。

        在聯(lián)邦學(xué)習(xí)中,各參與方首先從中心服務(wù)器下載初始共享模型參數(shù),基于本地?cái)?shù)據(jù)進(jìn)行訓(xùn)練后把更新的模型參數(shù)上傳至中心服務(wù)器,由中心服務(wù)器聚合各方的參數(shù)并形成全局模型并把全局模型參數(shù)再度下發(fā)出去,如此循環(huán),直到全局模型收斂至停止條件[20]。

        設(shè)當(dāng)前有N個(gè)數(shù)據(jù)擁有方共同參與訓(xùn)練,記為{P1,P2,P3,…,PN},其各自擁有的本地?cái)?shù)據(jù)集為{D1,D2,D3,…,DN},傳統(tǒng)的訓(xùn)練方法將所有參與方的數(shù)據(jù)收集起來(lái)存儲(chǔ)在中心服務(wù)器中,并使用D=D1∪D2∪…∪DN作為訓(xùn)練數(shù)據(jù)集訓(xùn)練機(jī)器學(xué)習(xí)模型MSUM。聯(lián)邦學(xué)習(xí)不需要收集各參與方所擁有的數(shù)據(jù),在參與方本地便能協(xié)同訓(xùn)練出模型MFED。設(shè)VSUM和VFED分別為集中學(xué)習(xí)模型MSUM和聯(lián)邦學(xué)習(xí)模型MFED的性能精度,設(shè)δ為任意一個(gè)非負(fù)實(shí)數(shù),在滿足以下條件時(shí),稱聯(lián)邦學(xué)習(xí)模型MFED具有δ的精度損失。

        式(1)表示聯(lián)邦學(xué)習(xí)模型MFED的性能將以δ的精度損失近似于傳統(tǒng)機(jī)器學(xué)習(xí)模型MSUM的性能,當(dāng)δ=0時(shí),則表示聯(lián)邦學(xué)習(xí)模型與傳統(tǒng)機(jī)器學(xué)習(xí)模型的效果等價(jià)[21]。

        3.聯(lián)邦學(xué)習(xí)算法

        FedAvg(Federated Averaging)算法是目前最常用的聯(lián)邦學(xué)習(xí)優(yōu)化算法[22]。與常規(guī)的優(yōu)化算法不同,其本質(zhì)思想是對(duì)數(shù)據(jù)持有方的局部隨機(jī)梯度下降進(jìn)行單機(jī)優(yōu)化,并在中央服務(wù)器上進(jìn)行聚合操作,其訓(xùn)練目標(biāo)是找出最佳模型參數(shù)ω,使總訓(xùn)練損失f(ω)最小。FedAvg算法的目標(biāo)函數(shù)定義如下:

        式(2)和式(3)中,K為參與方數(shù)量,Pk為第k 個(gè)參與方本地樣本集,nk為第k 個(gè)參與方本地樣本數(shù)量即nk=|Pk|,n 為所有參與方樣本數(shù)量總和,F(xiàn)k(ω)為第k 個(gè)參與方本地目標(biāo)函數(shù)。式(4)中fi(ω)為模型參數(shù)ω對(duì)Pk中的第i 個(gè)樣本(xi,yi)產(chǎn)生的損失函數(shù)。FedAvg 是一種比較基礎(chǔ)的聯(lián)邦優(yōu)化算法,部署相對(duì)簡(jiǎn)單,應(yīng)用領(lǐng)域很廣泛。FedAvg的算法如下:

        (中央服務(wù)器方)

        1 Server executes:

        2 initialize ω0

        3 for each round t=1,2,...do

        4 m ←max(C·K,1)

        5 St ←(random set of m clients)

        6 for each client k ∈St in parallel do

        (參與方)

        9 ClientUpdate(k,ω)://第k個(gè)參與方更新

        10 B ←(split Pkinto batches of size B)

        11 for each local epoch i from 1 to E do

        12 for batch b ∈B do

        13 ω ←ω-η▽l(ω;b)

        14 return ω to server

        其中,K 個(gè)客戶端由k 索引,B 為本地小批量數(shù)據(jù)集大小,E 為本地?cái)?shù)據(jù)集遍歷總次數(shù),η為學(xué)習(xí)率。大部分聯(lián)邦優(yōu)化算法是在FedAvg 的基礎(chǔ)上發(fā)展而來(lái)的,例如FedProx、FedPer等。

        (二)聯(lián)邦學(xué)習(xí)核心優(yōu)勢(shì)

        基于聯(lián)邦學(xué)習(xí)的社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)挖掘,能夠有效克服傳統(tǒng)機(jī)器學(xué)習(xí)集中式數(shù)據(jù)訓(xùn)練的缺點(diǎn),打破數(shù)據(jù)孤島、保障數(shù)據(jù)安全的同時(shí)達(dá)到預(yù)期模型性能效果,使其成為社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)挖掘的理想解決方案。

        1.打破數(shù)據(jù)孤島

        通過(guò)“數(shù)據(jù)不動(dòng)模型動(dòng)”的方式,學(xué)習(xí)平臺(tái)之間無(wú)須共享原始數(shù)據(jù),讓模型在學(xué)習(xí)平臺(tái)之間溝通交流。整個(gè)訓(xùn)練過(guò)程均在學(xué)習(xí)平臺(tái)本地進(jìn)行,并在中心服務(wù)器協(xié)調(diào)下完成全局模型的聚合,在此過(guò)程中僅交換模型特征參數(shù)和梯度等[23]?!奥?lián)邦”就是數(shù)據(jù)聯(lián)盟,通過(guò)聯(lián)邦學(xué)習(xí)方法,各個(gè)學(xué)習(xí)平臺(tái)以同等的身份和地位參與模型訓(xùn)練,打破數(shù)據(jù)孤島協(xié)同構(gòu)建數(shù)據(jù)模型。

        2.保障數(shù)據(jù)安全

        聯(lián)邦學(xué)習(xí)技術(shù)實(shí)現(xiàn)“數(shù)據(jù)可用不可見”,即數(shù)據(jù)都保留在本地,別人看不見你的數(shù)據(jù),你也看不見別人的數(shù)據(jù),從而最大限度地減少數(shù)據(jù)隱私泄露問(wèn)題。傳輸模型參數(shù)的明文信息也不安全,也會(huì)存在信息泄露的風(fēng)險(xiǎn),攻擊者通過(guò)竊取這些參數(shù)信息來(lái)還原或者部分還原原始數(shù)據(jù),從而導(dǎo)致數(shù)據(jù)隱私的泄露[24]。聯(lián)邦學(xué)習(xí)采用同態(tài)加密、差分隱私和安全多方計(jì)算等安全策略,在聯(lián)合訓(xùn)練時(shí)與模型相關(guān)的信息以加密方式在各方之間傳輸和交換,任何一個(gè)參與方在接收到這些信息時(shí)都不能推測(cè)出對(duì)方的原始數(shù)據(jù),更好地保障數(shù)據(jù)的安全與隱私。

        3.提升模型性能

        大數(shù)據(jù)是人工智能的基礎(chǔ),模型的準(zhǔn)確率與訓(xùn)練數(shù)據(jù)量成正比。聯(lián)邦學(xué)習(xí)從技術(shù)上解決了數(shù)據(jù)擁有方所擔(dān)心的隱私、所有權(quán)和數(shù)據(jù)位置的基本問(wèn)題,使大多數(shù)數(shù)據(jù)擁有方的參與成為可能。相較于傳統(tǒng)集中式訓(xùn)練,聯(lián)邦學(xué)習(xí)擁有更多的參與方及訓(xùn)練數(shù)據(jù),訓(xùn)練出來(lái)的模型更準(zhǔn)確。即便在數(shù)據(jù)量相同的情況下,聯(lián)邦學(xué)習(xí)技術(shù)可使分布式訓(xùn)練模型性能與傳統(tǒng)集中式訓(xùn)練模型性能相差無(wú)幾,訓(xùn)練出的全局模型幾乎是無(wú)損的。基于聯(lián)邦學(xué)習(xí)的數(shù)據(jù)訓(xùn)練能夠提升訓(xùn)練模型性能效果,各參與方能夠共同獲益。

        (三)聯(lián)邦學(xué)習(xí)分類及應(yīng)用場(chǎng)景

        設(shè)Di表示第i 個(gè)參與方本地訓(xùn)練數(shù)據(jù)集,通常Di以矩陣的形式存在,Di的每一行表示訓(xùn)練數(shù)據(jù)樣本。每一條樣本都有樣本ID,將樣本ID 空間設(shè)為I;每一列表示一個(gè)具體的數(shù)據(jù)特征,將特征空間設(shè)為X;同時(shí),一些數(shù)據(jù)集還可能包含標(biāo)簽數(shù)據(jù),將標(biāo)簽空間設(shè)為y。樣本ID 空間I、特征空間X 和標(biāo)簽空間y 組成一個(gè)訓(xùn)練數(shù)據(jù)集Di:(I,X,y)。根據(jù)各個(gè)參與方的樣本ID空間I和數(shù)據(jù)特征空間X的重疊關(guān)系不同,將聯(lián)邦學(xué)習(xí)劃分為縱向聯(lián)邦學(xué)習(xí)、橫向聯(lián)邦學(xué)習(xí)和聯(lián)邦遷移學(xué)習(xí)[25],分別適用于不同的應(yīng)用場(chǎng)景。社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)訓(xùn)練樣本中,用戶ID組成樣本ID空間,學(xué)習(xí)資源、學(xué)習(xí)行為、學(xué)習(xí)結(jié)果等信息共同組成特征空間。

        1.縱向聯(lián)邦學(xué)習(xí)

        縱向聯(lián)邦學(xué)習(xí)適用于參與方的數(shù)據(jù)樣本重疊較多而數(shù)據(jù)特征重疊較少的場(chǎng)景,即參與方之間的數(shù)據(jù)樣本是對(duì)齊的,但在數(shù)據(jù)特征上有所不同??v向聯(lián)邦學(xué)習(xí)(見圖1),類似于在表格視圖中垂直劃分?jǐn)?shù)據(jù)的情況。

        圖1 縱向聯(lián)邦學(xué)習(xí)示意圖

        應(yīng)用場(chǎng)景:某一個(gè)地區(qū)有一個(gè)直播教學(xué)網(wǎng)站和一家數(shù)字圖書館,為當(dāng)?shù)厣鐓^(qū)居民提供學(xué)習(xí)服務(wù),分別以視頻資源和數(shù)字圖書為學(xué)習(xí)內(nèi)容。兩個(gè)學(xué)習(xí)平臺(tái)提供不同的學(xué)習(xí)服務(wù),但在用戶群體上有著非常大的交集,可以聯(lián)合雙方的數(shù)據(jù)進(jìn)行建模,以此來(lái)提升雙方對(duì)用戶的學(xué)習(xí)服務(wù)能力。例如,數(shù)字圖書館中要預(yù)測(cè)新用戶對(duì)某一本圖書的閱讀概率,但數(shù)字圖書館缺乏新用戶的閱讀數(shù)據(jù),而直播教學(xué)網(wǎng)站上有該用戶的視頻觀看記錄,這部分信息的數(shù)據(jù)特征能夠很好地體現(xiàn)該用戶的學(xué)習(xí)偏好,如果能將這部分特征補(bǔ)充到建模中,無(wú)疑將有效提升模型預(yù)測(cè)的能力。兩個(gè)學(xué)習(xí)平臺(tái)具有重疊度很高的當(dāng)?shù)赜脩羧后w,但兩者提供的學(xué)習(xí)內(nèi)容不同,從縱向聯(lián)邦的角度來(lái)說(shuō)兩者的特征不同(一方是視頻的特征,另一方是書籍的特征),通過(guò)縱向聯(lián)邦學(xué)習(xí)在各自有差異的數(shù)據(jù)特征空間上協(xié)同訓(xùn)練,可以得到性能更優(yōu)的機(jī)器學(xué)習(xí)模型。

        2.橫向聯(lián)邦學(xué)習(xí)

        橫向聯(lián)邦學(xué)習(xí)適用于參與方的數(shù)據(jù)特征重疊較多而數(shù)據(jù)樣本重疊較少的場(chǎng)景,即數(shù)據(jù)特征在參與方之間是對(duì)齊的,但是參與方擁有的數(shù)據(jù)樣本有所不同。橫向聯(lián)邦學(xué)習(xí)(見圖2),類似于在表格視圖中將數(shù)據(jù)進(jìn)行水平劃分的情況。

        圖2 橫向聯(lián)邦學(xué)習(xí)示意圖

        應(yīng)用場(chǎng)景:兩個(gè)直播教學(xué)網(wǎng)站分別為各自所屬地區(qū)的社區(qū)居民提供直播教學(xué)服務(wù)。通常社區(qū)居民選擇當(dāng)?shù)氐木W(wǎng)站進(jìn)行學(xué)習(xí),各地區(qū)直播教學(xué)網(wǎng)站的用戶重合度比較低。兩個(gè)網(wǎng)站都提供直播教學(xué)服務(wù),有著相似的學(xué)習(xí)資源、學(xué)習(xí)行為、學(xué)習(xí)結(jié)果等數(shù)據(jù)特征。這兩個(gè)網(wǎng)站的用戶群體重疊部分較小,但在數(shù)據(jù)特征維度上的重疊部分較大。通過(guò)橫向聯(lián)邦學(xué)習(xí),聯(lián)合雙方的學(xué)習(xí)數(shù)據(jù),擴(kuò)大訓(xùn)練的樣本空間,從而提升模型的準(zhǔn)確度和泛化能力。

        3.聯(lián)邦遷移學(xué)習(xí)

        聯(lián)邦遷移學(xué)習(xí)適用于參與方的數(shù)據(jù)樣本和數(shù)據(jù)特征都很少重疊的場(chǎng)景,聯(lián)邦遷移學(xué)習(xí)是對(duì)橫向聯(lián)邦學(xué)習(xí)和縱向聯(lián)邦學(xué)習(xí)的補(bǔ)充。聯(lián)邦遷移學(xué)習(xí)(見圖3),聯(lián)邦遷移學(xué)習(xí)特別適合處理異構(gòu)數(shù)據(jù)的聯(lián)邦問(wèn)題。

        圖3 聯(lián)邦遷移學(xué)習(xí)示意圖

        應(yīng)用場(chǎng)景:一個(gè)網(wǎng)站為社區(qū)居民提供社區(qū)教育課程資源服務(wù),另一個(gè)網(wǎng)站為中小學(xué)生提供基礎(chǔ)教育課程資源服務(wù)。雖然都為用戶提供學(xué)習(xí)服務(wù),但因?yàn)榻逃愋筒煌?,兩個(gè)網(wǎng)站所服務(wù)的用戶群體基本不重疊,學(xué)習(xí)資源、學(xué)習(xí)行為、學(xué)習(xí)結(jié)果等數(shù)據(jù)特征也大不相同。利用聯(lián)邦遷移學(xué)習(xí),可以找到兩個(gè)網(wǎng)站服務(wù)內(nèi)容的相似性和差異性。相較于社區(qū)教育,基礎(chǔ)教育的課程資源更全面,學(xué)習(xí)服務(wù)更系統(tǒng),用戶的學(xué)習(xí)行為數(shù)據(jù)也更完整。通過(guò)聯(lián)邦遷移學(xué)習(xí)的知識(shí)遷移,社區(qū)教育課程資源網(wǎng)站可以學(xué)習(xí)基礎(chǔ)教育中完善的學(xué)習(xí)數(shù)據(jù),擴(kuò)充自身的數(shù)據(jù)特征,提升模型的性能效果,更好地為社區(qū)居民提供學(xué)習(xí)服務(wù)。

        四、基于聯(lián)邦學(xué)習(xí)的社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)挖掘路徑探索

        全國(guó)各地的數(shù)字化學(xué)習(xí)普及程度不一,導(dǎo)致不同區(qū)域數(shù)字化學(xué)習(xí)平臺(tái)的種類和數(shù)量有較大差異,同時(shí)不同區(qū)域乃至不同教育類型的數(shù)字化學(xué)習(xí)用戶群體也截然不同,帶來(lái)學(xué)習(xí)者用戶數(shù)據(jù)以及數(shù)字化學(xué)習(xí)過(guò)程中產(chǎn)生的學(xué)習(xí)行為數(shù)據(jù)有著較大的差異。針對(duì)區(qū)域內(nèi)、跨區(qū)域以及跨教育類型的數(shù)字化學(xué)習(xí)數(shù)據(jù),須采用不同類型的聯(lián)邦學(xué)習(xí)方法分別進(jìn)行數(shù)據(jù)挖掘和分析。

        (一)基于縱向聯(lián)邦學(xué)習(xí)挖掘區(qū)域內(nèi)社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)

        隨著社區(qū)教育的發(fā)展,全國(guó)各地都在建設(shè)各類社區(qū)數(shù)字化學(xué)習(xí)平臺(tái),如社區(qū)直播教學(xué)網(wǎng)站、社區(qū)數(shù)字圖書館、社區(qū)慕課在線平臺(tái)等,為當(dāng)?shù)鼐用裉峁└黝悓W(xué)習(xí)服務(wù)。社區(qū)居民通過(guò)當(dāng)?shù)厣鐓^(qū)數(shù)字化學(xué)習(xí)平臺(tái)進(jìn)行學(xué)習(xí),并留下學(xué)習(xí)行為數(shù)據(jù),這些數(shù)據(jù)背后隱藏著人們的學(xué)習(xí)習(xí)慣、學(xué)習(xí)方式和學(xué)習(xí)需求。但實(shí)際上這些學(xué)習(xí)平臺(tái)上的學(xué)習(xí)數(shù)據(jù),其數(shù)據(jù)規(guī)模還不夠大,數(shù)據(jù)質(zhì)量參差不齊,單個(gè)學(xué)習(xí)平臺(tái)上進(jìn)行機(jī)器學(xué)習(xí)往往得不到預(yù)期的訓(xùn)練效果。聯(lián)邦機(jī)器學(xué)習(xí)能夠聯(lián)合當(dāng)?shù)夭煌愋偷亩鄠€(gè)學(xué)習(xí)平臺(tái)協(xié)同訓(xùn)練,參與訓(xùn)練的數(shù)據(jù)量成倍地增長(zhǎng),能夠有效克服數(shù)據(jù)質(zhì)量的差異,訓(xùn)練出性能優(yōu)越的數(shù)據(jù)模型,能夠更好地體現(xiàn)本區(qū)域社區(qū)居民的學(xué)習(xí)需求和學(xué)習(xí)偏好。這里所指的區(qū)域,其行政范圍可以根據(jù)實(shí)際需要?jiǎng)澏閰^(qū)縣、城市或省份。因?yàn)樘峁┎煌愋偷膶W(xué)習(xí)服務(wù),這些學(xué)習(xí)平臺(tái)之間學(xué)習(xí)資源、學(xué)習(xí)行為、學(xué)習(xí)結(jié)果等數(shù)據(jù)特征有著較大的區(qū)別,但都有共同的當(dāng)?shù)赜脩羧后w,具有高度重疊的用戶ID,因此適合采用縱向聯(lián)邦學(xué)習(xí)的方法進(jìn)行模型訓(xùn)練。

        基于縱向聯(lián)邦學(xué)習(xí)的區(qū)域內(nèi)社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)模型訓(xùn)練示意圖(見圖4)。具體步驟如下:①全局模型(區(qū)域模型)參數(shù)加密后下發(fā)。中心服務(wù)器確定全局模型的參數(shù)、訓(xùn)練過(guò)程和加密方式,并將全局模型參數(shù)加密后下發(fā)給區(qū)域內(nèi)各參與方,如社區(qū)直播教學(xué)網(wǎng)站、社區(qū)數(shù)字圖書館、社區(qū)慕課在線平臺(tái)等。②本地模型更新與訓(xùn)練。各參與方接收到全局模型參數(shù)后進(jìn)行解密并更新本地模型,分別利用本地?cái)?shù)據(jù)進(jìn)行訓(xùn)練。③本地模型參數(shù)加密后上傳。各參與方將訓(xùn)練好的本地模型的參數(shù)加密后回傳給中心服務(wù)器。④全局模型聚合與更新。中心服務(wù)器對(duì)收到的各個(gè)本地模型參數(shù)解密,然后聚合參數(shù)信息并更新全局模型。更新后的全局模型的參數(shù)加密后再次下發(fā)給各參與方,如此重復(fù)以上訓(xùn)練步驟,循環(huán)迭代更新全局模型,直到全局模型收斂至停止條件,精度損失減少到可接受的程度。

        圖4 基于縱向聯(lián)邦學(xué)習(xí)的區(qū)域內(nèi)社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)模型訓(xùn)練示意圖

        (二)基于橫向聯(lián)邦學(xué)習(xí)挖掘跨區(qū)域社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)

        社區(qū)數(shù)字化學(xué)習(xí)平臺(tái)大都以當(dāng)?shù)厣鐓^(qū)居民為服務(wù)對(duì)象,不同區(qū)域?qū)W習(xí)平臺(tái)的用戶群體基本上沒(méi)有重疊。相較于某區(qū)域單個(gè)學(xué)習(xí)平臺(tái)上的模型訓(xùn)練,從分散在全國(guó)各地的學(xué)習(xí)平臺(tái)中選擇具有代表性的同類型學(xué)習(xí)平臺(tái)進(jìn)行聯(lián)合訓(xùn)練,訓(xùn)練出來(lái)的數(shù)據(jù)模型具有更好的性能效果。一方面,參與訓(xùn)練的學(xué)習(xí)數(shù)據(jù)成倍地增長(zhǎng),在此大數(shù)據(jù)基礎(chǔ)上訓(xùn)練出來(lái)的數(shù)據(jù)模型更準(zhǔn)確更具有代表性。另一方面,不同區(qū)域的社區(qū)居民所處的生活環(huán)境、工作環(huán)境都有較大的差別,居民的學(xué)習(xí)習(xí)慣和學(xué)習(xí)方式,關(guān)注的學(xué)習(xí)內(nèi)容和社會(huì)熱點(diǎn)也會(huì)有較大的差異,因此基于跨區(qū)域?qū)W習(xí)平臺(tái)訓(xùn)練出來(lái)的數(shù)據(jù)模型更具有普適性,從整體上體現(xiàn)不同區(qū)域社區(qū)居民的普遍學(xué)習(xí)需求和學(xué)習(xí)偏好。因?yàn)榉?wù)的區(qū)域不一樣,這些學(xué)習(xí)平臺(tái)之間用戶ID 基本上不會(huì)重疊,但因?yàn)檫x擇同類型學(xué)習(xí)平臺(tái)進(jìn)行訓(xùn)練,其學(xué)習(xí)資源、學(xué)習(xí)行為、學(xué)習(xí)結(jié)果等數(shù)據(jù)特征基本類似,因此采用橫向聯(lián)邦學(xué)習(xí)方法構(gòu)建跨區(qū)域社區(qū)居民的學(xué)習(xí)行為模型。

        基于橫向聯(lián)邦學(xué)習(xí)的跨區(qū)域數(shù)字化學(xué)習(xí)數(shù)據(jù)模型訓(xùn)練示意圖(見圖5),基本流程與縱向聯(lián)邦學(xué)習(xí)類似。具體步驟如下:①全局模型(跨區(qū)域模型)參數(shù)加密后下發(fā)。跨區(qū)域中心服務(wù)器確定全局模型的參數(shù)、訓(xùn)練過(guò)程和加密方式,并將全局模型參數(shù)加密后下發(fā)給各區(qū)域參與方,如區(qū)域A學(xué)習(xí)網(wǎng)站、區(qū)域B學(xué)習(xí)網(wǎng)站、區(qū)域C學(xué)習(xí)網(wǎng)站等。②本地模型更新與訓(xùn)練。各區(qū)域參與方接收到全局模型參數(shù)后進(jìn)行解密并更新本地模型,分別利用本地?cái)?shù)據(jù)進(jìn)行訓(xùn)練。③本地模型參數(shù)加密后上傳。各區(qū)域參與方將新的本地模型參數(shù)加密后回傳給跨區(qū)域中心服務(wù)器。④全局模型聚合與更新??鐓^(qū)域中心服務(wù)器接收到各區(qū)域本地模型參數(shù)后解密,然后聚合參數(shù)信息并更新全局模型。更新后的全局模型的參數(shù)加密后再次下發(fā)給各區(qū)域參與方,如此重復(fù)以上訓(xùn)練步驟,循環(huán)迭代更新全局模型,直到全局模型收斂至停止條件,精度損失減少到可接受的程度。

        圖5 基于橫向聯(lián)邦學(xué)習(xí)的跨區(qū)域社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)模型訓(xùn)練示意圖

        (三)基于聯(lián)邦遷移學(xué)習(xí)挖掘跨教育類型數(shù)字化學(xué)習(xí)數(shù)據(jù)

        聯(lián)邦遷移學(xué)習(xí)方法將數(shù)據(jù)模型的訓(xùn)練擴(kuò)展到其他的教育類型,如職業(yè)教育、高等教育和基礎(chǔ)教育,共同構(gòu)建跨教育類型數(shù)字化學(xué)習(xí)行為模型。從不同教育類型學(xué)習(xí)平臺(tái)中,篩選出具有代表性的學(xué)習(xí)平臺(tái)作為參與方進(jìn)行聯(lián)合模型訓(xùn)練,突破社區(qū)教育范圍,最終訓(xùn)練出來(lái)的學(xué)習(xí)行為模型,可以從更高的維度反映不同教育類型受教育者的學(xué)習(xí)情況,有利于掌握受教育者的普遍學(xué)習(xí)需求。通過(guò)本地化的數(shù)據(jù)模型訓(xùn)練,聯(lián)邦遷移學(xué)習(xí)不要求學(xué)習(xí)數(shù)據(jù)集中統(tǒng)一存放,使得不同教育類型學(xué)習(xí)數(shù)據(jù)的模型訓(xùn)練成為可能。不同教育類型的用戶群體大不相同,學(xué)習(xí)資源、學(xué)習(xí)行為、學(xué)習(xí)結(jié)果等數(shù)據(jù)特征也有較大的差異,因此采用聯(lián)邦遷移學(xué)習(xí)的方法構(gòu)建跨教育類型數(shù)字化學(xué)習(xí)行為模型。

        基于聯(lián)邦遷移學(xué)習(xí)的跨教育類型數(shù)字化學(xué)習(xí)數(shù)據(jù)模型訓(xùn)練示意圖(見圖6)。具體步驟如下:①全局模型(跨教育類型)參數(shù)加密后下發(fā)??缃逃愋椭行姆?wù)器確定全局模型的參數(shù)、訓(xùn)練過(guò)程和加密方式,并將全局模型參數(shù)加密后下發(fā)給各教育類型參與方,如社區(qū)教育學(xué)習(xí)網(wǎng)站、職業(yè)教育學(xué)習(xí)網(wǎng)站、高等教育學(xué)習(xí)網(wǎng)站和基礎(chǔ)教育學(xué)習(xí)網(wǎng)站。②本地模型更新與訓(xùn)練。各教育類型參與方接收到全局模型參數(shù)后進(jìn)行解密并更新本地模型,分別利用本地?cái)?shù)據(jù)進(jìn)行訓(xùn)練。③本地模型參數(shù)加密后上傳。各教育類型參與方將新的本地模型參數(shù)加密后回傳給跨教育類型中心服務(wù)器。④全局模型聚合與更新??缃逃愋椭行姆?wù)器接收到各教育類型本地模型參數(shù)后解密,然后聚合參數(shù)信息并更新跨教育類型全局模型。更新后的全局模型的參數(shù)加密后再次下發(fā)給各教育類型參與方,如此重復(fù)以上訓(xùn)練步驟,循環(huán)迭代更新全局模型,直到全局模型收斂至停止條件,精度損失減少到可接受的程度。

        圖6 基于聯(lián)邦遷移學(xué)習(xí)的跨教育類型數(shù)字化學(xué)習(xí)數(shù)據(jù)模型訓(xùn)練示意圖

        五、基于聯(lián)邦學(xué)習(xí)的社區(qū)數(shù)字化學(xué)習(xí)數(shù)據(jù)挖掘應(yīng)用探索

        基于聯(lián)邦學(xué)習(xí)的分布式機(jī)器學(xué)習(xí)數(shù)據(jù)模型的訓(xùn)練,能夠聯(lián)合更多的參與方進(jìn)行數(shù)據(jù)訓(xùn)練,適合跨平臺(tái)跨區(qū)域跨教育類型的數(shù)字化學(xué)習(xí)數(shù)據(jù)的挖掘和分析,并能訓(xùn)練出更加精細(xì)和完整的數(shù)字化學(xué)習(xí)行為模型,更好地應(yīng)用于社區(qū)教育的各種場(chǎng)景。

        (一)分析相似相關(guān)數(shù)據(jù),解決新用戶冷啟動(dòng)問(wèn)題

        當(dāng)新用戶登錄到學(xué)習(xí)平臺(tái)時(shí),由于該用戶在平臺(tái)中缺少歷史學(xué)習(xí)行為數(shù)據(jù),學(xué)習(xí)平臺(tái)不能根據(jù)傳統(tǒng)算法預(yù)測(cè)其學(xué)習(xí)偏好,無(wú)法對(duì)新用戶進(jìn)行個(gè)性化推薦,由此產(chǎn)生新用戶冷啟動(dòng)問(wèn)題[26]。用戶的首次體驗(yàn)與學(xué)習(xí)平臺(tái)提供的學(xué)習(xí)服務(wù)息息相關(guān),良好的首次體驗(yàn)既能讓用戶在輕松愉快的心境中學(xué)習(xí)到有用的知識(shí),又能建立起用戶預(yù)期與網(wǎng)站學(xué)習(xí)服務(wù)之間的橋梁。目前,針對(duì)新用戶冷啟動(dòng)問(wèn)題有較多的研究,有學(xué)者提出基于偏好的推薦算法,根據(jù)領(lǐng)域相關(guān)度、評(píng)價(jià)相似度從所有用戶中篩選與新用戶偏好相近的用戶,并依據(jù)這些用戶的偏好為新用戶推薦學(xué)習(xí)資源[27]。也有學(xué)者基于除用戶偏好數(shù)據(jù)以外的其他相關(guān)數(shù)據(jù),如性別、年齡、職業(yè)等用戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù),為新用戶進(jìn)行推薦[28]。

        基于縱向聯(lián)邦學(xué)習(xí)的區(qū)域內(nèi)社區(qū)數(shù)字化學(xué)習(xí)行為模型為解決新用戶冷啟動(dòng)問(wèn)題提供參考依據(jù)。一方面,依據(jù)新用戶在其他各類學(xué)習(xí)網(wǎng)站上的學(xué)習(xí)數(shù)據(jù)推薦學(xué)習(xí)資源。新用戶可能在其他類型的學(xué)習(xí)網(wǎng)站上注冊(cè)并學(xué)習(xí),縱向聯(lián)邦學(xué)習(xí)聯(lián)合不同類型當(dāng)?shù)貙W(xué)習(xí)網(wǎng)站協(xié)同訓(xùn)練,了解新用戶常去哪些當(dāng)?shù)氐膶W(xué)習(xí)網(wǎng)站,喜歡看哪些類型的學(xué)習(xí)資源,以此來(lái)推薦本學(xué)習(xí)平臺(tái)的類似學(xué)習(xí)資源。另一方面,依據(jù)其他用戶的學(xué)習(xí)數(shù)據(jù)推薦學(xué)習(xí)資源。用戶不是獨(dú)立存在的,用戶之間具有社會(huì)關(guān)系,那些現(xiàn)實(shí)中與該用戶社會(huì)地理距離較近且行為習(xí)慣相近者對(duì)用戶的偏好決策影響較大,地理信息和社會(huì)信息在用戶個(gè)性化推薦中被廣泛使用[29]。將新用戶所屬區(qū)域的不同類型學(xué)習(xí)平臺(tái)進(jìn)行聯(lián)合訓(xùn)練,結(jié)合新用戶注冊(cè)時(shí)填寫的性別、年齡層次、職業(yè)類型、居住區(qū)域等粗粒度個(gè)人信息,找出同類型用戶的學(xué)習(xí)偏好,有針對(duì)性地推薦新用戶最有可能感興趣的學(xué)習(xí)內(nèi)容,有效解決冷啟動(dòng)的問(wèn)題。

        (二)深度分析用戶學(xué)習(xí)行為,推薦個(gè)性化學(xué)習(xí)資源

        目前各級(jí)各類社區(qū)教育學(xué)習(xí)平臺(tái)中的有效學(xué)習(xí)用戶數(shù)量遠(yuǎn)沒(méi)有達(dá)到覆蓋全體社區(qū)居民的程度,學(xué)習(xí)平臺(tái)都面臨著發(fā)展和維護(hù)用戶的迫切需要。讓更多的社區(qū)居民參與到終身學(xué)習(xí)中來(lái),是每一個(gè)學(xué)習(xí)平臺(tái)的首要任務(wù)。面對(duì)不同人群學(xué)習(xí)需求的多樣化和多元化,平臺(tái)應(yīng)采取更加有效的措施提供個(gè)性化學(xué)習(xí)支持服務(wù),提高用戶滿意度。學(xué)習(xí)平臺(tái)中融入個(gè)性化推薦系統(tǒng),能顯著提高用戶滿意度和對(duì)學(xué)習(xí)平臺(tái)的黏性。

        縱向和橫向聯(lián)邦學(xué)習(xí)結(jié)合起來(lái)為社區(qū)居民提供個(gè)性化學(xué)習(xí)資源推薦。一方面,當(dāng)前各類學(xué)習(xí)平臺(tái)存在大量非結(jié)構(gòu)化數(shù)據(jù),如果能夠精準(zhǔn)分析這些龐雜的數(shù)據(jù),形成精準(zhǔn)的用戶畫像,學(xué)習(xí)平臺(tái)的個(gè)性化推薦會(huì)得到質(zhì)的飛躍。但是,形成精準(zhǔn)用戶畫像的基礎(chǔ)是建立用戶數(shù)據(jù)標(biāo)簽體系,從基礎(chǔ)數(shù)據(jù)到衍生指標(biāo),再到立體化數(shù)字畫像標(biāo)簽體系,均依賴于用戶屬性、興趣偏好、行為特征、學(xué)習(xí)習(xí)慣等不同維度的大量數(shù)據(jù),而這些數(shù)據(jù)分散在不同類型的學(xué)習(xí)平臺(tái)上??v向聯(lián)邦學(xué)習(xí)能夠聯(lián)合不同類型的學(xué)習(xí)平臺(tái)進(jìn)行協(xié)同訓(xùn)練,獲取相同用戶群體的不同維度的大量數(shù)據(jù),有助于構(gòu)建精準(zhǔn)的用戶畫像,基于學(xué)習(xí)者畫像可以構(gòu)建學(xué)習(xí)預(yù)警模型,為學(xué)習(xí)者提供個(gè)性化的教學(xué)干預(yù)[30]。另一方面,機(jī)器學(xué)習(xí)已經(jīng)成為網(wǎng)站提供個(gè)性化推薦的一項(xiàng)重要技術(shù),為了獲得準(zhǔn)確的機(jī)器學(xué)習(xí)模型,在其訓(xùn)練過(guò)程中需要大量的樣本數(shù)據(jù)進(jìn)行特征映射和參數(shù)調(diào)整。然而學(xué)習(xí)平臺(tái)受本地?cái)?shù)據(jù)樣本不足的限制,而且跨區(qū)域數(shù)據(jù)共享又存在隱私泄露的風(fēng)險(xiǎn)。通過(guò)橫向聯(lián)邦學(xué)習(xí)技術(shù),學(xué)習(xí)平臺(tái)根據(jù)中央?yún)f(xié)調(diào)及異構(gòu)平臺(tái)的聯(lián)合建模方式,實(shí)現(xiàn)跨區(qū)域模型參數(shù)的流通和共享,從而打破數(shù)據(jù)孤島,在有效保護(hù)隱私的同時(shí)獲得更高精度的數(shù)據(jù)模型,更好地實(shí)現(xiàn)個(gè)性化學(xué)習(xí)資源推薦。

        (三)利用正規(guī)教育管理和學(xué)習(xí)數(shù)據(jù),提升社區(qū)教育管理決策水平

        相較于正規(guī)教育,社區(qū)教育缺乏統(tǒng)一規(guī)范的管理機(jī)制,其數(shù)據(jù)構(gòu)成比較復(fù)雜。正規(guī)學(xué)校教育對(duì)學(xué)生的管理具有規(guī)范性、強(qiáng)制性,新生入學(xué)注冊(cè)必須正確填寫個(gè)人信息并統(tǒng)一分配學(xué)號(hào),畢業(yè)時(shí)根據(jù)學(xué)號(hào)就能查詢到個(gè)人在校期間所有學(xué)習(xí)記錄,包括成績(jī)、學(xué)分等信息。社區(qū)教育具有非正規(guī)性,對(duì)社區(qū)居民的管理是松散的、學(xué)習(xí)是非強(qiáng)制的,其管理和學(xué)習(xí)數(shù)據(jù)沒(méi)有統(tǒng)一標(biāo)準(zhǔn)。居民的學(xué)習(xí)具有隨意性、自發(fā)性,學(xué)習(xí)網(wǎng)站上注冊(cè)的個(gè)人信息未必準(zhǔn)確和完整,社區(qū)教育課程大多數(shù)也沒(méi)有統(tǒng)一的學(xué)習(xí)要求和標(biāo)準(zhǔn),成績(jī)認(rèn)定、學(xué)分獲得都有困難。管理和學(xué)習(xí)數(shù)據(jù)的不規(guī)范不完整將影響社區(qū)教育管理決策,影響社區(qū)教育發(fā)展。

        不同教育類型的學(xué)習(xí)平臺(tái),因其管理體制差異、個(gè)人隱私保護(hù)等原因,其管理和學(xué)習(xí)數(shù)據(jù)基本上不可能集中在一起進(jìn)行訓(xùn)練,聯(lián)邦遷移學(xué)習(xí)借助本地訓(xùn)練數(shù)據(jù)的方式能夠?qū)崿F(xiàn)不同教育類型管理和學(xué)習(xí)數(shù)據(jù)的聯(lián)合訓(xùn)練?;诼?lián)邦遷移學(xué)習(xí)的跨教育類型數(shù)字化學(xué)習(xí)行為模型,其數(shù)據(jù)樣本既來(lái)自社區(qū)教育領(lǐng)域,也來(lái)自其他教育領(lǐng)域,能夠利用正規(guī)學(xué)校教育的規(guī)范完整的管理和學(xué)習(xí)數(shù)據(jù)特征,填補(bǔ)社區(qū)教育不規(guī)范不完整的數(shù)據(jù)結(jié)構(gòu),以此來(lái)優(yōu)化社區(qū)教育數(shù)據(jù)模型的性能效果。機(jī)器學(xué)習(xí)是一個(gè)從數(shù)據(jù)中自動(dòng)生成知識(shí)的過(guò)程,借助聯(lián)邦遷移學(xué)習(xí)的知識(shí)遷移,使社區(qū)教育管理者能夠運(yùn)用正規(guī)教育管理和學(xué)習(xí)數(shù)據(jù)中生成的知識(shí),有效提升社區(qū)教育管理決策水平。

        (四)聯(lián)通各級(jí)各類教育數(shù)據(jù),助力社區(qū)教育學(xué)習(xí)成果認(rèn)證

        學(xué)習(xí)成果是指學(xué)習(xí)者在完成一段時(shí)間的學(xué)習(xí)后,被期望知道、理解和能夠做什么的陳述,學(xué)習(xí)成果重在描述學(xué)習(xí)者的成就,是一個(gè)人成功經(jīng)歷某一類型教育而取得的結(jié)果[31]。但是,對(duì)于發(fā)生在學(xué)校系統(tǒng)之外的社區(qū)教育非正規(guī)和非正式學(xué)習(xí)活動(dòng),其形式多樣,結(jié)構(gòu)較為松散,過(guò)程不可預(yù)控,效果難以確定。面對(duì)終身學(xué)習(xí)背景下學(xué)習(xí)成果認(rèn)證的各種現(xiàn)實(shí)需求,偏重正規(guī)教育的傳統(tǒng)教育評(píng)價(jià)體系已難以相適應(yīng),迫切需要針對(duì)非正規(guī)教育和非正式學(xué)習(xí)成果的認(rèn)證,以滿足整個(gè)社會(huì)全民終身學(xué)習(xí)的需要[32]。

        基于聯(lián)邦學(xué)習(xí)的數(shù)字化學(xué)習(xí)行為模型為學(xué)習(xí)成果認(rèn)證提供數(shù)據(jù)支撐,提高認(rèn)證的準(zhǔn)確性和可信度。一方面,社區(qū)數(shù)字化學(xué)習(xí)是產(chǎn)生社區(qū)居民學(xué)習(xí)成果的重要渠道,基于縱向和橫向聯(lián)邦學(xué)習(xí)的社區(qū)數(shù)字化學(xué)習(xí)行為模型,可通過(guò)對(duì)學(xué)習(xí)者的學(xué)習(xí)路徑、學(xué)習(xí)記錄、測(cè)試結(jié)果等學(xué)習(xí)數(shù)據(jù)的分析,為學(xué)習(xí)成果認(rèn)證提供參考依據(jù)。另一方面,不同教育類型的學(xué)習(xí)成果認(rèn)證需要學(xué)習(xí)成果之間具有可比性、等效性和可轉(zhuǎn)換性,基于聯(lián)邦遷移學(xué)習(xí)的跨教育類型數(shù)字化學(xué)習(xí)行為模型,對(duì)不同教育類型學(xué)習(xí)者的學(xué)習(xí)數(shù)據(jù)進(jìn)行對(duì)比,將社區(qū)教育中的非正式學(xué)習(xí)成果與其他各級(jí)各類學(xué)習(xí)成果相互聯(lián)通。數(shù)字化學(xué)習(xí)行為模型有助于社區(qū)教育學(xué)習(xí)成果的客觀評(píng)估和鑒定,有助于不同教育類型學(xué)習(xí)成果獲得實(shí)質(zhì)等效的資歷和學(xué)分,為建設(shè)終身教育資歷框架和學(xué)分銀行提供數(shù)據(jù)支撐。

        猜你喜歡
        數(shù)據(jù)挖掘用戶模型
        一半模型
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        色窝综合网| 国自产精品手机在线观看视频| 国产精品久久久久久影视 | 成人国产在线播放自拍| 亚洲专区路线一路线二网| 午夜精品久久久久久久| 国产无遮挡裸体免费视频| 中文字幕久热精品视频免费| 激烈的性高湖波多野结衣| 丁香五月缴情综合网| 国产人妖xxxx做受视频| 亚洲一区二区三区重口另类| 国产精品av在线| 国产欧美日韩视频一区二区三区 | 一本一道久久综合久久| 国产综合精品久久99之一| 亚洲午夜久久久久久久久电影网 | 色播视频在线观看麻豆| 最新国产精品久久精品| a级毛片在线观看| 精品久久杨幂国产杨幂| 亚洲一区二区av天堂| 欧美大屁股xxxx高潮喷水| 蜜桃臀无码内射一区二区三区| 欧美日韩国产乱了伦| 精品一区二区三区久久| 任我爽精品视频在线播放| 国产精品精品| 国产av一区二区三区在线| 成人一区二区三区激情视频 | 国产一区二区在线视频| 俺来也俺去啦久久综合网| 熟女少妇av免费观看| 亚洲av成熟国产一区二区| 亚洲欧美综合区自拍另类| 国产 中文 制服丝袜 另类| 在线观看中文字幕不卡二区| 中文字幕日韩人妻在线视频| 国产精品熟妇视频国产偷人| 欧美性一区| 亚洲三区av在线播放|