鄒 慶 吳冠宇 黃 昆,4 余 璟 高 原,4
(1.南瑞集團(tuán)有限公司(國(guó)網(wǎng)電力科學(xué)研究院有限公司) 南京 211106)(2.國(guó)電南瑞科技股份有限公司 南京 211106)(3.國(guó)網(wǎng)江蘇省電力公司 南京 210024)(4.智能電網(wǎng)保護(hù)和運(yùn)行控制國(guó)家重點(diǎn)實(shí)驗(yàn)室 南京 211106)
為適應(yīng)新一代電力系統(tǒng)發(fā)展的需要,國(guó)家電網(wǎng)公司提出建成具有“共享、智能、開放、安全”特征的新一代調(diào)控系統(tǒng)[1]。建立適用電網(wǎng)調(diào)控業(yè)務(wù)的應(yīng)用商店,是打造新一代調(diào)控系統(tǒng)開放生態(tài)的重要手段。新一代調(diào)控系統(tǒng)應(yīng)用商店為國(guó)網(wǎng)公司各調(diào)控業(yè)務(wù)用戶,提供監(jiān)視控制、分析預(yù)警、計(jì)劃決策、仿真模擬、綜合評(píng)估及自動(dòng)化業(yè)務(wù)等六大類場(chǎng)景數(shù)千個(gè)應(yīng)用。如何幫助電網(wǎng)調(diào)控用戶,從應(yīng)用商店中快速、高效的獲取到需要的應(yīng)用功能,是新一代調(diào)控系統(tǒng)應(yīng)用商店需要解決的一個(gè)重要問(wèn)題。
目前,互聯(lián)網(wǎng)各類應(yīng)用商店常用的應(yīng)用推薦方式:專家推薦[2]、基于用戶社交關(guān)系的推薦、基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù)的推薦。蘋果公司App-Store 各類應(yīng)用榜單是專家推薦的典型代表,蘋果公司為此組建了專職的編輯團(tuán)隊(duì),為用戶進(jìn)行篩選推薦。這類方法需要較大的人員投入,并且推薦結(jié)果單一,難以反映用戶的個(gè)性化需求?;谟脩羯缃魂P(guān)系的推薦[3~4],利用系統(tǒng)內(nèi)用戶之間的社交關(guān)系數(shù)據(jù),為用戶推薦“朋友們正在使用的應(yīng)用”。在企業(yè)應(yīng)用場(chǎng)景中,用戶缺少社交屬性,難以直接應(yīng)用該推薦技術(shù)?;跀?shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù)的推薦,又可以分為:基于項(xiàng)目的協(xié)同過(guò)濾推薦技術(shù)[5]、基于人員的協(xié)同過(guò)濾推薦技術(shù)[6]、基于內(nèi)容的推薦技術(shù)[7]等。這類推薦技術(shù),基本原理都是基于用戶行為歷史數(shù)據(jù),分析用戶興趣特征和項(xiàng)目特征,建立用戶和項(xiàng)目偏好關(guān)系,為用戶進(jìn)行個(gè)性化推薦。項(xiàng)目的特征有多種構(gòu)建方式[8],包括物品的屬性集合[9]、隱語(yǔ)義向量[10]、標(biāo)簽等。標(biāo)簽是能夠準(zhǔn)確的表達(dá)物品內(nèi)容特征的關(guān)鍵詞[11],按生成方式一般有兩種:一種是專家標(biāo)簽(Professionally-generated Content,PGC)[12],由項(xiàng)目創(chuàng)建者或者審核編輯,根據(jù)項(xiàng)目特點(diǎn)給物品定義的特性關(guān)鍵詞;另一種是用戶自定義標(biāo)簽(User-generated Content,UGC)[13],由使用者根據(jù)個(gè)人感受為物品定義的個(gè)性關(guān)鍵詞標(biāo)簽?;跇?biāo)簽的推薦算法[14~15]大多是基于UGC 標(biāo)簽進(jìn)行特征分析和推薦,基于PGC 標(biāo)簽進(jìn)行推薦的研究較少。
新一代調(diào)控系統(tǒng)應(yīng)用商店作為一個(gè)企業(yè)內(nèi)部系統(tǒng),用戶社交頻率不高,難以獲得足夠的UGC 標(biāo)簽;另一方面,應(yīng)用開發(fā)商提交應(yīng)用時(shí),提供了應(yīng)用的關(guān)鍵詞和應(yīng)用分關(guān)鍵類信息,并經(jīng)過(guò)管理員的審核,信息比較準(zhǔn)確,可以作為PGC的來(lái)源。因此,本文提出一種基于專家標(biāo)簽的推薦技術(shù),通過(guò)用戶留存應(yīng)用包含的專家標(biāo)簽,分析用戶對(duì)專家標(biāo)簽的興趣特征,建立基于標(biāo)簽的用戶應(yīng)用的興趣度計(jì)算公式,并利用相同專業(yè)的用戶興趣,補(bǔ)充目標(biāo)用戶對(duì)其他應(yīng)用的興趣度,實(shí)現(xiàn)面向新一代調(diào)控系統(tǒng)應(yīng)用的個(gè)性化推薦。最后,基于實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行了多輪測(cè)試,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出的算法對(duì)應(yīng)用個(gè)性化推薦的效果。
新一代調(diào)控系統(tǒng)應(yīng)用商店中的應(yīng)用集合A 和用戶集合U可分別表示為
式中:N為應(yīng)用總數(shù),M為系統(tǒng)用戶數(shù)。
我們把用戶已下載安裝且未卸載的應(yīng)用,稱為用戶留存應(yīng)用,用戶um留存應(yīng)用集合可以定義為
式中:N'為用戶um留存應(yīng)用個(gè)數(shù)。
其中,Ti表示應(yīng)用ai的特征向量,ki,1、ki,2、ki,3分別表示應(yīng)用ai上的3 個(gè)關(guān)鍵詞,ci表示應(yīng)用ai屬于的分類,由于1個(gè)應(yīng)用可以同時(shí)屬于1個(gè)或多個(gè)分類,應(yīng)用ai特征可進(jìn)一步表示為
式中:J為應(yīng)用ai的應(yīng)用分類個(gè)數(shù)。
用戶um留存應(yīng)用,包含的標(biāo)簽集合表示為
式中:P 為用戶um留存的應(yīng)用包含的PGC 標(biāo)簽個(gè)數(shù)?;赥F-IDF 算法[16],用戶um對(duì)Rm中某個(gè)標(biāo)簽tm,p的偏好可表示為
式中:Num(rm,p)為用戶um留存的應(yīng)用中包含標(biāo)簽tm,p的應(yīng)用個(gè)數(shù),Num(Rm)為用戶um留存的應(yīng)用包含的標(biāo)簽數(shù),Num(tA,m,p)為所有應(yīng)用中包含標(biāo)簽tm,p的應(yīng)用個(gè)數(shù)。用戶留存應(yīng)用中,包含某個(gè)標(biāo)簽的應(yīng)用越多,說(shuō)明該標(biāo)簽對(duì)用戶的選擇偏好影響越大;同時(shí),在所有應(yīng)用中,越多的應(yīng)用包含某個(gè)標(biāo)簽,該標(biāo)簽?zāi)軌蚍从秤脩襞d趣的區(qū)分度越低。
基于式(7),用戶um對(duì)應(yīng)用ai的偏好,可以通過(guò)用戶um對(duì)應(yīng)用ai上的多維標(biāo)簽的偏好,按照權(quán)重疊加計(jì)算,表示為
式中:Pm,k表示用戶um對(duì)應(yīng)用ai的關(guān)鍵詞ki標(biāo)簽的興趣度,Pm,c表示用戶um對(duì)應(yīng)用ai的分類標(biāo)簽ci的興趣度,l為應(yīng)用分類特征相對(duì)于關(guān)鍵詞特征的權(quán)重。
基于式(8),為目標(biāo)用戶um計(jì)算所有待預(yù)測(cè)應(yīng)用的興趣度并進(jìn)行排名,選擇興趣度Top-N應(yīng)用集合,作為推薦候選集RAm,N。
式(8)是建立在基于目標(biāo)用戶um歷史行為,分析用戶留存應(yīng)用標(biāo)簽基礎(chǔ)上計(jì)算用戶對(duì)應(yīng)用的興趣度。對(duì)于那些不包含目標(biāo)用戶um喜好標(biāo)簽的應(yīng)用,可以參考與目標(biāo)用戶um興趣度相似的用戶進(jìn)行推薦。傳統(tǒng)基于用戶的協(xié)同過(guò)濾,主要通過(guò)統(tǒng)計(jì)用戶的歷史行為,挖掘出行為特征類似的用戶,確定為同類用戶,進(jìn)行協(xié)同推薦[17]。整個(gè)過(guò)程計(jì)算復(fù)雜,花費(fèi)時(shí)間長(zhǎng)。在新一代調(diào)控系統(tǒng)場(chǎng)景中,企業(yè)用戶有顯著的專業(yè)特性,同一專業(yè)崗位的用戶,工作職責(zé)和工作范圍都比較相似,其選擇的應(yīng)用具有很大的參考性,所以本文利用這一特點(diǎn),基于式(8)計(jì)算同一專業(yè)崗位的用戶的平均興趣度,選擇興趣度Top-N應(yīng)用集合,作為用戶um推薦候選集RA'm,N。
合并推薦候選集RAm,N與RA'm,N,按照興趣度選擇Top-N作為用戶um最終的推薦結(jié)果Wm,N。
本文提出的推薦算法,利用應(yīng)用包含的多維特征專家標(biāo)簽,建立用戶和應(yīng)用之間的關(guān)聯(lián)關(guān)系,通過(guò)用戶對(duì)應(yīng)用標(biāo)簽的偏好分析,預(yù)測(cè)用戶對(duì)其他未知應(yīng)用的興趣度,結(jié)合目標(biāo)用戶以及目標(biāo)用戶相似用戶的偏好,生成Top-N推薦。具體算法如下:
算法1
輸入:訓(xùn)練集,測(cè)試集,l值,N值
輸出:目標(biāo)用戶um的Top-N推薦集Wm,N
步驟1:根據(jù)訓(xùn)練集中用戶留存應(yīng)用信息A',廠商標(biāo)注的應(yīng)用標(biāo)簽(關(guān)鍵詞和應(yīng)用分類)信息T,計(jì)算出用戶um留存的應(yīng)用標(biāo)簽集合Rm
步驟2:根據(jù)式(3)計(jì)算用戶um對(duì)標(biāo)簽的偏好矩陣Pm
步驟3:根據(jù)式(4)計(jì)算用戶um對(duì)應(yīng)用的偏好矩陣Im
步驟4:按照目標(biāo)用戶um對(duì)應(yīng)用的偏好值排序,選擇Top-N應(yīng)用候選推薦集RAm,N
步驟5:根據(jù)用戶崗位屬性,選擇同一崗位的用戶,根據(jù)同類用戶對(duì)應(yīng)用的偏好值排序,選擇Top-N應(yīng)用,構(gòu)建應(yīng)用候選推薦集RA'm,N
步驟6:合并候選推薦集RAm,N和RA'm,N按照偏好值排序,從中選擇Top-N推薦應(yīng)用集Wm,N。
新一代調(diào)控系統(tǒng)目前正處于試點(diǎn)建設(shè)階段,應(yīng)用商店還缺少足夠的應(yīng)用信息和用戶行為數(shù)據(jù)。為了驗(yàn)證本文提出的推薦算法,我們從互聯(lián)網(wǎng)公開數(shù)據(jù)集中選擇了GroupLens 實(shí)驗(yàn)室2000 年發(fā)布的MovieLens 1M 電影評(píng)級(jí)數(shù)據(jù)集[18],該數(shù)據(jù)集包含的用戶和電影數(shù)量,與新一代調(diào)控系統(tǒng)的用戶和應(yīng)用規(guī)模比較接近。由于MovieLens 1M[19]數(shù)據(jù)集并沒(méi)有包含電影標(biāo)簽數(shù)據(jù),我們從MovieLens 10M[20]數(shù)據(jù)集中篩選出了MovieLens 1M 數(shù)據(jù)集中所有電影所對(duì)應(yīng)的標(biāo)簽數(shù)據(jù),加入到實(shí)驗(yàn)數(shù)據(jù)。實(shí)驗(yàn)數(shù)據(jù)包括:
電影數(shù)據(jù)([“movies”]):包括電影標(biāo)記、電影名稱及電影類別(可多選)。
用戶數(shù)據(jù)([“users”]):用戶標(biāo)記、用戶職業(yè)。
電影評(píng)分?jǐn)?shù)據(jù)([“ratings”]):用戶標(biāo)記、電影標(biāo)記、用戶對(duì)電影評(píng)分(1-5分)。
電影標(biāo)簽數(shù)據(jù)([“tags”]):用戶標(biāo)記、電影標(biāo)記、用戶對(duì)電影所打標(biāo)簽。
GroupLens 發(fā)布的電影數(shù)據(jù)集,其場(chǎng)景與本文的新一代調(diào)控系統(tǒng)應(yīng)用商店的場(chǎng)景有所差異,無(wú)法直接應(yīng)用于算法1,需要進(jìn)行必要的數(shù)據(jù)預(yù)處理。GroupLens 數(shù)據(jù)集中電影標(biāo)簽屬于UGC 標(biāo)簽,來(lái)源于用戶對(duì)電影的個(gè)性化標(biāo)簽操作,同一部電影不同用戶根據(jù)個(gè)人感受可能會(huì)打出多個(gè)不同的標(biāo)簽,這與新一代調(diào)控系統(tǒng)應(yīng)用商店中,由開發(fā)廠商提交關(guān)鍵詞、應(yīng)用分類等應(yīng)用專家標(biāo)簽不同,為此我們對(duì)GroupLens中電影標(biāo)簽數(shù)據(jù)([“tags”])進(jìn)行了處理:從每部電影的用戶個(gè)性化標(biāo)簽數(shù)據(jù)中,篩選出使用頻率最高的三個(gè)標(biāo)簽,作為該電影的“關(guān)鍵詞”標(biāo)簽,電影數(shù)據(jù)([“movies”])中的分類信息作為分類標(biāo)簽,共同構(gòu)成電影的“專家”標(biāo)簽。同時(shí),對(duì)應(yīng)新一代調(diào)控系統(tǒng)中應(yīng)用是/否留存的狀態(tài),基于電影的評(píng)分?jǐn)?shù)據(jù)([“ratings”]),先統(tǒng)計(jì)出平均值M,作為電影平均質(zhì)量的評(píng)判標(biāo)準(zhǔn),用戶對(duì)電影的評(píng)分大于等于M時(shí),定義為用戶“留存”電影A'。
將實(shí)驗(yàn)數(shù)據(jù)集中電影評(píng)分?jǐn)?shù)據(jù)([“ratings”]),按照80/20 比例隨機(jī)分成兩部分:訓(xùn)練數(shù)據(jù)集T1包含評(píng)分?jǐn)?shù)據(jù)其中的80%,測(cè)試數(shù)據(jù)集V1包含剩余的20%。為了保證實(shí)驗(yàn)結(jié)果的客觀性,分為5 輪進(jìn)行重復(fù)測(cè)試,每輪保持80/20 比例重新隨機(jī)劃分訓(xùn)練數(shù)據(jù)集Ti和測(cè)試數(shù)據(jù)集Vi,1 ≤i≤5。
根據(jù)算法1,通過(guò)訓(xùn)練數(shù)據(jù)Ti為用戶um生成的推薦集合Ri。通過(guò)測(cè)試數(shù)據(jù)驗(yàn)證,計(jì)算推薦集合Ri中應(yīng)用的正負(fù)反饋比,在測(cè)試數(shù)據(jù)Vi中評(píng)分大于應(yīng)用商店平均分M 的應(yīng)用判定為正反饋,評(píng)分低于M的判定為負(fù)反饋。正負(fù)反饋比越高,證明應(yīng)用留存的概率越大,即應(yīng)用推薦的質(zhì)量越高。
根據(jù)算法1,在每輪試驗(yàn)中,λ值依次為1、2、0.5、0.2,N 值依次為10、20、30、40、50。5 輪試驗(yàn)結(jié)果對(duì)比如圖1所示。
圖1 不同l值、N值對(duì)應(yīng)的推薦列表正負(fù)反饋比較
由圖1可以看出,5輪試驗(yàn),隨著訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集的隨機(jī)劃分,推薦結(jié)果雖有一定波動(dòng),但推薦結(jié)果表現(xiàn)出類似的變化趨勢(shì)。在同一l 值時(shí),Top-N推薦N值取10時(shí),取得最好的推薦效果,推薦的準(zhǔn)確性最高;隨著N 值范圍越大,推薦的準(zhǔn)確性越低,推薦結(jié)果中出現(xiàn)負(fù)反饋的比例越大。
此外,不同λ值對(duì)于推薦結(jié)果的表現(xiàn)為,λ值為1時(shí)表現(xiàn)相對(duì)更好,λ值為0時(shí),有一定程度降低,其余λ值表現(xiàn)變化不大。所以再考慮應(yīng)用的標(biāo)簽數(shù)據(jù)時(shí),應(yīng)用的關(guān)鍵詞標(biāo)簽、分類標(biāo)簽不同維度的標(biāo)簽,都應(yīng)該納入推薦依據(jù),根據(jù)試驗(yàn)結(jié)果,兩個(gè)維度權(quán)重相等時(shí),取得最好的推薦結(jié)果。
本文在基于專家標(biāo)簽多維特征的內(nèi)容推薦上,采用同類用戶協(xié)同推薦,對(duì)推薦結(jié)果進(jìn)行優(yōu)化。下表對(duì)本文方法和基于標(biāo)簽的內(nèi)容推薦方法進(jìn)行了推薦質(zhì)量采用每輪實(shí)驗(yàn)正負(fù)反饋比平均值進(jìn)行對(duì)比。
由表1 可以看出,本文方法相對(duì)于基于標(biāo)簽的推薦算法有了明顯的改進(jìn),在多維標(biāo)簽特征對(duì)推薦結(jié)果的基礎(chǔ)上,結(jié)合用戶的工作屬性,根據(jù)同類用戶喜好進(jìn)行協(xié)同過(guò)濾,對(duì)推薦結(jié)果的準(zhǔn)確度有進(jìn)一步提升。
表1 2種算法的推薦質(zhì)量比較
實(shí)驗(yàn)結(jié)果顯示,本文提出的面向新一代調(diào)控系統(tǒng)的應(yīng)用個(gè)性化推薦技術(shù),在傳統(tǒng)基于用戶標(biāo)簽的推薦技術(shù)基礎(chǔ)上,充分利用新一代調(diào)控系統(tǒng)的場(chǎng)景特性,基于專家標(biāo)簽建立多維特征用戶興趣度模型,利用相同專業(yè)用戶興趣偏好進(jìn)行協(xié)同推薦,為用戶實(shí)現(xiàn)了應(yīng)用個(gè)性化推薦,提高了用戶應(yīng)用選擇效率。后續(xù)將在新一代調(diào)控系統(tǒng)上線運(yùn)行過(guò)程中,通過(guò)采集用戶操作數(shù)據(jù),進(jìn)一步完善推薦算法,實(shí)現(xiàn)更高質(zhì)量的推薦結(jié)果。