姚敦紅,李石君,胡亞慧,3
?
三維有偏權(quán)值張量分解在授課推薦上的應(yīng)用研究
姚敦紅1,2,李石君2,胡亞慧2,3
(1. 懷化學(xué)院計算機科學(xué)與工程學(xué)院 湖南懷化 418000;2. 武漢大學(xué)計算機學(xué)院 武漢 430072; 3.空軍預(yù)警學(xué)院四系 武漢 430010)
為解決現(xiàn)今學(xué)校授課安排無推薦依據(jù)這一實際問題,首先給出了一系列形式化方法用于規(guī)約教師的專業(yè)基礎(chǔ)、課程難度及教學(xué)評價;定義了一種加權(quán)函數(shù)計算出每組專業(yè)基礎(chǔ)、課程難度和教學(xué)評價的綜合有偏權(quán)值;構(gòu)建了一種基于“教師-課程-評價-權(quán)值”四元關(guān)系的三維有偏權(quán)值張量模型,張量元素使用綜合有偏權(quán)值。在此基礎(chǔ)上,設(shè)計了一種基于Tucker分解的算法,對張量進行高階奇異值分解(HOSVD)得到降維后的近似張量,按課程分類實現(xiàn)了Top_授課推薦。實驗結(jié)果表明,當(dāng)?shù)撝颠_到一個合理值時,該方法能實現(xiàn)精準授課推薦,可作為一種新的智能化授課推薦方法應(yīng)用于各類學(xué)校。
數(shù)據(jù)規(guī)約; 授課推薦; 張量分解; 三維有偏權(quán)值張量
推薦系統(tǒng)是對用戶歷史行為數(shù)據(jù)進行分析、預(yù)測并主動為用戶給出相關(guān)推薦的系統(tǒng)。自文獻[1]推出第一個推薦系統(tǒng)以來,涌現(xiàn)出了大量的推薦系統(tǒng),特別是在電子商務(wù)、社交網(wǎng)絡(luò)、搜索引擎等方面,如亞馬遜基于興趣的廣告推薦、NEC研究院的CiteSeer搜索引擎、IBM的Websphere電商平臺、阿里云推薦、京東推廣、百度推廣、博客挖掘、社交推薦等。這些推薦應(yīng)用的實現(xiàn)一般是根據(jù)用戶行為數(shù)據(jù)建立起的“用戶-項目”二元關(guān)系挖掘分析而得。隨著社會化標簽的出現(xiàn),又出現(xiàn)了“用戶-產(chǎn)品-標簽”的三元關(guān)系,使個性化推薦更趨向精準。
目前,推薦系統(tǒng)常用的技術(shù)有基于歐氏距離、Pearson相關(guān)系數(shù)、余弦相似性和Tanomi等最近鄰啟發(fā)式協(xié)同過濾推薦算法[2];有基于上下文感知模型、潛在因子模型、貝葉斯模型、信任感知模型、聚類模型、最大熵模型[3]等協(xié)同過濾推薦算法;有以決策樹、神經(jīng)網(wǎng)絡(luò)、向量、TF-IDF、自適應(yīng)過濾、閾值設(shè)定等基于內(nèi)容的推薦算法;還有其他如關(guān)聯(lián)規(guī)則推薦、效用推薦、知識推理等算法,以及使用標簽的圖、標簽的FolkRank、層疊、加權(quán)、變換、標簽層次聚類[4]和張量分解的組合推薦算法等。
應(yīng)用張量分解算法進行個性化推薦,在近年來也有了一些研究,文獻[5-7]采用了融合某種關(guān)系或附加某種標簽信息的張量分解推薦算法。文獻[8-10]也有采用加權(quán)張量模型,即通過提取標注關(guān)鍵特征,再得出一個權(quán)值作為張量元素。
在現(xiàn)有研究中,還未曾涉及學(xué)校授課推薦。一直以來,學(xué)校授課安排沒有一種好的推薦依據(jù),很多是隨教師意愿而為,或是強加給教師,這些方式未能使教學(xué)達到最優(yōu)效果,難以提高教學(xué)質(zhì)量。所以,在學(xué)校多年大量的教學(xué)數(shù)據(jù)中進行分析挖掘,找到一種實現(xiàn)精準授課推薦的方法,具有一定的現(xiàn)實意義和實用價值。
本文借鑒文獻[11]的四元元組張量分解算法,優(yōu)化文獻[12]中提出的張量稀疏問題,設(shè)計一種基于Tucker張量分解的算法。并利用歷史教學(xué)數(shù)據(jù)集進行授課推薦實驗,驗證該方法在授課推薦上的準確性。
張量是高維數(shù)組的總稱[14],一維張量是向量,二維張量是矩陣,三維或以上的張量為高階張量[6]。張量分解即HOSVD,是對高維數(shù)據(jù)進行特征提取,或是一種低秩逼近。常見的張量分解模型有:CP模型、Tucker模型[15]。Tucker模型將維張量分解成個維度上的低秩特征矩陣與一個核心張量的乘積,其本質(zhì)是一種高階主成分分析。如三維張量的Tucker分解為:
為構(gòu)建用于授課推薦的有偏權(quán)值張量模型,和適應(yīng)使用基于Tucker張量分解算法的要求,需對采集得到的相關(guān)教學(xué)數(shù)據(jù)進行預(yù)處理。首先從教師信息表、課程信息表及學(xué)生評教表等多個數(shù)據(jù)庫表中,采用ETL方式構(gòu)建一個事實星座模式的教學(xué)信息數(shù)據(jù)倉庫,其結(jié)構(gòu)如圖1所示。圖中,Course ID表示課程編號,Eva表示綜合評價值,Sf(1)表示第1畢業(yè)學(xué)校因子,Sf(2)表示最后畢業(yè)學(xué)校因子,Pdb表示專業(yè)基礎(chǔ)度。
然后采用下述定義對數(shù)據(jù)倉庫中的相關(guān)屬性進行規(guī)約處理:
定義1 畢業(yè)學(xué)校因子(school factor,Sf):用來規(guī)約教師的畢業(yè)學(xué)校,按下列規(guī)則賦值,畢業(yè)于“985工程”與“211工程”高校Sf=0.4,畢業(yè)于“211工程”高校Sf=0.3,畢業(yè)于其他一本院校Sf=0.2,畢業(yè)于二本及以下院校Sf=0.1。
定義2 學(xué)位系數(shù)(degree coefficient,Dc):用于規(guī)約教師取得的學(xué)位,本文約定博士、碩士、學(xué)士和無學(xué)位的Dc分別取0.4、0.3、0.2和0.1。
圖1 事實星座模式結(jié)構(gòu)圖
定義4 課程難度系數(shù)(curriculum difficulty coefficient, Cdc)(0.1≤Cdc≤1):用于規(guī)范課程難度的指標,值越大表示課程難度越大。為使課程難度系數(shù)的評定趨于公認值,邀請校內(nèi)外該專業(yè)優(yōu)秀畢業(yè)生及專家教師在課程難度系數(shù)網(wǎng)上問卷調(diào)查,問卷調(diào)查中為每一專業(yè)的每門課程給出1~10個選項,每個專業(yè)總問卷份數(shù)不少于指定的閾值(如200)。然后將每門課程的難度系數(shù)規(guī)范化至區(qū)間[min,max] (本文中設(shè)min為0.1,max為1.0)上的一個難度系數(shù),表示為:
式中,Qr表示某門課程按專家教師問卷調(diào)查所占權(quán)重(0<<1)得到的難度值:
式中,為某專業(yè)回收的教師專家問卷份數(shù);為回收的學(xué)生問卷份數(shù);Cd為第門課程在問卷中所給出的難度系數(shù)值。
定義5 教師授課綜合評價值(evaluation, Eva) (0.1≤Eva≤1):表示教師所授的某一門課程總的綜合評價分,分值越高表示越受歡迎??刹捎米钚?最大規(guī)范化方法將Eva規(guī)范化至區(qū)間[min,max](本文設(shè)min為0.1,max為1.0)上的一個綜合評價值,表示為:
式中,Stu_scomin為某專業(yè)內(nèi)所有課程中評價最低分值;Stu_scomax為評價最高分值;Stu_sco表示某教師所授同一課程,在個學(xué)期上學(xué)生評價分的總平均值:
在實際應(yīng)用中,課程集與教師集均是大數(shù)集,但每位教師所教授的課程僅占課程集中幾個元素。這樣勢必會造成三維有偏權(quán)值張量中絕大部分元素為0,即構(gòu)建的張量是非常稀疏的。
輸入:迭代收斂閾值和最大迭代次數(shù)max- iteration;
Begin
按教師()-課程()-評分()-權(quán)值()構(gòu)建三維有偏權(quán)值張量;
for(=0;< max-iteration;++) {
for each∈[1,2,3] {
End
數(shù)據(jù)來源于某二本院校4年間728名任課教師、1 683門課程和256 632個真實評價原始記錄,實驗數(shù)據(jù)選用了某二級學(xué)院40名教師、128門課程以及465個評分(每位教師4年所授課程的學(xué)生評分的總平均值按式(9)計算)的記錄數(shù)據(jù)。
設(shè)定不同的比重系數(shù)、Dw和,得到不同的實驗數(shù)據(jù)集。根據(jù)定義3,不同的和Dw對Pbd有影響,表1為=0.7,Dw=0.4時的Pbd值。=0.5,Dw=0.2時,Pbd變化情況如表2所示。
表1 教師信息維表(非全日制)
表2 Pbd變化情況
是確認課程難度中教師專家給出的值的比重,根據(jù)定義4可以很明顯的看出,的變化對課程難度的評定也是有影響的,如表3所示。
表3 w值對課程難度的影響
課程評價數(shù)據(jù)Eva按定義5中的式(9)和式(10)可以得到,如表4所示。
表4 學(xué)生評分
表5 實驗數(shù)據(jù)集(E)
根據(jù)表5的實驗數(shù)據(jù),按有偏權(quán)值張量模型構(gòu)建稀疏程度為90.92%的張量,其非0值元素在三維張量模型中的分布如圖2所示。
圖2 稀疏有偏權(quán)值張量X非零元素分布圖
實驗1:推薦精度與排序準確性
為了保證每門課程在訓(xùn)練集和測試集中都有數(shù)據(jù),在實驗數(shù)據(jù)集中,任選每門課程的20%作為測試集T,在余下的80%實驗數(shù)據(jù)-T中隨機選取每門課程的60%、70%、80%、90%和100%作為訓(xùn)練集,進行授課推薦實驗。在每個不同比例的訓(xùn)練集上,將迭代收斂閾值分別設(shè)為0.005、0.001、0.000 5和0.000 1。
然后采用文獻[17]中的平均絕對誤差(mean absolute error, MAE)[18]評價指標來衡量各推薦實驗的精度,定義如下:
采用P@[19](Precision at)來評價課程的前個被推薦教師的相關(guān)性(實驗中僅考慮1、3、5這3種值),該評價指標適合TOP_推薦評測:
經(jīng)過實驗發(fā)現(xiàn),任選E-TE中60%、70%、80%、90%和100%的實驗數(shù)據(jù)作為訓(xùn)練集實驗時,不同迭代收斂閾值e下MAE結(jié)果如圖3所示:
從圖中可以看出,使用不同比例訓(xùn)練集的預(yù)測精度是不一樣的,比例越高,預(yù)測精度越好;算法迭代收斂閾值越小,預(yù)測精度也越好。實驗表明,迭代閾值小于或等于0.000 5,采用上述任一比例訓(xùn)練集,其平均絕對誤差MAE均小于1。如果訓(xùn)練集大于余下的實驗數(shù)據(jù)集的90%及以上,迭代閾值?[0.000 1,0.005],也可使MAE值小于1,在這些情況下,可認為預(yù)測精度達到要求。
固定迭代閾值=0.000 5,訓(xùn)練集任選-T的60%、70%、80%、90%和100%,在取不同時P@排序準確性對比如圖4所示:
圖4 不同比例訓(xùn)練集在不同N下的P@N對比圖
從圖中可以看出,訓(xùn)練集越大,算法排序準確性越高;值越小,排序準確性相對來說也會越高。
實驗2:不同比重系數(shù)下的推薦對比
用一系列對比實驗檢驗不同比重系數(shù)下的推薦差異,在每組對比實驗中,約定從各實驗數(shù)據(jù)集中任選每門課程的20%作為測試集,余下的80%作為訓(xùn)練集,算法迭代閾值=0.000 5,對比在同一門課程下的Top_5的推薦差異:
表6 不同r、Dw值下的Top_5推薦對比(Course ID=60 264)
表7 不同w值下的Top_5推薦對比(Course ID=60 264)
表8 不同偏重系數(shù)下的Top_5推薦對比(Course ID=60 264)
表9 任意比重系數(shù)下的Top_5推薦對比(Course ID=60 264)
上述實驗表明,采用文中的形式化定義規(guī)約教師專業(yè)基礎(chǔ)度、課程難度和課程評價,取綜合有偏權(quán)值作為三維加權(quán)張量模型元素,使用Tucker分解算法,可按不同側(cè)重點精確實現(xiàn)授課推薦。因此,建議每所學(xué)校根據(jù)自身需求設(shè)定授課推薦依據(jù),選取合適的比重系數(shù),獲得較理想的推薦結(jié)果,有效地提高教學(xué)質(zhì)量。
從授課安排無較好的推薦依據(jù)的實際問題出發(fā),通過歸約教師專業(yè)基礎(chǔ)、課程難度及教學(xué)評價,定義具有偏重性的加權(quán)方法,構(gòu)建基于“教師-課程-評價-權(quán)值”四元關(guān)系之上的三維有偏權(quán)值張量模型,使用基于Tucker的分解算法,成功地實現(xiàn)了精準授課推薦,解決了一直以來授課安排無推薦依據(jù)的現(xiàn)狀,為實現(xiàn)智能化精準授課推薦找到了一種新方法。如何更好地結(jié)合教師年齡、職稱、專業(yè)方向等特征,更進一步精確地和多樣化地實現(xiàn)個性化授課推薦,將是下一步研究的重點。
[1] GOLDBERG D, NICHOLS D, OKI B M, et al. Using collaborative filtering to weave an information tapestry[J]. Communications of the ACM, 1992, 35(12): 61-70.
[2] 李聰, 梁昌勇, 馬麗. 基于領(lǐng)域最近鄰的協(xié)同過濾推薦算法[J]. 計算機研究與發(fā)展, 2008, 45(9): 1532-1538.
LI Cong, LIANG Chang-yong, MA Li. A collaborative filtering recommendation algorithm based on domain nearest neighbor[J]. Journal of Computer Research and Development, 2008, 45(9): 1532-1538.
[3] 于江德, 李學(xué)鈺, 樊孝忠, 等. 最大熵模型的事件分類[J]. 電子科技大學(xué)學(xué)報, 2010, 39(4): 612-616.
YU Jiang-de, LI Xue-yu, FAN Xiao-zhong, et al. Event classification based on maximum entropy model[J]. Journal of University of Electronic Science and Technology of China, 2010, 39(4): 612-616.
[4] 葉茂, 陳勇. 基于分布模型的層次聚類算法[J]. 電子科技大學(xué)學(xué)報, 2004, 33(2): 171-174.
YE Mao, CHENG Yong. Hierarchical clustering algorithm based on distribution model[J]. Journal of University of Electronic Science and Technology of China, 2004, 33(2): 171-174.
[5] 廖志芳, 李玲, 劉麗敏, 等. 三部圖張量分解標簽推薦算法[J]. 計算機學(xué)報, 2012, 35(12): 2625-2632.
LIAO Zhi-fang, LI Ling, LIU Li-min, et al. A tripartite decomposition of tensor for social tagging[J]. Chinese Journal of Computers, 2012, 35(12): 2625-2632.
[6] 鄒本友, 李翠平, 譚力文, 等. 基于用戶信任和張量分解的社會網(wǎng)絡(luò)推薦[J]. 軟件學(xué)報, 2014, 25(12): 2852-2864.
ZOU Ben-you, LI Cui-ping, TAN Li-wen, et al. Social recommendations based on user trust and tensor factorization[J]. Journal of Software, 2014, 25 (12): 2852- 2864.
[7] 廖志芳, 王超群, 李小慶, 等. 張量分解的標簽推薦及新用戶標簽推薦算法[J]. 小型微型計算機系統(tǒng), 2013, 34(11): 2472-2476.
LIAO Zhi-fang, WANG Chao-qun, LI Xiao-qing, et al. Tag recommendation and new user tag recommendation algorithms based on tensor decomposition[J]. Journal of Chinese Computer Systems, 2013, 34(11): 2472-2476.
[8] 孫玲芳, 馮遵倡. 基于特征加權(quán)張量分解的標簽推薦算法研究[J]. 江蘇科技大學(xué)學(xué)報: 自然科學(xué)版, 2015, 29(6): 574-579.
SUN Ling-fang, FENG Zun-chang. Tag recommendation algorithm based on feature weighting and tensor decomposition[J]. Journal of Jiangsu University of Science and Technology (Natural Science Edition), 2015, 29(6): 574-579.
[9] 孫玲芳, 李爍朋. 基于K-means聚類與張量分解的社會化標簽推薦系統(tǒng)研究[J]. 江蘇科技大學(xué)學(xué)報: 自然科學(xué)版, 2012, 26(6): 597-601.
SUN Ling-fang, LI Shuo-peng. Social tagging recommendation system based on K-means cluster and tensor decomposition[J]. Journal of Jiangsu University of Science and Technology (Natural Science Edition), 2012, 26(6): 597-601.
[10] 張昌利, 龔建國, 閆茂德. 基于復(fù)雜網(wǎng)絡(luò)的社會化標簽語義相似度分析[J]. 電子科技大學(xué)學(xué)報, 2012, 41(5): 642-648.
ZHANG Chang-li, GONG Jian-guo, YAN Mao-de. Complex network based semantic similarity measure for social tagging systems[J]. Journal of University of Electronic Science and Technology of China, 2012, 41(5): 642-648.
[11] SYMEONIDIS P, NANOPOULOS A, MANOLOPOULOS Y. A unified framework for providing recommendations in social tagging systems based on ternary semantic analysis[J]. IEEE Transactions on Knowledge & Data Engineering, 2010, 22(2): 179-192.
[12] SYMEONIDIS P, NANOPOULOS A, MANOLOPOULOS Y. Tag recommendations based on tensor dimensionality reduction[C]//Proceedings of the 2008 ACM Conference on Recommender Systems. New York: ACM, 2008: 43-50.
[13] ADOMAVICIUS G, TUZHILIN A. Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions[J]. IEEE Transactions on Knowledge & Data Engineering, 2005, 17(6): 734-749.
[14] BADER B W, KOLDA T G. Tensor decompositions and applications[J]. Siam Review, 2009, 51(3): 455-500.
[15] TUCKER L R. Some mathematical notes on three-mode factor analysis[J]. Psychometrika, 1966, 31(3): 279-311.
[16] 余剛, 王知衍, 邵璐, 等. 基于奇異值分解的個性化評論推薦[J]. 電子科技大學(xué)學(xué)報, 2015, 44(4): 605-610.
YU Gang, WANG Zhi-yan, SHAO Lu, et al. Singular value decomposition-based personalized review recommendation [J]. Journal of University of Electronic Science and Technology of China, 2015, 44(4): 605-610.
[17] 朱郁筱, 呂琳媛. 推薦系統(tǒng)評價指標綜述[J]. 電子科技大學(xué)學(xué)報, 2012, 41(2): 163-175.
ZHU Yu-xiao, Lü Lin-yuan. Evaluation metrics for recommender systems[J]. Journal of University of Electronic Science and Technology of China, 2012, 41(2): 163-175.
[18] BREESE J S, HECKERMAN D, KADIE C. Empirical analysis of predictive algorithms for collaborative filtering[C]//Proceedings of the Fourteenth Conference on Uncertainty in Artificial Intelligence. Madison, USA: ACM, 1998: 43-52.
[19] WANG L, MENG X, ZHANG Y, et al. New approaches to mood-based hybrid collaborative filtering[C]//The Workshop on Context-Aware Movie Recommendation. Barcelona: ACM, 2010: 28-33.
編 輯 葉 芳
A Three-Dimensional Partial Weight Tensor Model for Teaching Recommendation
YAO Dun-hong1,2, LI Shi-jun2, and HU Ya-hui2,3
(1. College of Computer Science & Engineering, Huaihua University Huaihua Hunan 418000; 2. School of Computer, Wuhan University Wuhan 430072; 3.The Fourth Department of Air Force Early Warning Academy Wuhan 430010)
To address the problem that the teaching arrangements are not on the basis of recommendation in current school, a series of formalized methods are used to specify teachers’ specialty foundation, course difficulty, and teaching evaluation first. Then, a kind of weighted function is defined to calculate the comprehensive partial weight for each group of teachers’ professional foundation, course difficulty, and teaching evaluation. Next, the three-dimensional tensor model with partial weight is built on the 4-tuples relation of teacher-course- evaluation-weight and the comprehensive weight is endowed to the tensor elements. Finally, on the basis of above,a new kind of decomposition algorithm based on Tucker Decomposition is designed to obtain the approximate tensor of dimensionality reduction with the higher-order singular value decomposition (HOSVD), achieving the Top-recommendation of teaching arrangements. Experiment results show that our proposed method can realize precise teaching arrangements recommendations when the iterative threshold value reaches a reasonable value, which can be used as a new intelligent recommendation method applied to the teaching arrangements in all kinds of schools.
data reduction; teaching recommendation; tensor decomposition; three-dimensional partial weighted tensor
TP391
A
10.3969/j.issn.1001-0548.2017.05.018
2016-03-17;
2017-05-05
國家自然科學(xué)基金(61272109);湖南省教育廳科學(xué)研究項目(15C1086)
姚敦紅(1972-),男,副教授,主要從事數(shù)據(jù)挖掘、機器學(xué)習(xí)方面的研究.