摘 要:本文提出了一種基于模糊聚類分析中傳遞閉包法的漢語學習者興趣分組算法,從日志整理出特征,得出聚類結果,為漢語教學個性化、風格化提供了依據(jù)。
關鍵詞:國際漢語言文化傳播;聚類分析;傳遞閉包
中圖分類號:TP391.6 文獻標識碼:A 文章編號:1674-7712 (2012) 12-0169-01
一、引言
對外漢語網絡教學是國際漢語言文化傳播的有效手段之一。教育個性化理論認為每個學習者的行為特征都不一樣,因此,學習需求和語言接受能力對于每個漢語學習者也就不盡相同。在漢語網絡教學中對學習者進行科學的有針對性的分析與設計,將使得學習更具個性化、風格化,學習效果更好。
二、基于傳遞閉包興趣分組
聚類分析是指將物理或抽象對象的集合分組成由類似的對象組成的多個類的分析過程。
(一)傳遞閉包法
傳遞閉包法是將經典集合理論中的等價關系應用到模糊集合中,產生新的模糊等價關系。該模糊聚類分析方法是按照傳遞閉包不同截集λ(0≤λ≤1)來進行分類。首先要得到模糊相似矩陣R,然后求出矩陣R的傳遞閉包T(R),即包含R的最小模糊傳遞矩陣,最后通過T(R)進行聚類,即將模糊關系矩陣足傳遞性,所以要對模糊相似關系進行處理,可以通過求傳遞閉包來滿足傳遞性,形成模糊等價關系,只要設定閥值就能將這種關系直接用于聚類,得到聚類分析的結果。
(二)興趣分組聚類算法
定義1:設學習者的興趣集I={I1,…Ii,…In},則學習者第i個興趣為Ii,可表示為Ii=(Ki,Qi),Ki為Ii的名稱,Qi為Ii在興趣集I中的重要程度。
定義2:第i個興趣的日志挖掘信息表示為Li={Li0,Li1,Li2,Li3,Li4}。
式中,Li0為興趣i的初值,Li1為學習者訪問興趣i的資源節(jié)點數(shù),Li2為學習者收藏興趣i的數(shù)量,Li3為評論興趣i的數(shù)量,Li4為訪問興趣i頁面花費的總時間。
通常,學習者對某種興趣的喜好度可以用Li1到Li3這幾種行為表示??紤]到學習者對興趣喜好度高的資源上花時更長,故加入Li4并對其進行預處理。設通過日志獲取訪問開始到結束的本次訪問時間t,t1表示最小閱讀時間限制,t2表示是最大閱讀時間限制。當t≤t1時,認為學習者沒有訪問該頁面;當t≥t2時,認為學習者并不一定特別關注該資源。
學習者興趣的計算:
式中,α和β是可以由相關教育專家根據(jù)統(tǒng)計結果作出改變的參數(shù),Ii0為更新后的值。
通過以上計算能得出學習者每種興趣的權值,這里分兩種情況:若考慮學習者只有一種興趣,就以權值最大的的興趣來進行分組;若認為學習者有多種興趣,則可以采用以下模糊聚類傳遞閉包方法進行分組:
首先,用向量相似度法計算兩個學習者間的相似度,將每個學習者的興趣看作一個由多關鍵字組成的向量,用向量的夾角余弦表示相似度,計算公式如下:
式中,Qi為學習者每種興趣的權值。
Au1*u2越接近1,則表示兩個學習者的興趣越接近,若Au1*u2=1,則表示兩個學習者的興趣完全相似。
然后,以學習者為行、列構造相似度滿足對稱性和自反性矩陣S。S中的元素表示學習者間的相似度。一般S不具傳遞性,要將S轉換模糊等價關系,求S的包含關系其最小的傳遞性矩陣T,然后設置截集λ(0≤λ≤1,取值越大分類精度越高)的大小進行聚類。
以下是總結興趣分組聚類算法:
1.預處理輸入值Web日志信息,得到如瀏覽數(shù)、評論數(shù)、收藏數(shù)、瀏覽時長等所需要的信息;
2.利用上一步的結果,通過公式2和公式3得到學習者每種興趣的權值Qi;
3.通過公式3得到學習者間的興趣相似度Au1*u2,構建相似度矩陣S;
4.通過S計算出傳遞閉包T;
5.確定λ值,輸出值=學習者的聚類模式。
三、算法評估
本文的系統(tǒng)評估模型={個人滿意度,學習效果},主要從個人滿意度和學習效果兩個指標來進行評估。滿意度通過調查問卷的形式采集,學習效果通過學完后測試來完成。
根據(jù)智力活動復雜程度和國外學習者實際情況,將認知能力目標分成三個層次:識記、理解、應用,每層次可給出1-5分。設D'={D1',D2',D3'},D1'、Ds'、D3'分別表示教育專家決定的三層次學習效果分量隸屬度,且D1'+D2'+D3'=1。設F={F1,F(xiàn)2,F(xiàn)3},F(xiàn)1、F2、F3分別表示各層次的分數(shù),則學習者的學習效果最終評估結果R=F1D1'+F2D2'+F3D3'。若R>3,表明學習效果達到及格目標。
最終系統(tǒng)評估的結果為:R總=λ1R滿意度+λ2R學習效果。其中,λ1和λ2為參數(shù)(λ1+λ2=1)。參數(shù)一般取值為λ1=0.5、λ2=0.5,若學習者沒有完成滿意度調查,參數(shù)取值為λ1=0、λ2=1。若R總≥3,則表明通過評估。
四、實驗結果
將有一定間隔時間的5083條控制日志信息輸送到目的控制臺或文件中,識別出282條會話。給出公式1中參數(shù)α、β和截集λ的不同值,實驗結果R(λ)如表1所示。
從表1結果可看出,當α=0.4、β=0.6、λ=0.7時R(λ)最大,聚類結果最佳。在以上基礎上,提交調查反饋結果共100人,問卷平均分為3.84,說明通過評估。
五、結束語
本文介紹了模糊聚類分析中傳遞閉包法應用于對外漢語教學平臺的個性化服務,由于目前參與測試的不多,今后還需要更多的測試者參與評估核實。
參考文獻:
[1]韓家煒,Kamber M.數(shù)據(jù)挖掘:概念與技術[M].北京,2007
[2]許海玲,吳瀟,李曉東.互聯(lián)網推薦系統(tǒng)比較研究[J].軟件學報,2009,29(6):1590-1593
[基金項目]湖南大眾傳媒職業(yè)技術學院科研課題《基于學習風格的漢語學習平臺個性化服務研究》(項目編號:11YJ15)