郭 楠
(同濟大學 電子與信息工程學院,上海 201800)
文本挖掘中主客觀因素影響性的眼追蹤研究
郭 楠
(同濟大學 電子與信息工程學院,上海 201800)
基于文本主題模型與眼動儀技術,從主題挖掘的客觀角度與閱讀興趣的主觀角度研究文本內容提取技術。傳統(tǒng)文本挖掘多基于文本本身內容等客觀因素,而主觀取向的重要因素很少在文本挖掘中發(fā)揮作用。文章利用眼部追蹤技術,先將眼動數據轉換為閱讀興趣等主觀結果形式,并利用LDA(Latent Dirichlet Allocation)模型對文本進行客觀主題提取,繼而對眼部數據與主題建模結果進行比較,提取分析主客觀因素對文本挖掘的影響。新聞數據集的眼部追蹤實驗與主題提取實驗顯示了主客觀因素對結果影響的具體差異性與相似性,未來兩者結合并調控比率可作為對文本挖掘效果提升的基本方向。
文本主題建模;眼部追蹤技術;文本挖掘;主題模型
文本主題建模以LDA(Latent Dirichlet Allocation)模型[1]為代表,是近年來文本挖掘領域的一個熱門研究方向。主題模型挖掘出的主題可以幫助理解文本背后隱藏的語義,也可以作為其他文本挖掘方法的輸入,完成文本分類、話題檢測等多方面的文本挖掘任務。然而近年來,主題建模模型的代表LDA模型的改進與擴展研究正面臨方法上的瓶頸,層出不窮的模型改進算法多使用參數上調整、建模層數優(yōu)化等基本方法[2],這些改進對于主題模型的效率、效果提高程度有限;另一方面,主題挖掘研究集中于研究文本本身內容等客觀因素,而人類主觀取向因素很少在文本挖掘方面發(fā)揮重要作用,事實上,閱讀興趣等主觀因素對于文本挖掘有非常重要的參考價值,對主題模型本身也有極大的意義[3]。
因此針對文本挖掘、主題建模領域的相關研究,希望解決的相關問題就是,如何能夠在現有的主題建模模型基礎上,不僅對于不同內容領域的文本本身的客觀因素能夠統(tǒng)一進行分析挖掘,并且同時考慮人主觀閱讀規(guī)律、興趣取向因素的影響性,使得文本中所抽取的信息與知識更有價值、更有意義。
眼動儀技術可以獲得視覺信息提取過程中的生理和行為表現,它與人的心理活動有著直接或間接的關系,能夠為主題提取與文本挖掘提供人主觀興趣取向信息[4]。本文通過對眼動儀捕獲的用戶文本閱讀數據的分析和對主題提取模型LDA的研究,比較分析主觀眼動數據結果與主題模型的挖掘結果,從主觀規(guī)律和客觀模式兩方面對文本挖掘效果進行結果分析,對于推動未來文本挖掘領域建模與應用方法的進步,提高文本挖掘模型效果,具有一定的參考意義和應用價值。
1.1 LDA模型
LDA模型以一種“詞袋”假設,把每個文檔當作組成文檔的詞匯分布的向量,這樣,文檔由多個主題的概率分布所代表,而主題則由單詞的概率分布所刻畫。
它對于每個文檔的主題生成過程如下:如圖1所示的概率模型,矩形代表重復的過程,外部矩形代表一個文檔,內部矩形則代表對于每個詞語選擇主題的重復過程,重復次數為文檔內詞語的個數。α和β代表語料庫級的參數,每進行一次語料庫的生成都要進行采樣化。θ則是文檔級參數,每取一個文檔則進行一次采樣化,z和w則為詞語級參數,對每一個文檔的每一個詞都進行一次采樣化。
圖1 LDA模型圖
1.2 文本主題提取過程
每一個文件集合M在T主題上服從多項式分布,系數為θ。如果每個主題對于組成的詞語而言都服從多項式分布,參數記為φ。θ和φ服從Dirichlet分布,超參分別為α與β,每一個文檔d中的詞語,話題z是以多項分布θ為參數從文檔中進行采樣的,詞語w則是以多項分布φ為參數從話題z中進行采樣。這個生成過程重復次數為N,是文檔d中詞語的總個數,形成文件D。
因此,利用該模型,有兩個參數需要從數據中推斷,即文檔的主題分布θ和主題的詞語分布φ,推斷的方式是采用Gibbs抽樣的方式來進行模型的參數估計。θ與φ參數則可分別代表用戶文章中主題的分布情況,以及能夠刻畫該主題的詞語的分布情況。
通過LDA模型的應用,輸入的文檔級數據可以轉化為主題分布的形式,主題數目由事先設定好的參數N來確定,最終以用戶感興趣的程度(主題分布中所占比率大小)取前N個主題輸出,以主題級數據刻畫文檔。而每個主題由組成的詞語的分布表示,詞語同樣也對應于分布中所占比率的參數。因此,可以通過LDA獲得用戶文檔中所描述的多個主題內容,并且抽取出描述該主題的詞語。
通過眼動儀捕獲的實驗對象閱讀文本的視覺追蹤數據,其結果形式體現在用戶閱讀文本的軌跡和看每個詞語的集中時間長度,圖像化結果如圖2所示,其中圓圈直徑代表對該詞語(位置)眼球集中時間長短,時間越長,直徑越大;直線代表眼球運動軌跡。
圖2 眼部追蹤數據圖像化形式
而眼動儀的非直觀性數據形式,則以觀察文本時間內每個捕獲視覺點的坐標和對應時間點的形式給出。如:(x,y),t: 0908。因此對這類數據進行形式轉換處理,最終轉換結果應為詞語及對應集中時間。
2.1 詞語區(qū)域統(tǒng)計
眼動儀實驗使用統(tǒng)一的圖片形式,即txt格式文本轉化為包括首行縮進、行距等文本分布形式均相同的圖片格式。根據一致的分布形式,統(tǒng)計每篇文章每個詞語所占區(qū)域的坐標范圍(x0x1y0y1)。如式(1)~(4)所示。
(1)
(2)
(3)
(4)
其中,d0、D0為每行和每列第一個字符的初始x、y坐標值;wi、Wi分別為水平與垂直方向的第i個詞的詞長和詞與詞間距長的和;K0、Q0分別為水平和垂直方向詞與詞間距長。
2.2 詞語集中時間計數
根據每個詞語的坐標區(qū)域劃分情況,對眼動數據結果文件中的坐標與對應時間點數據進行統(tǒng)計,落在某個詞語坐標區(qū)域內的坐標對應的該詞語的集中時間計數加一。全部觀察時間范圍內所有坐標與時間點均可通過轉換關系,轉為詞語和詞語集中時間的結果形式,即實驗對象閱讀文本通過眼動儀所捕獲到的集中度和興趣規(guī)律。
通過對每個詞語集中時間的計數,可以得到實驗對象對該文本中所有觀察詞語的集中時間排序結果。
數據集采用BBCnews的20篇文章,實驗對象為20名,每名實驗對象分別閱讀20篇新聞文章,并通過SMI眼動儀進行眼部數據跟蹤并捕獲。文本主題建模算法應用于同樣數據集中。如圖3所示為眼動數據實驗詞語的計數分布結果(橫軸代表各個詞語,具體內容略);圖4所示為對于每個詞語,所有實驗對象的均值與方差變化圖,可見方差基本穩(wěn)定在0.1左右。
圖3 單人單文本詞語計數分布
圖4 某篇文章每個詞語20個人的均值與方差(歸一化后)
對LDA模型主題提取結果排序后與眼動數據結果排序后進行比較分析,每篇文章中同一詞語的計數值比較如圖5。而圖6顯示了具體主客觀文本挖掘方法的差異性和相似性。均值的重合度以排序前30個詞語為例,基本維持在0.6左右。分析比較結果,此例中,LDA模型對文本內容的客觀性提取有0.6的比率與人主觀興趣取向一致,而0.4比率是基于詞語頻率等內容因素的偏向客觀性的主題內容。
根據實驗數據結果可以看出,文本主題模型對于文本的提取結果與人的興趣行為取向存在一致性和差異性,而
圖5 單人同詞LDA與眼動分布數據對比
圖6 20人眼動數據均值與LDA詞語結果重合度(取排序前幾十)
通過調控主題提取結果所取的詞語比率,結合眼動數據結果中興趣部分的詞語比率,二者結合可同時反映主題內容和閱讀興趣這兩種文本挖掘因素,對于實際文本分類、文檔摘要等文本挖掘應用效果會有很大提升。
本文通過LDA模型進行文檔的客觀性主題抽象,利用眼動儀提取主觀興趣取向因素結果。在News數據集上的比較分析實驗顯示了主觀因素和客觀結果對文本挖掘的具體不同影響,可以為未來主客觀因素相結合的文本挖掘算法提供一定參考與應用價值。
[1] BLEI D M, NG A Y,JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3):993-1022.
[2] DU L, BUNTINE W, JIN H. Modelling sequential text with an adaptive topic model[C]. Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012:535-545.
[3] MICHELSON M, MACSKASSY S A. Discovering users’ topics of interest on twitter: a first look[C]. Proceedings of the Fourth Workshop on Analytics for Noisy Unstructured Text Data,2010:73-80.
[4] DUCHOWSKI A T. Eye tracking methodology: theory and practice[M]. Springer-Verlag:2003.
An eye-tracking study on the influence of subjective and objective factors in text mining
Guo Nan
(School of Electronics and Information Engineering, Tongji University, Shanghai 201800, China)
Based on the text topic model and eye-tracking technology, this paper studies text mining from the objective topic extraction and the subjective tendency of reading interest. Traditional text mining is based on the objective factors such as the content of text itself, but the important factors of subjective orientation rarely play an important role in text mining. In this paper, eye tracking technology is used to convert eye movements into subjective data such as reading interest. LDA (Latent Dirichlet Allocation) model is used to extract information from the subjective text, and then the eye data and modeling results are evaluated by extraction, comparison and analysis of the subjective and objective factors on the impact of text mining. The eye-tracking experiment and topic modeling experiment of the BBC news dataset show the specific differences and similarities of the subjective and objective factors, and the future combination and regulation can be done as the basic direction of enhancing the effect of text mining.
text topic modeling; eye tracking technology; text mining; topic model
TP391
A
10.19358/j.issn.1674- 7720.2017.03.023
郭楠.文本挖掘中主客觀因素影響性的眼追蹤研究[J].微型機與應用,2017,36(3):79-81.
2016-10-02)
郭楠(1992-),女,碩士,主要研究方向:文本挖掘、數據挖掘。