徐德義 林志恒 張康康
[摘 要]針對在校大學生等特殊群體的思想動向的快速調查,本文基于詞頻分析技術,設計了關鍵詞特征向量調查方法。給出了關鍵詞特征向量等相關定義,并設計了共性特征向量和帶約束的共性特征向量提取方法。用實例驗證了方法的有效性,指出了該方法的適用范圍和應注意的問題。
[關鍵詞]關鍵詞向量;共性特征向量;迭代擴張法;快速調查
[中圖分類號] G64 [文獻標識碼] A [文章編號] 2095-3437(2018)10-0077-05
如何快速獲取經濟類近百名新生的思想動態(tài)?他們最關心的問題是什么?他們中有沒有意外心理問題發(fā)生?這些問題是學生輔導員等學生工作者常常面臨的問題。在新的學期開始時、學生即將畢業(yè)時、新的重大事件發(fā)生時都會有獲取學生思想動態(tài)的需要。車間管理員、保險業(yè)務經理等也經常面臨類似的問題。被動的做法是等事件發(fā)生了再去補救,這樣不僅成本高,而且效果差。主動式做法是事先了解動向,正確引導,防患于未然。通常了解動向的方法有兩種:一是找代表談話以獲取相關信息;二是做問卷調查獲取相關信息。然而這兩種獲取信息的方法都有明顯的局限性。第一種方法是統(tǒng)計學中的抽樣調查法,該方法獲取總體的信息的好壞不僅與樣本容量有關,而且與樣本質量有關。第二種方法涉及復雜的問卷設計,并且可能由于問題選項設計局限會將重要的特殊信息排斥在外。這兩種常見方法的共同局限性是獲取信息的時間長,實施難度大。特別是,大數據的突出特點,也是大數據統(tǒng)計區(qū)別于傳統(tǒng)統(tǒng)計的一個重要方面是“不是抽樣,而是全體”[1]。有鑒于此,我們基于詞頻分析技術設計了關鍵詞向量調查法。
一、關鍵詞向量調查法
言為心聲,語言是信息的重要載體。從語言或文字中獲取信息是機器學習(Machine Learning, ML)[2][3]、人工智能(Artificial Intelligence, AL) [4][5]的熱點研究對象,語言或文字也是大數據(Big Data) [6][7][8]中的重要數據形式。統(tǒng)計學是關于數據的科學,其研究對象是數據。文字也是統(tǒng)計學中的數據形式,為了方便起見我們將調查、觀測等統(tǒng)計過程中的文字記錄稱為文字數據(Verbal Data)。一篇期刊論文往往需要列出3~5個關鍵詞(Key Words),其作用是方便檢索。從另一方面看,期刊論文的關鍵詞也有分類的作用,它們將該論文歸列到具有由關鍵詞概括的共同特征的一類文章中。然而,論文作者也一定會列舉體現該論文的創(chuàng)新性和特殊性的關鍵詞,這些關鍵詞起到了文章標簽的作用。由此看,期刊論文的關鍵詞既標示了論文的共性,也標示了論文的特性。如果我們能獲取被調查對象在某一情景下“心中的關鍵詞”不就可以總結出調查群體的共性和捕捉個體的特性嗎?
設G是被調查的群體,該群體有n個成員。我們設計的關鍵詞調查法包含四個步驟,(1)為調查目的設置一個情景(Scenario);(2)采集每個成員的關鍵詞向量,構成關鍵詞向量集;(3)從關鍵詞向量集中提取特征向量(Keyword Character Vector, KCV);(4)特征向量的校驗及應用。
(一)情景設置
情景設置的目的是使得被調研的群體中的每個個體寫出來的關鍵詞能夠較好地反映調查的主題。因此,從某種程度上說,情景設置是一種心理暗示[9]。情景可以以文字形式描述,也可以口頭表述。比如,設計調查新入學的大學生的思想動態(tài),則可以要求學生按順序寫出自己近期想得最多的事,用10個關鍵詞形式給出。情景設置很重要,所獲得的關鍵詞向量數據集中能否提取出達到調查目的的特征向量與情景設置密切相關。換句話說,情景與目的是對應的,即便相同的調研對象,設置的情景不同所得到的關鍵詞向量集是不一樣的,可用G(S, n)表示,其中S表示情景。當不強調被調查對象的個數n或情景S時,G(S, n)也可簡寫為G(S)或G。
(二)關鍵詞向量采集
關鍵詞向量的采集可以是現場進行,也可以在指定時間在網絡上填寫并提交。為保證不同對象所提供的關鍵詞向量間的一致性,需要盡量讓受調研對象被置同一情景中。設第i個調研對象提供的順序關鍵詞向量為 Vi=(v1(i), v2(i),… ,vm(i))。其中vk(i)是第i個被調研對象的第k個關鍵詞。為了方便,在不至于引起混淆的情況下我們也用Vi表示其分量組成的集合Vi={v1(i), v2(i),… ,vm(i)}。m是每個被調研對象提供的關鍵詞的個數,通常要求每個被調研對象提供的關鍵詞的個數是相同的。在實際應用中,少數被調研對象提供的關鍵詞個數與要求的不一致對結果的影響不大。全部關鍵詞向量組成的集合稱為關鍵詞向量集,記為
或者在不引起混淆的情況下用同一符號表示各分量組成的集合,稱為關鍵詞集,即
(三)特征向量的提取
假設:關鍵詞向量集是被調研群體的在指定主題情景下的真實反應的關鍵詞形式的記錄;被調研群體的個體間的關鍵詞詞匯量(語料庫)沒有區(qū)別;在相同情景下被調研個體間的心理狀態(tài)沒有區(qū)別。
顯然,以上假設只有被調研的對象在年齡、文化水平、心理素質、專業(yè)、職業(yè)等因素差別不大時才適用。比如同一學校的同一年級的學生、部隊中同一個班的戰(zhàn)士、同一個車間的工人等。
1.共性特征向量的提取
設在情景S下獲得了關鍵詞向量集G(S, n)。從任意一個關鍵詞向量Vi開始,將其分量集合(關鍵詞集合)逐一加進其他被調研對象的關鍵詞集合,進行詞頻統(tǒng)計。設累計統(tǒng)計的對象個數為M(1≤M≤n),如果存在某個正整數N,當M足夠大時,詞頻數最高的前N個關鍵詞穩(wěn)定不變,則稱這前N個關鍵詞組成的向量為G在情景S下的共性特征向量(Universality Character Vector, UCV),也可以簡稱為共性向量(Universality Vector, UV)。由關鍵詞提取出的共性特征向量稱之為關鍵詞共性特征向量,記為W = (w1, w2, …, wN)。注,此處的特征向量與線性代數中的特征向量(Eigen Vector)含義不一樣。
文獻計量學中常常需要提取文獻中頻數高的詞條[10-19],如果將提取出的高頻詞條作成的向量稱為高頻詞向量,則本文中的共性特征向量與高頻詞向量既有聯(lián)系又有區(qū)別。如果共性特征向量存在,則共性特征向量的分量必須是頻率高的;一般情況下高頻詞向量總是存在的,但從定義來看,共性特征向量不一定存在,即使共性特征向量存在,它所包含的關鍵詞個數與高頻詞向量所包含的詞條數不一定相同。再實際應用中,共性特征向量的存在性不容易檢驗,但被調研群體中的被調研對象往往是有限的,如果共性特征向量存在,則一定可以提取出來,且其分量是高頻詞,因此我們可以借鑒文獻計量學中的方法提取高頻詞向量,并按一定的準則將高頻詞向量或其部分向量作為共性特征向量。
此處定義的特征向量是只與情景S有關的被調研群體中大多數人關心的問題,關心的程度可以用
來表示, 稱為W的G(S, n)的集中度(The focusing of W on G)。其中,f(wi)是wi的頻數,文中提到的詞頻分析就是基于詞條出現頻數的分析,這種方法的最有名的應用是通過詞頻挖掘大詞條數據集中的關聯(lián)法則[20]。||G||是G中元素的個數(此處為n×m)。從定義不難看出集中度是被調研對象共同關心對象的代表性的一種體現,既然如此,分母中頻數為1的詞條可以去掉。去掉的是個性,保留的是共性。那么修正后的集中度
反映的是W描述的G的共性的集中程度。
顯然,0 ≤ f(W) ≤ 1,如果規(guī)定W中每個詞條的頻率不小于2,則同樣有0≤ f *(W)≤1。f或f *越接近于1說明由W提出的G共性越集中。很顯然集中度與N有關,對于給定的G,其關鍵詞特征向量一般情況下是不唯一的。事實上,按照上述定義,若W = (w1, w2, …, wN)是G的關鍵詞特征向量,則當N1 我們可以將與特征向量至少有一個分量相同的關鍵詞向量的個數定義該特征向量對G的涵蓋率ρ(W)。 2.帶約束的共性特征向量的提取 在實際工作中,我們除了要了解整個調研群體的共性之外,往往還要了解群體中特殊子群體的情況。比如,入學新生中男生和女生思想動態(tài)的差別,不同專業(yè)學生共同興趣點的差別,準備考研究生的學生普遍關心的問題,低收入人群中突出的思想動態(tài),等等。用關鍵詞向量分析這些問題關鍵在于能夠將群體劃分成特殊的子群體,然后提取子群體的特征信息,這種問題我們稱之為帶約束的特征向量的提取。為處理這樣的問題我們提出了三種方法。 第一種方法是預置分類變量法。在情景設置中事先設置分類變量,如根據調查目的不同,讓受調研者提供性別、專業(yè)(或班號)、薪金數量等信息,用這些信息當作分類變量將G分成相應的子集,然后提取各子集的特征向量用作分析。比如,用性別信息將G(S, n)分成G女和G男,分別提取它們的共性特征向量UV(G女)和UV(G男)。這些特征向量除了可以直接用在實際分析中,也可以用在兩個特殊子群體比較分析中,還可以將它們看成集合,作集合的各種運算,用以揭示更深層次的特征。比如,UV(G女)和UV(G男)的交UV(G女)∩UV(G男)表現的是男生和女生的共同共性;UV(G女)-[UV(G女)∩ UV(G男)]表示的是女生區(qū)別于男生的特有共性等。 第二種方法是先驗特征向量法。首先根據經驗設置特殊調研目的的特征向量,或在關鍵詞向量集中提取特殊調研目的的特征向量;然后用該特征向量識別調研群體中的對象組成特征向量集的子集;最后提取該子集的特征向量用作分析。這種方法類似于多元統(tǒng)計分析中的判別分析,先獲取分類特征向量,再將被調研群體的每個對象與獲得的特征向量進行比較,將滿足一定相似程度的對象歸為該特殊群體組,再進行特征向量提取分析。 上述提到的根據經驗設置的特殊調查目的的特征向量可以稱之為先驗特征向量(Priori Character Vector, PCV),先驗特征向量可以是以往相同主題和場景調研所獲得的特征向量。 第三種方法是迭代擴張法。關于在關鍵詞向量集中提取特殊調研目的的特征向量我們設計了一個迭代擴張法( Iterative Expansion Method, IEM )。 該方法是根據調研的目的,首先選取種子關鍵詞集G0,提取G中包含G0的所有關鍵詞向量組成集合的特征向量CV1;用CV1代替G0,提取G中包含CV1的所有關鍵詞向量組成集合的特征向量CV2;如此迭代,當本次提取的關鍵詞特征向量CVk等于CVk-1時終止迭代,CVk即為所求的特征向量。 種子關鍵詞集,可以選取一個或多個最能體現特殊調研目的的關鍵詞組成。比如我們的調查對象是大學二年級初經濟學專業(yè)大學生中準備考研究生的學生們的思想動態(tài),根據經驗一般考研學生都比較注重高數(高等數學)和英語的學習,他們通常會將高數和英語列為關鍵詞,故而,我們可以設置G0={高數,英語}。當然,可以設G0={考研}。 迭代擴張算法為: Step1:設置種子關鍵詞集G0。令s=1,CVs=G0。 Step2:將CVs與G中每個Vi進行比較,令t=1,將包含CVs的Vi的分量組成Gt Gt={vk(i) | Vi=(v1(i), v2(i),… ,vm(i))[?]CVs, k=1, 2, …, m} Step3:提取Gt的共性特征向量CVs+1,顯然CVs+1[?]CVs,Gt [?]Gt-1。 Step4:令s=s+1,t=t+1,重復Step2和Step3得 G[?]…[?]CVs+1[?]CVs[?]…[?]CV1=G0 (6)
Step5:如果CVs+1≠CVs返回Step4;如果CVs+1=CVs,則結束迭代,CVs+1即為所求特征向量。
迭代過程使得特征向量集不斷擴大,構成了單調上升有上界的序列(6)。G是有限集時,該迭代擴張算法顯然是收斂的,因為CVs+1不能超過G;G是無限集時,根據單調上升有上界必有極限的原理同樣得到該算法收斂。
(四)特征向量的校驗
因為特征向量是要用盡可能少的關鍵詞概括盡可能多的被調研群體的共性,因此關鍵詞向量所包含的關鍵詞的個數和關鍵詞向量的集中度之間要取得平衡。被調查群體越大獲得的特征向量越穩(wěn)定,并且群體中部分對象中所提取的特征向量隨著部分數的增加而趨近于整個群體的特征向量。不過,由于文字數據沒有順序性(order)和可加性(additivity),上述“趨近于”不能簡單地理解為通常的極限。顯然特征向量越穩(wěn)定越好,我們可以借用Bootstrap思想[21]對特征向量的穩(wěn)定性進行校驗。
為此,我們給出兩個有限集合的匹配度的定義。設集合A和B的元素個數||A||= nA,||B||=nB。定義A和B的匹配度為
[r(A,B)=A∩B2nAnB] (7)
顯然,[0≤r(A,B)≤1,且r(A,B)=1?A=B]。
1.特征向量穩(wěn)定性校驗
設W是G的特征向量,作G的子集集合[GKGK?G;K=1,2…,M;GK=nik],作Gk的特征向量Wk,若
[r=1Mk=1Mr(W,Wk)] (8)
充分接近于1,則稱W是穩(wěn)定的。
實際應用中子集所包含關鍵詞的個數[nik(k=1,2,…,M)]盡可能大,[nik]也可以取同一個值。Gk不必互斥?!皉充分接近于1”可以根據經驗判斷,如果可以得到r的經驗分布,則可以構造統(tǒng)計量進行假設檢驗。
2.關鍵詞向量長度的校驗。
在關鍵詞向量調研中,所采集的關鍵詞向量的長度也是需要考量的問題。采集的是被調查對象的最關心問題,當被調研對象提供最關心問題的關鍵詞向量時往往是越關心的就越靠前。因而,要求提供關鍵詞向量時不必需要向量太長;在提取特征向量時也不必用整個向量,而是只要用前面的部分分量就可以,這樣不至于使得提取出的特征向量對調研對象的集中度過低。當然,有可能越往后提供的關鍵詞有可能是心里更深處所關心的問題,也可能是更長遠的問題,這方面與分量順序有關的深層次問題本文暫不考慮。
設G的特征向量為W,[G[k]]是G中每個向量的前k個分量組成的關鍵詞集,其特征向量為CV[k],若存在某個k0,使得r(W,CV[k0])充分接近于1,則稱k0是關鍵詞特征向量的充分長度。
二、新生思想動態(tài)調查
今年國慶節(jié)之后,新生軍訓剛剛結束,在給經濟專業(yè)新生和統(tǒng)計專業(yè)新生上專業(yè)導論課的第一節(jié)課上課之前,給每位學生分發(fā)一樣白紙,告訴每學生在5分鐘之內用20個詞語寫出自己目前最關心的、想得最多的事物,不需要提供個人任何信息。
(一)數據描述
經濟學專業(yè)86人,統(tǒng)計專業(yè)26人,共收得問卷112份,其中少數人沒有寫滿20個詞,共得記錄2181個。另有少數學生提供的關鍵詞是語句而不是一個詞,我們用R的斷詞函數進行了處理,共得3398個詞。根據中文停詞表對處理后的詞進行整理,最終得到1224個關鍵詞。基于詞頻的關鍵詞向量分析過程均用R語言編程實現。圖1為關鍵詞云圖。
我們對關鍵詞集作了頻數統(tǒng)計,如表1所示。
(二)共性特征向量的提取
根據共性特征向量的定義和表1頻數的分布 ,對比樣本量為50、60、80、90、100、112的前14個高頻詞,結果如表2所示。
根據表2的結果和特征向量的穩(wěn)定性、確定特征向量的充分長度兩種方法對特征向量的校驗,得到頻數為前8的關鍵詞可作為共性特征向量,如(9)式所示。
E={高數 學習 英語 健康 朋友 睡覺 作業(yè) 成績} (9)
E的集中度為0.176,涵蓋率達到了79.46%。其中,各關鍵詞出現的頻數如表3所示。所得的共性特征向量體現出來的新生思想動態(tài)是健康向上的,為進步和今后的工作而努力學習成為學生中的主流,這會推動良好氛圍的形成。“朋友”成為共性特征向量的關鍵詞說明新入校的大學生感情方面的需求悄然凸顯,正確引導必不可少?!八X”成為特征關鍵詞是個意外。事后進一步調查才知道,入校1個月以來學生們不僅經歷大強度的軍事訓練,而且?guī)缀鯖]間斷地參加各種各樣的集體活動,并且同寢室同學間“臥談”盛行,每天早晨還要參加集體早鍛煉,這些使得同學們普遍睡眠嚴重不足,渴望睡覺。睡覺問題非常突出,學生輔導員等學生工作者應重視這一問題。
為了了解有考研意向學生的思想狀態(tài),根據數據集中的特征,以{考研}、{保研}和{研究生}為種子關鍵詞,根據本文提出的迭代擴張法計算,每次循環(huán)所提取的共性特征向量依據共性特征向量的提取方法,樣本量分別選取篩選Gt的2/3、4/5和全樣本,每次選取前14個高頻詞集比對,結果如(10-14)式所示。
CV4={高數 學習 英語}= CV3 (13)
經過3次迭代算法收斂,得到準備考研究生的同學的共性特征向量如(15)式所示。
E研={高數 英語 學習} (14)
考研共性特征向量看起來很正常,其實其中隱藏著高等教育中長期存在的弊端,那就是“目的性太強”。對于考研究生的學生而言,考研不應該是全部,不能為了考研而輕視了綜合素質的培養(yǎng),更不能忽視應承擔的社會責任。
三、討論
從應用實例看,本文提出的基于詞頻分析的關鍵詞向量調查方法具有快速高效的特點,適用于對大學生群體等生活環(huán)境相同、文化水平相當的群體進行實時快速調查,群體越大效率越高,效果也會越好。關鍵詞特征向量的提取需要的是計算機文字處理與分析技術,R語言可以很方便地實現相關功能。采集到的關鍵詞向量集不僅僅可以做本文所提出的特征向量的提取,還可以進行深度數據挖掘,比如關聯(lián)分析[20]等。
我們將關鍵詞集G(S, n)中低頻的關鍵詞組成的向量或集合稱為G的個性特征向量(Individuality Character Vector, ICV)。個性特征向量的分析是要針對具體的對象,雖然不能代表總體的共性特征,也不一定會引起學生輔導員等學生工作者的關注,但個性特征向量在某一方面的集聚代表著潛在問題的存在,需要格外重視,防患于未然。在特征向量調查法中,個性特征向量應該被高度重視,它是對共性特征向量的重要補充,本文不在此展開討論。
由于文字數據不具備可加性,傳統(tǒng)的數學和統(tǒng)計方法的應用受到局限,甚至像本文中提到的收斂等概念不能用實空間中極限理論定義,但這并不影響特征向量的提取,更不影響其應用。
文字數據另一方面具有模糊性和多解性,因此特征向量的提取之前進行文字預處理是必需的,文字預處理可以用到模糊理論和方法甚至人工智能技術。如果將受調研的對象可以選擇的全部關鍵詞組成的集合稱為關鍵詞支撐集,那么理論上看不加限制的關鍵詞支撐集是無限的、開放的,為了使得特征向量的收斂性質更好,在實際應用中可以對支撐集加以限制。比如,我們在對新生進行調研時發(fā)現兩個字的關鍵詞占41.3%,如果限制關鍵詞全是兩個字的則會提高共性特征向量的集中度,損失的信息在可接受的范圍之內。如果根據以往的調研數據,制作一個備選關鍵詞集合(可以足夠大),讓被調研者在該集合中勾選關鍵詞,這時候支撐集是有限的、封閉的,文字本身的模糊性就消除了,得到的關鍵詞集就是AGRAWAL他們用的詞條集[20]。有限支撐集對共性特征向量的影響比個性特征向量大。本文僅對學生群體做了關鍵詞特征向量的分析試驗,其他的群體甚至其他語言的關鍵詞的分析必定有特別之處,另外本文提出的方法還有許多需要完善的地方,這些工作有待今后逐步完成。
[ 參 考 文 獻 ]
[1] MAYER-SCH?NBERGER V.CUKIER K.Big data:A Revolution that will transform how we live, work and think [M].Houghton Mifflin Harcourt Publishing Company,2013.
[2] 何清,李寧,羅文娟,等.大數據下的機器學習算法綜述[J].模擬識別與人工智能,2014(4):327-336.
[3] 蘇金樹,張博鋒,徐昕.基于機器學習的文本分類技術研究進展[J].軟件學報,2006(9):1848-1859.
[4] 馬玉慧,柏茂林,周政.智慧教育時代我國人工智能教育應用的發(fā)展路徑探究[J].電化教育研究,2017(3):123-128.
[5] 閆志明,唐夏,夏秦旋,等.教育人工智能(EAI)的內涵、關鍵技術與應用趨勢[J].遠程教育雜志,2017(1):26-35.
[6] 程學旗,靳小龍,王元卓等.大數據系統(tǒng)和分析技術綜述[J].軟件學報,2014(9):1889-1908.
[7] 邱東.大數據時代對統(tǒng)計學的挑戰(zhàn)[J].統(tǒng)計研究,2014(1):16-22.
[8] 張引,陳敏,廖小飛.大數據應用的現狀與展望[J].計算機研究與發(fā)展,2013(S2):216-233.
[9] 管鑫雨.情境性詞匯教學的研究分析[J].教育現代化,2016(27):146-150.
[10] 邱均平,丁敬達,周春雷.1999—2008年我國圖書館學研究的實證分析(上) [J].中國圖書館學報,2009(35):72-79.
[11] 邱均平,丁敬達.1999—2008年我國圖書館學研究的實證分析(下) [J].中國圖書館學報,2009(35):79-118.
[12] 傅柱,王曰芬.共詞分析中術語收集階段的若干問題研究[J].情報學報,2016(35):704-713.
[13] 張寶生,祁曉婷.我國政府公共關系研究的演進路徑及熱點主題的可視化分析[J].圖書情報工作,2017(61):122-126.
[14] WANG ZY,LI G,LI A,et al.Research in the semantic-based co-word analysis[J].Scientometrucs,2012,90(3):855-875.
[15] 魏瑞斌.基于關鍵詞的情報學研究主題分析[J].情報科學,2006,24(9):1400-1404.
[16] DONOHUE J C.Understanding Scientific Literatures:A Bibliometric Approach[M].Cambridge:The MIT Press,1973:49-50.
[17] 劉敏娟,張學福,顏蘊.基于詞頻、詞量、累積詞頻占比的共詞分析詞集范圍選取方法研究[J].圖書情報工作,2016(23):135-142.
[18] ZHANG S, LIU C X, CHANG Y.Selection research of keywords in co-word clustered based on the G-index of word frequency[J].Modern Educational Technology,2013,23(10):54-57.
[19] 楊愛青,馬秀峰,張風燕,等.g指數在共詞分析主題詞選取中的應用研究[J].情報雜志,2012(2):52-55.(YANG AQ,MA XF,ZHANG FY,et al.Application research of g-index in the topic words of co-word analysis[J].Journal of Intelligence,2012,31(2):52-55.)
[20] AGRAWAL R,IMIELINSKI T,SWAMI A.Mining Association Rules between Sets of Items in Large Databases[J].ACM SIGMOD Record,1993,22(2):207-216.
[21] BRADLEY E.Bootstrap methods:another look at the jackknife [J].The Annals of Statistics,1979,7(1):1-26.
[責任編輯:王 品]