亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞頻分析的關(guān)鍵詞特征向量調(diào)查法

        2018-10-25 10:53:38徐德義林志恒張康康
        大學(xué)教育 2018年10期
        關(guān)鍵詞:詞頻共性特征向量

        徐德義 林志恒 張康康

        [摘 要]針對在校大學(xué)生等特殊群體的思想動向的快速調(diào)查,本文基于詞頻分析技術(shù),設(shè)計了關(guān)鍵詞特征向量調(diào)查方法。給出了關(guān)鍵詞特征向量等相關(guān)定義,并設(shè)計了共性特征向量和帶約束的共性特征向量提取方法。用實例驗證了方法的有效性,指出了該方法的適用范圍和應(yīng)注意的問題。

        [關(guān)鍵詞]關(guān)鍵詞向量;共性特征向量;迭代擴張法;快速調(diào)查

        [中圖分類號] G64 [文獻(xiàn)標(biāo)識碼] A [文章編號] 2095-3437(2018)10-0077-05

        如何快速獲取經(jīng)濟類近百名新生的思想動態(tài)?他們最關(guān)心的問題是什么?他們中有沒有意外心理問題發(fā)生?這些問題是學(xué)生輔導(dǎo)員等學(xué)生工作者常常面臨的問題。在新的學(xué)期開始時、學(xué)生即將畢業(yè)時、新的重大事件發(fā)生時都會有獲取學(xué)生思想動態(tài)的需要。車間管理員、保險業(yè)務(wù)經(jīng)理等也經(jīng)常面臨類似的問題。被動的做法是等事件發(fā)生了再去補救,這樣不僅成本高,而且效果差。主動式做法是事先了解動向,正確引導(dǎo),防患于未然。通常了解動向的方法有兩種:一是找代表談話以獲取相關(guān)信息;二是做問卷調(diào)查獲取相關(guān)信息。然而這兩種獲取信息的方法都有明顯的局限性。第一種方法是統(tǒng)計學(xué)中的抽樣調(diào)查法,該方法獲取總體的信息的好壞不僅與樣本容量有關(guān),而且與樣本質(zhì)量有關(guān)。第二種方法涉及復(fù)雜的問卷設(shè)計,并且可能由于問題選項設(shè)計局限會將重要的特殊信息排斥在外。這兩種常見方法的共同局限性是獲取信息的時間長,實施難度大。特別是,大數(shù)據(jù)的突出特點,也是大數(shù)據(jù)統(tǒng)計區(qū)別于傳統(tǒng)統(tǒng)計的一個重要方面是“不是抽樣,而是全體”[1]。有鑒于此,我們基于詞頻分析技術(shù)設(shè)計了關(guān)鍵詞向量調(diào)查法。

        一、關(guān)鍵詞向量調(diào)查法

        言為心聲,語言是信息的重要載體。從語言或文字中獲取信息是機器學(xué)習(xí)(Machine Learning, ML)[2][3]、人工智能(Artificial Intelligence, AL) [4][5]的熱點研究對象,語言或文字也是大數(shù)據(jù)(Big Data) [6][7][8]中的重要數(shù)據(jù)形式。統(tǒng)計學(xué)是關(guān)于數(shù)據(jù)的科學(xué),其研究對象是數(shù)據(jù)。文字也是統(tǒng)計學(xué)中的數(shù)據(jù)形式,為了方便起見我們將調(diào)查、觀測等統(tǒng)計過程中的文字記錄稱為文字?jǐn)?shù)據(jù)(Verbal Data)。一篇期刊論文往往需要列出3~5個關(guān)鍵詞(Key Words),其作用是方便檢索。從另一方面看,期刊論文的關(guān)鍵詞也有分類的作用,它們將該論文歸列到具有由關(guān)鍵詞概括的共同特征的一類文章中。然而,論文作者也一定會列舉體現(xiàn)該論文的創(chuàng)新性和特殊性的關(guān)鍵詞,這些關(guān)鍵詞起到了文章標(biāo)簽的作用。由此看,期刊論文的關(guān)鍵詞既標(biāo)示了論文的共性,也標(biāo)示了論文的特性。如果我們能獲取被調(diào)查對象在某一情景下“心中的關(guān)鍵詞”不就可以總結(jié)出調(diào)查群體的共性和捕捉個體的特性嗎?

        設(shè)G是被調(diào)查的群體,該群體有n個成員。我們設(shè)計的關(guān)鍵詞調(diào)查法包含四個步驟,(1)為調(diào)查目的設(shè)置一個情景(Scenario);(2)采集每個成員的關(guān)鍵詞向量,構(gòu)成關(guān)鍵詞向量集;(3)從關(guān)鍵詞向量集中提取特征向量(Keyword Character Vector, KCV);(4)特征向量的校驗及應(yīng)用。

        (一)情景設(shè)置

        情景設(shè)置的目的是使得被調(diào)研的群體中的每個個體寫出來的關(guān)鍵詞能夠較好地反映調(diào)查的主題。因此,從某種程度上說,情景設(shè)置是一種心理暗示[9]。情景可以以文字形式描述,也可以口頭表述。比如,設(shè)計調(diào)查新入學(xué)的大學(xué)生的思想動態(tài),則可以要求學(xué)生按順序?qū)懗鲎约航谙氲米疃嗟氖拢?0個關(guān)鍵詞形式給出。情景設(shè)置很重要,所獲得的關(guān)鍵詞向量數(shù)據(jù)集中能否提取出達(dá)到調(diào)查目的的特征向量與情景設(shè)置密切相關(guān)。換句話說,情景與目的是對應(yīng)的,即便相同的調(diào)研對象,設(shè)置的情景不同所得到的關(guān)鍵詞向量集是不一樣的,可用G(S, n)表示,其中S表示情景。當(dāng)不強調(diào)被調(diào)查對象的個數(shù)n或情景S時,G(S, n)也可簡寫為G(S)或G。

        (二)關(guān)鍵詞向量采集

        關(guān)鍵詞向量的采集可以是現(xiàn)場進(jìn)行,也可以在指定時間在網(wǎng)絡(luò)上填寫并提交。為保證不同對象所提供的關(guān)鍵詞向量間的一致性,需要盡量讓受調(diào)研對象被置同一情景中。設(shè)第i個調(diào)研對象提供的順序關(guān)鍵詞向量為 Vi=(v1(i), v2(i),… ,vm(i))。其中vk(i)是第i個被調(diào)研對象的第k個關(guān)鍵詞。為了方便,在不至于引起混淆的情況下我們也用Vi表示其分量組成的集合Vi={v1(i), v2(i),… ,vm(i)}。m是每個被調(diào)研對象提供的關(guān)鍵詞的個數(shù),通常要求每個被調(diào)研對象提供的關(guān)鍵詞的個數(shù)是相同的。在實際應(yīng)用中,少數(shù)被調(diào)研對象提供的關(guān)鍵詞個數(shù)與要求的不一致對結(jié)果的影響不大。全部關(guān)鍵詞向量組成的集合稱為關(guān)鍵詞向量集,記為

        或者在不引起混淆的情況下用同一符號表示各分量組成的集合,稱為關(guān)鍵詞集,即

        (三)特征向量的提取

        假設(shè):關(guān)鍵詞向量集是被調(diào)研群體的在指定主題情景下的真實反應(yīng)的關(guān)鍵詞形式的記錄;被調(diào)研群體的個體間的關(guān)鍵詞詞匯量(語料庫)沒有區(qū)別;在相同情景下被調(diào)研個體間的心理狀態(tài)沒有區(qū)別。

        顯然,以上假設(shè)只有被調(diào)研的對象在年齡、文化水平、心理素質(zhì)、專業(yè)、職業(yè)等因素差別不大時才適用。比如同一學(xué)校的同一年級的學(xué)生、部隊中同一個班的戰(zhàn)士、同一個車間的工人等。

        1.共性特征向量的提取

        設(shè)在情景S下獲得了關(guān)鍵詞向量集G(S, n)。從任意一個關(guān)鍵詞向量Vi開始,將其分量集合(關(guān)鍵詞集合)逐一加進(jìn)其他被調(diào)研對象的關(guān)鍵詞集合,進(jìn)行詞頻統(tǒng)計。設(shè)累計統(tǒng)計的對象個數(shù)為M(1≤M≤n),如果存在某個正整數(shù)N,當(dāng)M足夠大時,詞頻數(shù)最高的前N個關(guān)鍵詞穩(wěn)定不變,則稱這前N個關(guān)鍵詞組成的向量為G在情景S下的共性特征向量(Universality Character Vector, UCV),也可以簡稱為共性向量(Universality Vector, UV)。由關(guān)鍵詞提取出的共性特征向量稱之為關(guān)鍵詞共性特征向量,記為W = (w1, w2, …, wN)。注,此處的特征向量與線性代數(shù)中的特征向量(Eigen Vector)含義不一樣。

        文獻(xiàn)計量學(xué)中常常需要提取文獻(xiàn)中頻數(shù)高的詞條[10-19],如果將提取出的高頻詞條作成的向量稱為高頻詞向量,則本文中的共性特征向量與高頻詞向量既有聯(lián)系又有區(qū)別。如果共性特征向量存在,則共性特征向量的分量必須是頻率高的;一般情況下高頻詞向量總是存在的,但從定義來看,共性特征向量不一定存在,即使共性特征向量存在,它所包含的關(guān)鍵詞個數(shù)與高頻詞向量所包含的詞條數(shù)不一定相同。再實際應(yīng)用中,共性特征向量的存在性不容易檢驗,但被調(diào)研群體中的被調(diào)研對象往往是有限的,如果共性特征向量存在,則一定可以提取出來,且其分量是高頻詞,因此我們可以借鑒文獻(xiàn)計量學(xué)中的方法提取高頻詞向量,并按一定的準(zhǔn)則將高頻詞向量或其部分向量作為共性特征向量。

        此處定義的特征向量是只與情景S有關(guān)的被調(diào)研群體中大多數(shù)人關(guān)心的問題,關(guān)心的程度可以用

        來表示, 稱為W的G(S, n)的集中度(The focusing of W on G)。其中,f(wi)是wi的頻數(shù),文中提到的詞頻分析就是基于詞條出現(xiàn)頻數(shù)的分析,這種方法的最有名的應(yīng)用是通過詞頻挖掘大詞條數(shù)據(jù)集中的關(guān)聯(lián)法則[20]。||G||是G中元素的個數(shù)(此處為n×m)。從定義不難看出集中度是被調(diào)研對象共同關(guān)心對象的代表性的一種體現(xiàn),既然如此,分母中頻數(shù)為1的詞條可以去掉。去掉的是個性,保留的是共性。那么修正后的集中度

        反映的是W描述的G的共性的集中程度。

        顯然,0 ≤ f(W) ≤ 1,如果規(guī)定W中每個詞條的頻率不小于2,則同樣有0≤ f *(W)≤1。f或f *越接近于1說明由W提出的G共性越集中。很顯然集中度與N有關(guān),對于給定的G,其關(guān)鍵詞特征向量一般情況下是不唯一的。事實上,按照上述定義,若W = (w1, w2, …, wN)是G的關(guān)鍵詞特征向量,則當(dāng)N1

        我們可以將與特征向量至少有一個分量相同的關(guān)鍵詞向量的個數(shù)定義該特征向量對G的涵蓋率ρ(W)。

        2.帶約束的共性特征向量的提取

        在實際工作中,我們除了要了解整個調(diào)研群體的共性之外,往往還要了解群體中特殊子群體的情況。比如,入學(xué)新生中男生和女生思想動態(tài)的差別,不同專業(yè)學(xué)生共同興趣點的差別,準(zhǔn)備考研究生的學(xué)生普遍關(guān)心的問題,低收入人群中突出的思想動態(tài),等等。用關(guān)鍵詞向量分析這些問題關(guān)鍵在于能夠?qū)⑷后w劃分成特殊的子群體,然后提取子群體的特征信息,這種問題我們稱之為帶約束的特征向量的提取。為處理這樣的問題我們提出了三種方法。

        第一種方法是預(yù)置分類變量法。在情景設(shè)置中事先設(shè)置分類變量,如根據(jù)調(diào)查目的不同,讓受調(diào)研者提供性別、專業(yè)(或班號)、薪金數(shù)量等信息,用這些信息當(dāng)作分類變量將G分成相應(yīng)的子集,然后提取各子集的特征向量用作分析。比如,用性別信息將G(S, n)分成G女和G男,分別提取它們的共性特征向量UV(G女)和UV(G男)。這些特征向量除了可以直接用在實際分析中,也可以用在兩個特殊子群體比較分析中,還可以將它們看成集合,作集合的各種運算,用以揭示更深層次的特征。比如,UV(G女)和UV(G男)的交UV(G女)∩UV(G男)表現(xiàn)的是男生和女生的共同共性;UV(G女)-[UV(G女)∩ UV(G男)]表示的是女生區(qū)別于男生的特有共性等。

        第二種方法是先驗特征向量法。首先根據(jù)經(jīng)驗設(shè)置特殊調(diào)研目的的特征向量,或在關(guān)鍵詞向量集中提取特殊調(diào)研目的的特征向量;然后用該特征向量識別調(diào)研群體中的對象組成特征向量集的子集;最后提取該子集的特征向量用作分析。這種方法類似于多元統(tǒng)計分析中的判別分析,先獲取分類特征向量,再將被調(diào)研群體的每個對象與獲得的特征向量進(jìn)行比較,將滿足一定相似程度的對象歸為該特殊群體組,再進(jìn)行特征向量提取分析。

        上述提到的根據(jù)經(jīng)驗設(shè)置的特殊調(diào)查目的的特征向量可以稱之為先驗特征向量(Priori Character Vector, PCV),先驗特征向量可以是以往相同主題和場景調(diào)研所獲得的特征向量。

        第三種方法是迭代擴張法。關(guān)于在關(guān)鍵詞向量集中提取特殊調(diào)研目的的特征向量我們設(shè)計了一個迭代擴張法( Iterative Expansion Method, IEM )。

        該方法是根據(jù)調(diào)研的目的,首先選取種子關(guān)鍵詞集G0,提取G中包含G0的所有關(guān)鍵詞向量組成集合的特征向量CV1;用CV1代替G0,提取G中包含CV1的所有關(guān)鍵詞向量組成集合的特征向量CV2;如此迭代,當(dāng)本次提取的關(guān)鍵詞特征向量CVk等于CVk-1時終止迭代,CVk即為所求的特征向量。

        種子關(guān)鍵詞集,可以選取一個或多個最能體現(xiàn)特殊調(diào)研目的的關(guān)鍵詞組成。比如我們的調(diào)查對象是大學(xué)二年級初經(jīng)濟學(xué)專業(yè)大學(xué)生中準(zhǔn)備考研究生的學(xué)生們的思想動態(tài),根據(jù)經(jīng)驗一般考研學(xué)生都比較注重高數(shù)(高等數(shù)學(xué))和英語的學(xué)習(xí),他們通常會將高數(shù)和英語列為關(guān)鍵詞,故而,我們可以設(shè)置G0={高數(shù),英語}。當(dāng)然,可以設(shè)G0={考研}。

        迭代擴張算法為:

        Step1:設(shè)置種子關(guān)鍵詞集G0。令s=1,CVs=G0。

        Step2:將CVs與G中每個Vi進(jìn)行比較,令t=1,將包含CVs的Vi的分量組成Gt

        Gt={vk(i) | Vi=(v1(i), v2(i),… ,vm(i))[?]CVs, k=1, 2, …, m}

        Step3:提取Gt的共性特征向量CVs+1,顯然CVs+1[?]CVs,Gt [?]Gt-1。

        Step4:令s=s+1,t=t+1,重復(fù)Step2和Step3得

        G[?]…[?]CVs+1[?]CVs[?]…[?]CV1=G0 (6)

        Step5:如果CVs+1≠CVs返回Step4;如果CVs+1=CVs,則結(jié)束迭代,CVs+1即為所求特征向量。

        迭代過程使得特征向量集不斷擴大,構(gòu)成了單調(diào)上升有上界的序列(6)。G是有限集時,該迭代擴張算法顯然是收斂的,因為CVs+1不能超過G;G是無限集時,根據(jù)單調(diào)上升有上界必有極限的原理同樣得到該算法收斂。

        (四)特征向量的校驗

        因為特征向量是要用盡可能少的關(guān)鍵詞概括盡可能多的被調(diào)研群體的共性,因此關(guān)鍵詞向量所包含的關(guān)鍵詞的個數(shù)和關(guān)鍵詞向量的集中度之間要取得平衡。被調(diào)查群體越大獲得的特征向量越穩(wěn)定,并且群體中部分對象中所提取的特征向量隨著部分?jǐn)?shù)的增加而趨近于整個群體的特征向量。不過,由于文字?jǐn)?shù)據(jù)沒有順序性(order)和可加性(additivity),上述“趨近于”不能簡單地理解為通常的極限。顯然特征向量越穩(wěn)定越好,我們可以借用Bootstrap思想[21]對特征向量的穩(wěn)定性進(jìn)行校驗。

        為此,我們給出兩個有限集合的匹配度的定義。設(shè)集合A和B的元素個數(shù)||A||= nA,||B||=nB。定義A和B的匹配度為

        [r(A,B)=A∩B2nAnB] (7)

        顯然,[0≤r(A,B)≤1,且r(A,B)=1?A=B]。

        1.特征向量穩(wěn)定性校驗

        設(shè)W是G的特征向量,作G的子集集合[GKGK?G;K=1,2…,M;GK=nik],作Gk的特征向量Wk,若

        [r=1Mk=1Mr(W,Wk)] (8)

        充分接近于1,則稱W是穩(wěn)定的。

        實際應(yīng)用中子集所包含關(guān)鍵詞的個數(shù)[nik(k=1,2,…,M)]盡可能大,[nik]也可以取同一個值。Gk不必互斥。“r充分接近于1”可以根據(jù)經(jīng)驗判斷,如果可以得到r的經(jīng)驗分布,則可以構(gòu)造統(tǒng)計量進(jìn)行假設(shè)檢驗。

        2.關(guān)鍵詞向量長度的校驗。

        在關(guān)鍵詞向量調(diào)研中,所采集的關(guān)鍵詞向量的長度也是需要考量的問題。采集的是被調(diào)查對象的最關(guān)心問題,當(dāng)被調(diào)研對象提供最關(guān)心問題的關(guān)鍵詞向量時往往是越關(guān)心的就越靠前。因而,要求提供關(guān)鍵詞向量時不必需要向量太長;在提取特征向量時也不必用整個向量,而是只要用前面的部分分量就可以,這樣不至于使得提取出的特征向量對調(diào)研對象的集中度過低。當(dāng)然,有可能越往后提供的關(guān)鍵詞有可能是心里更深處所關(guān)心的問題,也可能是更長遠(yuǎn)的問題,這方面與分量順序有關(guān)的深層次問題本文暫不考慮。

        設(shè)G的特征向量為W,[G[k]]是G中每個向量的前k個分量組成的關(guān)鍵詞集,其特征向量為CV[k],若存在某個k0,使得r(W,CV[k0])充分接近于1,則稱k0是關(guān)鍵詞特征向量的充分長度。

        二、新生思想動態(tài)調(diào)查

        今年國慶節(jié)之后,新生軍訓(xùn)剛剛結(jié)束,在給經(jīng)濟專業(yè)新生和統(tǒng)計專業(yè)新生上專業(yè)導(dǎo)論課的第一節(jié)課上課之前,給每位學(xué)生分發(fā)一樣白紙,告訴每學(xué)生在5分鐘之內(nèi)用20個詞語寫出自己目前最關(guān)心的、想得最多的事物,不需要提供個人任何信息。

        (一)數(shù)據(jù)描述

        經(jīng)濟學(xué)專業(yè)86人,統(tǒng)計專業(yè)26人,共收得問卷112份,其中少數(shù)人沒有寫滿20個詞,共得記錄2181個。另有少數(shù)學(xué)生提供的關(guān)鍵詞是語句而不是一個詞,我們用R的斷詞函數(shù)進(jìn)行了處理,共得3398個詞。根據(jù)中文停詞表對處理后的詞進(jìn)行整理,最終得到1224個關(guān)鍵詞。基于詞頻的關(guān)鍵詞向量分析過程均用R語言編程實現(xiàn)。圖1為關(guān)鍵詞云圖。

        我們對關(guān)鍵詞集作了頻數(shù)統(tǒng)計,如表1所示。

        (二)共性特征向量的提取

        根據(jù)共性特征向量的定義和表1頻數(shù)的分布 ,對比樣本量為50、60、80、90、100、112的前14個高頻詞,結(jié)果如表2所示。

        根據(jù)表2的結(jié)果和特征向量的穩(wěn)定性、確定特征向量的充分長度兩種方法對特征向量的校驗,得到頻數(shù)為前8的關(guān)鍵詞可作為共性特征向量,如(9)式所示。

        E={高數(shù) 學(xué)習(xí) 英語 健康 朋友 睡覺 作業(yè) 成績} (9)

        E的集中度為0.176,涵蓋率達(dá)到了79.46%。其中,各關(guān)鍵詞出現(xiàn)的頻數(shù)如表3所示。所得的共性特征向量體現(xiàn)出來的新生思想動態(tài)是健康向上的,為進(jìn)步和今后的工作而努力學(xué)習(xí)成為學(xué)生中的主流,這會推動良好氛圍的形成。“朋友”成為共性特征向量的關(guān)鍵詞說明新入校的大學(xué)生感情方面的需求悄然凸顯,正確引導(dǎo)必不可少。“睡覺”成為特征關(guān)鍵詞是個意外。事后進(jìn)一步調(diào)查才知道,入校1個月以來學(xué)生們不僅經(jīng)歷大強度的軍事訓(xùn)練,而且?guī)缀鯖]間斷地參加各種各樣的集體活動,并且同寢室同學(xué)間“臥談”盛行,每天早晨還要參加集體早鍛煉,這些使得同學(xué)們普遍睡眠嚴(yán)重不足,渴望睡覺。睡覺問題非常突出,學(xué)生輔導(dǎo)員等學(xué)生工作者應(yīng)重視這一問題。

        為了了解有考研意向?qū)W生的思想狀態(tài),根據(jù)數(shù)據(jù)集中的特征,以{考研}、{保研}和{研究生}為種子關(guān)鍵詞,根據(jù)本文提出的迭代擴張法計算,每次循環(huán)所提取的共性特征向量依據(jù)共性特征向量的提取方法,樣本量分別選取篩選Gt的2/3、4/5和全樣本,每次選取前14個高頻詞集比對,結(jié)果如(10-14)式所示。

        CV4={高數(shù) 學(xué)習(xí) 英語}= CV3 (13)

        經(jīng)過3次迭代算法收斂,得到準(zhǔn)備考研究生的同學(xué)的共性特征向量如(15)式所示。

        E研={高數(shù) 英語 學(xué)習(xí)} (14)

        考研共性特征向量看起來很正常,其實其中隱藏著高等教育中長期存在的弊端,那就是“目的性太強”。對于考研究生的學(xué)生而言,考研不應(yīng)該是全部,不能為了考研而輕視了綜合素質(zhì)的培養(yǎng),更不能忽視應(yīng)承擔(dān)的社會責(zé)任。

        三、討論

        從應(yīng)用實例看,本文提出的基于詞頻分析的關(guān)鍵詞向量調(diào)查方法具有快速高效的特點,適用于對大學(xué)生群體等生活環(huán)境相同、文化水平相當(dāng)?shù)娜后w進(jìn)行實時快速調(diào)查,群體越大效率越高,效果也會越好。關(guān)鍵詞特征向量的提取需要的是計算機文字處理與分析技術(shù),R語言可以很方便地實現(xiàn)相關(guān)功能。采集到的關(guān)鍵詞向量集不僅僅可以做本文所提出的特征向量的提取,還可以進(jìn)行深度數(shù)據(jù)挖掘,比如關(guān)聯(lián)分析[20]等。

        我們將關(guān)鍵詞集G(S, n)中低頻的關(guān)鍵詞組成的向量或集合稱為G的個性特征向量(Individuality Character Vector, ICV)。個性特征向量的分析是要針對具體的對象,雖然不能代表總體的共性特征,也不一定會引起學(xué)生輔導(dǎo)員等學(xué)生工作者的關(guān)注,但個性特征向量在某一方面的集聚代表著潛在問題的存在,需要格外重視,防患于未然。在特征向量調(diào)查法中,個性特征向量應(yīng)該被高度重視,它是對共性特征向量的重要補充,本文不在此展開討論。

        由于文字?jǐn)?shù)據(jù)不具備可加性,傳統(tǒng)的數(shù)學(xué)和統(tǒng)計方法的應(yīng)用受到局限,甚至像本文中提到的收斂等概念不能用實空間中極限理論定義,但這并不影響特征向量的提取,更不影響其應(yīng)用。

        文字?jǐn)?shù)據(jù)另一方面具有模糊性和多解性,因此特征向量的提取之前進(jìn)行文字預(yù)處理是必需的,文字預(yù)處理可以用到模糊理論和方法甚至人工智能技術(shù)。如果將受調(diào)研的對象可以選擇的全部關(guān)鍵詞組成的集合稱為關(guān)鍵詞支撐集,那么理論上看不加限制的關(guān)鍵詞支撐集是無限的、開放的,為了使得特征向量的收斂性質(zhì)更好,在實際應(yīng)用中可以對支撐集加以限制。比如,我們在對新生進(jìn)行調(diào)研時發(fā)現(xiàn)兩個字的關(guān)鍵詞占41.3%,如果限制關(guān)鍵詞全是兩個字的則會提高共性特征向量的集中度,損失的信息在可接受的范圍之內(nèi)。如果根據(jù)以往的調(diào)研數(shù)據(jù),制作一個備選關(guān)鍵詞集合(可以足夠大),讓被調(diào)研者在該集合中勾選關(guān)鍵詞,這時候支撐集是有限的、封閉的,文字本身的模糊性就消除了,得到的關(guān)鍵詞集就是AGRAWAL他們用的詞條集[20]。有限支撐集對共性特征向量的影響比個性特征向量大。本文僅對學(xué)生群體做了關(guān)鍵詞特征向量的分析試驗,其他的群體甚至其他語言的關(guān)鍵詞的分析必定有特別之處,另外本文提出的方法還有許多需要完善的地方,這些工作有待今后逐步完成。

        [ 參 考 文 獻(xiàn) ]

        [1] MAYER-SCH?NBERGER V.CUKIER K.Big data:A Revolution that will transform how we live, work and think [M].Houghton Mifflin Harcourt Publishing Company,2013.

        [2] 何清,李寧,羅文娟,等.大數(shù)據(jù)下的機器學(xué)習(xí)算法綜述[J].模擬識別與人工智能,2014(4):327-336.

        [3] 蘇金樹,張博鋒,徐昕.基于機器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J].軟件學(xué)報,2006(9):1848-1859.

        [4] 馬玉慧,柏茂林,周政.智慧教育時代我國人工智能教育應(yīng)用的發(fā)展路徑探究[J].電化教育研究,2017(3):123-128.

        [5] 閆志明,唐夏,夏秦旋,等.教育人工智能(EAI)的內(nèi)涵、關(guān)鍵技術(shù)與應(yīng)用趨勢[J].遠(yuǎn)程教育雜志,2017(1):26-35.

        [6] 程學(xué)旗,靳小龍,王元卓等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報,2014(9):1889-1908.

        [7] 邱東.大數(shù)據(jù)時代對統(tǒng)計學(xué)的挑戰(zhàn)[J].統(tǒng)計研究,2014(1):16-22.

        [8] 張引,陳敏,廖小飛.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計算機研究與發(fā)展,2013(S2):216-233.

        [9] 管鑫雨.情境性詞匯教學(xué)的研究分析[J].教育現(xiàn)代化,2016(27):146-150.

        [10] 邱均平,丁敬達(dá),周春雷.1999—2008年我國圖書館學(xué)研究的實證分析(上) [J].中國圖書館學(xué)報,2009(35):72-79.

        [11] 邱均平,丁敬達(dá).1999—2008年我國圖書館學(xué)研究的實證分析(下) [J].中國圖書館學(xué)報,2009(35):79-118.

        [12] 傅柱,王曰芬.共詞分析中術(shù)語收集階段的若干問題研究[J].情報學(xué)報,2016(35):704-713.

        [13] 張寶生,祁曉婷.我國政府公共關(guān)系研究的演進(jìn)路徑及熱點主題的可視化分析[J].圖書情報工作,2017(61):122-126.

        [14] WANG ZY,LI G,LI A,et al.Research in the semantic-based co-word analysis[J].Scientometrucs,2012,90(3):855-875.

        [15] 魏瑞斌.基于關(guān)鍵詞的情報學(xué)研究主題分析[J].情報科學(xué),2006,24(9):1400-1404.

        [16] DONOHUE J C.Understanding Scientific Literatures:A Bibliometric Approach[M].Cambridge:The MIT Press,1973:49-50.

        [17] 劉敏娟,張學(xué)福,顏蘊.基于詞頻、詞量、累積詞頻占比的共詞分析詞集范圍選取方法研究[J].圖書情報工作,2016(23):135-142.

        [18] ZHANG S, LIU C X, CHANG Y.Selection research of keywords in co-word clustered based on the G-index of word frequency[J].Modern Educational Technology,2013,23(10):54-57.

        [19] 楊愛青,馬秀峰,張風(fēng)燕,等.g指數(shù)在共詞分析主題詞選取中的應(yīng)用研究[J].情報雜志,2012(2):52-55.(YANG AQ,MA XF,ZHANG FY,et al.Application research of g-index in the topic words of co-word analysis[J].Journal of Intelligence,2012,31(2):52-55.)

        [20] AGRAWAL R,IMIELINSKI T,SWAMI A.Mining Association Rules between Sets of Items in Large Databases[J].ACM SIGMOD Record,1993,22(2):207-216.

        [21] BRADLEY E.Bootstrap methods:another look at the jackknife [J].The Annals of Statistics,1979,7(1):1-26.

        [責(zé)任編輯:王 品]

        猜你喜歡
        詞頻共性特征向量
        喜歡在墻上畫畫是人類的共性嗎?
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        共性
        雜文月刊(2019年14期)2019-08-03 09:07:20
        一類特殊矩陣特征向量的求法
        “數(shù)控一代”示范工程引領(lǐng)和推動共性使能技術(shù)在中小企業(yè)推廣應(yīng)用
        EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
        音樂的共性
        詞頻,一部隱秘的歷史
        亚洲精品国产第一区二区| 亚洲天堂男人的av天堂| 在线高清精品第一区二区三区| 亚洲一区自拍高清亚洲精品| 国产精品髙潮呻吟久久av| 国产女奸网站在线观看| 国产亚洲av无码专区a∨麻豆| 欧美色图50p| 亚洲国产成人久久三区| 国产三级不卡视频在线观看| 精品国产一区二区三区AV小说| 国产精品无码午夜福利| 亚洲av成人一区二区三区本码| 久久综合久中文字幕青草| 天天做天天爱天天综合网| 日本一区二区在线播放| 男女做羞羞事的视频网站| 麻豆密入视频在线观看| 国产精品免费久久久久影院| 高潮潮喷奶水飞溅视频无码| 国产一区二区三区在线观看第八页| 日韩精品人妻少妇一区二区 | 婷婷亚洲久悠悠色悠在线播放| 亚洲综合色区一区二区三区| 亚洲av熟女天堂久久天堂| 亚洲欧洲高潮| 久久久亚洲精品一区二区三区| 在线观看午夜视频国产| 日本一区不卡高清在线观看 | 性xxxx18免费观看视频| 亚洲av熟女天堂久久天堂| 美女窝人体色www网站| 首页动漫亚洲欧美日韩| 国产亚洲精品精品精品| 亚洲熟妇av一区二区在线观看| 亚洲av免费高清不卡| 国产中文字幕乱码在线| 欧美亚州乳在线观看| 免费无码一区二区三区蜜桃大| 精品国产一区二区三区三级| 久久色悠悠综合网亚洲|