亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

自然語言詞性序列的分類

2014-12-13 03:18:38徐芃，熊健

華南師范大學(xué)學(xué)報(自然科學(xué)版) 2014年4期

徐芃，熊健

(1.廣州大學(xué)心理咨詢中心，廣州510006;2.廣州大學(xué)經(jīng)濟與統(tǒng)計學(xué)院，廣州510006)

1 問題背景

語言表征是心理表征的符號現(xiàn)實，個體的心理差異具有外顯的行為學(xué)傾向［1］. 已有的語言與心理相關(guān)性的大量研究支持語言影響思維，語言是思維的現(xiàn)實表征的理論. 語言表征與心理表征具有一致性，例如，語言可以引起相應(yīng)的表情，情緒詞的情緒信息對新異刺激喜好度變化具有自下而上的自動化聯(lián)想學(xué)習(xí)過程的調(diào)節(jié)機制［2］，語言結(jié)構(gòu)對心理活動產(chǎn)生影響，不同的說話方式展示不同的人際關(guān)系、個性，甚至自我認(rèn)識［3］. 詞性內(nèi)隱著認(rèn)知機制，例如，名詞動用在詞性上發(fā)生變化，其轉(zhuǎn)喻的特點和表現(xiàn)不同［4］;種類量詞中傾向于“種”的詞，其思維也越傾向于抽象的上位概念［5］.認(rèn)知機制影響相應(yīng)的詞匯、語義識別，例如，漢英語句的形態(tài)不同，語義表征具有共同的認(rèn)知機制［6］;高頻詞較之低頻詞容易被認(rèn)知［7］;使用第一人稱代詞會誘導(dǎo)出現(xiàn)更多的描述個人認(rèn)知機制的詞［8］;知覺模擬中詞序頻率在語義關(guān)聯(lián)判斷中的效果遠(yuǎn)遠(yuǎn)優(yōu)于空間意象［9］. 有關(guān)語言與思維的相關(guān)研究足以表明，客觀外顯的語言符號是觀察主觀內(nèi)隱的思維認(rèn)知的途徑，語言影響思維，語言是思維的現(xiàn)實表征.

認(rèn)知科學(xué)強調(diào)外顯的語言是思維的工具，語言表達(dá)強迫人們以不同的方式組織信息，語言表征的差異可能影響到概念的表征［10］;不僅語言的詞性是心理的表征標(biāo)識，即使是語言的速度也對心理發(fā)展產(chǎn)生影響:快速的語言是潛意識的映射;而慢速語言的干預(yù)能改變意識的過程［11］.

使用的語言包含詞匯、詞序和語法等要素.自然語言邏輯的研究表明，人們會使用由詞項構(gòu)成的句子來表達(dá)思維的內(nèi)容，詞項是人們通過詞語意義的中介來表達(dá)對事物認(rèn)識的語言指號形式. 自然語言傳遞心理信息的相關(guān)研究發(fā)現(xiàn)，不同詞的詞性，特別是名詞、動詞、代詞、形容詞等實詞，傳遞的心理信息也不相同［12］，并且在任意句子結(jié)構(gòu)序列中出現(xiàn);研究還發(fā)現(xiàn)，由這4 種詞性構(gòu)成的不同的自然語言結(jié)構(gòu)序列，其語言使用者的閱讀理解水平也存在高水平和低水平差異顯著的2個類別［13］.

認(rèn)知語言學(xué)從語言分析的視角來觀察語言與心理的關(guān)系，在定性分析的基礎(chǔ)上進(jìn)行語言定量分析逐漸成為語言分析的重要方法. 數(shù)學(xué)模型是結(jié)合定性與定量分析，同時必須以定量的方式呈現(xiàn)對事物系統(tǒng)的特征或數(shù)量依存關(guān)系的描述與推斷的方法，其特征比較適合描述對語言的定性與定量分析. 另一方面，文本分類也是自然語言處理中數(shù)據(jù)挖掘的重要方法.數(shù)學(xué)模型所特有的對自然語言結(jié)構(gòu)序列這種客觀現(xiàn)象的描述與分類功能，可以幫助人們更好地理解和認(rèn)識通過外顯的語言表征傳遞出來的內(nèi)隱的思維形式.鑒于問題提出中已有的語言與心理相關(guān)性的定性與定量分析基礎(chǔ)，本項研究首先對語料數(shù)據(jù)進(jìn)行數(shù)學(xué)建模的粗?；幚?，突出語言信息中名詞、動詞、形容詞和代詞的主效應(yīng)特征，然后利用中國科學(xué)院計算機技術(shù)研究所的中文自然語言處理平臺(ICTCLAS)將4個主效應(yīng)信號表示成適當(dāng)?shù)臄?shù)學(xué)對象，建構(gòu)由名詞、動詞、形容詞和代詞這4 種實詞構(gòu)成的自然語言結(jié)構(gòu)詞性序列的描述與分類的數(shù)學(xué)模型，對自然語言表征傳遞不同心理信息的分類規(guī)律進(jìn)行科學(xué)的觀察.

2 模型假設(shè)與問題陳述

2.1 模型的條件與假設(shè)

2.1.1 數(shù)據(jù)預(yù)處理在1 項142 人(來源于某大學(xué)通識類選修課的大二至大四的學(xué)生，專業(yè)覆蓋理工科、文科和藝術(shù)類)參加的5個主題句作業(yè)報告中，隨機選擇60 份作業(yè)報告，確定抽取每份作業(yè)報告的第5個句子作為自然語言序列研究樣本. 采集到的語料數(shù)據(jù)符合本項的研究要求. 由于本項研究關(guān)注的是語言表征的詞項序列問題，142 份數(shù)據(jù)樣本中，第5個句子均為完整句子，因此確定每份作業(yè)報告的第5個句子作為自然語言序列的研究樣本.

隨機選擇的60 份語料數(shù)據(jù)通過中文自然語言處理平臺(ICTCLAS)處理，得到一級標(biāo)注詞性切分的60個自然語言詞性表達(dá)序列，如“nanvrnnv”、“rvvvvvrnvn”等，其中，n 為名詞標(biāo)識碼，a 為形容詞標(biāo)識碼，v 為動詞標(biāo)識碼，r 為代詞標(biāo)識碼.

基于問題提出中對語言與心理關(guān)系的理解，我們對語言序列進(jìn)行主信號的粗?；幚?，在每一個語言序列中只留下可能表達(dá)更多概念表征的名詞(n)、動詞(v)、形容詞(a)和代詞(r)的標(biāo)志符號，研究樣本的數(shù)據(jù)處理為如下形式的序列:(1)nrvavvnv;(2)nanvrnn. 由于名詞是描述對實體或抽象事物認(rèn)識結(jié)果的摹狀詞，在語言表征思維的命名與必然性的語言指號中具有十分重要的作用，因此在60份語言表征序列中，以名詞(n)的含量比例作為判斷依據(jù)，區(qū)分名詞n 含量排列靠前的10個序列為A類，名詞n 含量排列靠后的10個序列為B 類，這20個序列為學(xué)習(xí)樣本;在剩下的40個序列中，隨機挑出20個序列作為測試樣本.

2.1.2 正態(tài)分布假設(shè) 在詞性構(gòu)成的自然語言詞性序列中，假設(shè)具有隨機性的名詞、動詞、形容詞、代詞的含量服從正態(tài)分布.

2.1.3 符號說明

nn:任一給定序列中詞性n(名詞)在這一序列總詞量中的比例含量;

nv:任一給定序列中詞性v(動詞)在這一序列總詞量中的比例含量;

na:任一給定序列中詞性a(形容詞)在這一序列總詞量中的比例含量;

nr:任一給定序列中詞性r(代詞)在這一序列總詞量中的比例含量;

Gi:由某些具有相同屬性的個體組成的類.

2.2 問題陳述

有20個已知類的經(jīng)過中文自然語言處理平臺(ICTCLAS)一級標(biāo)注詞語切分的樣本序列，其中序列標(biāo)號A1～A10為A 類，A11～A20為B 類.要求從中提取特征，構(gòu)造分類方法，并對另外未標(biāo)明類別的20個中文自然語言處理平臺制造的自然語言序列(A21～A40)進(jìn)行分類. 任何一個隨機的自然語言詞性序列中包含的詞性含量和詞性所處的位置，反映該語言序列在數(shù)量和序位上的特征:第一，語言序列中的不同詞性的總量，表明該語言序列反映心理信息的內(nèi)容;第二，語言序列中的不同詞性的先后位置的序位形式，表明該語言序列反映心理信息的形式.

3 不同詞性含量的詞性序列分類

3.1 分類模型的基本原理

對于反映心理信息內(nèi)容的不同詞性含量的自然語言詞性序列，可以采用序列中n，v，a，r 在序列總詞量中的比例含量作為該序列的特征，這樣抽取特征的方法具有其認(rèn)知心理學(xué)的意義.例如，在人們的語言表述中，有的時候在使用自然語言傳遞心理信息時會較多使用名詞n 和動詞v 來表達(dá)對客觀事件的認(rèn)知信息，當(dāng)情緒信息強烈時人們又會較多使用形容詞a 和代詞r 來表達(dá)個人的心理感受，雖然語境不同，人們使用的具體詞語可能也不相同，但是個體在相似刺激條件下的心理反應(yīng)形式卻是相同的.因此，相比于語境中的具體詞語，詞性本身包含了不同類別的心理信息，更適合成為觀察語言詞性序列的結(jié)構(gòu)符號.將序列中n，v，a，r 的含量分別記為nn，nv，na，nr，得到一組表征該序列特征的思維向量(nn，nv，na，nr)，其線性相關(guān)為:nn+nv+na+nr=1.

由于語言詞性序列中nn，nv，na，nr四維向量的計算過于繁瑣，而任意語言詞性序列中的向量特征Xi(i 為標(biāo)號)和其他向量的關(guān)系都可演變成一個三維向量空間的對映點，例如，nr=1－ nn－ nv－ na，相比較四維向量更方便線性代數(shù)的計算.

設(shè)不同詞性含量詞性序列分類的判別問題是:在k個類別詞性序列(N1，N2，…，Nk)中，任何一個Ni類樣品x，都可以得到它的詞性序列向量特征值X.已知所屬類別的某些樣品x1，x2，…，xn組成學(xué)習(xí)樣本，對來自這個類別的某個樣本x，依據(jù)其特征向量X 的值做出是否歸屬此類別的判斷.

在本項目的已知詞性序列分類中，已知k =2，G1=A，G2=B，特征向量X 是三維向量.學(xué)習(xí)樣本n=20個樣本，其中A1～A10為A 類，A11～A20為B 類.采用歐式距離(Euclid)分類模型對序列樣本進(jìn)行分類:

(1)分別計算已知的A 類和B 類中各自包含的10個樣本點的集合的幾何中心:

(2)對于給定樣本點Xi，計算該點到CA的歐氏距離計算該點到CB的歐氏距離DB

(3)判別標(biāo)準(zhǔn)為:①如果DA＜DB，則將Xi點判別為A 類;②如果DA＞DB，則將Xi點判別為B 類;③如果DA=DB，則將Xi點判別為不可判類.

3.2 分類模型的應(yīng)用

運用MATLAB7 編程上述算法并運行，對已知學(xué)習(xí)樣本A1～A20進(jìn)行分類:

結(jié)果A6被錯誤地分到了B 類，A19被錯誤地分到A 類，其余18個樣本全部正確，分類準(zhǔn)確率達(dá)到了90%.

用上述歐氏距離分類模型對未知的詞性序列A21～A40進(jìn)行分類，得到結(jié)果為:

可見，即使單純從自然語言表征而言，人們使用的自然語言表征也存在不同的類別，這與人們使用自然語言傳遞心理信息時會有不同類型的思維模式相似.從學(xué)習(xí)樣本原始數(shù)據(jù)所包含的具體習(xí)性來看，A 類多含名詞和動詞，語言使用者的思維指向多集中在對名詞和動詞所反映的事物特征的認(rèn)識上;B類多含形容詞和代詞，語言使用者的思維指向集中在對自我及心理體驗的關(guān)注上. 測試樣本中的任一詞性序列都能歸類到某一類別，證明人們總是在使用自然語言或傳遞對客觀事物的認(rèn)識(A 類)，或傳遞對自我及心理體驗的主觀認(rèn)識(B 類)，語言是傳遞心理信息的工具.

4 不同詞性序位的詞性序列分類

4.1 分類模型的基本原理

雖然基于詞量的分類模型采用不同詞性n(名詞)、v(動詞)、a(形容詞)和r(代詞)的含量特征值作為詞性序列的分類依據(jù)，具有一定詞性投射心理信息的認(rèn)知語言學(xué)意義，并且在歐氏距離分類模型中獲得了準(zhǔn)確率達(dá)到90%的比較理想的結(jié)果. 但是，這種以含量為分類標(biāo)準(zhǔn)的方法在抽取語言特征時，沒有充分考慮到人們在使用語言時的語序信息量.人們使用語言傳達(dá)心理信息時，先說什么后說什么是有一定的考慮的.例如，序列nvran 與序列rannv，在這2個詞性序列中n(名詞)、v(動詞)、a(形容詞)和r(代詞)的詞性含量相同，n、v、a 和r 在詞性序列中的向量特征值是相同的，但是這2個句子在詞性的位序排列結(jié)構(gòu)上卻是不同的，例如:

從語言表述來看，這2個句子在主語位置上的詞性完全不同，語言使用者表達(dá)的關(guān)注點也不同，前者更關(guān)注“洪水”，后者更關(guān)注“他們的家鄉(xiāng)”.因此，如果能夠直接從序列自身的詞性排序來考察語言序列，可能更能夠反映語言表達(dá)者想要表達(dá)的心理信息.因此，需要在不同詞性序列的相關(guān)度計算的基礎(chǔ)上，設(shè)計基于詞序位置的序列分類模型.

采用基于位置特征的DNA 序列分類模型原理［14］，對詞性序列樣本進(jìn)行分類:

(1)對于任意詞性x 和y，相關(guān)運算“x?y”的值定義為:

(2)定義啞元O，規(guī)定任意詞性與啞元的相關(guān)運算結(jié)果均為0.

(3)對于任意一個長度為N 的序列A ={A0，A1，…，An}，它的延拓為一個無限序列::當(dāng)0≤j ＜N時;當(dāng)－∞＜j ＜0 及N≤j ＜∞時，=0.

(4)對于任意2個序列AX，BY，定義序列A 和序列B 的相關(guān)序列Si為:

定義序列B 對序列A 的相關(guān)度為:

例如，對于序列A ={a，r，a}和序列B ={n，v，a，r，a，r}，計算其相關(guān)序列度為:

(5)定理1［14］:任意給定3個序列S，A，B，如果A 與S 的相關(guān)度大于B 與S 的相關(guān)度且B 與A 等長，則A 與S 屬于同一類的可能性大于B 與S 屬于同一類的可能性.

(6)基于計算原理，序列相關(guān)度的分類判別標(biāo)準(zhǔn)為:

①在序列A21～A40中，隨機選擇任何某個詞性序列，分別計算與序列A1～A20中20個詞性序列的相關(guān)度，計算結(jié)果為SS1，SS2，SS3，…，SS20;

②求出前10個相關(guān)度的平均值SA=(SS1+SS2+…+SS10)/10，定義SA 為與A 類序列的相關(guān)度;

③求出后10個相關(guān)度的平均值SB =(SS11+SS12+…+SS20)/10，定義SB 為與B 類序列的相關(guān)度;

④記W =SA/SB，根據(jù)定理1，如果W ＞1，將X點判別為A 類;如果W ＜1，將X 點判別為B 類;如果W=1，將X 點判別為不可判類.

4.2 分類模型的應(yīng)用

運用MATLAB7 編程上述算法并運行，對已知學(xué)習(xí)樣本A1～A20進(jìn)行分類:結(jié)果A7被錯誤地分到了B 類，分類的準(zhǔn)確率達(dá)到了95%，比較基于詞量的詞性序列分類，分類準(zhǔn)確率提高了5個百分點.

用上述基于詞性的分類模型對未知的詞性序列A21～A40進(jìn)行分類，得到結(jié)果為:

依據(jù)定理1 的判別原則:

如果W ＞1，判別為A 類:A25，A30，A38，A39，A40;

如果W ＜1，判別為B 類:A21，A22，A23，A24，A26，A27，A28，A29，A31，A32，A33，A34，A35，A36.

在反映詞項先后順序的基于詞序位置的自然語言表征分類模型中，序列A21，A22，A24，A32，A34被判別到了B 類，而在只考慮詞量的分類模型中，這4個序列是判別在A 類的. 可見，人們使用語言表達(dá)心理信息時，即使是要表達(dá)的心理信息似乎都表達(dá)完整了(詞量一樣)，但是先說什么，后說什么，詞性的排列序位不同，語言表征的表達(dá)形式不同，仍然有可能傳遞著不同的心理信息.

5 討論與結(jié)論

5.1 2 種分類模型的比較

對于序列A21、A22、A24、A32和A34，不同詞性含量的分類模型和不同詞性序位的分類模型有不同的分類結(jié)果，可見，在進(jìn)行詞性序列分類時，考慮到詞性序列中的詞性含量和詞性序位等不同的要素，模型分類的方法不同，分類的結(jié)果也可能存在差異.基于詞序的分類結(jié)果準(zhǔn)確率為95%，基于詞量的分類結(jié)果準(zhǔn)確率為90%，雖然在20個測試樣本中有5個序列的分類結(jié)果不同，但是2 種模式的一致分類結(jié)果也達(dá)到了75%.人們使用客觀的語言指號傳達(dá)主觀的心理信息，二者并不一定呈一一對應(yīng)的關(guān)系，形式邏輯的研究表明，相同的語言指號可能傳達(dá)不同的心理信息，相同的心理信息也可以用不同的語言指號來傳達(dá).鑒于自然語言詞性序列的特征，我們采用一個聯(lián)合判定原則:對于任何詞性序列，如果2 種分類模型的結(jié)果一致時，認(rèn)為序列判別有效;如果不一致時，認(rèn)為該序列為不可判類，不影響2 類分類法的算法.使用語言的語序可能傳遞更多的信息，基于詞序的分類結(jié)果準(zhǔn)確率也高于基于詞量的準(zhǔn)確率，因此在分類模型的實際應(yīng)用時，我們設(shè)置一個使用條件:如果研究對象的總詞量大，趨向于應(yīng)用基于詞量的分類模型;如果研究對象的總詞量少，趨向于應(yīng)用基于詞序的分類模型.

5.2 分類模型的應(yīng)用價值

就語言詞性序列分類模型在認(rèn)知心理學(xué)的應(yīng)用價值而言，不僅揭示和證實了客觀的語言符號與主觀的心理信息之間存在的相關(guān)關(guān)系，而且通過外顯的語言表征可以對內(nèi)隱的心理信息做出科學(xué)的評估.自然語言詞性序列的分類模型應(yīng)用到教育領(lǐng)域，可以為實踐中具體問題的解決提供語言干預(yù)的策略和技能.例如，我們在心理咨詢的實踐中觀察到，社會適應(yīng)困難的當(dāng)事人，其語言表征就具有自然語言詞序分類中B 類的特征，即名詞和動詞含量少，而形容詞和代詞的含量多;社會適應(yīng)無困難的非當(dāng)事人，其語言表征則呈現(xiàn)A 類的特征，以A 類自然語言表征為干預(yù)目標(biāo)，也能達(dá)到心理治療的目的.自然語言詞性序列的分類模型還可以應(yīng)用到機器學(xué)習(xí)領(lǐng)域，解決自然語言處理中的歧義問題，成為機器學(xué)習(xí)方法訓(xùn)練分類器模型源中的目標(biāo)域，從而提高機器的“思維”水平.

5.3 結(jié)論

外顯的自然語言序列可以分類.本項研究表明反映自然語言表征序列內(nèi)容的基于詞量的自然語言分類模型準(zhǔn)確率為90%;反映自然語言表征序列形式的基于詞序位置的自然語言分類模型準(zhǔn)確率為95%，不僅揭示了語言與心理信息之間存在的相關(guān)關(guān)系，而且也證實了通過客觀存在的語言符號可以對內(nèi)隱的心理信息做出科學(xué)的評估.

［1］陳少華，鄭雪. 論個體心理差異的行為學(xué)遺傳取向［J］.華南師范大學(xué)學(xué)報:自然科學(xué)版，2001(2):31－35.Chen S H，Zheng X. On the behavioral genetics orientation individual differences［J］. Journal of South China Normal University:Natural Science Edition，2001(2):31－35.

［2］郭晶晶，杜彥鵬，陳玉霞，等. 情緒詞對新異刺激喜好度變化的調(diào)節(jié)機制［J］. 心理學(xué)報，2011，43(4):364－372.Guo J J，Du Y P，Chen Y X，et al. The modulation mechanism of emotional words on neutral stimuli's preference［J］.Acta Psychologica Sinica，2011，43(4):364－372.

［3］Pennebaker J W，Mehl M R，Niederhoffer K G. Psychological aspects of natural language use:Our words，our selves［J］. Annual Review of Psychology，2003，54(1):547.

［4］王薇.名詞動用的認(rèn)知修辭研究［D］.上海:上海外國語大學(xué)，2008.Wang W. A cognitive and rhetoric study of denominal verbs［D］. Shanghai:Shanghai International Studies University，2008.

［5］馮冬梅.種類量詞的認(rèn)知研究［D］. 桂林:廣西師范大學(xué)，2010.Feng D M. The cognitive study on the sort of measure words［D］. Guiling:Guangxi Normal University，2010.

［6］李榮寶，彭聃齡，郭桃梅.漢英語義通達(dá)過程的事件相關(guān)電位研究［J］.心理學(xué)報，2003，35(3):309－316.Li R B，Peng D L，Guo T M. A study on Chinese and English semantic access with erp technology［J］. Acta Psychologica Sinica，2003，35(3):309－316.

［7］Azarbehi R，Piercey C D，Joordens S. The effects of word variability on the lexical decision task［J］.North American Journal of Psychology，2011，13(3):427－434.

［8］Seih Y T，Chung C K，Pennebaker J W. Experimental manipulations of perspective taking and perspective switching in expressive writing［J］. Cognition ＆ Emotion，2011，25(5):926－938.

［9］Tse C S，Kurby C A，Du F. Perceptual simulations and linguistic representations have differential effects on speeded relatedness judgements and recognition memory［J］.Quarterly Journal of Experimental Psychology，2010，63(5):928－941.

［10］劉麗虹，張積家. 語言如何影響人們的思維［J］. 自然辯證法通訊，2009，31(5):22－27.Liu L H，Zhang J J. Language how to affect the thinking?［J］. Journal of Dialectics of Nature，2009，31(5):22－27.

［11］Love T，Walenski M，Swinney D. Slowed speech input has a differential impact on on－line and off－line processing in children's comprehension of pronouns［J］.Journal of Psycholinguistic Research，2009，38(3):285－304.

［12］徐芃.科學(xué)思維類組的語言結(jié)構(gòu)形式探討［J］.廣州大學(xué)學(xué)報:社會科學(xué)版，2005，l4(7):79－82.Xu P. An analysis of language structure of science thinking classification［J］. Journal of Guangzhou University:Social Science Edition，2005，l4(7):79－82.

［13］徐芃.語言結(jié)構(gòu)干預(yù)對閱讀理解影響的實證研究［J］.當(dāng)代教育理論與實踐，2011，3(6):20－123.Xu P. An empirical study of language structure intervention effects on reading comprehension［J］. Theory and Practice of Contemporary Education. 2011，3(6):20－123.

［14］韓軼平，余杭，劉威，等.DNA 序列的分類［J］. 數(shù)學(xué)的實踐與認(rèn)識，2001，31(1):38－45.Han Y P，Yu H，Liu W，et al. Classification of DNA sequences［J］.Mathematics in Practice and Theory，2001，31(1):38－45.