亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向書面言語鑒定的言語人副詞使用習(xí)慣研究

        2019-09-25 08:38:12王虹
        中國司法鑒定 2019年5期
        關(guān)鍵詞:高頻詞古龍郭敬明

        王虹

        (中國刑事警察學(xué)院 文件檢驗(yàn)技術(shù)系,遼寧 沈陽100035;東北大學(xué) 自然語言處理實(shí)驗(yàn)室,遼寧 沈陽110004)

        書面言語是以文字形式存在的言語,包括紙質(zhì)文本、網(wǎng)絡(luò)文本和電子文本。書面言語鑒定,英語譯作 Authorship Identification, Authorship Attribution或Authorship Comparison,是指通過檢材言語與樣本言語的比對(duì)鑒別,判斷兩者言語習(xí)慣是否一致,為案件偵查、審判提供證據(jù)的一種專門技術(shù)手段。

        西方早就有專門的文本鑒別學(xué),1711年,一位德國牧師H.B.韋特最早提出了有關(guān)《圣經(jīng)》作者的爭(zhēng)議。隨后,出現(xiàn)了莎士比亞著作權(quán)的糾紛。從20世紀(jì)60年代埃文斯案促成司法語言學(xué)的誕生以來,歐美各國作者鑒別技術(shù)發(fā)展方興未艾,成果顯著,應(yīng)用廣泛。很多國家和地區(qū)都有專門的語言證據(jù)研究機(jī)構(gòu),受理司法實(shí)踐中與語言相關(guān)的案件。

        國內(nèi)漢語文體學(xué)、漢語語言學(xué)、英語語言學(xué)(主要是法律語言學(xué))、圖書情報(bào)學(xué)、自然語言處理等領(lǐng)域均有關(guān)于作者鑒別、作者歸屬、作者身份識(shí)別、作者識(shí)別的研究。公安技術(shù)領(lǐng)域自20世紀(jì)80、90年代起開始研究書面言語鑒定技術(shù),并將用于文件檢驗(yàn)鑒定,利用“語音特征”、“方音別字”、“特殊語法”等書面言語特征鑒定了多起無筆跡案件。

        近年來,互聯(lián)網(wǎng)及相關(guān)產(chǎn)業(yè)飛速發(fā)展,雖然在一定程度上方便了生活,但利用電子郵件、網(wǎng)絡(luò)論壇等方式犯罪的案件也不斷增多。此外,由于監(jiān)管漏洞的存在,侵犯他人知識(shí)產(chǎn)權(quán)的案件也時(shí)有發(fā)生。這些現(xiàn)象都對(duì)書面言語鑒定技術(shù)的完善和提高提出了迫切需求。

        副詞使用頻率特征是書面言語鑒定中常用的言語特征之一,鑒定人員基于副詞屬于虛詞,而虛詞受言語內(nèi)容影響較小,具備較好的個(gè)人穩(wěn)定性這一假設(shè),一直在使用這一特征。但這種假設(shè)是否成立,我們并未見到相關(guān)的實(shí)驗(yàn)和統(tǒng)計(jì)研究。語言學(xué)領(lǐng)域?qū)Ω痹~的研究暫時(shí)處于基礎(chǔ)性、定義性的階段。國外司法語言學(xué)的研究和實(shí)踐中,已將副詞使用習(xí)慣特征當(dāng)作書面言語同一認(rèn)定的依據(jù)使用。但在漢語書面言語鑒定領(lǐng)域,副詞使用習(xí)慣特征是否能作為漢語書面言語同一認(rèn)定的依據(jù)還有待研究。對(duì)副詞研究的不斷深入以及各種統(tǒng)計(jì)工具、分析方法的完備,為我們提供了研究這一領(lǐng)域的可能。

        本文擬引入自然語言處理技術(shù),采用實(shí)驗(yàn)研究和統(tǒng)計(jì)研究的方法,探討副詞使用習(xí)慣特征在漢語書面言語鑒定中作為同一認(rèn)定依據(jù)使用的可行性。

        1 副詞及其分類

        1.1 副詞定義

        從中國第一本語法專著《馬氏文通》提出近似現(xiàn)代“副詞”的“狀字”開始,關(guān)于副詞的定義一直是眾說紛紜。2004年,張誼生[1]提出將句法功能作為認(rèn)定副詞的根據(jù)并以語句的基本含義作為判斷的基礎(chǔ),將副詞定義為:“副詞主要充當(dāng)狀語,一部分可以充當(dāng)句首修飾語或補(bǔ)語,在一定條件下一部分還可以充當(dāng)高層次消浯或準(zhǔn)定語的具有限制、描摹、連接等功能的半開放類詞?!?/p>

        1.2 副詞分類

        語言學(xué)領(lǐng)域中對(duì)副詞的分類也有很多不同的看法,本文從研究需要出發(fā),采用呂叔湘的分類方法,即按照語法功能將副詞分為七類:程度、范圍、時(shí)間、語氣、肯定和否定、方式、處所[2]。

        程度副詞,如很、最、極、太、非常、更加、越、稍、幾乎、略微、尤其……

        范圍副詞,下分總括性范圍副詞:都、總、共、俱、皆、全然、全都、統(tǒng)統(tǒng)、統(tǒng)共、舉凡、一概、一總等;唯一性范圍副詞:僅、只、就、才、單、唯、偏、惟獨(dú)等;限定性范圍副詞有:約、大都、最多、最少、起碼、只有、只是、不過……

        時(shí)間副詞,如:已、曾、剛剛、才、正在、立刻、終于、時(shí)時(shí)、漸漸、從來、始終、屢次、重新、還、偶爾……

        語氣副詞,如:難道、果然、豈、索性、究竟、簡(jiǎn)直、就、可、也許、難怪、大約、不妨……

        肯、否定副詞,分為肯定、必然、偶然、可能、否定判斷副詞。如必須、沒有、必定、是否、未、別、莫、勿、不必、不用、不曾…….

        方式副詞,如:大肆、親自、特意、公然、忽然、悄悄……

        處所副詞,如:處處、到處、隨處、四處……

        《中國文法要略》分為七類:方所副詞,時(shí)間副詞,動(dòng)態(tài)動(dòng)相副詞,程度副詞,判斷副詞,否定副詞,一般副詞。

        2 材料與方法

        2.1 語料

        本文以古龍、莫言、韓寒、金庸、三毛、郭敬明等6位作家的長文本作品24部為研究語料,具體情況見表1。

        2.2 分析工具與內(nèi)容

        本文使用我們自主研發(fā)的《案件書面言語量化輔助分析系統(tǒng)》對(duì)語料進(jìn)行自動(dòng)分句、分詞、詞性標(biāo)注等處理,并進(jìn)行總詞數(shù)、副詞數(shù)、副詞數(shù)占總詞數(shù)的百分比、單個(gè)副詞數(shù)、單個(gè)副詞數(shù)占總詞數(shù)的百分比,以及同一人作品副詞使用頻率的平均值、標(biāo)準(zhǔn)差等數(shù)據(jù)統(tǒng)計(jì),以此分析總結(jié)個(gè)人在是否使用副詞上的偏好、個(gè)人在表示同類關(guān)系的副詞中是否有選用上的偏好和不同人在表示同類關(guān)系的副詞中是否有共同的選用偏好。

        3 結(jié)果與分析

        3.1 個(gè)人在是否使用副詞上的偏好

        為了觀察個(gè)人在是否使用副詞上的偏好,我們分別統(tǒng)計(jì)出了24部作品的總詞數(shù)、副詞數(shù)、副詞數(shù)占總詞數(shù)的百分比,以及同一人作品副詞使用頻率的平均值、標(biāo)準(zhǔn)差,并分別按副詞使用頻率平均值和副詞占總詞數(shù)的百分比進(jìn)行了降序排序,如表1所示。分析表1我們發(fā)現(xiàn):

        第一,6位作家使用副詞的頻率是有差別的,由古龍、韓寒、郭敬明、三毛、金庸、莫言依次降低。

        第二,古龍和莫言在副詞使用頻率上相差較明顯,平均值差了約3個(gè)百分點(diǎn)。古龍的4部作品的副詞使用頻率均很高,均高于莫言的4部作品。

        第三,同一作家不同作品的副詞使用頻率的穩(wěn)定性情況不同,由古龍、韓寒、莫言、郭敬明、三毛、金庸依次降低。古龍的5部作品之間副詞使用頻率差別較大,其平均值的標(biāo)準(zhǔn)差最大;而金庸4部作品之間副詞使用頻率的穩(wěn)定性最好,其平均值的標(biāo)準(zhǔn)差最小。

        第四,創(chuàng)作時(shí)間、作者的個(gè)人經(jīng)歷對(duì)同一作者不同作品的副詞使用頻率穩(wěn)定性有影響。以古龍為例,1960年到1963年是古龍的試筆階段,接觸了大量的西方文學(xué),作品也帶有西方色彩;1963年之后,他向日本小說取經(jīng),探索武道,逐步形成自己獨(dú)特的武打描寫方式;后期古龍又將戲劇、推理、詩歌等元素和自己的人生感悟帶入傳統(tǒng)武俠。這樣,隨著時(shí)間的推移和個(gè)人經(jīng)歷的變化,古龍作品的風(fēng)格前后有很大的變化。而作品中語言的變化則是形成作品風(fēng)格變化的重要因素,因此導(dǎo)致《劍客行》(1963)《大旗英雄傳》(1966)《三少爺?shù)膭Α罚?974)《拳頭》(1977)等不同時(shí)間節(jié)點(diǎn)上的作品中副詞使用頻率有較大的差異。

        第五,體裁對(duì)同一作者不同作品的副詞使用頻率穩(wěn)定性有影響。以韓寒為例,他的兩部作品《像少年啦飛馳》、《通稿2003》的副詞使用頻率分別為5.500%和7.932%,差距較大。這兩部作品較明顯的不同是體裁分別為小說和雜文。小說是客觀性的語言,作者不會(huì)直接表達(dá)思想感情,而是讓人物和情節(jié)代作者說話;雜文則是主觀性的語言,作者直抒胸臆,而且論證和說理性強(qiáng)。體裁的不同,使得作品的語言風(fēng)格也不同。

        鑒于此,從我們的實(shí)驗(yàn)中觀察到的數(shù)據(jù)來說,個(gè)人在是否使用副詞上是有偏好的,不同人的平均副詞使用頻率有差別,且這種差別較穩(wěn)定,尤其是在語料足夠多、足夠長,作品形成時(shí)間相近、作者言語風(fēng)格沒有階段性變化、作品體裁相同的前提下,這種偏好能夠得到較好的表現(xiàn)。

        3.2 個(gè)人在表示同類關(guān)系的副詞中是否有選用上的偏好

        為了觀察個(gè)人在表示同類關(guān)系的副詞中是否有選用上的偏好,我們分別抽取、統(tǒng)計(jì)6位作家24部作品中的程度、處所、范圍、方式、肯定和否定、時(shí)間、語氣等七類副詞,計(jì)算出每個(gè)副詞的出現(xiàn)數(shù)及其占總詞數(shù)的百分比,進(jìn)行了相應(yīng)的數(shù)據(jù)分析和比較。我們發(fā)現(xiàn)個(gè)人在表示同類關(guān)系的副詞中是有選用上的偏好的。這里僅以古龍的4部作品和郭敬明的4部作品為例做以說明。

        古龍4部作品的同類副詞選用情況:古龍?jiān)诔潭雀痹~中選用“更、很、最、太”的情況遠(yuǎn)多于“極、越、幾乎”等(圖 1)。 在處所副詞中,“到處”一詞出現(xiàn)的頻率較高,其余如“處處、四處、隨處”都是偶爾出現(xiàn)(圖2)。在總括性范圍副詞中,“都”的出現(xiàn)次數(shù)最多,遠(yuǎn)高于居于其次的“全、俱”等;唯一性范圍副詞中,“就、只、才”使用頻率很高,“光、偏偏”也出現(xiàn)多次;限定性范圍副詞中,“不過、只有、只是”出現(xiàn)較多,“至少、約、大概”也有出現(xiàn)(圖3)。在方式副詞中,古龍偏向于選擇“忽然”引發(fā)場(chǎng)景、情節(jié)的變化,“暗暗、猛然”少量出現(xiàn)(圖 4)。在肯定、否定副詞中,“不、沒有”出現(xiàn)最多,“未、莫、必”等文言文化詞亦有出現(xiàn)(圖5)。時(shí)間副詞出現(xiàn)的較多,“已、還、再”都有大量出現(xiàn),“已”的頻率明顯高于“已經(jīng)”,“正、常、曾”的頻率分別高于“在、正在、常常、曾經(jīng)”(圖6)。語氣副詞中,表示疑惑時(shí)多用“難道、究竟”;表示驚訝時(shí),多用“果然、居然、豈、竟然”(圖 7)。

        郭敬明4部作品的同類副詞選用情況:在程度副詞中,郭敬明大量選擇“很”,比例較高,“最、太、更”也有一定比例,“幾乎、好像”也在每篇文章中都有體現(xiàn)(圖8)。在處所副詞中,“到處”出現(xiàn)頻率明顯高于其他兩個(gè)。但總體而言,處所副詞使用量較小(圖9)。在總括性范圍副詞中,郭敬明大量使用了“都、全”;唯一性范圍副詞中,“就、只、才”使用頻率高,其他如“僅僅、僅、光”等都是偶爾出現(xiàn);限定性范圍副詞中,除了“只是、不過”占有一定比例外,其他副詞均只零星出現(xiàn)(圖10)。方式副詞的整體使用頻率偏低,都只是零星出現(xiàn),相對(duì)來說使用“悄悄、趕緊”多些(圖11)。 肯定、否定副詞中,“不、沒有、沒”使用次數(shù)多,肯定副詞則只用了“的確”(圖12)。時(shí)間副詞中,“還”出現(xiàn)頻率最高,“已經(jīng)、總是、再”頻率接近,其他時(shí)間副詞如“還是、依然、曾經(jīng)”等都有出現(xiàn)(圖13)。語氣副詞中,“也許”出現(xiàn)頻率較高,其次是“居然、竟然、反正、可”(圖 14)。

        圖1 古龍作品程度副詞使用頻率圖

        圖2 古龍作品處所副詞使用頻率圖

        圖3 古龍作品范圍副詞使用頻率圖

        圖4 古龍作品方式副詞使用頻率圖

        圖5 古龍作品肯定和否定副詞使用頻率圖

        圖6 古龍作品時(shí)間副詞使用頻率圖

        圖7 古龍作品語氣副詞使用頻率圖

        圖8 郭敬明作品程度副詞使用頻率圖

        圖9 郭敬明作品處所副詞使用頻率圖

        圖10 郭敬明作品范圍副詞使用頻率圖

        圖11 郭敬明作品方式副詞使用頻率圖

        圖12 郭敬明作品肯定和否定副詞使用頻率圖

        圖13 郭敬明作品時(shí)間副詞使用頻率圖

        圖14 郭敬明作品語氣副詞使用頻率圖

        3.3 不同人在表示同類關(guān)系的副詞中是否有共同的選用偏好

        為了觀察不同人在表示同類關(guān)系的副詞中是否有共同的選用偏好,我們對(duì)每位作家4部作品中出現(xiàn)的每個(gè)程度副詞、范圍副詞、時(shí)間副詞、語氣副詞、肯定和否定副詞、方式副詞、處所副詞的數(shù)量進(jìn)行了平均和比較。我們發(fā)現(xiàn),不同人在表示同類關(guān)系的副詞中有共同的選用偏好,有些高頻詞是大家共同的選擇。但同時(shí),也有一些詞,人們?cè)谶x用他們時(shí)存在較大差異。

        3.3.1 不同人均常會(huì)選用的副詞

        我們整理出了每位作家使用的程度副詞、范圍副詞、方式副詞、肯定和否定副詞、時(shí)間副詞、語氣副詞中平均頻率排名前5的高頻詞,以及處所副詞中排名前4的高頻詞,發(fā)現(xiàn)6位作家使用的各類高頻詞中有很多是相同的:在程度副詞中,“很、最、更、太”常被選用,出現(xiàn)頻率高(表2)。在處所副詞中,“到處”最常被選用,其余處所副詞選用相對(duì)較少(表3)。在范圍副詞中,總括性范圍副詞上“都、全”最常被選用,唯一性范圍副詞“就、只、才”常被選用,限定性范圍副詞“不過、只是、只有”常被選用(表4)。在方式副詞上,表現(xiàn)趨勢(shì)并不穩(wěn)定,但“悄悄、忽然”出現(xiàn)頻率較高(表5)。在肯定和否定副詞上,“不、沒、沒有”被大量使用(表6)。時(shí)間副詞中,“還、再”常被選用,其他的出現(xiàn)頻率不穩(wěn)定(表7)。語氣副詞中,不同人的選擇差異較大,并沒有較為一致的選用習(xí)慣(表8)。

        表2~8中所列副詞是6位作家使用的高頻副詞,根據(jù)我們的經(jīng)驗(yàn),這些副詞也正是人們普遍常用的副詞,在人群中出現(xiàn)率高,反映的是言語的共性特點(diǎn),在書面言語鑒定中特征價(jià)值較低。

        表2 程度副詞高頻詞表 (%)

        表3 處所副詞高頻詞表 (%)

        表4 范圍副詞高頻詞表(%)

        表5 方式副詞高頻詞表 (%)

        表6 肯定和否定副詞高頻詞表 (%)

        表7 時(shí)間副詞高頻詞表 (%)

        表8 語氣副詞高頻詞表 (%)

        3.3.2 選用頻率差異大的副詞

        在分析6位作家的副詞使用情況時(shí),我們也發(fā)現(xiàn)了一些在選用頻率上差異較大的副詞。舉例如圖15~21所示。

        從圖15~21中我們可以直觀地看出,不同作家在某些副詞的選用上確實(shí)差異較大,體現(xiàn)了不同人的言語習(xí)慣,這類副詞特征價(jià)值較高,可以用于書面言語鑒定。

        圖15 6位作家程度副詞“尤其、過于”選用平均頻率圖

        圖17 6位作家唯一性范圍副詞“偏偏、單、僅僅”選用平均頻率圖

        圖18 6位作家限定性范圍副詞“大約、多半、約”選用平均頻率圖

        圖19 6位作家時(shí)間副詞“立刻、還是、將、總是”選用平均頻率圖

        圖20 6位作家語氣副詞“果然、豈、也許”選用平均頻率圖

        圖21 6位作家方式副詞“趕緊、連忙、大力”選用平均頻率圖

        4 結(jié)論

        本文通過對(duì)6位作家24部作品副詞使用頻率、選用偏好等數(shù)據(jù)進(jìn)行提取和分析,發(fā)現(xiàn)以下規(guī)律:

        第一,個(gè)人在是否使用副詞上是有偏好的,不同人的平均副詞使用頻率有差別,尤其是在語料足夠多、足夠長的情況下,這種偏好能夠得到較好的表現(xiàn)。

        第二,個(gè)人在表示同類關(guān)系的副詞中有存在選用上的偏好,人們會(huì)有自己習(xí)慣使用的副詞。

        第三,不同人在表示同類關(guān)系的副詞中會(huì)有共同的選用偏好。某些副詞是人們都習(xí)慣選用的,這類副詞的特征價(jià)值低,案件檢驗(yàn)中我們應(yīng)該盡量少選這類詞作為特征詞使用;某些副詞在被選用的頻率上有較大差別,這類詞的特征價(jià)值高些,可以作為特征詞使用。

        第四,對(duì)于長語料來說,由于其文本數(shù)量大,副詞使用頻率相對(duì)穩(wěn)定,受出版時(shí)間等因素的影響相對(duì)較小。我們認(rèn)為副詞使用頻率可以作為同一認(rèn)定的輔助特征使用,但使用時(shí)要充分考慮到語料的形成過程、創(chuàng)作背景、個(gè)人經(jīng)歷等因素的影響。

        這些分析是建立在文本篇幅較長的前提下的,短文本的副詞使用頻率特點(diǎn)受言語內(nèi)容、體裁、題材、形成過程等因素的影響很大,在沒有大規(guī)模實(shí)驗(yàn)證明之前,我們認(rèn)為要慎用短文本中的副詞使用頻率特征。關(guān)于短文中副詞使用頻率特征的具體內(nèi)容,我們將另文討論。

        猜你喜歡
        高頻詞古龍郭敬明
        30份政府工作報(bào)告中的高頻詞
        小康(2022年7期)2022-03-10 11:15:54
        省級(jí)兩會(huì)上的高頻詞
        小康(2022年7期)2022-03-10 11:15:54
        28份政府工作報(bào)告中的高頻詞
        小康(2021年7期)2021-03-15 05:29:03
        省級(jí)兩會(huì)上的高頻詞
        小康(2021年7期)2021-03-15 05:29:03
        活到四十多歲,才知道古龍有多天才
        文苑(2018年20期)2018-11-09 01:36:02
        朋友間的分寸
        當(dāng)代香帥古龍
        關(guān)于郭敬明的一封家書
        小說月刊(2015年5期)2015-04-19 07:29:19
        郭敬明就像是一個(gè)便秘患者
        小說月刊(2015年1期)2015-04-19 02:04:20
        郭敬明
        興趣英語(2013年10期)2013-12-04 08:18:18
        日韩女同一区二区三区久久| 激情综合丁香五月| a级毛片免费观看在线| 国产av国片精品| 国产真实伦视频在线视频| 久久久精品久久久国产| 国产精品专区第一页天堂2019| 国产精品国产三级国产专播| 国产精品久久毛片av大全日韩| 久久狠色噜噜狠狠狠狠97| 日本一区二区三区在线视频观看| 精品国产一区二区三区性色| 伊人大杳焦在线| 亚洲精品国产成人| 韩日无码不卡| 久久中文字幕国产精品| 日本久久伊人特级黄色| 一区二区三区国产| 国产av日韩a∨亚洲av电影| 元码人妻精品一区二区三区9| 午夜理论片日本中文在线| 狠狠摸狠狠澡| 青青久在线视频免费观看| 最新在线观看精品国产福利片| 亚洲av日韩av天堂久久不卡| 日本不卡在线视频二区三区| 蜜桃av抽搐高潮一区二区| 少妇极品熟妇人妻无码| 无码人妻久久一区二区三区免费| .精品久久久麻豆国产精品| 国产不卡一区二区三区视频| 国产一区二区av在线免费观看| 成人麻豆日韩在无码视频| 97久久精品午夜一区二区| 国产精品反差婊在线观看| 草青青视频手机免费观看 | 一二三四区中文字幕在线| 国产精品毛片一区二区| 欧洲亚洲视频免费| 在线观看国产av一区二区 | 亚洲熟妇无码av在线播放|