楊秀璋,武帥,2,宋籍文,任天舒,廖文婧,劉建義,夏換,于小民
(1.貴州財(cái)經(jīng)大學(xué)信息學(xué)院,貴陽(yáng) 550025;2.漣水縣財(cái)政局,淮安 223400;3.貴州高速公路集團(tuán)有限公司,貴陽(yáng)550027;4.貴州財(cái)經(jīng)大學(xué)貴州省經(jīng)濟(jì)系統(tǒng)仿真重點(diǎn)實(shí)驗(yàn)室,貴陽(yáng) 550025)
余華是國(guó)際文壇聲望最高的中國(guó)作者之一,其作品在國(guó)內(nèi)外受到一致好評(píng)。對(duì)中國(guó)當(dāng)代文學(xué)來(lái)說(shuō),以余華為核心的先鋒文學(xué)是一里程碑式的標(biāo)志。余華作品文獻(xiàn)作為余華小說(shuō)的交流與傳播的主要載體,有效地推動(dòng)了余華小說(shuō)的傳播。當(dāng)前余華作品的研究主要采用期刊閱讀、電影觀賞、原著閱讀、相關(guān)講座論壇等。大數(shù)據(jù)環(huán)境下,研究成果層出不窮,大量學(xué)者各抒己見(jiàn),對(duì)同一部小說(shuō)往往有著不同的主題見(jiàn)解,從而不能精準(zhǔn)地反映原作者的主題初衷。
隨著文學(xué)、電影等文化藝術(shù)的發(fā)展,近年來(lái)針對(duì)文學(xué)和電影等方面的研究和文藝批評(píng),學(xué)者們針對(duì)某一作者和作品從不同角度進(jìn)行解構(gòu),學(xué)術(shù)成果碩果累累、百花齊放。為了更精準(zhǔn)地從海量學(xué)術(shù)成果中分析出主流的學(xué)術(shù)觀點(diǎn),藉此了解文學(xué)作者和作品的主題特征、行文脈絡(luò)、思想傾向、主流觀點(diǎn)和發(fā)展脈絡(luò)等方面,為短時(shí)間內(nèi)準(zhǔn)確把握作者創(chuàng)作傾向和特點(diǎn)提供依據(jù)。
同時(shí),國(guó)內(nèi)外利用數(shù)據(jù)挖掘或機(jī)器學(xué)習(xí)算法深層次分析文學(xué)和電影作品的研究相對(duì)較少,傳統(tǒng)的文學(xué)和電影作品分析方法主要是基于劇情表現(xiàn)手法、視聽(tīng)特效、時(shí)間維度、閱讀量或票房的,其分析方法比較單一,不足以直觀地呈現(xiàn)文學(xué)或電影作品深層次的主題,缺乏利用數(shù)據(jù)挖掘和社交網(wǎng)絡(luò)方法研究文學(xué)作品的熱點(diǎn)主題及關(guān)系脈絡(luò)。
針對(duì)這些問(wèn)題,本文提出一種基于數(shù)據(jù)挖掘和主題演化的余華小說(shuō)電影文獻(xiàn)的分析方法,結(jié)合數(shù)據(jù)可視化技術(shù)和社交網(wǎng)絡(luò)直觀地反映余華小說(shuō)的發(fā)展歷程以及主題時(shí)間演化趨勢(shì),發(fā)現(xiàn)各熱點(diǎn)關(guān)鍵詞之間的關(guān)系,進(jìn)一步驗(yàn)證余華小說(shuō)“向死而生”的主題觀點(diǎn)。本文實(shí)驗(yàn)數(shù)據(jù)為中國(guó)知網(wǎng)(CNKI)收錄的自1986年起至2019年7月5日的2825篇余華小說(shuō)期刊文獻(xiàn)的相關(guān)數(shù)據(jù)。
實(shí)驗(yàn)結(jié)果表明,本文的研究成果具有重要的理論研究意義和實(shí)用價(jià)值,通過(guò)大數(shù)據(jù)相關(guān)技術(shù)挖掘出了余華作品的核心主題、現(xiàn)實(shí)意義和藝術(shù)價(jià)值,為以其小說(shuō)為素材的藝術(shù)創(chuàng)作盡可能還原原著主題起到積極作用,該方法可以為投資方和導(dǎo)演們的藝術(shù)創(chuàng)作或電影拍攝提供更好的建議,為觀眾提供更好的精神糧食。
近年來(lái),國(guó)內(nèi)外學(xué)者致力于文獻(xiàn)主題演化研究并提出各自解決文獻(xiàn)主題的辦法。何偉林等提 出 一 種 名 為CSToT(content similaritytopicsover time)的主題模型,分析國(guó)內(nèi)情報(bào)學(xué)領(lǐng)域2012-2016年的研究主題結(jié)構(gòu)以及演化過(guò)程。朱茂然等提出一種基于隱性狄利克雷分布(LDA)主題演化模型分析中文情報(bào)學(xué)領(lǐng)域。王燕鵬通過(guò)人工判讀提煉主題分析科技文獻(xiàn)發(fā)展演化過(guò)程。曾利等基于標(biāo)準(zhǔn)LDA模型,依據(jù)時(shí)序關(guān)系進(jìn)行切片,建立動(dòng)態(tài)LDA主題模型分析科研發(fā)展趨勢(shì)。張子振等基于KL距離和LDA主題分析機(jī)器學(xué)習(xí)領(lǐng)域。楊秀璋基于LDA模型挖掘和文本聚類進(jìn)行聚類分析水族文獻(xiàn)主題。許丹等基于主題詞法和自然語(yǔ)言法分析最新文獻(xiàn)新穎性。李軍蓮等基于多維特征概率通用度算法有效降低通用概念對(duì)文獻(xiàn)主題自動(dòng)標(biāo)引的噪音影響。馬思婷等基于CiteSpace分析中國(guó)醫(yī)養(yǎng)結(jié)合的熱點(diǎn)分析。Tran等基于AI主題分析抑郁癥治療。楊秀璋等基于綜合指數(shù)算法和知識(shí)圖譜分析水族文獻(xiàn)核心作者群。
余華小說(shuō)和電影文獻(xiàn)作為余華作品分析研究成果的主要展現(xiàn)方式,有效地推動(dòng)余華作品的發(fā)展。但傳統(tǒng)的余華作品研究方法缺乏核心作者以及核心主題的引導(dǎo),其核心作者僅依據(jù)發(fā)文量來(lái)衡量,核心主題只是通過(guò)大眾普遍認(rèn)知的主題來(lái)確立,缺乏嚴(yán)謹(jǐn)科學(xué)的核心作者及主題的確認(rèn)方式。同時(shí),沒(méi)有從多個(gè)角度去深層次挖掘余華作品的熱點(diǎn)關(guān)鍵詞、熱門(mén)期刊、核心作者以及主題演化趨勢(shì),沒(méi)有深入剖析余華小說(shuō)和電影主題關(guān)系網(wǎng)絡(luò)。
由此可見(jiàn),開(kāi)展人文數(shù)字交叉領(lǐng)域的研究成為了新的研究熱點(diǎn)?;诖?,本文利用大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù)對(duì)余華作品相關(guān)的文獻(xiàn)開(kāi)展研究。首先,本文提出一種依托普賴斯定律來(lái)確定核心作者候選人,結(jié)合發(fā)文量和引用量綜合指數(shù)方法確定排名前20位的余華作品核心作者;其次,基于頻次和共現(xiàn)矩陣確認(rèn)核心主題詞,引入社交網(wǎng)絡(luò)和WordCloud等方法,結(jié)合可視化技術(shù)從多個(gè)角度深層次挖掘余華作品文獻(xiàn)的潛在規(guī)律,為以其小說(shuō)為素材的藝術(shù)創(chuàng)作盡可能還原原著主題起著積極作用,推動(dòng)文學(xué)研究發(fā)展。
本文旨在對(duì)余華小說(shuō)和影視作品在中國(guó)知網(wǎng)相關(guān)期刊文獻(xiàn)進(jìn)行分析和研究,挖掘2825篇文獻(xiàn)的熱門(mén)期刊、機(jī)構(gòu),核心作者及熱點(diǎn)主題。其具體的流程如圖1所示。
圖1 余華小說(shuō)文獻(xiàn)分析流程圖
具體流程如下:
(1)通過(guò)Selenium和Xpath技術(shù)抓取中國(guó)知網(wǎng)1986年至2019年7月間2825篇余華作品相關(guān)的學(xué)術(shù)期刊文獻(xiàn),所抓取的相關(guān)字段包括文章標(biāo)題、作者、出版社、出版日期、摘要、關(guān)鍵詞、下載量以及被引用量。
(2)對(duì)所抓取的文獻(xiàn)進(jìn)行預(yù)處理操作,包括數(shù)值提取、缺失值填充、異常值判定、數(shù)據(jù)清洗、中文分詞、停用詞過(guò)濾等,從而得到質(zhì)量更好的數(shù)據(jù),提取文獻(xiàn)相關(guān)的主題特征并存儲(chǔ)。
(3)開(kāi)展核心作者發(fā)現(xiàn)研究。利用計(jì)量統(tǒng)計(jì)分析挖掘重點(diǎn)引文機(jī)構(gòu),結(jié)合普賴斯定律篩選核心作者候選人,并基于綜合指數(shù)算法遴選核心作者。
(4)開(kāi)展主題演化分析研究。通過(guò)CiteSpace進(jìn)行時(shí)間序列主題演化,利用WordCloud詞云顯示熱點(diǎn)關(guān)鍵詞,基于Python共詞矩陣分析和社交網(wǎng)絡(luò)構(gòu)建余華作品文獻(xiàn)的主題知識(shí)圖譜。
本文采用普賴斯定律計(jì)算余華作品核心作者候選人,再基于綜合指數(shù)算法結(jié)合文獻(xiàn)的發(fā)文量和被引用量來(lái)遴選研究余華作品文獻(xiàn)的核心作者。
國(guó)內(nèi)引文機(jī)構(gòu)主要包括全國(guó)各大高校、研究院、圖書(shū)館以及部分事業(yè)單位和公司。本文針對(duì)所爬取的2825篇余華作品期刊論文的第一作者單位進(jìn)行計(jì)量分析,得出如圖2所示的核心機(jī)構(gòu)。
圖2 余華作品期刊文獻(xiàn)主要研究機(jī)構(gòu)
其中刊載相關(guān)論文數(shù)量排名前三位的分別是:浙江師范大學(xué)(共刊載76篇)、南京師范大學(xué)(共刊載55篇)、遼東師范大學(xué)(共刊載48篇);論文總下載量最高的三個(gè)機(jī)構(gòu)分別是:浙江師范大學(xué)(共被下載52893次)、武漢大學(xué)(共被下載33168次)、南京大學(xué)(共被下載32955次);論文總被引用量最高的三個(gè)機(jī)構(gòu)分別是:復(fù)旦大學(xué)(共被引用443次)、浙江師范大學(xué)(共被引用357次)、南京大學(xué)(共被引用264次)。
(1)依托普賴斯定律統(tǒng)計(jì)最低發(fā)文量來(lái)確定核心作者候選人,其計(jì)算公式如(1)所示:
公式(1)中為普賴斯定律統(tǒng)計(jì)的發(fā)表余華作品文獻(xiàn)最高發(fā)文量,余華作品個(gè)人最高發(fā)文量為20,依據(jù)普賴斯定律確認(rèn)余華作品核心作者候選人最低發(fā)文量為4。
(2)依托普賴斯定律統(tǒng)計(jì)最低被引用量來(lái)確定核心作者候選人,其計(jì)算公式如(2)所示:
公式(2)中為普賴斯定律統(tǒng)計(jì)的發(fā)布余華作品文獻(xiàn)最高被引用量,余華作品文獻(xiàn)單篇文章最高被引用量為216,依據(jù)普賴斯定律確認(rèn)核心作者候選人最低被引用量累計(jì)次數(shù)為11。
(3)篩選符合第(1)、(2)步的作者并進(jìn)行重新統(tǒng)計(jì),最終確定余華小說(shuō)文獻(xiàn)核心作者候選人共186位,候選人共發(fā)表499篇關(guān)于余華作品期刊論文,總被引用量為7290次。
本文將采用綜合指數(shù)算法,從186位核心作者候選人中選出前20位研究余華作品的核心作者,具體步驟如下:
(1)計(jì)算核心作者候選人的平均發(fā)文量。表示余華作品文獻(xiàn)的核心作者總發(fā)文量,表示核心作者候選人數(shù),其計(jì)算公式如(3)所示:
(2)計(jì)算核心作者候選人的平均被引用量。表示余華作品文獻(xiàn)的核心作者總被引用量,表示核心作者候選人數(shù),其計(jì)算公式如(4)所示:
(3)依據(jù)發(fā)文量和被引用量構(gòu)建綜合指數(shù)。score表示第位余華作品核心作者候選人的綜合指數(shù)得分,x表示第位核心作者候選人的發(fā)文量,y表示其總被引用量,發(fā)文量系數(shù)和被引用量系數(shù)均為0.5。具體公式如(5)所示:
運(yùn)用此綜合指數(shù)算法得出余華作品相關(guān)期刊文獻(xiàn)的前20位核心作者,如表1所示。從表1可以看出,余華就自己的作品發(fā)表了近20篇期刊文章,并且被引用量最高,綜合指數(shù)為12.49;洪治綱發(fā)表余華作品相關(guān)的文獻(xiàn)15篇,被引用量為325,綜合指數(shù)為6.61;葉立文發(fā)表余華作品相關(guān)的文獻(xiàn)12篇,被引用量為263,綜合指數(shù)為5.32。通過(guò)綜合指數(shù)算法推算出這20位核心作者所發(fā)表有關(guān)余華作品的期刊論文具有較強(qiáng)的參考價(jià)值,他們也是余華作品的核心研究群體。
表1 余華小說(shuō)相關(guān)文獻(xiàn)核心作者
關(guān)鍵詞作為論文的重要部分,可以反映論文研究的核心主題和主旨。余華作品相關(guān)文獻(xiàn)的關(guān)鍵詞共詞分析和核心主題挖掘,可以把握該領(lǐng)域的研究方向和熱點(diǎn)主題。本文對(duì)1986年至2019年中國(guó)知網(wǎng)收錄的2825篇期刊論文的關(guān)鍵詞進(jìn)行熱點(diǎn)主題挖掘分析,提出了一種基于共現(xiàn)矩陣和社交網(wǎng)絡(luò)的熱點(diǎn)主題識(shí)別方法,構(gòu)建中國(guó)知網(wǎng)余華作品熱點(diǎn)關(guān)鍵詞的共現(xiàn)關(guān)系,從而挖掘出其核心主題,以及發(fā)現(xiàn)余華作品的核心主題隨時(shí)間推移發(fā)生演化過(guò)程。
CiteSpace時(shí)間序列主題演化主要是以時(shí)間發(fā)展為軸的主題演化分析,本文基于余華作品的相關(guān)文獻(xiàn)研究生成了主題演化圖,如圖3所示。
圖3 基于時(shí)間序列的余華作品文獻(xiàn)主題演化
圖中每個(gè)節(jié)點(diǎn)代表一個(gè)主題,時(shí)間橫跨1986年至2019年,兩點(diǎn)之間的連線表示各主題之間的共現(xiàn)關(guān)系。通過(guò)考察詞頻的時(shí)間分布,將主題和關(guān)鍵詞變化率高的詞從大量的主題詞中挖掘出來(lái),依靠詞頻的變化趨勢(shì),來(lái)確定主題前沿領(lǐng)域和發(fā)展趨勢(shì)。分析發(fā)現(xiàn),2007年各主題開(kāi)始匯交于電影、電視主題,可大致推算從那一年起以余華小說(shuō)為素材和主題的影視劇拍攝增多。其核心主題包括“小說(shuō)家”、“呼吸與細(xì)雨”、“心理描寫(xiě)”、“神秘主題”、“余華小說(shuō)”“哲學(xué)”“故事”“現(xiàn)代主義文學(xué)”“中國(guó)當(dāng)代文學(xué)”等??傊?,近三十年來(lái)我國(guó)學(xué)者對(duì)余華作品的相關(guān)研究經(jīng)歷了由點(diǎn)到線、由線到面的發(fā)展歷程,主要以故事情節(jié)、藝術(shù)價(jià)值、心理描寫(xiě)為主。通過(guò)時(shí)間序列主題演化研究,更加客觀準(zhǔn)確地還原了原著主題,把握作者創(chuàng)作傾向,為將余華作品改編為影視劇創(chuàng)作提供依據(jù)。
來(lái)自中國(guó)知網(wǎng)與余華作品相關(guān)的2825篇期刊文獻(xiàn)共涉及關(guān)鍵詞5245個(gè),關(guān)鍵詞出現(xiàn)總次數(shù)為14369次,每個(gè)關(guān)鍵詞出現(xiàn)的平均頻次約為2.74次。該領(lǐng)域3950個(gè)關(guān)鍵詞僅出現(xiàn)1次,占總關(guān)鍵詞數(shù)的75.3%;593個(gè)關(guān)鍵詞出現(xiàn)2次,占總關(guān)鍵詞數(shù)的11.3%;出現(xiàn)頻次在5次及以上的高頻關(guān)鍵詞共353個(gè),共出現(xiàn)8066次,占所有關(guān)鍵詞出現(xiàn)總次數(shù)的56.1%。同時(shí),“余華”“活著”“小說(shuō)”是出現(xiàn)頻率最高的三個(gè)關(guān)鍵詞,分別出現(xiàn)1400次、428次和277次,緊接著是“余華小說(shuō)”“許三觀賣(mài)血記”“苦難”“第七天”“先鋒小說(shuō)”“文學(xué)”“許三觀”“福貴”“死亡”“兄弟”“人性”“在細(xì)雨中呼喊”等關(guān)鍵詞。充分體現(xiàn)了余華小說(shuō)“向死而生”的主題,以及對(duì)人性和生命的描寫(xiě),從小說(shuō)升華到藝術(shù)價(jià)值,WordCloud生成的詞云分布圖如圖4所示。
圖4 余華作品文獻(xiàn)關(guān)鍵詞的詞云圖
針對(duì)高頻關(guān)鍵詞無(wú)法反映詞語(yǔ)和主題之間的內(nèi)在關(guān)聯(lián),不能全面揭示出文獻(xiàn)的研究熱點(diǎn)及關(guān)鍵詞動(dòng)態(tài)。本文采用共詞分析方法構(gòu)建余華作品文獻(xiàn)的關(guān)鍵詞共現(xiàn)矩陣,如公式(6)所示,當(dāng)兩個(gè)關(guān)鍵詞共同出現(xiàn)在一篇學(xué)術(shù)文章中,則認(rèn)為共現(xiàn)并構(gòu)建一條相關(guān)聯(lián)的邊,其邊對(duì)應(yīng)的權(quán)重加1;反之,兩個(gè)關(guān)鍵詞不存在共現(xiàn)關(guān)系,其權(quán)重為0。
共詞分析中,兩個(gè)關(guān)鍵詞共同出現(xiàn)的次數(shù)越多,說(shuō)明關(guān)鍵詞聯(lián)系越緊密,越能體現(xiàn)主題的研究?jī)?nèi)容相關(guān)聯(lián);如果共現(xiàn)次數(shù)為0,說(shuō)明兩個(gè)關(guān)鍵詞之間沒(méi)有關(guān)系。本文根據(jù)余華作品文獻(xiàn)關(guān)鍵詞共現(xiàn)分析,得出了如表2所示的文獻(xiàn)共現(xiàn)高頻詞。其中排名前5位的分別是:“余華”和“小說(shuō)”,共現(xiàn)230次;“余華”和“作家”,共現(xiàn)187次;“余華”和“活著”,共現(xiàn)175次;“余華”和“許三觀賣(mài)血記”,共現(xiàn)116次;“余華”和“第七天”,共現(xiàn)83次。
表2 余華作品期刊文獻(xiàn)共現(xiàn)高頻詞表
采用Gephi軟件構(gòu)建余華作品文獻(xiàn)關(guān)鍵詞共現(xiàn)知識(shí)圖譜,為使熱點(diǎn)主題詞之間的關(guān)系更加明細(xì),過(guò)濾掉共現(xiàn)權(quán)重為5以下的關(guān)系,形成如圖5所示的核心主題共現(xiàn)圖譜。圖中圓圈表示關(guān)鍵詞,連線表示共現(xiàn)關(guān)系,連線越粗表示其共現(xiàn)次數(shù)越多,反之越少。該圖譜共包括790個(gè)核心主題節(jié)點(diǎn),2687條邊,模塊化系數(shù)0.127,平均路徑長(zhǎng)度2.417,居于中心位置的主題是“余華”,其他的主題詞逐漸向邊緣分布擴(kuò)散。其中“余華”和“小說(shuō)”“作家”“活著”“許三觀賣(mài)血記”“第七天”“苦難”“文學(xué)”“福貴”“先鋒”等關(guān)鍵詞共現(xiàn)明顯,其連線較粗。從圖5可以發(fā)現(xiàn)余華作為關(guān)系核心與各個(gè)主題詞之間均有聯(lián)系,其核心主題分布明顯,這些關(guān)鍵詞能更有效地推動(dòng)余華小說(shuō)改編為影視作品以及藝術(shù)創(chuàng)作。
圖5 余華作品期刊文獻(xiàn)的主題關(guān)系圖譜
接著通過(guò)過(guò)濾算法進(jìn)一步提取余華小說(shuō)文獻(xiàn)的核心主題關(guān)鍵詞,構(gòu)建社交網(wǎng)絡(luò)關(guān)系,繪制如圖6所示的關(guān)系圖譜。其核心特征詞共23個(gè),存在關(guān)系317條,主要集中于余華的作品、人物和小說(shuō)主題。其中,作品包括《許三觀賣(mài)血記》《活著》《在細(xì)雨中呼喊》《第七天》,人物包括“福貴”“余華”“馬原”等,小說(shuō)主題包括“活著”“苦難”“人性”“暴力”等,以及“文學(xué)史”“先鋒文學(xué)”“先鋒”等積極評(píng)價(jià)。通過(guò)上述分析,本文從數(shù)字人文視域?qū)τ嗳A小說(shuō)作品進(jìn)行了主題關(guān)聯(lián)分析,進(jìn)一步挖掘出余華小說(shuō)的文學(xué)色彩,有效幫助學(xué)者實(shí)施智能化文本挖掘,發(fā)揚(yáng)傳統(tǒng)文化。
圖6 余華作品核心主題關(guān)系圖譜
當(dāng)前社會(huì),文學(xué)作品改編影視劇已成為熱潮,電影創(chuàng)作者們對(duì)文學(xué)作品的二次創(chuàng)作,往往建立在對(duì)作家和作品的個(gè)人理解上,同時(shí)要充分考慮原著的精髓和絕大多數(shù)受眾對(duì)原著的認(rèn)識(shí)等方面。為了更加客觀準(zhǔn)確地還原原著主題、把握作者創(chuàng)作傾向,為影視劇改編創(chuàng)作提供依據(jù),本文提出了一種基于數(shù)據(jù)挖掘和主題演化的分析方法,分析余華作品的核心作者和熱點(diǎn)主題,并揭示出余華作品的發(fā)展歷程、關(guān)鍵詞共現(xiàn)關(guān)系及主題演化趨勢(shì)。
本文抓取了中國(guó)知網(wǎng)1986年至2019年7月間2825篇余華作品相關(guān)的學(xué)術(shù)期刊文獻(xiàn),并進(jìn)行了詳細(xì)的分析與研究。實(shí)驗(yàn)結(jié)果表明,本文的研究成果具有重要的理論研究意義和實(shí)用價(jià)值,通過(guò)大數(shù)據(jù)相關(guān)技術(shù)挖掘出了余華作品的核心主題、現(xiàn)實(shí)意義和藝術(shù)價(jià)值,為以其小說(shuō)為素材的影視改編、藝術(shù)創(chuàng)作盡可能還原原著主題起到積極作用,可以提供有效參考和借鑒。