胡寶靈,李志濤,周 燕
(華南農(nóng)業(yè)大學(xué),廣東 廣州 510642)
隨著互聯(lián)網(wǎng)自媒體的興盛和人們上網(wǎng)偏好的改變,微信公眾號(hào)逐漸成為重要的媒體平臺(tái)之一。公眾號(hào)若能夠抓住關(guān)注者的閱讀偏好,并生產(chǎn)閱讀偏好下用戶最可能喜聞樂見的內(nèi)容,將對其閱讀量的提升存在一定作用。因此,本文在文本數(shù)據(jù)挖掘的基礎(chǔ)上,分析可能影響文章閱讀量的特征,并對這些特征進(jìn)行篩選,旨在確認(rèn)影響媒體閱讀量的因素,實(shí)現(xiàn)文本數(shù)據(jù)挖掘技術(shù)的延伸、傳播學(xué)自媒體研究的拓展。
自媒體閱讀量受多種因素影響。在自媒體閱讀量的研究中,研究者們采用多種方法確認(rèn)閱讀量的影響因素,如金星[1]通過分析案例闡述閱讀量對文章特征的影響;陳星蓉、龍興宇[2]結(jié)合人群喜好提取吸引讀者的文章特征,但它們?nèi)狈?shù)據(jù)支持。還有通過描述性數(shù)據(jù)分析來估計(jì)閱讀量影響因素的研究,如郭爐、劉春云[3]將公眾號(hào)文章的多種特征可視化,判斷是否影響閱讀量,但這種方法仍舊缺乏有效的有效性檢驗(yàn)。鐘若曦、馬曉燕等[4]采用多因素Logistics 回歸分析閱讀量和點(diǎn)贊量的影響因素和程度,但數(shù)據(jù)因人為主觀因素而存在誤差。
本研究以一個(gè)微信公眾號(hào)為研究主體,通過爬蟲技術(shù)獲取該公眾號(hào)下的所有文章為研究樣本,然后估計(jì)閱讀量發(fā)展至穩(wěn)定所需的時(shí)間,裁去部分閱讀量仍未達(dá)到穩(wěn)定的樣本,隨后數(shù)據(jù)清洗,去除特殊文章和異常文章,并將文章的標(biāo)題和文章轉(zhuǎn)換詞向量,再進(jìn)行特征工程。通過最大概率法、主題概率模型以及相關(guān)數(shù)據(jù)操作技術(shù),對數(shù)據(jù)進(jìn)行分詞處理,提取文章特征,并檢驗(yàn)所提取特征與閱讀量之間的關(guān)系。
本文爬取微信公眾號(hào)“情感說說”2018 年11月14 日至2019 年5 月11 日的數(shù)據(jù),剔除流量一周增長率大于1%(文章發(fā)布兩周時(shí)的閱讀量文章發(fā)布一周時(shí)的閱讀量)、閱讀量在3 倍標(biāo)準(zhǔn)差范圍外的文章。經(jīng)過數(shù)據(jù)清洗后,選用226篇文章的標(biāo)題、發(fā)布時(shí)間、內(nèi)容和閱讀量4 個(gè)變量作為研究數(shù)據(jù)。
陳星蓉、龍興宇[2]認(rèn)為,文章標(biāo)題對文章流量有著至關(guān)重要的影響,新穎的標(biāo)題往往使文章具有較高的閱讀量。文章標(biāo)題的特征很可能包涵對文章流量預(yù)測的重要信息,故本研究首先提取文章標(biāo)題的特征。
4.1.1 標(biāo)題漢字的個(gè)數(shù)
本文將文章標(biāo)題的漢字個(gè)數(shù)與文章閱讀量通過散點(diǎn)圖的形式可視化,并生成通過最小二乘法擬合得到曲線及95%的預(yù)測區(qū)間,如圖1 所示??梢钥匆?,數(shù)據(jù)點(diǎn)主要集中在左側(cè)且偏上的位置,擬合曲線明顯向下傾斜。
圖1 漢字個(gè)數(shù)與文章閱讀量的散點(diǎn)圖及擬合曲線(95%)
通過R 軟件計(jì)算得到的一元線性回歸系數(shù)表(表1)可以發(fā)現(xiàn),標(biāo)題的漢字個(gè)數(shù)在回歸模型中的t 檢驗(yàn)顯著性水平小于0.05,說明漢字個(gè)數(shù)在流量預(yù)測模型中存在足夠的信息價(jià)值。
表1 漢字個(gè)數(shù)與文章閱讀量的回歸系數(shù)表
4.1.2 標(biāo)題符號(hào)的個(gè)數(shù)
王干麗[5]在研究公眾號(hào)文章標(biāo)題時(shí)發(fā)現(xiàn),標(biāo)點(diǎn)符號(hào)可以增強(qiáng)文章的感染力。本研究將標(biāo)點(diǎn)符號(hào)這一特征進(jìn)行多種方式分類,發(fā)現(xiàn)將沒有標(biāo)點(diǎn)符號(hào)以及有標(biāo)點(diǎn)符號(hào)的標(biāo)題劃為一類,剩余有兩個(gè)及以上標(biāo)點(diǎn)符號(hào)的標(biāo)題劃為一類,這種情況經(jīng)過方差分析F 檢驗(yàn)后的顯著性水平最低。以符號(hào)情況為名建立新變量,并將第一類劃為0,第二類劃為1,共得到201 個(gè)0 和25 個(gè)1。
4.1.3 標(biāo)題的詞頻
文章標(biāo)題是讀者了解文章最快速的渠道,標(biāo)題中的每一個(gè)詞都可能意味著是文章所涉及的主題或討論的話題,而讀者也往往可能因?yàn)槲恼碌哪骋粋€(gè)詞而選擇閱讀文章。
本研究將以文章標(biāo)題中出現(xiàn)的詞建立多個(gè)變量。在建立詞變量前,首先需要對文章的所有標(biāo)題進(jìn)行分詞處理。
經(jīng)過R 軟件jiebaR 中segment 函數(shù)的處理,文章標(biāo)題將分為一個(gè)個(gè)詞。以標(biāo)題“希望,對余生的希望”為例,經(jīng)過分詞處理后的輸出結(jié)果為“希望”“對”“余生”“的”“希望”。對226 個(gè)標(biāo)題進(jìn)行分詞處理,共收集到533 個(gè)詞,其中370 個(gè)詞僅出現(xiàn)1 詞,81 個(gè)詞出現(xiàn)2 詞,而出現(xiàn)次數(shù)最多的詞為“的”字出現(xiàn)77 次。本研究保留名詞、動(dòng)詞、形容詞等實(shí)詞,副詞、介詞、連詞等虛詞刪去,獲得114 個(gè)詞,并以這114 個(gè)特征作為分類變量。
4.1.4 標(biāo)題的情感
本文利用處理多分類問題的兩種拆分策略在鳶尾花數(shù)據(jù)集上進(jìn)行對比研究,比較兩種拆分策略的優(yōu)劣性,為后續(xù)多分類問題的研究起到一定的指引作用。
由于研究對象屬于一個(gè)情感類公眾號(hào),因此研究將標(biāo)題的情感作為特征之一。
研究根據(jù)情感態(tài)度將標(biāo)題分為積極、消極和中性3 類。運(yùn)用專家打分法,同時(shí)建立特征標(biāo)題情感,將積極、消極和中性分別賦值為1、-1 和0。經(jīng)過處理后共得到54 個(gè)積極標(biāo)題、131 個(gè)消極標(biāo)題和41 個(gè)中性標(biāo)題。部分標(biāo)題的劃分如表2 所示。
當(dāng)讀者通過文章的各種特征判斷其為一篇“好文章”時(shí),可能會(huì)分享它,利于文章傳播提高閱讀量。下面將應(yīng)用多種統(tǒng)計(jì)方法提取文章正文的特征,盡可能從數(shù)據(jù)中獲取有價(jià)值的信息。
4.2.1 正文主題
本文提取文章的字符數(shù)和發(fā)布時(shí)間。通過提取統(tǒng)計(jì)文章中所有詞的詞頻,可以自動(dòng)查找主題。運(yùn)用主題數(shù)K=3 的LDA 主題概率模型,將文本視作詞頻向量。從單詞的概率分析得知主題,而文本又是多個(gè)主題構(gòu)成的一個(gè)概率分布,從而得知正文的主題特征。
4.2.2 正文長度
文章長度可能隱含能影響閱讀量的有價(jià)值信息,故計(jì)算正文的字符數(shù)表示文章長度。正文長度的樣本均值為568.58,樣本標(biāo)準(zhǔn)差為107.01。將正文長度的密度分布函數(shù)可視化后發(fā)現(xiàn),整體近似正態(tài)分布,密度分布函數(shù)圖在正文長度800 左右小范圍起伏。
4.2.3 發(fā)布時(shí)間
研究的226 篇文章中,只有1 篇在19:30 發(fā)布,其余225 篇在21:04 至23:58 之間發(fā)布。以21:00 起的每分鐘為發(fā)布時(shí)間,則21:04分發(fā)布的文章為4分,23:58 發(fā)布則為178 分,19:30 發(fā)布的那篇文章直接作為21:00 處理,然后將整理后的時(shí)間可視化,發(fā)現(xiàn)閱讀量在10 000 以下的數(shù)據(jù)散點(diǎn)有輕微的波動(dòng)起伏情況,說明夜間閱讀存在高峰與低谷。
類似的,微信用戶也可能因?yàn)楣ぷ鞯汝P(guān)系,在工作日與休息日上有不同的閱讀頻率。因此,將文章發(fā)布日期轉(zhuǎn)換為周一至周日,并對閱讀量在7 個(gè)水平上進(jìn)行方差分析,得出方差分析表如表3 所示,箱型圖如圖2 所示。
表3 閱讀量的方差分析表
圖2 文章閱讀量以星期未分割的箱型
可以明顯看出,在周一發(fā)布的文章閱讀量集中且低于其他天,而周日發(fā)布的文章閱讀量相對分散。同時(shí),在方差分析表中,經(jīng)過F 檢驗(yàn)的p 值為0.584,在0.1 的顯著性水平下,可以認(rèn)為閱讀量在不同的星期發(fā)布是有差異的。
在微信公眾號(hào)的訂閱號(hào)頁面,一些訂閱號(hào)群發(fā)的文章有分頭條與次條,如圖3 所示。
圖3 訂閱號(hào)群發(fā)預(yù)覽
通過瀏覽數(shù)據(jù)對比公眾號(hào)的群發(fā)內(nèi)容發(fā)現(xiàn),收集到的數(shù)據(jù)中,當(dāng)天的第一條為頭條,其余為次條。以頭條為1、次條為0,經(jīng)過提取后得到125 篇頭條和101 篇次條。
經(jīng)過上述過程的特征提取,原始數(shù)據(jù)變成226行125 列的數(shù)據(jù)框。除去文章閱讀量,125 個(gè)特征分別是標(biāo)題的漢字個(gè)數(shù)(連續(xù)變量)、標(biāo)題的符號(hào)個(gè)數(shù)(二分類變量)、標(biāo)題的情感(多分類變量)、正文的長度(連續(xù)變量)、文章發(fā)布時(shí)間(連續(xù)變量)、文章發(fā)布星期(有序變量或多分類變量)、頭條次條情況(二分類變量)、114 個(gè)標(biāo)題的詞頻(二分類變量)、3 個(gè)正文的主題概率值(連續(xù)變量)和正文的主題類型??偟膩碚f,可以分為連續(xù)變量、二分類變量和多分類變量3 種類型。
對3 種變量類型的特征進(jìn)行有效性檢驗(yàn),對連續(xù)或有序變量特征與文章閱讀量進(jìn)行相關(guān)性檢驗(yàn),確認(rèn)特征是否對文章閱讀量有線性影響。檢驗(yàn)結(jié)果(表4)顯示,標(biāo)題的漢字個(gè)數(shù)對閱讀量有明顯線性相關(guān)性,且當(dāng)發(fā)布星期作為有序變量時(shí),可以看成其對閱讀量存在有線影響。
二分類變量特征將文章閱讀量在特征水平上分為兩組,若特征對閱讀量有影響,則應(yīng)當(dāng)反映兩組間均值是有差異的,因此通過T 檢驗(yàn)確認(rèn)特征的有效性。
由于本文特征工程中創(chuàng)建的特征超百個(gè),故僅抽取0.05 顯著性水平下表現(xiàn)顯著的特征作為結(jié)果展示(表5)。這些標(biāo)題詞頻特征表示,文章的標(biāo)題是否出現(xiàn)這些詞匯會(huì)顯著影響其閱讀量。
表4 相關(guān)性檢驗(yàn)結(jié)果
表5 顯著特征的T 檢驗(yàn)結(jié)果
而對于多分類變量,兩組各進(jìn)行一次則流程繁瑣,且無法反映整體情況,因此采用方差分析的方差檢驗(yàn)組間均值是否有差異。需要進(jìn)行方差分析檢驗(yàn)的特征分別是發(fā)布星期、標(biāo)題的情感和主題類型,3 次方差結(jié)果如表6 所示。
表6 方差分析檢驗(yàn)結(jié)果
研究發(fā)現(xiàn),影響文章閱讀量的因素有標(biāo)題的漢字個(gè)數(shù)、標(biāo)題的情感、正文的長度、正文所涉及的主題類型、發(fā)布的時(shí)間點(diǎn)和星期、是否頭條以及標(biāo)題中是否會(huì)出現(xiàn)某些詞等。以上特征對該公眾號(hào)的創(chuàng)作指導(dǎo)顯然具有重要意義。