2012年8月7 日消息,加州大學(xué)洛杉磯分校電氣工程專業(yè)的女博士生Roj a Bandari開發(fā)了一種算法,預(yù)測(cè)新聞能否在Twit ter上流行,或者在社交網(wǎng)站上引發(fā)熱烈討論。據(jù)稱這一算法的準(zhǔn)確率達(dá)到84%。
Bandar i此前曾在惠普實(shí)習(xí)。她在設(shè)計(jì)這一算法時(shí)也得到了惠普實(shí)驗(yàn)室兩名研究員的幫助,相關(guān)論文則發(fā)表在今年6月的2012年國(guó)際人工智能發(fā)展協(xié)會(huì)大會(huì)上。
通過人工智能方法,Bandari和惠普兩名研究員分析了與超過4萬條新聞?dòng)嘘P(guān)的數(shù)百萬條Twitt er消息。在4/5的情況下,如果算法將新聞打上“熱門”標(biāo)簽,那么相關(guān)的Twit ter消息數(shù)量將超過100條,而對(duì)于非熱門新聞,相關(guān)的Twit ter消息通常少于20條。
這一算法能解決多方面的問題,而Bandari目前正專注于探索新聞如何實(shí)現(xiàn)病毒式傳播。她正在加州大學(xué)洛杉磯分校與Vwani Roychowdhury教授共同研究這一課題。
2010年時(shí),他們研究了在2009年伊朗街頭游行中,信息在Twit ter上的傳播方式。這促使Bandar i對(duì)新聞在Twit t er上的熱門程度做進(jìn)一步研究。她分析了每一篇新聞中的多個(gè)變量,發(fā)現(xiàn)影響新聞熱門程度的最重要因素是新聞的發(fā)布機(jī)構(gòu)。一些機(jī)構(gòu)的新聞會(huì)更多地連接至Twit ter消息,無論是被讀者還是新聞作者。
例如,《基督教科學(xué)箴言報(bào)》的每條新聞平均帶來16條Twit t er消息,其中一些新聞完全沒有出現(xiàn)在Twitt er上。與之相比,知名科技博客Mashabl e的每條新聞平均帶來超過1000條Twitt er消息,而最冷門的新聞甚至也帶來了360條消息。
“我們發(fā)現(xiàn),新聞來源是影響熱門程度的最關(guān)鍵因素。”Bandar i表示,“在Twitt er上,成功的消息源可能與其他地方有所不同,Mashabl e的新聞比CNN更流行?!痘浇炭茖W(xué)箴言報(bào)》可能是谷歌上最重要的新聞來源之一,但在Twitt er上幾乎不存在?!迸cTechCr unch、Mashabl e和赫芬頓郵報(bào)相比,《紐約時(shí)報(bào)》、《洛杉磯時(shí)報(bào)》和路透社等傳統(tǒng)新聞巨頭在Twit ter上并不是那么受歡迎。
Bandar i等人還設(shè)計(jì)了名為“主觀分類器”的機(jī)制,衡量新聞是否采用帶偏見,或情緒性很強(qiáng)的語言。研究人員將脫口秀節(jié)目主持人的談話實(shí)錄作為高度主觀性語言,同時(shí)將CSPAN作為客觀性語言。令Bandar i感到驚訝的是,主觀性語言這一指標(biāo)不會(huì)對(duì)新聞熱門程度產(chǎn)生太大影響。無論是平淡的陳述還是激情的話語,都不會(huì)影響新聞熱門程度。
Bandari表示:“新聞行業(yè)有一種觀念,即一些新聞被炒熱是因?yàn)樯縿?dòng)了讀者感情,但實(shí)際上并非如此。如果希望使用過激的語言來增加曝光度,那么完全行不通?!?/p>
Twit ter以及一切微博服務(wù)的核心就是"轉(zhuǎn)發(fā)"
此外,話題與新聞熱門程度也沒有太大關(guān)系。在Twit t er上,科技類新聞最流行,但由于每一篇新聞都可以被歸入不止一個(gè)門類,因此準(zhǔn)確預(yù)測(cè)很難。而盡管外界普遍認(rèn)為涉及名人和知名企業(yè)的新聞將會(huì)引起更多關(guān)注,但實(shí)際結(jié)果也非如此。
Bandar i希望,自己的研究有助于增加記者和博客編輯所撰寫文章的轉(zhuǎn)發(fā)量。她表示:“如果你是一名科技新聞的自由撰稿人,那么不會(huì)想要給《基督教科學(xué)箴言報(bào)》寫文章。如果你來自傳統(tǒng)的大型媒體,那么現(xiàn)在情況已變。你需要與新興媒體競(jìng)爭(zhēng)。此外人們對(duì)內(nèi)容更感興趣,而不是你文章中的語氣??鋸埖恼Z言無法帶來更多曝光。