隨著我國互聯(lián)網(wǎng)的快速普及以及互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,我國網(wǎng)民數(shù)量在不斷增多,長時間接觸網(wǎng)絡(luò)的用戶也形成了一定的規(guī)模,而借由網(wǎng)絡(luò)平臺而發(fā)布的信息量也在呈幾何倍數(shù)的增長,任何新聞話題都能夠引起人們的關(guān)注和鋪天蓋地的報道。然而,這些海量的網(wǎng)絡(luò)信息卻給網(wǎng)絡(luò)用戶以及媒體人帶來了困擾,對于網(wǎng)絡(luò)用戶而言海量的信息難以消化,不能夠把握住信息的重點(diǎn)和全面了解信息;而對于媒體人來說,這些信息難以依靠人工進(jìn)行篩選、過濾,進(jìn)而整合,形成脈絡(luò)清晰、信息全面的報道。因此,關(guān)于中文新聞話題動態(tài)演化及其關(guān)鍵技術(shù)的研究正在不斷深入。
新聞話題動態(tài)演化技術(shù)是信息處理領(lǐng)域的一種較為高級的技術(shù),尤其是作為wеb信息處理技術(shù)的更為高級的部分,相關(guān)的技術(shù)研究體系較為復(fù)雜,且涉及到了多個研究領(lǐng)域,是多種學(xué)科綜合交叉的領(lǐng)域。因此,新聞話題動態(tài)演化技術(shù)的研究能夠有效的解決當(dāng)前我們遇到的信息量過大的問題,以先進(jìn)的技術(shù)實(shí)現(xiàn)新聞話題的演化、追蹤等等。與此同時,新聞話題動態(tài)演化技術(shù)的研究還能夠促進(jìn)相關(guān)領(lǐng)域的技術(shù)進(jìn)步和理論完善,尤其是話題關(guān)聯(lián)檢測、話題聚類等等領(lǐng)域,有力的推動了這些領(lǐng)域的進(jìn)一步研究。由此可知,新聞話題動態(tài)演化技術(shù)的研究具有廣泛的意義,不僅推動相關(guān)領(lǐng)域發(fā)展和解決現(xiàn)實(shí)問題,還能夠有利于網(wǎng)絡(luò)個人用戶的信息搜索和整合等,對于推動我國信息經(jīng)濟(jì)的進(jìn)一步發(fā)展具有重要意義。
所謂的新聞話題動態(tài)演化,其實(shí)是人們對于一個話題由淺入深的認(rèn)識和了解。當(dāng)人們獲取了一個話題的相關(guān)信息并對于這個話題產(chǎn)生興趣之后,會誘使人們逐步的深入了解這個話題,從話題起始開始了解,包括之后的發(fā)展、高潮和結(jié)束等等環(huán)節(jié)。而這種過程就是一種邏輯變化的過程,也是新聞話題動態(tài)演化的過程。由于受到現(xiàn)實(shí)技術(shù)條件的限制,當(dāng)前信息處理技術(shù)只能夠?yàn)橛脩籼峁┖唵蔚男畔⒎?wù),并不能夠按照上面的話題演化邏輯為用戶提供相關(guān)的信息,因此加強(qiáng)對于新聞話題動態(tài)演化技術(shù)的相關(guān)研究能夠提高信息處理能力,為用戶提供更為人性化的服務(wù)。
新聞話題的抽取是構(gòu)建話題模型的開端,模型構(gòu)建的好壞直接受到新聞話題抽取的影響,正如我們所說的良好的開端就是成功的一半,而新聞話題的抽取就是這種開端。但隨著我國互聯(lián)網(wǎng)平臺的建設(shè)以及互聯(lián)網(wǎng)技術(shù)的發(fā)展,海量的信息開始充斥著網(wǎng)絡(luò),中文網(wǎng)絡(luò)新聞的話題也是層出不窮,過去僅僅依靠傳統(tǒng)媒體作為新聞話題的引爆者的時代已經(jīng)被自媒體、流媒體時代逐步取代,任何人都可以成為新聞的傳播者以及新聞話題的引領(lǐng)者,任何社會事件都可以通過現(xiàn)在的網(wǎng)絡(luò)社交媒體這一渠道而引發(fā)蝴蝶效應(yīng),成為引發(fā)社會大討論的新聞話題。因此,在面對如此巨量的網(wǎng)絡(luò)信息時,傳統(tǒng)的話題抽取方式已經(jīng)無法適應(yīng)時代的要求,需要重新定義新聞話題抽取方法,尤其是在網(wǎng)絡(luò)信息不斷更新,網(wǎng)絡(luò)新聞話題熱度不斷改變的時代里,就顯得尤其重要。因此,在突破當(dāng)前新聞話題抽取的技術(shù)瓶頸下,如何規(guī)避無效話題以及解決中文自然語言處理技術(shù)上對網(wǎng)絡(luò)新詞的不適應(yīng)等成為了關(guān)鍵技術(shù)問題。當(dāng)前的解決方法是開發(fā)了一種基于語言學(xué)知識的信息抽取方法,這種方法通過引入中文詞性和位置特征能夠修正話題詞語標(biāo)注錯誤等問題,并依照文本特征以實(shí)現(xiàn)網(wǎng)絡(luò)新詞詞典的動態(tài)更新算法等。
新聞話題的演化邏輯遵循著人們心理的變化過程,從最初接觸新聞話題的好奇開始,進(jìn)而希望能夠通過現(xiàn)有的信息平臺進(jìn)一步的了解到現(xiàn)階段該新聞話題發(fā)展的動態(tài),以及最終結(jié)果,就像打開了魔盒一般,會吸引著你繼續(xù)的朝著新聞話題的發(fā)展而不斷跟進(jìn)。因此,新聞話題的演化邏輯需要按照一定的時間順序開展,而這時間順序成為了研究新聞話題動態(tài)演化過程的重要線索,而要把握當(dāng)前新聞話題的變化通過時態(tài)信息便能夠有效的掌控變化過程,成為了研究新聞話題動態(tài)演化的重要基礎(chǔ)。所謂的時態(tài)表達(dá)規(guī)范化處理,是指將新聞話題中各項(xiàng)涉及到時間信息的文本,通過搜尋這些存在著的時間信息并將其轉(zhuǎn)化為一定的時態(tài)表達(dá),通過利用和辨認(rèn)這些時態(tài)表達(dá)為機(jī)器技術(shù)挖掘時態(tài)語義提供了可能性,也為更加準(zhǔn)確的獲取需要的新聞信息。但當(dāng)前我國并沒有這種時態(tài)表達(dá)規(guī)范化處理的技術(shù),尤其是面對復(fù)雜語境時,并不能夠完全分辨出在這些語境下的時態(tài)表達(dá),從而順利的篩選出其中的重要時間信息。所以,為了解決這些問題,我們需要首先清楚如何利用參考系來確定時態(tài)表達(dá),同時有效的解決時態(tài)表達(dá)的模糊狀態(tài)等。通過解決這些問題,能夠讓人們更好的理解新聞話題的時態(tài)信息,通過這些時態(tài)信息能夠讓人們更好的了解新聞話題的邏輯,從而讓話題挖掘更有空間和效率。
新聞話題時間是包含在新聞話題相關(guān)報道中的重要信息,任何新聞報道都需要新聞時間來確定事件發(fā)生的準(zhǔn)確性,給新聞話題更多的科學(xué)性。在現(xiàn)階段的網(wǎng)絡(luò)平臺上,新聞話題大多都是由一個事件以及由此引發(fā)的相關(guān)事件活動組成的,這些最初的活動與最后的活動之間是擁有一個時間區(qū)間,也就是這個時間自發(fā)生開始到結(jié)束所經(jīng)歷的過程區(qū)間,由第一個引發(fā)事件到最后一個結(jié)束事件組成的這個時間區(qū)間就是新聞話題時間,也是事件由起始走向結(jié)束的時間區(qū)間。而這種新聞話題時間對于新聞話題的閱讀者來說具有重要的意義,尤其是在把握新聞話題動態(tài)演化的過程中具有重要的邏輯線價值,如果失去了新聞話題時間這條邏輯線將會使新聞閱讀者難以完全整理出這個新聞話題的發(fā)展過程,而這種新聞話題的時間有效性將直接影響到新聞話題時間抽取的準(zhǔn)確性,同時也將影響到新聞話題抽取的效率。由于新聞話題與時間信息之間存在著密不可分的關(guān)系,所以在研究新聞話題抽取時對于時間抽取這個問題給予了較多的關(guān)注,也是當(dāng)前較為熱門的研究方向。當(dāng)前雖然也存在著一些依據(jù)話題時間進(jìn)行話題抽取的方法,但這些方法并沒有建立在深刻理解話題與時間理論關(guān)系的基礎(chǔ)上,而僅僅停留在較為淺層的理解之上,在話題層次上無法較為準(zhǔn)確的把握,而通過這些方法進(jìn)行的新聞話題抽取的結(jié)果往往不盡如人意,并不能夠適應(yīng)使用者的需求,也使得話題與抽取的結(jié)果之間的相關(guān)聯(lián)程度較低。因此,需要更加深入的研究話題與時間之間的映射機(jī)制,通過這種映射機(jī)制的反映,更好的提高話題與抽取結(jié)果的關(guān)聯(lián)性。
新聞本身就是具有動態(tài)變化的特點(diǎn),也是自身所擁有的自然屬性,而新聞變化的基本載體就是話題。新聞話題的存在讓新聞的動態(tài)變化變得有跡可循,在新聞話題隨著時間不斷更新變化時就體現(xiàn)出了新聞話題動態(tài)變化的邏輯順序。由于新聞話題的是由人主導(dǎo)的,因此在新聞話題變化的過程中體現(xiàn)了人類心理變化的特征和過程,而新聞話題變化的邏輯線也符合人類對于新聞話題的認(rèn)知規(guī)律。當(dāng)人們開始注意到某個新聞話題時,天生使然的好奇心使得新聞閱讀者們會不斷的關(guān)注、挖掘新聞話題,從而了解事件整個變化的過程,自事件起始到事件的發(fā)展、曲折、高潮直至結(jié)束。這便是新聞話題的演化過程,也是新聞讀者的心理變化過程。根據(jù)這種新聞話題的發(fā)展邏輯,只要我們能夠通過分辨出新聞話題在各個演化階段所具有的特征,就能夠掌握相關(guān)的信息去智能化分辨這些新聞話題的演化過程,并利用時間作為重要支線,將各個階段的新聞話題相關(guān)信息串聯(lián)起來,從而形成完整的新聞報道,這對于新聞挖掘工作來說提高了很大的效率,節(jié)約了新聞工作者大量的時間。但當(dāng)前關(guān)于新聞話題演化挖掘的技術(shù)卻并不適用,并沒有找到較好的特征計算模型來更好研究演化過程,而通過在新聞話題計算模型中大量加入噪聲特征的方式,極大的影響了計算的關(guān)聯(lián)性。因此,在相關(guān)技術(shù)上還需要進(jìn)一步的研究和挖掘。
參考文獻(xiàn):
[1]郭曉利,周自嵐,劉耀偉,獨(dú)健鴻,黃巖.基于DTS-ILDA模型和關(guān)聯(lián)過濾的新聞話題演化分析[J].應(yīng)用科學(xué)學(xué)報,2017,35(05):634-646.
[2]趙旭劍,付鵬,李波,張暉,楊春明,喻瓊,王耀彬.網(wǎng)絡(luò)新聞話題演化趨勢檢測研究 [J].電腦知識與技術(shù),2015,11(02):52-54+59.
[3]趙旭劍,楊春明,李波,張暉,金培權(quán),岳麗華,戴文鍇.一種基于特征演變的新聞話題演化挖掘方法[J].計算機(jī)學(xué)報,2014,37(04):819-832.