亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于模糊綜合評判的媒體新聞數據清洗方法研究

        2022-12-27 03:51:42魏俊杰
        中國傳媒科技 2022年11期
        關鍵詞:管理

        魏俊杰 何 翼 熊 黃 莊 輝

        (深圳新聞網傳媒股份有限公司,廣東 深圳518034)

        1.新聞數據清洗相關定義及其應用現狀

        1.1 新聞數據清洗相關定義

        數據清洗是指通過一定的技術手段來解決數據質量問題的過程,在不同領域實際應用中,數據清洗的具體操作可能會有所不同,一般來說包括數據質量管理、數據庫以及數據挖掘三個方面。新聞數據清洗則主要是針對新聞數據進行上述操作,本研究數據清洗主要是指改善所使用的新聞數據質量這一過程。[1]

        1.2 新聞數據清洗方法應用現狀

        1.2.1 國外應用現狀

        從國外研究情況來看目前有較多的數據集成商或服務商能夠提供定制化數據清洗服務,且已經步入了較為成熟的商業(yè)化階段。目前國外提供的清洗方案主要包括用戶自定義工具和搜索引擎,兩者有著各自的優(yōu)勢和弊端。

        第一種用戶自定義工具是一種半開放式框架,用戶可以根據自己的需求來制定清洗規(guī)則,但最大難點在于需要運用清洗策略語句和類編程語言,這就大大提高了新聞工作者的工作難度,因此這類工具使用效果較不理想。[2]第二種搜索引擎主要是通過對維度、屬性等進行預先分類,然后在用戶搜索時能夠給出篩選后的數據。這種方式使用較為便捷,但其弊端在于設置分類時主觀性較大,分類指標設置過細,則可能將原本不屬于數據噪聲的信息去掉,因此還需進一步人工處理。[3]

        1.2.2 國內應用現狀

        國內數據清洗應用已有較豐富的成型算法,且和電子商務等實際商業(yè)用途進行了結合,包含的數據類型有抽象數據、多元組等類型。但針對自然語言的數據清洗應用還較少,主要原因是所需技術需要多學科交叉配合,這就大大提升了制定數據清洗規(guī)則的難度。同時,國內數據清洗的商業(yè)化動力還較弱,主要還是停留在簡單轉化有限文本的層面。[4]

        因此,本研究則針對筆者日常工作中的媒體數據,對其數據清洗問題進行進一步深入研究,利用基于模糊綜合評判模型,從媒體角度在信息源頭就去除數據噪聲信息,保證新聞數據的質量,進而實現對新聞稿件的快速清洗。

        2.基于模糊綜合評判的媒體新聞數據清洗方法設計與應用

        運用基于模糊綜合評判的媒體新聞數據清洗方法時,第一步需要搭建總體框架,第二步需要建立新聞數據評級指標體系,第三步需要對該體系進行定量化評估。

        2.1 總體框架

        媒體新聞數據清洗方法總體技術框架如圖1所示,主要包括了模式約束處理、實例數據清洗以及語義驗證階段。[5]

        圖1 數據清洗框架

        2.2 建立新聞數據評級指標體系

        2.2.1 構建媒體新聞指標體系

        構建完數據清洗框架后,應當在實際工作中對新聞稿件篩選,主要包括的指標有新聞事件、新聞基本要素。新聞事件主要是反映新聞發(fā)生的時間、地點、人物等,這些屬性可以作為數據清洗的維度。新聞基本要素主要是評估新聞的完整性和準確性,在數據清洗時可以利用其進行篩選,提高采集效率。新聞內容則包含了一些討論內容或立場,在數據清洗時可以根據傾向分析快速識別輿論熱點。[6]具體指標體系如表1所示。

        表1 媒體新聞指標體系

        2.2.2 基于模糊綜合評判的定量化評估

        本研究基于模糊綜合評判法構建新聞稿件質量評級體系,并對各項指標進行量化。在實際工作中發(fā)現,對媒體新聞數據集合歸屬的界定不是很清晰,模糊概念之間的差異無法量化。因此,利用模糊集的概念對此類表述進行處理,將其表示成為三角模糊值,通過加權平均值的方式使得輸出結果包含更多信息。

        其模型集主要包括判斷因素集合、評判等級集合以及權重集合,同時還包括單因素評判矩陣。在模糊向量和模糊關系矩陣都已有的前提下,可以對模糊變換進行綜合評判。[7]主要步驟如下:

        (1)劃分因素集U

        (2)初級評判

        (3)總體評判矩陣

        得到總體評判模型為:素集的權重模糊向量為A、迷糊關系矩陣為R,可得

        能夠看出對因素進行了K 次劃分,第K 次劃分的單層次評判就是K+1 次劃分的綜合評判。

        (4)確定評判等級及隸屬函數

        本研究將評判等級劃分為五級,從0~100 每隔20 分值為一級,將各級區(qū)間的中值設置為等級參數,即等級參數

        分級完成后,建立各影響因子對應級別隸屬度函數關系式,本研究選擇線性隸屬度函數,隸屬第一級的隸屬函數為:

        2.3 基于模糊綜合評判的媒體新聞數據清洗實驗及結果

        2.3.1 實驗新聞稿件數據源

        本次實驗新聞稿件選擇深圳新聞網采編數據庫,選擇2021年10月至12月入庫的1456.86 萬條新聞數據進行數據清洗,實驗指標設定如表2所示。主要原因如下:

        表2 實驗設定指標

        首先,數據質量較高,便于建立規(guī)則庫。深圳新聞網數據源均為已審核過且能夠直接使用的數據,其數據質量已有一定的保證,數據要素基本完整、標準化程度較高。因此選用該數據,可以有效降低數據預處理壓力,從而能夠更加精準地對數據清洗效果進行分析,并評判出清洗規(guī)則是否有效。其次,稿件內容較為廣泛。深圳新聞網是立足于“中國改革開放窗口”深圳的國家重點新聞網站,是全國領先的地方網絡媒體,有著完善的全庫數據,并且與全國上百家大型媒體單位有合作,大部分新聞數據稿件能夠互通互用,這就保證了實驗數據源有著充分的基礎。最后,新聞稿件數據能夠轉化為XML格式,這種格式有著可擴展等優(yōu)勢,已成為當前數據交換、電子商務等領域應用最為廣泛的數據格式標準,本次實驗中也采用該種數據類型。數據推送采用FTP 數據傳送方式,設定推送間隔為三分鐘。

        2.3.2 數據清洗

        2.3.2.1 標準化處理

        由于新聞數據來源較為廣泛,數據要素和表達形式可能有所不同,因此需要對一些新聞素材進行標準化處理。例如在有的稿件中將日期表示為“2021.11.5”,而有的稿件中又表示為“11/5/2021”,或者還有的使用英文表述。針對不同數據,需對應各自的拆分規(guī)則庫,不同規(guī)則庫有不同的提取規(guī)則,新聞稿件中的各數據已經是被拆分后的字段,符合一定的粒度級別以及相應的樹狀結構。拆分后的字段會在內存模型數據結構中進行保存。

        在對數據進行標準化處理時,利用貪婪算法在動態(tài)表單入口處對其進行標準化處理,進而能夠有效控制表單域排序,加快數據采集和傳輸效率?;谏钲谛侣劸W語料庫,采取內存層次模型進行標準化操作,處理的具體方法和步驟如圖2所示。通過對新聞稿件標準化操作,能夠對數據消除歧義,提高后續(xù)算法執(zhí)行的可行性。[8]

        圖2 標準化操作步驟

        2.3.2.2 匹配消重處理

        媒體新聞報道時,會存在相互轉發(fā)的情況,而有些稿件并非原創(chuàng),也會存在重復數據,因此需要對新聞數據進行匹配消重操作,將無效數據進行剔除。使用匹配技術對關鍵字進行檢測,然后分別在文檔級別和文檔元素級別對其進行匹配,為了提高匹配效率,高級別粒度數據匹配時會參考低級別粒度的結果。本研究采用的主要是SNM(Sorted-Neighborhood Method)方法進行匹配消重,其基本思路是對全數據進行排序,并且對文件進行遞歸,再比較相鄰記錄的相似程度,最后經過計算完成記錄匹配過程。[9]

        第一步為創(chuàng)建排序關鍵字。該步驟需要根據數據總體情況進行評估,計算數據集中每條記錄的鍵值,最后基于匹配標準進行判斷。第二步是對整個數據集進行排序操作,如果在匹配關鍵字時認為有相似的重復記錄,則會將其放置在鄰近區(qū)域內,從而使得排序后的數據集有著更高的匹配性,大大降低了數據比較次數,提高了匹配效率。第三步為計算字段匹配得分,采用滑動窗口的形式進行比較。匹配算法包括:一般性匹配、字符串完全匹配、單錯誤匹配和縮寫詞匹配。經過該步驟后,被清洗腳本自動清洗的新聞則被認定為是稿件重復。第四步則是與閾值比較、分流數據,需設定一個閾值范圍,可根據數據源的實際情況進行靈活配置。同時要記得將新聞數據寫入相應清洗日志,退出流程。

        2.3.2.3 補全缺失數據

        在對數據倉儲裝載數據時,原始數據可能有所缺失,對有些重要新聞而言,缺少數據可能導致清洗策略失效。字段值的缺失,主要包括:縮寫詞、慣用語被格式化以及字段值不符合規(guī)則或超出范圍等。具體來看,數據補全主要包括:第一是對不完整字段進行補充,例如一些新聞出處的URL 地址不完整,需要對其補充才能夠得到必要參數。第二是對空值字段進行補全,例如一些新聞XML 文檔中填寫了新聞發(fā)生地點這一屬性,但部分又未填寫,而新聞發(fā)生地點這一屬性是數據清洗的關鍵字,此時就需要對空值進行補全。第三是需要增加字段補全額外信息,例如一些新聞數據的來源類型、入庫時間、郵編等信息不夠完整,可以采用一些搜索樹形式的外部輔助文件加以補全。[10]

        本研究利用樸素貝葉斯方法來補全缺失的數據,該方法能大大降低計算復雜度且可以自動劃分屬性,相關公式為:

        如果X 缺少了某個屬性值,要對其進行補充,則設j 是記錄中所有非缺失值的索引集合,則根據下式進行計算:

        2.3.2.4 相關工具管理

        在數據清洗時還需對使用的清洗工具進行管理,主要包括清洗任務管理、清洗算法管理、拓展算法管理、規(guī)則庫管理以及清洗日志管理。

        清洗任務管理主要是記錄實體表以及表中的基本信息,包括表名、主鍵及相關描述等,一個清洗任務可能執(zhí)行了多個實體表的目標。任務管理描述表如表3所示。

        表3 數據清洗任務管理描述表

        清洗算法管理主要是為了能夠提高其清洗的靈活性,將所使用的算法加入到算法庫中,然后在實際使用時,選擇相應的算法可以較為靈活配置,在實際清洗工作中利用計算機集群進行工作,按照不同版塊實施清洗任務。算法管理結構表入表4所示。

        表4 數據清洗算法管理表

        拓展算法管理則是在已有算法管理的基礎上,通過算法接口實現算法的可擴展性。利用拓展算法管理,可以制定個性化的數據清洗算法,將其編譯好后,保存在該管理配置表中,使用時調用相關接口。具體拓展算法管理表如表5所示。

        表5 拓展算法管理表

        規(guī)則庫管理則主要是存儲數據清洗規(guī)則包含的一些運行參數、清洗指標等,主要需與實際業(yè)務相對應,具體規(guī)則庫管理表如表6所示。

        表6 規(guī)則庫管理表

        清洗日志管理主要是記錄在數據清洗過程中的相關信息,做到清洗任務可回溯,例如對清洗過的數據標記為歷史數據,不能清洗的數據標記為異常數據。具體數據清洗日志管理表如表7所示。

        表7 數據清洗日志管理表

        2.3.2.5 數據清洗結果

        本研究對2021年10月—12月入庫的1456.86 萬條新聞數據進行數據清洗,清洗結果及各輪耗時統(tǒng)計如表8所示。能夠看出,經過數據清洗后,數據量由1456.86 萬條降低至8233 條,清洗時間逐步降低,涉及報道的媒體來源也降低至19 家。通過數據清洗后,有效縮減了海量新聞數據采集的時間,大大提高了新聞采編人員的工作效率,為整個集團工作流程高效運轉奠定了基礎。

        表8 數據清洗結果

        總結

        本研究結合深圳新聞網實際采編工作,利用基于模糊綜合評判的數據清洗方法對1456.86 萬條新聞數據進行了操作,具體步驟包括了數據標準化處理、匹配消重處理、補全缺失數據以及對相關工具管理。通過本次數據清洗,有效摒棄了無效信息、消除了信息噪聲,合理篩選出了質量較高、具有較高研究價值的新聞源,同時優(yōu)化了新聞數據清洗和采集流程,提高了采編人員的工作效率。

        猜你喜歡
        管理
        棗前期管理再好,后期管不好,前功盡棄
        《水利建設與管理》征訂啟事
        聆聽兩會
        ——關注自然資源管理
        2020年《水利建設與管理》征稿函
        運行管理
        管理就是溝通
        中國制筆(2019年1期)2019-08-28 10:07:26
        加強土木工程造價的控制與管理
        如何加強土木工程造價的控制與管理
        解秘眼健康管理
        “這下管理創(chuàng)新了!等7則
        雜文月刊(2016年1期)2016-02-11 10:35:51
        妺妺窝人体色www在线图片| 日本一区二区三区亚洲| 日本高清在线一区二区三区| 国产又黄又爽又色的免费| 亚洲日本va中文字幕久久| 亚洲精品成人网线在线播放va| 日韩精品综合在线视频| av成人一区二区三区| 妺妺窝人体色www看人体| 吃奶摸下的激烈视频| 亚洲欧美日韩国产综合久| 亚洲av大片在线免费观看| 亚洲国产精品无码久久一区二区| 内谢少妇xxxxx8老少交| 国产情侣一区在线| 精品国产a毛片久久久av| 玩弄少妇人妻中文字幕| av天堂久久天堂av色综合| 欧美手机在线视频| 久久久亚洲av成人乱码| 欧美人与禽z0zo牲伦交| 正在播放一区| 亚洲精品一区二区三区国产| 二区三区三区视频在线观看| 高清破外女出血av毛片| 人妻丰满av无码中文字幕| 极品精品视频在线观看| 色多多性虎精品无码av| 久久久久亚洲av无码a片软件 | 久久伊人精品色婷婷国产| 日本午夜精品一区二区三区电影 | 亚洲欧洲国产日产国码无码 | 亚洲日韩一区二区一无码| 国产精品久久码一区二区| 亚洲另类国产精品中文字幕| 九九在线中文字幕无码| 成人免费网站视频www| 日韩精品中文字幕 一区| 久久黄色国产精品一区视频| 国产精品亚洲一区二区在线观看| 精品国产福利片在线观看|