亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藥品安全話題發(fā)現(xiàn)技術(shù)研究

        2019-05-24 14:17:58徐靜張文學(xué)
        軟件導(dǎo)刊 2019年5期

        徐靜 張文學(xué)

        摘 要:運用中文信息處理方法,從大量醫(yī)藥新聞報道中進行有價值話題挖掘,為后續(xù)話題跟蹤提供訓(xùn)練測試文本。從醫(yī)藥新聞特點入手,使用輪廓系數(shù)評價法對k-means的聚類性能進行評估,選取最佳聚類中心數(shù)。利用LDA對選取的最佳主題進行提取,從而得到相應(yīng)的話題。輪廓系數(shù)評價法與k-means方法相結(jié)合,有助于從海量信息中篩選出有價值的話題。當樣本量足夠大、聚類效果不好時,人工標記可在一定程度上改善聚類效果。

        關(guān)鍵詞:醫(yī)藥新聞;k-means;LDA;話題發(fā)現(xiàn)

        DOI:10. 11907/rjdk. 182740

        中圖分類號:TP319 文獻標識碼:A 文章編號:1672-7800(2019)005-0151-04

        Abstract: By using the method of Chinese information processing, valuable topics are mined from a large number of medical news reports, and training test texts are provided for follow-up topic tracking. Starting from the characteristics of medical news, the clustering performance of K-means is evaluated by using contour coefficient evaluation method, and the optimal number of clustering centers is selected. Then we use LDA to extract the best topics and get the corresponding topics. The combination of contour coefficient evaluation method and K-means method is helpful to select valuable topics from mass information. When the sample size is large enough and the clustering effect is not good, artificial markers can improve the clustering effect to a certain extent.

        Key Words: Medical News; k-means; LDA; Topic discovery

        0 引言

        大數(shù)據(jù)時代,藥品生產(chǎn)企業(yè)的藥品安全輿情動態(tài)是企業(yè)決策的重要依據(jù),從網(wǎng)絡(luò)媒體發(fā)布的藥品安全事件、藥品安全監(jiān)管及藥品安全形勢等醫(yī)藥新聞報道中發(fā)現(xiàn)價值,進行快速、準確、有效的數(shù)據(jù)收集與分析具有重要意義。從海量網(wǎng)絡(luò)信息中發(fā)掘出有價值的藥品安全相關(guān)話題,給藥品生產(chǎn)企業(yè)提供決策引導(dǎo),需應(yīng)用話題發(fā)現(xiàn)技術(shù)。

        話題發(fā)現(xiàn)技術(shù)集中在算法改進及新聞分類語料利用兩個方面。路榮等[1]通過利用隱主題分析技術(shù)及混合聚類方法實現(xiàn)微博客中新聞話題的發(fā)現(xiàn),并通過實驗驗證算法的可行性;孫紅光等[2]通過改進Single-Pass算法并以話題為粒度組織新聞信息,實現(xiàn)對網(wǎng)絡(luò)新聞話題的發(fā)現(xiàn)。其改進方法充分考慮了網(wǎng)絡(luò)新聞的實時性、特征詞不同位置的權(quán)重比例及話題的相似度計算3個方面,驗證了改進算法的準確性及有效性;車蕾等[3]通過融合新聞標題、段落、文本語義等特征實現(xiàn)多特征融合的新聞話題發(fā)現(xiàn)模型;魏德志等[4]提出基于時間序列的熱點話題發(fā)現(xiàn)模型和算法,在改進算法的基礎(chǔ)上以網(wǎng)頁內(nèi)容相似度和頁面鏈接分析為依據(jù),按照權(quán)重值大小獲取話題。鑒于藥品安全領(lǐng)域相關(guān)語料分析缺乏,話題發(fā)現(xiàn)技術(shù)是直接采用分類語料這一現(xiàn)狀,本文嘗試通過k-means方法對大量無標記醫(yī)藥新聞進行聚類分析,幫助藥品生產(chǎn)企業(yè)從醫(yī)藥新聞數(shù)據(jù)中識別出藥品生產(chǎn)市場發(fā)展動態(tài)及重要政策方針等有價值信息,在進行分類訓(xùn)練后對藥品生產(chǎn)企業(yè)關(guān)注的問題進行有效跟蹤,從而為企業(yè)相關(guān)決策提供有力的信息支撐。

        1 話題發(fā)現(xiàn)流程

        本文藥品安全話題發(fā)現(xiàn)框架如圖1所示,包含數(shù)據(jù)預(yù)處理、文本表示和話題發(fā)現(xiàn)技術(shù)3個部分。

        1.1 數(shù)據(jù)預(yù)處理

        在網(wǎng)站上采集到醫(yī)藥新聞?wù)Z料后,需要對這些原始新聞網(wǎng)頁信息進行預(yù)處理,為后續(xù)文本聚類作準備。數(shù)據(jù)預(yù)處理步驟如下:

        (1)數(shù)據(jù)清洗。對采集到的網(wǎng)頁信息進行噪聲數(shù)據(jù)清除[5],去掉網(wǎng)頁鏈接、重復(fù)數(shù)據(jù)、多余標簽等無用信息,實現(xiàn)數(shù)據(jù)去噪目的,保留有效信息。

        (2)預(yù)處理。是進行自然語言處理的基本過程,包含中文分詞、停用詞過濾、詞性標注3部分:①進行中文分詞[6],即對文本內(nèi)容中的句子按照詞的含義進行切分,是對文本內(nèi)容進行處理的一項基礎(chǔ)性工作;②對停用詞進行過濾[7],去除文本中的標點符號及無意義的虛詞。文本中出現(xiàn)頻率很高的虛詞如冠詞、感嘆詞、介詞、連詞等,它們在構(gòu)建語法時并不能獨立承擔句子成分,沒有實在意義。去除這些虛詞,不僅可以減少對文本中有效信息的噪聲干擾,提高檢測精度,而且可以減輕算法開銷,降低后續(xù)處理難度;③對詞性進行標注[8],即對分詞后的每個詞匯確定詞性并標注。通過詞性標注可以消除歧義,強化單詞特征,保證句法分析的精確率。

        由于中文分詞技術(shù)并不是本文重點研究內(nèi)容,因此直接選用Python開發(fā)的中文分詞模塊——jieba分詞進行文本預(yù)處理。jieba分詞具有開源性和靈活性,可以完成文本內(nèi)容的中文分詞和詞性標注,并通過調(diào)用包含1 893個符號和詞的停用詞表剔除標點符號及無意義的虛詞。語料庫預(yù)處理效果如表1所示。

        1.2 文本表示

        (1)特征選擇及權(quán)重計算。原始語料在經(jīng)過預(yù)處理后其維度得到有效降低,但由于詞、詞組和短語構(gòu)成的詞條數(shù)量眾多,存在很多無效詞,因此需要去掉無效詞構(gòu)造較為精簡的特征空間。醫(yī)藥新聞文本中不同的詞對主題的貢獻度不同,需要根據(jù)重要程度賦予對應(yīng)權(quán)重。在進行文本向量化之前,通過詞頻統(tǒng)計方法對預(yù)處理后文檔中詞語出現(xiàn)的頻數(shù)進行統(tǒng)計,并從中抽取出標識性的特征詞,利用詞頻-逆文檔頻率[9](TF-IDF)方法得出詞向量的權(quán)重值。TF-IDF體現(xiàn)了詞語對文本的區(qū)分能力,過濾掉文本中出現(xiàn)頻率低和對聚類作用權(quán)重值較小的詞,使主要特征詞成為后續(xù)文本表示模型中有效的數(shù)據(jù)輸入。這樣既可以對特征進行有效降維,又有助于提高聚類效率和精度 [10]。

        (2)文本向量化。指既能將文本表示成計算機可以理解的形式,又能將文本描述的內(nèi)容進行完整表示的模型。潛在狄利克雷分布模型(LDA)[11]認為一篇文檔對應(yīng)多個主題,而每個主題又對應(yīng)著不同的詞,從而形成文檔-主題矩陣和主題-詞性矩陣。LDA是一種概率生成模型,可以將文檔集中的每一篇文檔主題按概率分布的形式給出[12]。

        1.3 話題發(fā)現(xiàn)技術(shù)

        1.3.1 k-means算法

        k-means算法[13]是一種解決聚類問題的典型無監(jiān)督學(xué)習(xí)算法,在處理無標記數(shù)據(jù)集方面可以極大減少工作量。通過該算法可以找到無標記數(shù)據(jù)集的模式特征,對不同數(shù)據(jù)所屬類型進行分類。k-means聚類的輸入是一組無標記樣本,在堅持組內(nèi)距離最小化和組間距離最大化原則下,根據(jù)數(shù)據(jù)自身距離將其分成若干組[14],實現(xiàn)流程如圖2所示:①給聚類中心分配點。從數(shù)據(jù)對象中選擇k個點作為聚類中心,遍歷數(shù)據(jù)集計算無標記數(shù)據(jù)點到聚類中心點的距離,將無標記數(shù)據(jù)點分配到距其最近的聚類中心點;②移動聚類中心。遍歷所有聚類中心,將聚類中心移動到這個聚類的均值處;③重復(fù)上述步驟,直到聚類中心不再移動達到穩(wěn)定分布為止。

        K-means算法原理簡單,計算復(fù)雜度小,容易實現(xiàn)[15]。但其過分依賴初始聚類中心k的選取,一旦k值選擇不好會直接影響最后結(jié)果,造成無法得到有效聚類結(jié)果[16]。因此,預(yù)先給定k值是最困難的一步。

        1.3.2 k-means算法改進

        無監(jiān)督學(xué)習(xí)算法一個顯著優(yōu)點是不需要對數(shù)據(jù)集進行標注,而輪廓系數(shù)[17](Silhouette Coefficient)可以在無標注數(shù)據(jù)集基礎(chǔ)上對聚類算法的好壞進行有效度量。本文利用輪廓系數(shù)對聚類性能評估的優(yōu)勢,合理選擇k-means的聚類中心,以解決k值設(shè)置不合理影響聚類結(jié)果的問題。

        輪廓系數(shù)是1986年P(guān)eter J. Rousseeuw?在結(jié)合內(nèi)聚度和分離度兩種因素基礎(chǔ)上提出的評價聚類效果好壞的一種方式,適用于實際類別信息未知的情形[18],可在原始數(shù)據(jù)相同的基礎(chǔ)上,對不同算法或算法的不同運行方式對聚類結(jié)果產(chǎn)生的影響進行性能評價。輪廓系數(shù)取值介于[-1,1]之間,其中1表示完美的聚類,0表示聚類重疊,-1表示完全錯誤的聚類。輪廓系數(shù)評價法需根據(jù)不同類別數(shù)目下的輪廓系數(shù)走勢尋找最佳的聚類數(shù)目,一般將畸變程度最大處作為最佳值[19]。輪廓系數(shù)指標構(gòu)成如表2所示。

        2 實驗

        2.1 實驗數(shù)據(jù)

        本文利用八爪魚采集器[20]從某醫(yī)藥網(wǎng)獲取2015年5月1日到2018年9月1日間15 910條醫(yī)藥新聞作為分析數(shù)據(jù)源,后續(xù)實驗結(jié)果均由原始數(shù)據(jù)處理得到。

        2.2 實驗環(huán)境

        本文在PC上搭建整體測試環(huán)境,以保證后續(xù)系統(tǒng)測試順利進行。實驗環(huán)境如表3所示。

        2.3 模型參數(shù)確定

        LDA模型的主題個數(shù)對模型推理和聚類質(zhì)量影響較大,當主題個數(shù)較小時,主題會包含多重語義;當主題個數(shù)較大時,主題會缺乏明顯語義信息。因此本文通過輪廓系數(shù)對k-means評估最佳主題數(shù)來選定LDA的理想主題數(shù),避免主題數(shù)選取不合理問題。

        2.4 實驗結(jié)果分析

        實驗一:k-means算法參數(shù)。

        本實驗以醫(yī)藥新聞為研究對象,通過輪廓系數(shù)評價法對聚類效果性能進行評估,選取最佳聚類中心數(shù)。在k-means算法結(jié)構(gòu)保持不變的前提下,將預(yù)處理后數(shù)據(jù)源控制在15 773例時,探討數(shù)據(jù)集主題個數(shù)為5、10、11、12、13、14、15、20、25、40的聚類性能,實驗結(jié)果見表4。

        從表4可以看出,聚類結(jié)果比較一般。結(jié)合指標含義和數(shù)值表達意義,可以推測出原因可能是數(shù)據(jù)集質(zhì)量不高,因此后續(xù)嘗試通過選取一部分原始數(shù)據(jù)集進行人工標記,檢驗人工標記是否在一定程度上提高文章正確分類的準確性。

        實驗二:手工標記數(shù)據(jù)集后的參數(shù)。

        在數(shù)據(jù)集主題個數(shù)分別為5、10、11、12、13、14、15、20、25、40時,以手工標記的方式從原始數(shù)據(jù)集中選取7類藥品安全領(lǐng)域數(shù)據(jù)共5 637例,作為后續(xù)檢驗手工標記對聚類結(jié)果的影響。手工標記的實驗數(shù)據(jù)類別分布情況如表5所示,實驗結(jié)果如表6所示。

        從表4和表6結(jié)果可以看出,手工標記的數(shù)據(jù)集在一定程度上可以提高聚類效果,說明在樣本量足夠大但聚類效果不好的情況下,對原始數(shù)據(jù)集進行手工標注是改善聚類效果的一種可行方式。手工標記數(shù)據(jù)集的輪廓系數(shù)在聚類個數(shù)不同時,聚類結(jié)果的畸變程度走勢更為清晰。在考慮輪廓系數(shù)走勢及其定義最佳主題數(shù)的基礎(chǔ)上,最終選取聚類個數(shù)為12的主題數(shù)作為聚類初始中心的最佳值。

        實驗三:LDA模型對聚類主題的提取。

        以輪廓系數(shù)評價法確定的最佳主題數(shù)12作為主題數(shù)進行實驗,從每個類簇中提取權(quán)重值最大的10個主題詞來限定主題,提高主題詞的專指度并確定主題范圍空間。通過LDA主題模型對每個類簇進行主題詞提取后,可將主題限定在一定范圍內(nèi),有助于各主題的概括。LDA模型提取的主題結(jié)果如表7所示。

        3 結(jié)語

        本文以醫(yī)藥新聞為數(shù)據(jù)源,通過話題聚類及相應(yīng)的主題提取實驗發(fā)現(xiàn)藥品安全話題,取得一定效果。在聚類效果一般時,采用人工標記方式在一定程度上提高了聚類效果。文中對于藥品安全話題的聚類只是檢測出了話題類簇,未進行后續(xù)話題跟蹤。如果進一步追蹤話題發(fā)展規(guī)律和趨勢,將更有利于相關(guān)決策制定。

        參考文獻:

        [1] 路榮,項亮,劉明榮,等. 基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn)[J]. 模式識別與人工智能,2012,25(3):382-387.

        [2] 孫紅光,高星,孫鐵利,等. 基于改進Single-Pass算法的網(wǎng)絡(luò)新聞話題發(fā)現(xiàn)[J]. 吉林大學(xué)學(xué)報:理學(xué)版,2018,56(1):114-118.

        [3] 車蕾,楊小平. 多特征融合文本聚類的新聞話題發(fā)現(xiàn)模型[J]. 國防科技大學(xué)學(xué)報,2017,39(3):85-90.

        [4] 魏德志,陳福集,林麗娜. 一種基于時間序列的熱點話題發(fā)現(xiàn)模型和算法[J]. 情報科學(xué),2017,35(10):142-146.

        [5] 米允龍,米春橋,劉文奇. 海量數(shù)據(jù)挖掘過程相關(guān)技術(shù)研究進展[J]. 計算機科學(xué)與探索,2015,9(6):641-659.

        [6] 劉澤文,丁冬,李春文. 基于條件隨機場的中文短文本分詞方法[J]. 清華大學(xué)學(xué)報:自然科學(xué)版,2015,55(8):906-910,915.

        [7] 范佳健. 微博評論信息的聚類分析[D]. 合肥:安徽大學(xué),2017.

        [8] 王國龍,杜建強,郝竹林,等. 中醫(yī)診斷古文的詞性標注與特征重組[J]. 計算機工程與設(shè)計,2015,36(3):835-841.

        [9] 唐明,朱磊,鄒顯春. 基于Word2Vec的一種文檔向量表示[J]. 計算機科學(xué),2016,43(6):214-217,269.

        [10] 商憲麗,王學(xué)東. 微博話題識別中基于動態(tài)共詞網(wǎng)絡(luò)的文本特征提取方法[J]. 圖書情報知識,2016(3):80-88.

        [11] 陳曉美,高鋮,關(guān)心惠. 網(wǎng)絡(luò)輿情觀點提取的LDA主題模型方法[J]. 圖書情報工作,2015,59(21):21-26.

        [12] 王鵬,高鋮,陳曉美. 基于LDA模型的文本聚類研究[J]. 情報科學(xué),2015,33(1):63-68.

        [13] 周潤物,李智勇,陳少淼,等. 面向大數(shù)據(jù)處理的并行優(yōu)化抽樣聚類K-means算法[J]. 計算機應(yīng)用,2016,36(2):311-315,329.

        [14] 李亞,劉麗平,李柏青,等. 基于改進K-Means聚類和BP神經(jīng)網(wǎng)絡(luò)的臺區(qū)線損率計算方法[J]. 中國電機工程學(xué)報,2016,36(17):4543-4552.

        [15] 朱曉峰,陳楚楚,尹嬋娟. 基于微博輿情監(jiān)測的K-Means算法改進研究[J]. 情報理論與實踐,2014,37(1):136-140.

        [16] 翟東海,魚江,高飛,等. 最大距離法選取初始簇中心的K-means文本聚類算法的研究[J]. 計算機應(yīng)用研究,2014,31(3):713-715,719.

        [17] 劉睿倫,葉文豪,高瑞卿,等. 基于大數(shù)據(jù)崗位需求的文本聚類研究[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(12):32-40.

        [18] 王學(xué)賀. 一種基于改進微粒群和輪廓系數(shù)的劃分聚類方法[J]. 云南民族大學(xué)學(xué)報:自然科學(xué)版,2016,25(4):367-371.

        [19] 朱連江,馬炳先,趙學(xué)泉. 基于輪廓系數(shù)的聚類有效性分析[J]. 計算機應(yīng)用,2010,30(S2):139-141,198.

        [20] 崔玉潔,廖坤. 借助八爪魚采集器實現(xiàn)過刊網(wǎng)刊元數(shù)據(jù)的自動提取[J]. 編輯學(xué)報,2016,28(5):485-488.

        (責任編輯:杜能鋼)

        国产av国片精品jk制服| 亚洲av毛片一区二区久久| 国产久色在线拍揄自揄拍| 内射干少妇亚洲69xxx| 国产内射999视频一区| 国产一区二区丰满熟女人妻| 一二三四在线观看韩国视频| 成年av动漫网站18禁| 中文字幕精品一二三四五六七八| 九九99国产精品视频| 蜜桃激情视频一区二区| 亚洲国产精品一区二区成人片国内| 国产真实夫妇视频| 国产精品爆乳在线播放 | 亚洲性综合网| 久久久精品国产亚洲av网不卡| 亚洲高清在线免费视频| 国产精品国产三级国av在线观看| 国产精品刺激好大好爽视频| 久久免费精品视频老逼| 在线日本看片免费人成视久网| 中文无码久久精品| 国产精品九九热| 国产午夜激情视频在线看| 久久午夜福利无码1000合集 | 疯狂做受xxxx高潮视频免费| 久久国产色av| 91久久精品国产性色tv| 美女主播网红视频福利一区二区| 国产熟妇按摩3p高潮大叫| 亚洲国产99精品国自产拍| 99热婷婷一区二区三区| 好大好湿好硬顶到了好爽视频| 亚洲成成品网站源码中国有限公司| 开心激情站开心激情网六月婷婷| 日本亚洲视频一区二区三区| 欧美极品jizzhd欧美| av深夜福利在线| 亚洲精品国产亚洲av| 国产喷水1区2区3区咪咪爱av| 97人妻碰免费视频|