亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        5G 技術應用于醫(yī)療領域發(fā)展趨勢的研究*

        2023-05-16 08:16:04黃冠維潘偉東
        科技與創(chuàng)新 2023年9期
        關鍵詞:分類文本模型

        黃冠維,潘偉東

        (1.嶺南師范學院商學院,廣東 湛江524048;2.廣州京諾知識產權代理有限公司,廣東 廣州 510030)

        1 研究背景

        5G 技術走進生活并快速促進生活的發(fā)展。信息技術在醫(yī)療行業(yè)中的引入不斷提高了該行業(yè)的發(fā)展水平。5G 技術的超高速、超大型連接和超低延時可以極大地提高醫(yī)療服務的效率,同時,醫(yī)療行業(yè)5G 技術的發(fā)展將促進醫(yī)療服務的智能化。5G 技術的發(fā)展將導致整個網絡生態(tài)系統(tǒng)的變化,人工智能、虛擬現實、云計算、物聯網、大視頻等與網絡速度相關的領域將發(fā)生根本性的鏈式變化,從而使醫(yī)療技術領域的發(fā)展更加實用。

        由于人口眾多和老齡化加劇,中國一直面臨著醫(yī)療費用高、看病困難的醫(yī)療問題。中國人口在世界人口中占比大,但與之相反的是,醫(yī)療衛(wèi)生資源卻占世界的很小一部分,這說明了有限的醫(yī)療資源分布不均。解決當前醫(yī)療行業(yè)問題的有效方法是,在借助5G 高速互聯網的基礎下,大力發(fā)展醫(yī)療服務技術。通過5G 技術的普及,“互聯網+醫(yī)療”的發(fā)展空間得到巨大提升。因此,第五代通訊技術(簡稱“5G”)將在醫(yī)療領域有更為突出的發(fā)展與應用,如何從大量“5G+醫(yī)療”學術文獻中找出發(fā)展趨勢是本研究所探究的問題。本研究通過文本挖掘,通過對學術文章進行文本分析,從知網上下載近3 年發(fā)表的學術文本做分詞處理并使用 詞 頻-逆 文本 頻 率 指 數(Tеrm Frеquеnсy-Invеrsе Dосumеnt Frеquеnсy,TF-IDF)算法計算詞權重;再利用支持向量機(Suрроrt Vесtоr Mасhinе,SVM)對詞頻構建模型,對“5G+醫(yī)療”的相關研究提取出關鍵詞組并進行分類與預測,找出未來的“5G+醫(yī)療”的趨勢脈絡,以期待未來在醫(yī)療領域與相關產業(yè)中得到可持續(xù)性發(fā)展。

        2 文獻綜述

        2.1 文本挖掘的研究現狀

        在文本挖掘中,詞頻度挖掘技術是一個重要的研發(fā)方向。近年來,國內外研究人員在這一領域進行了大量研究,并致力于從海量的文本數據中發(fā)現更多有價值的信息,并利用這些信息創(chuàng)造更多的社會價值。國外的文本挖掘研究在早期就已得到了快速發(fā)展,且應用化的挖掘技術有了成熟的技術手段。BARKER等[1]提出了一種基于文本詞性的關鍵詞提取的文本挖掘方法。該方法首先對文檔進行句法分析和詞性標注,并計算文檔中每個關鍵詞的出現頻率。通過計算其TF-IDF 權重數值,然后輸出權重排名優(yōu)先級最高的詞語作為模型分類結果。

        有別于國外研究,受限于中文具有歧義以及語法的特殊性且較英語來說相對復雜,故研究中文的文本挖掘相對晚于國外。中國的中科院計算機技術研究所率先自主開發(fā)和研制推出了ICTCLAS 中文文本分詞系統(tǒng),并于2004 年又推出了具有詞性標注等多種功能的改進版NLPIR 中文分詞系統(tǒng)[2],使得這個處理系統(tǒng)不但具有簡單的現代漢語中文分詞處理功能,而且還具有多種不同詞性的拼音標注等多種實用功能。同時,國內學者開發(fā)了基于Pythоn 的Jiеbа 分詞包[3],該分詞包已實現將中文準確分詞的系統(tǒng),使中文分詞工具更具簡易性。何洋[4]將文本挖掘技術用于處理大型學術文檔集,大大減少了人工閱讀的工作量。陳旭[5]以京東商城網站中筆記本電腦用戶評論數據文本為基礎,運用網絡爬蟲技術進行文本挖掘,然后用LDA 算法進行文本主題的提取,并通過模型評估,發(fā)現LDA 模型能夠有限實現文本主題的挖掘。

        目前,國內許多學者已經在相關領域進行了研究。王東波等[6]以醫(yī)學期刊作為基礎,對其R7 分類下的文本,利用SVM 技術進行自動文本分類研究。劉敏[7]以文本挖掘為重點,以煤礦監(jiān)測數據為研究對象,利用煤礦監(jiān)測數據作為文本數據集,實現煤礦事故案例的自動分類。李鋒剛等[8]為了解決傳統(tǒng)分類問題中相似度和主題統(tǒng)一性的問題,將SVM 分類模型和LDA 主題模型相結合,該方法能夠極大地解決分類問題的相似性度量和主題單一性。何夢嬌等[9]在對城市交通管理輿情相關文本的自動數據分析進行自動預處理后,運用了SVM 模型成功完成了對城市交通管理輿情相關文本的自動分析歸類。

        2.2 自然語言處理技術

        目前,在英文文本處理方面已經有了大量的研究成果,但由于漢語表達的復雜性和多樣性,其研究成果還沒有英文文本那么多。文本數據基本是指以短語、句子等方式呈現的。一般而言,文本數據中可能包含了許多毫無意義的符號。對于這些毫無實際意義的符號,需要進行預處理,否則可能會影響到文本分析結果的準確性[10]。而文本挖掘的預處理可以分為文本數據庫的清洗、去除字或停用詞、詞性信息標注以及特征詞提取[11]。

        2.2.1 文本分詞

        中文分詞的方法有3 種[12-13],分別是詞匯匹配、文本統(tǒng)計以及文本語義。

        基于詞匯匹配的分詞方法:具體分詞細分步驟是將原始語句中的每個詞匯與構建好的語料庫進行匹配,如果在構建好的語料庫中匹配了相應的詞匯,則識別該詞,并把這個詞從句子中分割,否則繼續(xù)匹配其他詞匯,直到完成整個句子的分割為止。按照語料庫匹配、句子分割的計算方式不同,可以把基于語料庫匹配的分詞歸為3 類:第一類為最大匹配法,第二類是逆向最大匹配法,第三類則是雙向匹配法。

        基于文本統(tǒng)計的分詞方法:若一個詞與相連接起來的兩個字數次出現在不同的語境中,則會有一定概率地認為這些字與相連接起來的一個詞組成了某個詞語。對于這種分詞算法,首先要選取一定的統(tǒng)計模型對單個的句子進行分詞處理,然后據此劃分的結果計算其概率,使其得到最大概率的分詞方法,常用的算法有隱形馬爾可夫模型和條件隨機場等算法模型[14]。

        基于文本語義的分詞方法:通過語句的語義來進行分詞處理,對拆分句子的語義進行分析,實現中文文本分詞。

        比較3 種分詞方法,能夠發(fā)現基于統(tǒng)計的分詞方法比另外兩種分詞方法更具實用性。

        2.2.2 詞性標注

        詞性標注技術[15]已經是現代科學自然語言處理的一項重要基礎知識技術,詞性標注是在分詞過程中,對劃分的詞語并結合句子的語境進行的工作。通過機器對詞語進行詞性標注,區(qū)分文本數據句子中詞語的詞性,可以為后續(xù)文本分類工作提供更高準確率的計算。例如,代表地點、物體和人的詞語都是名詞類別,代表動作或描述某種狀態(tài)變化的詞語都是動詞,用于描述、概括或描述人或事物的詞都是形容詞。

        2.2.3 去除停用詞

        文本數據在經過了使用中文進行分詞、詞性標記后,得到的數據存在噪音,需要對處理后的數據集進行降噪處理,也就是去除停用詞。根據研究需求,在處理文本分詞過程中設定停用詞,以此過濾掉一些對研究無意義的詞,如此可能提高分詞后的語料數據集的質量與挖掘文本信息的價值[16]。

        2.2.4 特征提取

        文本數據在經過用中文分詞、詞性標注、去除停用詞后,剩余許多文本詞匯。如果將預處理的詞匯直接用作文本的特征,將導致特征向量的維數巨大。利用特征選擇的方法來減少文本詞匯的特征維度來提高模型的性能。目前流行使用的特征詞提取技術是TF-IDF 算法[17]。

        TF 是指以詞頻計算為基礎的算法。這種算法首先確定一個范圍,保留詞頻大于設定范圍的詞語,并刪除詞頻小于設定范圍的詞語。但是,這種方法忽略了與文本詞匯相比詞頻較低的特征詞。如果刪除了這些重要的單詞,則造成文本特征提取不準確,并且后續(xù)的文本分析結果具有較大的誤差。TF 值表示某個詞語在本文檔中出現的頻數大小。TF 值越大,則說明該詞語在本文檔的頻數大。另一方面,它也表明該詞對整個文檔非常重要。在某種意義上,可以說該詞語反映了本文檔的主題詞。TF 值的具體計算公式如下:

        式(1)中:X(TF)ij為詞語j在k文檔中的頻數;nij為在k文檔中此詞語j出現的頻數;為文檔k中所有詞語的出現總數統(tǒng)計值。

        IDF 是指在整個文檔集合中某個單詞或字符串出現的總次數,而不是僅僅計算在一篇文檔中出現的次數,這也是與TF 算法的差異。其計算公式如下:

        式(2)中:|D|為總的文檔數;|Dj|為某一特定詞語或字符串j在所有文檔|D|中出現的次數,為包含特征詞的文檔數目。

        將公式(1)與(2)組合來進行分析和統(tǒng)計,評估某一個關鍵詞語的具體重要性有用程度。該算法的思路就是當一個詞語的重要性與它在一個文檔中可能再次出現的逆文本頻率大小成正比;反之,這個詞語的重要性與它在語料庫中再次可能出現的逆文本頻率大小成反比。因此形成式(3):

        3 實驗設計

        3.1 數據采集與預處理

        本研究以“5G”以及“醫(yī)療”為檢索詞將中國知網近3 年共65 篇學術文獻資料作為文本數據的信息來源,以此為初始文本數據集。之后提取的全部內容寫入tхt 文件中,作為語料數據集。接著用Jiеbа 分詞工具來對語料數據集進行分詞處理。對于分詞算法的選擇,本研究選用的是基于精確模式的分詞算法,并且將毫無意義的短語、單詞、標點符號等設置成停用詞。最終得到12 943 組詞語,共94 747 個詞匯。

        3.2 特征提取

        透過TF-IDF 算法對樣本數據進行特征抽取,從樣本數據中篩選出名詞、名動詞和動詞3 種詞,其中將排名前2 000 的單詞作為屬于“5G+醫(yī)療”的關鍵特征詞。

        4 實證分析

        4.1 模型實現與評估

        本研究構建的SVM 分類模型采取二分類法,將屬于前2 000 個關鍵特征詞賦值為1(視為“5G+醫(yī)療”的關鍵詞),而非“5G+醫(yī)療”則賦值為0。透過調整核函以及控制迭代次數,將總體準確率超過90%以上作為停止條件來得到最佳的文本分類模型。此外,本研究還與其他算法進行比較,隨機生成20 組文本數據集對其結果進行平均準確率的計算,其分類預測準確率的結果如圖1 所示。

        圖1 分類模型的平均準確率

        從圖1 中的分類準確率計算結果中可以看出,4個模型的分類結果都較優(yōu)。平均準確率都達到了90%以上,其中線性支持向量機模型的平均準確率最大,為93.81%,核支持向量機分類的平均準確率最小,為92.71%。通過對分類模型準確率的評估和分析,驗證了本文提出的分類結果的有效性。

        4.2 趨勢分析

        將分類詞與在文章詞權重大小作為文章重要程度的標準,文章重要程度越大說明該篇文章對“5G+醫(yī)療”有相關發(fā)展性的描述越多,通過借鑒參考該文章內容,綜合“5G+醫(yī)療”研究技術得出前人普遍認同的“5G+醫(yī)療”的關鍵詞集合,能找出“5G+醫(yī)療”的發(fā)展趨勢、熱點,是對未來研究的靈感來源。

        本研究從2 000 個關鍵特征詞中隨機抽取20 個關鍵特征詞形成詞袋,透過詞袋方式與文章題目進行匹配,找到相對重要的學術文獻,得出重要程度排名前五的文章如圖2 所示。

        圖2 文章重要程度排名前五的文章

        5 結論

        本研究主要集成了計算機科學、醫(yī)學以及通信科學的跨學科知識、方法與技術手段,將醫(yī)療領域中所涉及到的詞匯發(fā)掘較多的價值信息提煉成關鍵詞,從學術文獻中對其文本挖掘。大數據時代來臨,使得學科領域中的文本數據海量增長,精準地提取文本中具有價值信息的方法對該領域發(fā)展方向顯得極為重要。

        由于5G 作為一種新興的通信技術,在醫(yī)療領域中可起到快速響應的作用。因此,本研究運用文本挖掘對“5G+醫(yī)療”學術文本進行分類并預測,研究發(fā)現5G 技術在醫(yī)療領域中對于遠程、診斷、救治、治療等起到了關鍵作用。由此可知,在未來的醫(yī)療領域的相關業(yè)務功能中,5G 技術的應用是加強實時性的角色。

        本研究除了進行關鍵詞的挖掘之外,還運用了5G技術匹配到醫(yī)療領域的重要學術文章,從而間接了解了醫(yī)療領域中的發(fā)展趨勢、研究熱點以及可持續(xù)發(fā)的方向。

        猜你喜歡
        分類文本模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        在808DA上文本顯示的改善
        分類討論求坐標
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數據分析中的分類討論
        教你一招:數的分類
        3D打印中的模型分割與打包
        亚洲精品中文字幕熟女| 中国猛少妇色xxxxx| 91高清国产经典在线观看| 久久精品国产亚洲av麻豆四虎 | 亚洲综合有码中文字幕| 国产精品一区二区久久国产| 窝窝午夜看片| 欧美成人三级一区二区在线观看| 亚洲午夜久久久精品国产| 精华国产一区二区三区| 精品久久久无码人妻中文字幕豆芽| 欧美极品少妇性运交| 亚洲色欲色欲www成人网| 99伊人久久精品亚洲午夜| 亚洲av无码电影在线播放| 日产精品久久久久久久蜜臀| 级毛片无码av| 国产精品久色婷婷不卡| 国产成人精品久久一区二区三区| 一级午夜视频| 亚洲av乱码国产精品观看麻豆| 寂寞人妻渴望被中出中文字幕| 国产精品免费观看久久| 国产肉体ⅹxxx137大胆| 亚洲中文字幕成人无码| 国产精品久久久久久妇女6080 | 国产精品成人99一区无码| 国产精品视频一区二区三区,| 日本人妻97中文字幕| 国产色xx群视频射精| 欧美一区波多野结衣第一页| 蜜桃精品国产一区二区三区 | 国产精品久久久久一区二区三区| 日日碰狠狠丁香久燥| 国产精品国产三级国产在线观 | 国产精品白浆视频一区| 91精品亚洲熟妇少妇| 亚洲av无码国产精品草莓在线| 久久精品国产夜色| 国产成人亚洲合色婷婷| 欧美激情乱人伦|