亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種應(yīng)用于電力技術(shù)專業(yè)領(lǐng)域的信息萃取算法

        2022-08-30 08:17:32倪吉祥閆欣悅徐大亮
        科技與創(chuàng)新 2022年17期
        關(guān)鍵詞:信息方法模型

        倪吉祥,閆欣悅,徐大亮

        (1.國家電網(wǎng)有限公司高級培訓中心,北京 100192;2.北京數(shù)睿思德技術(shù)有限公司,北京 100083)

        1 研究背景

        信息萃取一直是國內(nèi)外的研究熱點。異構(gòu)數(shù)據(jù)的信息萃取是國內(nèi)外計算機算法研究領(lǐng)域的熱點與難點。信息萃取經(jīng)歷過2個階段的發(fā)展歷程:信息提取與關(guān)鍵信息萃取。早在20世紀90年代初,科學家和研究者們開始關(guān)注信息提?。↖nformation Extraction,IE)相關(guān)研究。

        隨著網(wǎng)頁文本信息的急劇增長,越來越多的人投入到IE領(lǐng)域的研究,IE研究人員逐漸將興趣轉(zhuǎn)移到Web網(wǎng)頁信息提取的研究上。其中比較知名的項目是卡耐基梅隆大學自動學習和發(fā)現(xiàn)中心的Web挖掘項目,他們采用機器學習算法,目標是通過訓練自動從Web中提取信息[1-4]。隨著信息技術(shù)的發(fā)展,信息萃取已經(jīng)廣泛運用于搜索引擎、知識問答、信息檢索、知識服務(wù)等領(lǐng)域,同時成為知網(wǎng)、Google、百度、知乎、今日頭條等知名產(chǎn)品的核心技術(shù)競爭力[1-4]。然而,在電力等專業(yè)領(lǐng)域的業(yè)務(wù)中,一方面對知識的需求量是巨大的,另一方面由于數(shù)據(jù)異構(gòu)以及專業(yè)知識的特點,目前主要使用人工方式進行信息萃取。這需要專家進行人工分析總結(jié),并由具有經(jīng)驗的萃取師進行提煉,存在效率低、時效性差、時間人工成本高等問題。近年來,國內(nèi)外有關(guān)公司與機構(gòu)積累了大量的研究成果[5-6],聯(lián)想公司提出了著名的四步復盤方法,進行信息萃取,四步復盤方法具體為回顧目標、評估結(jié)果、分析原因、總結(jié)規(guī)律。美國陸軍還曾提出AAR的方法,華為公司亦提出知識收割方法,通過選擇項目、單個項目知識收割、組織資產(chǎn)刷新、知識傳遞等方法步驟進行信息萃取。此外還有PREFS方法和STAR內(nèi)容模型,均根據(jù)培訓過程管理的知識數(shù)據(jù),進行信息萃取。

        針對電力專業(yè)領(lǐng)域的實際情況,本文將創(chuàng)新性地結(jié)合AI神經(jīng)網(wǎng)絡(luò)技術(shù),包括自然語言處理技術(shù)、信息檢索技術(shù)、知識圖譜技術(shù)等等,提出一種適用于電力專業(yè)領(lǐng)域的數(shù)據(jù)萃取算法,能夠更高效地從海量數(shù)據(jù)中進行信息萃取,主要實現(xiàn)對最新的政策、行業(yè)新聞、前沿技術(shù)等外部信息,領(lǐng)導講話、制度文件、內(nèi)部通知以及其他工作文件等內(nèi)部信息的高效率、自動化萃取。相比現(xiàn)存技術(shù)萃取效率更高、人力需求更低、時效性更好。

        2 算法描述與實現(xiàn)方法

        2.1 全文數(shù)據(jù)獲取與語言模型建立

        本文算法作用為采用人工智能技術(shù)從內(nèi)外部海量數(shù)據(jù)中完成從數(shù)據(jù)抓取到異構(gòu)化處理,最后完成摘要主題關(guān)鍵信息萃取等研究工作,其算法流程如圖1所示。

        圖1 本文算法總流程

        對于外部數(shù)據(jù)源的全文抓取,采用了以下方法實現(xiàn):①爬蟲+訂閱的方法,自動化地獲取數(shù)據(jù)的更新;②采用文檔智能去重等關(guān)鍵算法保證數(shù)據(jù)的唯一性;③存儲結(jié)構(gòu)化后的文件信息,同時保存必要的文檔來源等meta信息。其中爬蟲的算法步驟如下。

        爬蟲算法框架:所有信息源的數(shù)據(jù),都通過一個擴展性較好的通用爬蟲框架進行爬取??梢宰詣幼R別需要爬取的網(wǎng)頁鏈接,每日定時更新。也可以很方便增加數(shù)據(jù)源。

        HTML解析技術(shù):通過一個較為先進的網(wǎng)頁HTML解析框架,可以快速定位文章標題、正文、發(fā)布時間等一系列信息,剔除無用內(nèi)容。同時也可以找到網(wǎng)站的頭條新聞,區(qū)分外部信息的重要程度。

        模擬瀏覽器行為技術(shù):可以自動模擬點擊、下拉網(wǎng)頁等行為,獲取更完整的網(wǎng)站信息。也可以在一定程度上解決網(wǎng)站的反爬措施。

        對于內(nèi)部文件的全文抓取,采用了以下方法實現(xiàn):①文件自動化解析功能,自動抓取不同文件格式中的有效信息Word/PPT/Excel/PDF(非加密狀態(tài));②對于加密狀態(tài)的文件,采用了OCR技術(shù)進行文本內(nèi)容識別;③存儲結(jié)構(gòu)化后的文件信息,同時保存必要的文件來源等meta信息。

        2.2 專業(yè)領(lǐng)域語言模型建立

        本文采用了BERT模型來構(gòu)建語言模型[5-7],BERT的全稱是Bidirectional Encoder Representation from Transformers,即雙向Transformer的Encoder,因為decoder是不能獲要預(yù)測的信息的。模型的主要創(chuàng)新點都在pre-train方法上,即用了Masked LM和Next Sentence Prediction兩種方法分別捕捉詞語和句子級別的representation。

        本文最后采用構(gòu)建專業(yè)領(lǐng)域語言模型的全文語料規(guī)模為20萬條,其中19萬條來源于外網(wǎng)(公網(wǎng))的數(shù)據(jù),剩余的來源于內(nèi)部文件。

        2.3 摘要提取算法

        摘要提取算法流程如圖2所示。

        圖2 摘要提取算法流程

        摘要算法的核心步驟如下。

        候選句獲?。罕疚耐ㄟ^一些句法、句式特征獲取摘要的候選句。根據(jù)的特征有3項:①詞性;②句子成分(主謂賓從屬結(jié)構(gòu)這種);③一些重點詞語。根據(jù)這些的排列組合建立了幾十條規(guī)則,用于獲取候選句。

        重要性排序算法:通過TextRank算法為候選句構(gòu)建相關(guān)性模型,計算候選句的重要性排序,得到初步摘要。TextRank的思想借鑒于網(wǎng)頁排序算法——PageRank,是一種用于文本的基于圖的排序算法。通過把文本分割成若干組成單元(句子),構(gòu)建節(jié)點連接圖,用句子之間的相似度作為邊的權(quán)重,通過循環(huán)迭代計算句子的TextRank值,最后抽取排名高的句子組合成文本摘要。

        二次相關(guān)性計算:通過相關(guān)性計算方法,得到最終的摘要。

        2.4 主題關(guān)鍵詞萃取算法

        主題關(guān)鍵詞提取算法流程如圖3所示。

        圖3 主題關(guān)鍵詞提取算法流程

        主題關(guān)鍵詞萃取算法的步驟如下。

        分詞與詞性分析:通過感知機模型進行分詞與詞性分析,分詞后的結(jié)果和詞性結(jié)果是獲取關(guān)鍵詞的重要依據(jù)。其中,感知機模型可以描述為感知機是一種二類分類的線性分類模型,其輸入為實例的特征向量,輸出為實例的類別,+1代表正類,-1代表負類。感知機屬于判別模型,它的目標是要將輸入實例通過分離超平面將正負二類分離。感知機模型可以分為單層與多層,本文采用了3層的感知機模型。

        詞語重要性分析:通過基于BERT-biLSTM-CRF的命名實體識別神經(jīng)網(wǎng)絡(luò)算法,獲取候選關(guān)鍵詞。命名實體識別指識別中文文本中實體的邊界和類別。命名實體識別是文本處理中的基礎(chǔ)技術(shù),廣泛應(yīng)用在自然語言處理、推薦系統(tǒng)、知識圖譜等領(lǐng)域,比如推薦系統(tǒng)中的基于實體的用戶畫像、基于實體召回等。本文方法將基于神經(jīng)網(wǎng)絡(luò)的BERT-biLSTM以及基于統(tǒng)計的CRF相結(jié)合,其中BERT方法在上文中已經(jīng)進行了描述。CRF(Conditional Random Field,即條件隨機場)是自然語言處理的基礎(chǔ)模型,廣泛應(yīng)用于中文分詞、命名實體識別、詞性標注等標注場景。本文將條件隨機場CRF與Attention機制(BERT)結(jié)合,中文分詞、命名實體識別、詞性標注效果有了顯著提高。通過關(guān)鍵詞的實體類別、TF-IDF信息、詞性、句子成分分析,得到重要性分數(shù)。另外在判斷重要性時,也結(jié)合了內(nèi)容分類分類體系,與內(nèi)容體系相關(guān)的關(guān)鍵詞會增加一定比例的分數(shù)。

        采用語言模型對詞語上下文進行相關(guān)性分析:根據(jù)詞向量和文章向量,得到詞語和文章的相關(guān)性,相關(guān)性過低的無法成為關(guān)鍵詞。

        3 實驗結(jié)果

        本文設(shè)計人工盲評實驗如下。

        實驗人數(shù):20人。

        數(shù)據(jù)樣本:100。

        實驗過程:將本文算法處理的數(shù)據(jù)樣本與人工處理的數(shù)據(jù)樣本混合,進行盲評。

        最后實驗結(jié)果如表1所示。結(jié)果表明,本文算法結(jié)果基本上與人工結(jié)果相似。本文算法示例如圖4所示,從示例中能看出算法自動提取結(jié)果能夠體現(xiàn)算法的有效性。

        表1 實驗統(tǒng)計結(jié)果

        圖4 信息萃取示例

        4 結(jié)論

        本文提出一種新的基于AI神經(jīng)網(wǎng)絡(luò)技術(shù)的信息萃取算法,能夠有效針對外部和內(nèi)部的異構(gòu)多元數(shù)據(jù)進行信息萃取,能夠快速自動化地萃取全文中的摘要和主題關(guān)鍵詞等關(guān)鍵知識信息。人工盲評實驗表明了本文算法的有效性,后續(xù)我們將繼續(xù)圍繞信息萃取在電力教育培訓領(lǐng)域中的知識圖譜、方案智能設(shè)計等相關(guān)數(shù)字化應(yīng)用展開探索性研究。

        猜你喜歡
        信息方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        亚洲精品久久麻豆蜜桃| 国产一级做a爱免费观看| 白白色免费视频一区二区| 日本老熟女一区二区三区| 精品国产av一区二区三区四区| 日本a爱视频二区三区| 在线观看国产精品自拍| 一级一级毛片无码免费视频| 极品粉嫩小泬无遮挡20p| 999精品无码a片在线1级| 东北老女人高潮大喊舒服死了| 男女超爽视频免费播放| 国产熟女自拍视频网站| 亚洲综合在线观看一区二区三区| 欧美人牲交| 欧美日韩在线免费看| 亚洲一区二区三区在线观看| 亚洲av区,一区二区三区色婷婷| 国产人妻丰满熟妇嗷嗷叫| 久久青草免费视频| 精品午夜中文字幕熟女| 18禁免费无码无遮挡不卡网站| 亚洲精品国产成人| 老熟女一区二区免费| 日韩女同在线免费观看| 无码国产精品一区二区免费式直播| 亚洲丁香婷婷综合久久小说| 手机在线观看亚洲av| 日产乱码一二三区别免费l| 国产成人亚洲日韩欧美| 亚洲国产精品久久久久婷婷软件| 三级日韩视频在线观看| 少妇高潮喷水久久久影院| 久久久久亚洲精品美女| 午夜视频在线观看国产| 中文字幕精品一区二区精品| 国产成人精品午夜福利| 中文少妇一区二区三区| 亚洲av无码专区国产乱码4se| 成人一区二区免费视频| 蜜桃av无码免费看永久|