亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自然語言處理技術(shù)的線上頭腦風(fēng)暴討論工具的研究

        2024-01-24 23:33:36黃海平楊睿
        電腦迷 2023年20期
        關(guān)鍵詞:精簡頭腦風(fēng)暴

        黃海平 楊睿

        【摘? 要】 線下會議往往效率不高,占用了大量的時間。文章設(shè)計了一款基于自然語言處理(Natural Language Processing,NLP)技術(shù)的線上討論工具,以實現(xiàn)節(jié)省時間、成本及提高效率等目標(biāo)。用戶通過使用該工具能夠在線上完成類似于頭腦風(fēng)暴的討論。工具主要具備以下三大功能:自動精簡用戶輸入內(nèi)容,使之滿足字?jǐn)?shù)限制;依據(jù)關(guān)鍵詞熱度推送參與者發(fā)言,供其他參與者參考;推薦熱門關(guān)鍵詞,以便參與者快速地參與到討論中。

        【關(guān)鍵詞】 自然語言處理;線上頭腦風(fēng)暴;關(guān)鍵詞提取

        一、研究意義

        生產(chǎn)生活中經(jīng)常需要舉行線下的集會討論,線下會議往往效率不高,會耗費大量的時間。文章設(shè)計了一款基于自然語言處理技術(shù)的線上頭腦風(fēng)暴討論工具,將“頭腦風(fēng)暴”的討論模式遷移到網(wǎng)絡(luò)上,充分發(fā)揮其集思廣益的優(yōu)勢,使參與者能夠隨時隨地進行討論,提高工作效率。

        基于自然語言處理技術(shù)的頭腦風(fēng)暴討論工具會提取參與者發(fā)言內(nèi)容的關(guān)鍵詞,推送更有價值的內(nèi)容,使當(dāng)前的討論主題一目了然,進而產(chǎn)生更多有價值的想法。

        二、應(yīng)用場景分析及功能設(shè)計

        (一)應(yīng)用場景需求介紹

        針對線上頭腦風(fēng)暴討論,設(shè)想以下三類應(yīng)用場景中的需求和應(yīng)對方案:

        1. 公司會議需求

        每個公司都需要利用集體討論會議來解決各種問題,線上頭腦風(fēng)暴討論工具提供線上交流環(huán)境,有利于利用碎片化時間來解決單一問題(如利用通勤時間進行團隊早會),從而避免造成時間與場地的浪費,大大地提高工作效率,滿足公司會議的各種需求。

        2. 團隊集體討論需求

        在工作團隊或者是學(xué)習(xí)團隊中,往往由于人情世故的親疏或成員性格原因,不能夠通過集體討論充分征集成員的意見及想法。線上頭腦風(fēng)暴討論工具提供的匿名討論方式可以使用戶充分地闡釋自己的觀點和想法,形成了“暢所欲言,無所顧忌”的局面,為團隊提供了更廣泛的思維延伸的方式,能就某一問題討論得出更為全面、更具深度的解決方案。

        值得一提的是,工具的智能推薦發(fā)言功能可以有效得出參與者對某個方案的真實認可程度。

        3. 居民區(qū)業(yè)主需求

        生活中,會出現(xiàn)居民區(qū)業(yè)主需要集體進行商討、決策的情況。線上頭腦風(fēng)暴討論工具提供的討論方式——“匿名發(fā)問,文明發(fā)言”,既方便業(yè)主間互提意見,又不影響業(yè)主之間的關(guān)系,避免產(chǎn)生負能量,在提高鄰里間交流效率的同時,維持了良好的關(guān)系。線上頭腦風(fēng)暴討論工具提供的記錄與智能推薦發(fā)言功能可以更好地征集業(yè)主們對物業(yè)的意見建議,可以直接導(dǎo)出提交給物業(yè),從而提升溝通效率。

        (二)功能設(shè)計

        根據(jù)對應(yīng)用場景的分析,線上頭腦風(fēng)暴討論工具功能可分為四個模塊:

        1. 展示全部參與者發(fā)言;

        2. 推送熱門發(fā)言;

        3. 推薦熱門關(guān)鍵詞;

        4. 發(fā)言及內(nèi)容一鍵精簡。

        三、相關(guān)技術(shù)介紹

        (一)核心算法選擇

        為了減少人工成本和時間成本,同時可以利用更豐富的數(shù)據(jù)進行訓(xùn)練,應(yīng)當(dāng)優(yōu)先考慮無監(jiān)督的關(guān)鍵詞抽取算法。當(dāng)前廣泛使用的無監(jiān)督抽取算法有TF-IDF(Term Frequency╞Inverse Document Frequency)算法與TextRank算法。TextRank適合較長的待處理文本,可以直接使用該文本進行關(guān)鍵詞提取,不需要相關(guān)的語料。待提取關(guān)鍵詞的文本較短時,如只有一個句子,就需要借助語料數(shù)據(jù)計算各個詞語的權(quán)重。考慮到頭腦風(fēng)暴討論參與者的發(fā)言普遍比較短,所以選擇提取關(guān)鍵詞選用TF-IDF算法,實現(xiàn)一鍵精簡則運用TextRank算法。

        (二)具體實現(xiàn)框架

        線上頭腦風(fēng)暴討論工具選擇PyTorch作為具體實現(xiàn)框架。PyTorch是一個基于Python語言的深度學(xué)習(xí)框架,提供靈活、高效、易于學(xué)習(xí)的方式來實現(xiàn)深度學(xué)習(xí)模型。PyTorch最初由Facebook開發(fā),被廣泛應(yīng)用于機器視覺、自然語言處理、語音識別等各個領(lǐng)域。

        PyTorch的核心思想是使用張量(tensor)來表示數(shù)據(jù),這使得PyTorch可以輕松地處理大規(guī)模的數(shù)據(jù)集,并且可以在GPU上進行加速。

        四、解決方案設(shè)計

        (一)文本預(yù)處理

        文本預(yù)處理是指去除數(shù)字和符號則是為了減少噪聲干擾,保留有實際意義的詞語,主要包括三個步驟:

        1. 分詞,即將文本的序列重新組合,分解為以詞語為基本單位的序列。較常用的方法有基于詞典匹配或者基于統(tǒng)計和深度學(xué)習(xí)。

        2. 糾正拼寫錯誤,使用的主要算法和模型有Noisy Channel Model、貝葉斯。

        3. 停用詞的過濾,在進行NLP的應(yīng)用時,往往要把文本中的一些無關(guān)緊要的詞給去掉,如“啊”“了”“的”,這就是所謂的過濾停用詞。主要的方法是進行詞表匹配。

        (二)關(guān)鍵詞提取

        線上頭腦風(fēng)暴討論工具選用TF-IDF算法完成關(guān)鍵詞的提取工作。

        1. 計算TF

        TF-IDF算法中的詞頻(Term Frequency,TF)是指某一個特定詞匯在實際任務(wù)句子中出現(xiàn)的次數(shù)。TF通常會被歸一化,一般表示為選定詞匯的數(shù)量mdt與文本總詞匯數(shù)Md的商tfdt=mdt/Md。

        2. 計算IDF

        文本中存在很多對文本意思表達貢獻不大的詞匯,可以使用逆向文件頻率idft計算某特定詞匯在文本中的重要程度:idft = log(N/(nt+0.1))。其中N為句子總數(shù),nt為含有關(guān)鍵詞t的句子數(shù),idft式所表達的意義是:當(dāng)文本中每句話都包含某個特定詞匯時,N≈nt,idft計算結(jié)果接近0(nt加上0.1為防止分母為0),說明該詞匯不重要。

        3. 計算詞匯權(quán)重

        文本中某詞匯的TF-IDF權(quán)重可表示為:

        wdt=tfdt×idft

        綜上所述,權(quán)重wdt越大說明該詞匯在文本中越處于關(guān)鍵地位。

        4. 提取關(guān)鍵詞

        計算每個單詞的權(quán)重后,根據(jù)排序選擇關(guān)鍵詞。

        (三)文本精簡

        TextRank算法是將文本詞匯看作是圖的節(jié)點,利用句子間關(guān)系建立鄰接矩陣。根據(jù)目標(biāo)的不同,TextRank 可以實現(xiàn)關(guān)鍵詞提?。↘eyword Extraction)和關(guān)鍵句提?。⊿entence Extraction)兩類任務(wù)。TextRank 提取關(guān)鍵句,實現(xiàn)文本精簡的算法流程一般分為以下步驟:

        1. 構(gòu)建關(guān)鍵句圖

        明確任務(wù)目標(biāo),并將與任務(wù)相對應(yīng)的詞匯添加為圖的節(jié)點(vertice)。將詞匯間關(guān)系添加為圖中連接節(jié)點的邊(edge),可以是有向邊或無向邊,帶權(quán)重邊或無權(quán)重邊,完成鄰接矩陣的建立。

        2. 計算節(jié)點權(quán)重

        根據(jù)迭代公式,迭代計算各節(jié)點的權(quán)重,直至權(quán)重收斂。

        3. 提取關(guān)鍵句子

        根據(jù)最終得分對節(jié)點進行排序,根據(jù)排序結(jié)果提取top-k作為關(guān)鍵句。

        關(guān)鍵句提取任務(wù)中,鄰接矩陣考慮的是句子間的相似度。

        五、驗證實驗

        為驗證線上頭腦風(fēng)暴討論工具性能,設(shè)計如下實驗并進行結(jié)果分析:

        (一)準(zhǔn)備處理對象文本

        為測試前文所設(shè)計的文本關(guān)鍵詞提取、計數(shù)及精簡的效果,文章隨機選擇了如下新聞資訊作為處理對象文本:

        綠美廣東公共服務(wù)平臺上線發(fā)布會暨綠美廣東定向越野體驗賽活動在梅州舉辦?;顒訉Ⅲw育與綠美廣東建設(shè)相融合,傳承弘揚“岳山造林”精神,認真落實省委“1310”具體部署和實施“百千萬工程”的有關(guān)要求,正式上線綠美廣東公共服務(wù)平臺,發(fā)布了“6.30助力綠美廣東生態(tài)建設(shè)”公益募捐項目,進一步凝聚綠美廣東生態(tài)建設(shè)的強大力量。現(xiàn)場600多名綠美廣東定向越野活動參與者紛紛響應(yīng)號召,積極參與“6.30助力綠美廣東生態(tài)建設(shè)——我為家鄉(xiāng)添片綠”活動,積極認捐認養(yǎng),踐行愛綠植綠護綠,共建共享綠美廣東生態(tài)建設(shè)成果。

        活動由省農(nóng)業(yè)農(nóng)村廳、南方報業(yè)傳媒集團主辦,梅州市人民政府、省體育局、省林業(yè)局指導(dǎo),南方農(nóng)村報社、廣東省戶外運動協(xié)會承辦。

        活動舉辦地梅州客天下,曾經(jīng)是一處廢棄的采石場,通過堅持不懈的綠色改造,走出了一條綠水青山就是金山銀山的路子,如今的世界客都,青山環(huán)抱、綠水長流。

        (二)提取文本關(guān)鍵詞

        使用Python的jieba庫實現(xiàn)TF-IDF算法,提取文本中的關(guān)鍵詞。

        將對象文本賦值給text變量,之后調(diào)用extract_tags()函數(shù),函數(shù)代碼主要分為中文分詞、計算詞頻TF、計算IDF,以及將所有詞的值進行排序得到關(guān)鍵詞集合等四部分。將函數(shù)的topK參數(shù)設(shè)置為5,即表示提取關(guān)鍵詞數(shù)為5個。

        對其排名前五的關(guān)鍵詞進行提取,可以得到了以下五個詞:綠美、廣東、生態(tài)建設(shè)、活動、梅州。可以看到實驗結(jié)果符合預(yù)期。

        1. 詞頻統(tǒng)計

        構(gòu)造Python模塊進行文本處理,統(tǒng)計各個詞出現(xiàn)的次數(shù)。統(tǒng)計詞頻所需的文本數(shù)據(jù)比較龐大,可以選擇網(wǎng)上下載的垃圾短信數(shù)據(jù)集進行實驗,首先進行分詞處理并且去除停用詞,不同的是,在分詞之前先去除一些該數(shù)據(jù)集特有的干擾項,如呼叫號碼、日期以及url標(biāo)簽。使用Collection模型的Counter類來進行詞頻統(tǒng)計,最后會返回一個字典類型。用items()將其轉(zhuǎn)換為列表,然后用sort方法進行排序,最終進行詞頻統(tǒng)計,部分結(jié)果如下:“元”1255次,“中國移動”1199次,“助手”1020次,“流量”829次,“沖浪”819次。

        2. 文本精簡

        基于jieba庫構(gòu)造Python模塊實現(xiàn)對關(guān)鍵句的抽取,實現(xiàn)對鄰接矩陣的構(gòu)建,并且通過迭代計算各個節(jié)點的權(quán)重值。對節(jié)點的權(quán)值進行排序,抽取權(quán)重值排在前兩位的句子作為文本精簡結(jié)果。

        最后,抽取權(quán)值排名前二的句子作為文本摘要,結(jié)果如下:

        綠美廣東公共服務(wù)平臺上線發(fā)布會暨綠美廣東定向越野體驗賽活動在梅州舉辦?;顒訉Ⅲw育與綠美廣東建設(shè)相融合,傳承弘揚“岳山造林”精神,認真落實省委“1310”具體部署和實施“百千萬工程”的有關(guān)要求,正式上線綠美廣東公共服務(wù)平臺。

        實驗結(jié)果符合預(yù)期。

        六、結(jié)語

        在生產(chǎn)生活節(jié)奏不斷加快的背景下,文章對一款基于自然語言處理技術(shù)的線上討論工具開展研究,將頭腦風(fēng)暴的討論模式搬到線上,能夠有效避免頻繁召開線下會議造成的時間浪費,提高了工作效率。該網(wǎng)絡(luò)討論工具具有的推送關(guān)鍵詞以及精簡發(fā)言功能使用戶能夠更好地開展線上討論。

        參考文獻:

        [1] 李舟軍,范宇,吳賢杰. 面向自然語言處理的預(yù)訓(xùn)練技術(shù)研究綜述[J]. 計算機科學(xué),2020,47(03):162-173.

        [2] 趙京勝,宋夢雪,高祥,等. 自然語言處理中的文本表示研究[J]. 軟件學(xué)報,2022,33(01):102-128.

        [3] 王穎潔,朱久祺,汪祖民,等. 自然語言處理在文本情感分析領(lǐng)域應(yīng)用綜述[J]. 計算機應(yīng)用,2022,42(04):1011-1020.

        [4] 李曉芬,樊靜東,韓安東,等. 綠美廣東公共服務(wù)平臺上線[N]. 南方日報,2023-10-30(A01).

        猜你喜歡
        精簡頭腦風(fēng)暴
        頭腦對對碰
        頭腦對對碰
        頭腦對對碰
        頭腦對對碰
        時常精簡多余物品
        特別健康(2018年2期)2018-06-29 06:14:00
        一種面向應(yīng)用的流量監(jiān)測精簡架構(gòu)設(shè)計
        電子制作(2017年17期)2017-12-18 06:40:47
        《風(fēng)暴中奔跑的樹》
        散文詩(2017年12期)2017-08-23 16:07:44
        玩轉(zhuǎn)腦風(fēng)暴
        可怕的大風(fēng)暴
        搖籃(2016年13期)2016-02-28 20:53:17
        2015A/W暗黑風(fēng)暴來襲!
        Coco薇(2015年10期)2015-10-19 12:31:52
        亚洲精品在线国产精品| 成在线人视频免费视频| 婷婷激情五月综合在线观看| 日本小视频一区二区三区| 美女人妻中出日本人妻| 朋友的丰满人妻中文字幕| 天堂…在线最新版资源| 国产午夜福利片在线观看| 亚洲精品www久久久| 中文字幕+乱码+中文字幕无忧| 国产极品喷水视频| 99久久久69精品一区二区三区| 手机在线观看日韩不卡av| 香港台湾经典三级a视频| 国产三级在线观看免费| 国产av无码专区亚洲aⅴ| 日本免费播放一区二区| 人妻少妇被粗大爽视频| 天天做天天爱夜夜爽女人爽| 婷婷亚洲久悠悠色悠在线播放| 夫妇交换刺激做爰视频| 亚洲无AV码一区二区三区| h视频在线观看视频在线| 亚洲精品粉嫩美女一区| 国产成人精品久久一区二区三区| 日韩一线无码av毛片免费| 一二三四中文字幕日韩乱码| 亚洲精品一区二区在线免费观看| 国产毛多水多高潮高清| 国产内射999视频一区| 亚洲性无码av在线| 国产无卡视频在线观看| 亚洲精品成人无限看| 亚洲国产成人久久综合电影| 久久99精品这里精品动漫6| 日本不卡不二三区在线看 | 欧美性受xxxx白人性爽| 久热香蕉av在线爽青青| 日本一二三区在线视频观看 | 国产一区二区亚洲一区| 久久久精品中文字幕麻豆发布 |