亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)背景下文本語料預(yù)處理技術(shù)項(xiàng)目探析

        2021-01-02 22:22:35黃思緣吳佳怡
        科海故事博覽 2021年16期
        關(guān)鍵詞:文明用語屏蔽語料庫

        許 越 黃思緣 吳佳怡 顧 秦 王 絡(luò)

        (上海立信會(huì)計(jì)金融學(xué)院,上海 201209)

        1 項(xiàng)目價(jià)值和意義

        隨著人們生活水平的不斷提高,智能設(shè)備已經(jīng)逐漸成為了人們生活中的必需品,越來越多的人使用智能設(shè)備在網(wǎng)絡(luò)上通過各種軟件進(jìn)行線上社交活動(dòng),而在這個(gè)過程中,不可避免地會(huì)產(chǎn)生網(wǎng)絡(luò)不文明用語現(xiàn)象。軟件上的發(fā)布動(dòng)態(tài)、評(píng)論、轉(zhuǎn)發(fā)、聊天等功能給人們提供了一個(gè)更方便地進(jìn)行思想交流的平臺(tái)。但與此同時(shí),網(wǎng)絡(luò)的匿名性也導(dǎo)致了各類網(wǎng)絡(luò)不文明現(xiàn)象的頻發(fā)。言語上口無遮攔的攻擊謾罵對網(wǎng)絡(luò)環(huán)境和被攻擊者的心理都造成了極其惡劣的影響,對于攻擊者本人正確的思想道德培養(yǎng)也有一定的阻礙。[1]

        如今,國內(nèi)人工+機(jī)器的不文明用語審核方式雖已在一定程度上提升了識(shí)別效率,但仍無法趕上用戶創(chuàng)造網(wǎng)絡(luò)用語的速度,識(shí)別的準(zhǔn)確度難以得到提升。且目前的機(jī)器識(shí)別方式仍較死板,只能通過簡單的文本比對機(jī)械地識(shí)別出某個(gè)字或某個(gè)詞,不能聯(lián)系前后文本完整地識(shí)別出語句的準(zhǔn)確含義,因此有時(shí)會(huì)導(dǎo)致原本不存在不文明用語的文本被錯(cuò)誤地識(shí)別、屏蔽,給用戶的線上交流帶來一定困擾,也降低了用戶的軟件使用體驗(yàn)。而真正使用了不文明語言的文本也可能因?yàn)槭褂昧颂娲~而沒有被及時(shí)識(shí)別屏蔽,破壞了良好的網(wǎng)絡(luò)語言環(huán)境。本項(xiàng)目將通過文本預(yù)處理、建立語料庫、不文明用語庫等方式,使用相似性比較,聚類分析等文本挖掘技術(shù),實(shí)現(xiàn)對不文明用語更高速、更準(zhǔn)確的識(shí)別處理。

        本項(xiàng)目的意義可以體現(xiàn)在用戶、網(wǎng)絡(luò)平臺(tái)、社會(huì)及人工智能發(fā)展四個(gè)方面:首先,對用戶而言,本項(xiàng)目將通過對于不文明用語的及時(shí)識(shí)別和屏蔽,降低用戶在網(wǎng)絡(luò)上與其他用戶起沖突的可能性,也在一定程度上減輕了網(wǎng)絡(luò)不文明現(xiàn)象可能給被攻擊用戶造成的負(fù)面心理影響,同時(shí)能有效避免為防止踩中屏蔽詞只能使用替代詞進(jìn)行交流的情況,增強(qiáng)用戶的溝通效率,提升用戶的軟件使用體驗(yàn),為交流雙方提供一個(gè)更加健康的網(wǎng)絡(luò)環(huán)境;其次,對有用戶留言、評(píng)論、轉(zhuǎn)發(fā)等各類功能的網(wǎng)絡(luò)平臺(tái)而言,本項(xiàng)目能為其提供更高效的用戶留言管理方法和策略,創(chuàng)建良好的網(wǎng)絡(luò)語言環(huán)境,減少人工審核不文明用語的成本。同時(shí)也能為用戶創(chuàng)造一個(gè)更優(yōu)秀、更文明的線上交流平臺(tái),提升用戶的使用體驗(yàn),使得用戶愿意更頻繁地使用該平臺(tái)進(jìn)行線上交流,為平臺(tái)增加收益。本項(xiàng)目也能幫助平臺(tái)通過某一詞匯的提及度了解用戶對于某一話題的關(guān)注度,為網(wǎng)絡(luò)平臺(tái)業(yè)務(wù)開展和話題建設(shè)打下良好的基礎(chǔ)。增強(qiáng)平臺(tái)對網(wǎng)絡(luò)話題趨勢的掌握度,更清晰地了解用戶喜好,為軟件的功能提升提供方向,吸引更多用戶,最終達(dá)成良性循環(huán);再次,對社會(huì)而言,網(wǎng)絡(luò)肩負(fù)著引導(dǎo)輿論、成風(fēng)化人的職責(zé),使用文明規(guī)范的語言文字是傳承文明、傳播文化的基本要求。本項(xiàng)目能夠減少網(wǎng)絡(luò)上不文明用語的出現(xiàn)頻率,從而減少不文明用語對社會(huì)風(fēng)氣產(chǎn)生的不良影響。同時(shí),對于網(wǎng)絡(luò)上數(shù)量龐大的未成年用戶而言,一個(gè)文明和諧的網(wǎng)絡(luò)語言環(huán)境會(huì)對他們的身心健康發(fā)展起到良性引導(dǎo)的作用。也在一定程度上降低了線上的語言暴力給用戶的身心所帶來的危害;最后,對人工智能的發(fā)展而言,人工智能本就是在不斷學(xué)習(xí)中成長,通過對互聯(lián)網(wǎng)上大量的語言識(shí)別樣本進(jìn)行學(xué)習(xí)意味著能夠使人工智能更精確地識(shí)別出當(dāng)前文本的真實(shí)語義,甚至識(shí)別出帶有更強(qiáng)烈的情感色彩的調(diào)侃、諷刺等語氣的文本含義,避免錯(cuò)誤的識(shí)別屏蔽,達(dá)到優(yōu)化用戶體驗(yàn)的目的。提升人工智能在語言識(shí)別方面的成長進(jìn)度,為未來人工智能的發(fā)展打下基礎(chǔ)。

        2 項(xiàng)目設(shè)計(jì)

        2.1 研究對象與研究方法

        項(xiàng)目靈感來源于大一上學(xué)期我們在思想政治課上研究的課題——上海市大學(xué)生對于網(wǎng)絡(luò)道德的認(rèn)識(shí)。該研究通過向大學(xué)生發(fā)放紙質(zhì)問卷和電子問卷的方式進(jìn)行調(diào)查,采取簡單隨機(jī)抽樣的方式發(fā)放問卷。研究目的在于從整體上探究大學(xué)生對于網(wǎng)絡(luò)道德的認(rèn)知程度,從人們對于網(wǎng)絡(luò)持有的意識(shí)態(tài)度、網(wǎng)上行為規(guī)范、評(píng)價(jià)選擇等方面設(shè)計(jì)問卷。同時(shí),結(jié)合了校內(nèi)校外隨機(jī)采訪輔助前期調(diào)研,側(cè)重對訪問者在網(wǎng)上沖浪時(shí)對于不文明或具有煽動(dòng)性的言論的真實(shí)感受。同時(shí)請大學(xué)生對于制止網(wǎng)絡(luò)暴力給予適當(dāng)?shù)慕ㄗh。希望通過豐富的問卷內(nèi)容體現(xiàn)出大學(xué)生真實(shí)的心理狀態(tài),從而進(jìn)一步探究解決網(wǎng)絡(luò)暴力以及網(wǎng)絡(luò)不文明現(xiàn)象的有效手段。

        2.2 樣本的概況及分布

        本次研究在上海立信會(huì)計(jì)金融學(xué)院等學(xué)校共發(fā)放150 份紙質(zhì)調(diào)查問卷,有效問卷112 份。在性別比例上,參與調(diào)查的男生占20%,女生占80%。其中大一學(xué)生為本次研究著重調(diào)查的對象,占據(jù)80%。另外還有14.67%的大二學(xué)生,2.67%的大三學(xué)生和1.33%的大四學(xué)生參與了調(diào)查。

        2.3 理論綜述

        當(dāng)下,大學(xué)生是使用網(wǎng)絡(luò)最頻繁、耗時(shí)最多的社會(huì)群體之一。根據(jù)數(shù)據(jù)統(tǒng)計(jì),62.67%的大學(xué)生平均每天會(huì)花費(fèi)4 個(gè)小時(shí)以上的時(shí)間在網(wǎng)絡(luò)上,而在其中,有68%的大學(xué)生會(huì)把大部分時(shí)間花在社交媒體上,可見網(wǎng)上交流是大部分大學(xué)生必不可少的社交手段,如今常用的社交媒體包括在全國甚至全球關(guān)于娛樂休閑生活信息分享交流的平臺(tái)。通過數(shù)據(jù)顯示,82.67%和80%的大學(xué)生把微信和QQ 作為常用的社交軟件。此外,還有44%、10.67%和5.33%的大學(xué)生分別把微博、貼吧和直播網(wǎng)站這樣具有互動(dòng)性、透明性、公開性的網(wǎng)上交流平臺(tái)作為常用的社交軟件。其中的互動(dòng)性就體現(xiàn)在媒體會(huì)為那些看到信息的人提供自由評(píng)論的區(qū)域,讓他們發(fā)表看法,這樣的設(shè)計(jì)讓互不相識(shí)的人通過網(wǎng)絡(luò)建立起了聯(lián)系,為網(wǎng)上沖浪增添了許多樂趣。

        但是人們對待同一事物的看法不可能完全相同,有時(shí)候針對某個(gè)觀點(diǎn)難免會(huì)起紛爭。通過問卷調(diào)查的數(shù)據(jù),41.34%的大學(xué)生無法做到在閱讀完信息后理性地判斷內(nèi)容的真實(shí)性再轉(zhuǎn)發(fā)評(píng)論,從而導(dǎo)致某些不慎或者過激的言論成為擾亂網(wǎng)絡(luò)秩序的源頭,網(wǎng)絡(luò)暴力也由此而生。

        據(jù)調(diào)查,超過四分之一的大學(xué)生遭受過網(wǎng)絡(luò)暴力,其中有17.33%的大學(xué)生以個(gè)人行為代替報(bào)警或舉報(bào)維權(quán)進(jìn)行回?fù)?,?.33%的大學(xué)生只選擇默默忍受或不予理睬。可見對于網(wǎng)絡(luò)暴力的迫害,不是所有的大學(xué)生都能采用正確的渠道合理地進(jìn)行解決。有專家指出,網(wǎng)絡(luò)暴力會(huì)帶來道德綁架、輿論嘲諷、虛假信息和侵犯隱私四種危害。如果沒有有效的手段來治理網(wǎng)絡(luò)暴力,勢必會(huì)對大學(xué)生乃至所有網(wǎng)民產(chǎn)生嚴(yán)重的影響。

        為了營造和諧的網(wǎng)上交流環(huán)境,相關(guān)的平臺(tái)為用戶設(shè)置了舉報(bào)系統(tǒng)。當(dāng)讀者瀏覽到垃圾營銷、涉黃信息、人身攻擊、有害信息以及違法信息時(shí),可以按類型向平臺(tái)進(jìn)行投訴,平臺(tái)的工作人員也會(huì)馬上進(jìn)行反饋。

        針對這一點(diǎn),我們小組設(shè)計(jì)了相關(guān)問題來調(diào)查大學(xué)生是否能有效利用此類舉報(bào)系統(tǒng)。

        經(jīng)數(shù)據(jù)統(tǒng)計(jì),面對不良信息只有45.33%的大學(xué)生能夠理性地舉報(bào)所有他們認(rèn)為的不良信息,多數(shù)大學(xué)生只是看心情舉報(bào),少數(shù)則是不予理睬或是湊個(gè)熱鬧,這表明只有一半不到的大學(xué)生能有效利用平臺(tái)設(shè)置的舉報(bào)系統(tǒng)。大部分的大學(xué)生理應(yīng)具備識(shí)別網(wǎng)絡(luò)暴力的能力,但為什么這類系統(tǒng)不能被大學(xué)生完全利用到位?提出疑問后,我們緊接著就大學(xué)生面對網(wǎng)絡(luò)暴力所持有的態(tài)度展開調(diào)查。

        根據(jù)數(shù)據(jù)顯示,超過四分之一的大學(xué)生面對網(wǎng)絡(luò)暴力表示無所謂、看熱鬧或是低估了網(wǎng)絡(luò)暴力帶來的傷害。由此可見,從用戶角度來說,平臺(tái)設(shè)置的舉報(bào)系統(tǒng)一定程度上可以懲治發(fā)表不良言論的人,但還有一大批未能被舉報(bào)的用戶成為漏網(wǎng)之魚,同時(shí),仍有一部分人因?yàn)閷ΥW(wǎng)絡(luò)暴力的態(tài)度不同而未能及時(shí)制止使得事態(tài)惡化;從平臺(tái)自身來說,舉報(bào)系統(tǒng)的不完善同樣會(huì)讓部分用戶利用平臺(tái)的漏洞,不斷散播不良信息,這兩點(diǎn)讓網(wǎng)絡(luò)暴力的問題無法得到有效的根治。

        所以,為了打造更加文明的網(wǎng)絡(luò)環(huán)境,我們小組決定從用戶發(fā)布信息的源頭探究在信息發(fā)布欄里加入文本分析的技術(shù),通過文本預(yù)處理、建立語料庫、不文明用語庫等方式,使用相似性比較、聚類分析等文本挖掘技術(shù),對評(píng)論者發(fā)表的留言、評(píng)論進(jìn)行識(shí)別,提取文本特征,計(jì)算其與不文明用語語料的相似性。從而能夠相對快速、準(zhǔn)確地對用戶留言進(jìn)行及時(shí)的處理,識(shí)別其中的不文明用語并通過限制發(fā)文、信用打分等方式對留言者進(jìn)行標(biāo)識(shí)和評(píng)價(jià),從而起到一定的警告作用。

        3 項(xiàng)目方案

        3.1 項(xiàng)目的主要問題

        3.1.1 評(píng)論數(shù)據(jù)的收集以及數(shù)據(jù)的處理

        我們需要大量的數(shù)據(jù)建立屏蔽詞的語料庫與是否屏蔽的數(shù)據(jù)庫,首先要解決的是如何獲取大量真實(shí)可靠的清潔數(shù)據(jù),而數(shù)據(jù)的處理方式需要運(yùn)用大量實(shí)踐去建立初步模型決定采用的預(yù)處理方式,是本次項(xiàng)目的重難點(diǎn),需要我們運(yùn)用數(shù)據(jù)科學(xué)知識(shí)找到最有效的途徑。

        3.1.2 建立文明用語的語料庫

        為了實(shí)現(xiàn)屏蔽機(jī)制,我們需要將網(wǎng)絡(luò)上的各種語言分類為文明用語、不文明用語和侮辱性用語。因?yàn)閿?shù)據(jù)較為龐大且存在大量的俚語、隱晦語、網(wǎng)絡(luò)用語、符號(hào)等,如果要全面準(zhǔn)確地識(shí)別隱藏其中的不文明用語,需要合適的文本分析挖掘方法。

        3.1.3 網(wǎng)絡(luò)環(huán)境維護(hù)方案優(yōu)化策略

        在識(shí)別了是否需要屏蔽數(shù)據(jù)之后,我們需要采取一種相對合適的方式來優(yōu)化,例如直接屏蔽、將屏蔽部分的不文明用語替換成文明用語,并對用戶進(jìn)行警告,設(shè)置一定限度的禁言措施。但過度的警告措施會(huì)引起用戶反感,所以需要大量數(shù)據(jù)來確定措施的力度對用戶的影響,在維護(hù)網(wǎng)絡(luò)環(huán)境的同時(shí)最大程度地保證用戶對平臺(tái)的駐留。

        3.2 擬解決途徑

        3.2.1 數(shù)據(jù)的采集

        我們準(zhǔn)備選取當(dāng)下在大學(xué)生中較熱門的網(wǎng)站,比如微博、易班,在這些以評(píng)論作為主要交流方式的平臺(tái)上可以更簡單地獲取信息,且網(wǎng)站中較大的流量可以獲得更龐大的數(shù)據(jù),為之后建立數(shù)據(jù)庫和處理數(shù)據(jù)打下基礎(chǔ)。運(yùn)用爬蟲作為搜集數(shù)據(jù)的工具可以快速準(zhǔn)確地搜集到大量數(shù)據(jù),減少人工搜集的難度。

        3.2.2 數(shù)據(jù)預(yù)處理

        首先對于被爬取的數(shù)據(jù)需要過濾污染數(shù)據(jù),去除重復(fù)數(shù)據(jù),并去除無關(guān)消息,得到較為干凈的數(shù)據(jù)。中文語料數(shù)據(jù)大多為短文本或長文本。通過jieba 和HanLP 等較為簡單的中文分詞器與詞性注解的方式將較為長的文本分為我們需要的詞,運(yùn)用去停止詞、特征提取、TF-IDF 權(quán)值計(jì)算等方式,將文本留言轉(zhuǎn)化成數(shù)據(jù)向量,使用文本相似性計(jì)算,Logistic回歸分析等分析方法,將其與留言特征語料庫中的樣本數(shù)據(jù)進(jìn)行比較分析,從而識(shí)別出不文明用語。[2-3]基于Python的內(nèi)環(huán)境,可以運(yùn)用現(xiàn)階段我們在Python 上的學(xué)習(xí)經(jīng)驗(yàn)。

        3.2.3 文明語料庫的建立

        我們初步采用人工采集與數(shù)據(jù)分類的方式建立文明語料庫,采集了約500+的屏蔽詞。并使用線上問卷的形式向大學(xué)生群體征集希望被屏蔽的語料,通過數(shù)據(jù)查重的形式,將重復(fù)數(shù)據(jù)清除。

        3.2.4 網(wǎng)絡(luò)環(huán)境的維護(hù)以及優(yōu)化方案

        參考我們小組曾經(jīng)參與的“關(guān)于大學(xué)生網(wǎng)絡(luò)道德問題調(diào)查問卷”,將問卷面向的對象擴(kuò)展為群眾,了解不同年齡段人群對于不文明用語及當(dāng)下由網(wǎng)絡(luò)不文明現(xiàn)象引發(fā)的社會(huì)熱點(diǎn)的印象和看法,在此基礎(chǔ)上增加受訪者對于各類不文明用語的的容忍度與希望懲處的力度。在數(shù)據(jù)庫建立之后接受使用者增加新出現(xiàn)屏蔽詞,提高數(shù)據(jù)庫維護(hù)的效率,使之更人性化地維護(hù)網(wǎng)絡(luò)環(huán)境。除此之外我們希望可以通過詞意解析的方式,將屏蔽詞去除并替換成文明用語表達(dá)原有的意思。

        4 項(xiàng)目特色與創(chuàng)新點(diǎn)

        此項(xiàng)目是基于時(shí)下網(wǎng)絡(luò)暴力造成的抑郁癥和自殺的已成為熱點(diǎn)話題的案例,針對網(wǎng)絡(luò)環(huán)境凈化熱點(diǎn)問題采取的解決措施。進(jìn)入新世紀(jì)以來,互聯(lián)網(wǎng)帶給我們的生活和工作上的改變是以肉眼可見的速度持續(xù)增加的,由于互聯(lián)網(wǎng)的介入,工作效率越來越高、生活的便利性越來越大,但隨之而來的是互聯(lián)網(wǎng)不斷發(fā)展之下網(wǎng)絡(luò)環(huán)境的有待改善。隨著網(wǎng)絡(luò)用戶不斷增多,網(wǎng)絡(luò)上的不文明行為也逐漸增加,由此而導(dǎo)致的網(wǎng)絡(luò)暴力事件也屢見不鮮,希望能通過此項(xiàng)目阻止此類行為的發(fā)生,打造一個(gè)更文明的網(wǎng)絡(luò)交流環(huán)境。

        對大數(shù)據(jù)進(jìn)行科學(xué)研究,建立文明用語語料庫,活用專業(yè)技術(shù)。建立文明用語語料庫,針對大學(xué)生這個(gè)特殊群體,體現(xiàn)該年齡層用語特色,隨時(shí)更新導(dǎo)入網(wǎng)絡(luò)流行用語和游戲用語,從詞匯、短句應(yīng)用,語言習(xí)慣,措辭方面便捷有效地阻止不文明用語的出現(xiàn),并給出一定的預(yù)警和管理措施。

        猜你喜歡
        文明用語屏蔽語料庫
        把生活調(diào)成“屏蔽模式”
        好日子(2022年3期)2022-06-01 06:22:10
        文明用語 從我做起
        文明用語不離口
        文明用語
        《語料庫翻譯文體學(xué)》評(píng)介
        朋友圈被屏蔽,十二星座怎么看
        滿足CLASS A++屏蔽性能的MINI RG59集束電纜的研發(fā)
        電線電纜(2017年5期)2017-10-18 00:52:04
        把課文的優(yōu)美表達(dá)存進(jìn)語料庫
        幾乎最佳屏蔽二進(jìn)序列偶構(gòu)造方法
        我是文明小標(biāo)兵
        亚洲AV秘 无码一区二区久久| 无码ol丝袜高跟秘书在线观看| 蜜桃臀无码内射一区二区三区 | 禁止免费无码网站| 日韩国产自拍视频在线观看| 综合亚洲伊人午夜网| 国产成人av片在线观看| 国产亚洲精品A在线无码| 精品日韩av专区一区二区| 日韩精品中文一区二区三区在线| 亚洲va久久久噜噜噜久久男同| a毛片全部免费播放| 亚洲区一区二区中文字幕| 中文字字幕在线中文乱码解 | 九九99久久精品国产| 日韩欧美国产亚洲中文| 国产精品亚洲av一区二区三区 | 亚洲国产精品成人av在线不卡 | 少妇高潮太爽了在线视频| 依依成人精品视频在线观看 | 国产资源精品一区二区免费| 永久免费看黄在线观看| 亚洲国产成人精品无码区在线播放| 国产亚洲av综合人人澡精品| 亚洲一区二区三区av在线免费| 久久久精品少妇—二区| av无码一区二区三区| 国产精品亚洲成在人线| 亚洲精品国产福利在线观看| 男奸女永久免费视频网站| 亚洲春色在线视频| 国产精品三级一区二区按摩| 亚洲伊人伊成久久人综合| 亚洲av成人无码久久精品老人| 亚洲永久无码7777kkk| 久久国产精品免费一区六九堂| av免费资源在线观看| 国色天香精品一卡2卡3卡4| 久久免费大片| 青青草精品在线免费观看| 成人精品一区二区三区电影|