亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        HanLP:一觸即發(fā) 叩響自主創(chuàng)新之門

        2019-04-25 00:33:12張貝貝
        軟件和集成電路 2019年3期
        關(guān)鍵詞:警情語料庫機器

        張貝貝

        完全開源、自主研發(fā)、精度高、速度快、內(nèi)存省……如果將這些關(guān)鍵詞都集合在HanLP上會產(chǎn)生什么?

        2014年,還在攻讀日語本科的大快搜索高級研究員何晗一定沒想到,機緣巧合研發(fā)的一款中文分詞器,在隨后幾年中幾經(jīng)迭代,并在商用市場大放光彩。

        而看似是“無心插柳柳成蔭”的事情,卻凝聚著何晗對HanLP工匠式的錘煉。

        據(jù)介紹,HanLP是由一系列模型與算法組成的工具包,目標(biāo)是普及自然語言處理(NLP)在生產(chǎn)環(huán)境中的應(yīng)用。HanLP具備功能完善、性能高效、架構(gòu)清晰、語料時新、可自定義的特點;能提供詞法分析(中文分詞、詞性標(biāo)注、命名實體識別)、句法分析、文本分類和情感分析等功能。目前,HanLP已經(jīng)被廣泛用于Lucene、Solr、ElasticSearch、Hadoop、Android、Resin等平臺,有大量開源作者開發(fā)各種插件與拓展,并且被包裝或移植到Python、C#、R、JavaScript等語言上去。

        精誠所至 金石為開

        談及HanLP的開發(fā)過程,何晗回憶道,“那時我還在讀本科,當(dāng)時在上海某科技公司兼職實習(xí),公司想做全文檢索系統(tǒng),所以需要一款中文分詞器。我考察到市面上的開源工具要么來自學(xué)術(shù)界,不太重視運行性能,要么來自工業(yè)界,不太重視算法準(zhǔn)確率,于是我想做一款平衡速度和精度的分詞器?!?/p>

        不過萬事開頭難,何況對于非計算機專業(yè)的何晗來說,一切充滿著未知。因此,不可避免地遇到了許多難題。比如,相關(guān)論文中的術(shù)語從未接觸過、公式看不懂、別人的代碼沒有注釋之類。后來何晗自學(xué)了許多自然語言處理與機器學(xué)習(xí)的著作與課件,把能找到的開源代碼都研究了一遍,總算是窺得一些門道。

        據(jù)何晗介紹,HanLP第一個版本效率不高,后來大量采用雙數(shù)組trie樹和AC自動機進行優(yōu)化,甚至提出了結(jié)合兩種算法實現(xiàn)一個新數(shù)據(jù)結(jié)構(gòu),最終把效率做到了極致。在易用性方面,一直堅持“明文至上”的原則,許多模型都儲存為txt格式,在懂機器學(xué)習(xí)的人看來這是模型,在“小白”用戶看來這是詞典,大家能用得明白。

        隨著HanLP的基本成型,何晗也扣動了自主創(chuàng)新的大門。因為HanLP內(nèi)部的算法都是自主研發(fā)的,不依賴第三方類庫,這樣的好處是可以控制產(chǎn)品的所有細節(jié)。在大快搜索商用期間,HanLP又實現(xiàn)了更多模塊,版本迅速迭代到1.6。

        一觸即發(fā) 全線跟進

        如何形容HanLP的快速發(fā)展?從數(shù)據(jù)上來看,根據(jù)GitHub統(tǒng)計,HanLP是全球用戶量最大的自然語言處理工具包。而從演進的過程來看,何晗給出了這樣的總結(jié),“HanLP從單純的分詞器發(fā)展到目前功能較為完善的NLP工具包,是一個單點突破、全線跟進的模式?!?/p>

        眾所周知,分詞只是NLP的第一步,第一步涉及許多機器學(xué)習(xí)算法,將這些機器學(xué)習(xí)算法吃透了,其他功能都是這些機器學(xué)習(xí)算法的應(yīng)用層,可以說是手到擒來。

        何晗進一步談到,當(dāng)代的技術(shù)潮流是所謂的深度學(xué)習(xí),相較于深度學(xué)習(xí),HanLP目前主要由手工實現(xiàn)的傳統(tǒng)機器學(xué)習(xí)方法驅(qū)動,優(yōu)勢是適用于計算資源匱乏的場景,比如移動設(shè)備和VPS。但在2.0版本之后,HanLP將全線切換到深度學(xué)習(xí)驅(qū)動,并且主要開發(fā)語言將切換到Python?!爱吘惯@是時代的大勢所趨,另外NLP本來就是一種較高層次的技術(shù),當(dāng)語料庫和數(shù)據(jù)量增大時,對計算力或說顯卡的需求增長也是必然的。”

        現(xiàn)在HanLP由大快搜索公司主導(dǎo)開發(fā),普及了許多常用NLP技術(shù)在生產(chǎn)環(huán)境中的運用,普及了語料庫、雙數(shù)組trie樹、感知機等大量概念或技術(shù)的運用。代碼完全開源,目前在開源社區(qū)的用戶量第一,在GitHub上的收藏數(shù)量達到8000,遠超過其他同類型的知名工具,如斯坦福的CoreNLP、NLTK和哈爾濱工業(yè)大學(xué)的LTP等。

        此外,在NLP領(lǐng)域,HanLP采取算法與語料庫分離的模式,耗費人力成本的語料庫則形成了一種新的商業(yè)模式。針對不同的行業(yè)領(lǐng)域,客戶委托公司加工行業(yè)語料庫,使用HanLP在行業(yè)語料庫上訓(xùn)練模型,于是在該行業(yè)文本上的準(zhǔn)確率大幅提升。隨著公司積累語料庫越多,HanLP能適應(yīng)的領(lǐng)域也越多,勢必會形成一個有效的正反饋循環(huán)。

        走出國門 擁抱世界

        HanLP命名中的Han指的是漢語的漢,它從誕生開始就是面向中文處理而開發(fā)的。用HanLP處理包含簡體在內(nèi)的多種漢語言非常方便,這種漢語的復(fù)雜程度是外國人無法理解的。大快搜索公司內(nèi)部積累標(biāo)注的海量語料庫為HanLP的領(lǐng)域拓展提供了數(shù)據(jù)上的驅(qū)動力,使得HanLP還可以應(yīng)用于微博等社交網(wǎng)絡(luò)上的不規(guī)范文本。不僅限于中文,通過提供其他語種的語料庫,HanLP同樣可以支持任何語言。在2.0版本,HanLP將提供其他語種的模型,走出國門,擁抱世界。

        可以說,HanLP是中國的,也是世界的。它具備的競爭力足以讓這款技術(shù)產(chǎn)品的開發(fā)者有足夠的信心。HanLP目前的核心優(yōu)勢主要是性能和精度的平衡以及大規(guī)模語料庫。不同于市面上的競爭產(chǎn)品,HanLP內(nèi)部的數(shù)據(jù)結(jié)構(gòu)經(jīng)過精心優(yōu)化,分析速度達到數(shù)千萬字每秒,而內(nèi)存占用控制在100MB左右,這使得HanLP實用于包含移動設(shè)備在內(nèi)的幾乎所有場景。此外,值得強調(diào)的是,HanLP代碼完全開源,功能由一個jar包提供,在本地運行不訪問云,用戶的隱私數(shù)據(jù)得到了保障。

        如果用戶需要處理不通用的領(lǐng)域行業(yè)文本,還可以通過標(biāo)注行業(yè)語料庫訓(xùn)練行業(yè)模型的方法進行拓展,設(shè)計上比那些商業(yè)產(chǎn)品更靈活。

        談到商業(yè)市場的應(yīng)用,HanLP如何與具體業(yè)務(wù)結(jié)合發(fā)揮應(yīng)用的價值呢?對此,何晗談道,在搜索領(lǐng)域,可以利用插件與Lucene、Solr和ES等常見搜索引擎結(jié)合。在大數(shù)據(jù)領(lǐng)域,可以輕松集成到Hadoop中。在數(shù)據(jù)科學(xué)領(lǐng)域,HanLP還提供了Python語言接口pyhanlp。

        敢問路在何方

        從創(chuàng)新性上來看,HanLP無疑是走在了前面。作為首個面向生產(chǎn)環(huán)境的自然語言處理工具包,不依賴第三方庫,全部算法自主編寫。獨特的IO緩存機制,啟動時間控制在毫秒級,基于Aho Corasick自動機的雙數(shù)組trie樹將分析速度提升到千萬字符每秒。特殊的特征裁剪算法,可以顯著降低模型的內(nèi)存占用、提升運行效率。面向機器學(xué)習(xí)的API設(shè)計,所有模塊提供訓(xùn)練接口,顯著區(qū)別于商業(yè)軟件。

        未來看,HanLP的發(fā)展方向在技術(shù)上是邁向深度學(xué)習(xí),在語言上是切換到Python。因為目前最精準(zhǔn)的機器學(xué)習(xí)框架就是深度學(xué)習(xí),自然語言處理也不例外。另外,在發(fā)達國家,Python用戶數(shù)量已經(jīng)超過了Java,北美學(xué)校已經(jīng)廣泛采用Python教授數(shù)據(jù)科學(xué)相關(guān)課程。

        當(dāng)然,HanLP未來的路還有很長,需要何晗繼續(xù)秉承精益求精的精神不斷錘煉,需要大快搜索主導(dǎo)的研發(fā)和應(yīng)用更上一層樓。但何晗更希望,整個IT市場,應(yīng)該多鼓勵自主研發(fā)的核心技術(shù),少包裝集成。多招用數(shù)學(xué)功底好、肯鉆研的技術(shù)工程師,少招急功近利的程序員。

        也許正是這樣的家國情懷和工匠精神才讓何晗和他所研發(fā)的HanLP如此有魅力。

        采訪實錄

        Q:中國大數(shù)據(jù)產(chǎn)業(yè)生態(tài)聯(lián)盟、《軟件和集成電路》雜志社

        A: 大快搜索高級研究員何晗

        Q:如何更加深刻而形象地理解自然語言處理?

        A:事實上自然語言處理是基于機器學(xué)習(xí)技術(shù)的應(yīng)用層,而機器學(xué)習(xí)是人教機器去做一些智能的事情。這個時候人就必須得提供給機器一些習(xí)題集,相當(dāng)于提供給它一些數(shù)據(jù),這些數(shù)據(jù)是人工給它標(biāo)注好的。所謂的標(biāo)注就是你把這些數(shù)據(jù)正確的答案,附在后面。把整個數(shù)據(jù)、答案作為習(xí)題集教給機器,機器學(xué)習(xí)就會做一下題,然后對一下答案。如果你沒有給它答案的話,那個機器它只做題,它不知道正確答案是什么。把數(shù)據(jù)的答案人工地找出來,或者人工地標(biāo)上去就叫做標(biāo)注。那么在自然語言處理里面,我們就希望把一些文本要素標(biāo)注出來,比如說一句話正確的單詞序列、一些單詞的正確詞性,或者一段文本里面涉及的公司名稱、人名、地名有哪些等都得標(biāo)好。機器學(xué)習(xí)完得到的模型就相當(dāng)于一個知識庫。有了這個知識庫之后,機器就可以對于未知的、而不限于你已經(jīng)給它的文檔進行分析。

        如果更加形象的來說,就相當(dāng)于你有一個孩子,你給他準(zhǔn)備了一些題目和一些參考答案,你把完整的這個習(xí)題集給他。他做完之后,他就可以參加考試了,但考試的那些題目并不一定就是習(xí)題集里面有的,它可以有未知的,然后你的孩子也可以智能地去做這些題目。

        這是一個比較重要的概念,很多人誤以為大數(shù)據(jù)就是我生產(chǎn)系統(tǒng)里面積累了很多歷史的數(shù)據(jù),然后機器馬上就可以智能的去處理了。實際上并不是,你必須有一個人工標(biāo)注的過程,你只給孩子做題,不給他參考答案,你的孩子是永遠學(xué)習(xí)不好的。

        Q:大快搜索在人工標(biāo)注方面做了哪些嘗試和努力?

        A:人工標(biāo)注是一個很重要的環(huán)節(jié),大快搜索也投入了非常多的精力在做人工標(biāo)注的配套系統(tǒng)。目前,我們已經(jīng)做出來一種產(chǎn)品,就是有一個友好的web界面,里面會存放一些沒有標(biāo)注的文檔,我們會請一些專業(yè)的標(biāo)注員,利用計算機就可以輕松地把這些文本標(biāo)注成機器可以理解的形式,然后再把這些標(biāo)注好的文檔教給機器學(xué)習(xí)??梢哉f,人工標(biāo)注得越多,自然語言處理的精度就會越高,由此也逐漸形成了一種產(chǎn)業(yè)模式。

        Q:HanLP2.0具體的特點和轉(zhuǎn)變有哪些?

        A:HanLP2.0的第一個明顯的特點是從底層算法的一種轉(zhuǎn)變,即從傳統(tǒng)的機器學(xué)習(xí)到深度學(xué)習(xí)、到神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的一個轉(zhuǎn)變。第二個特征是編程語言上面的轉(zhuǎn)變,現(xiàn)在的版本是用Java來做的,但是事實上Java在數(shù)據(jù)科學(xué)這個領(lǐng)域上面是稍微有一些落后的。北美的很多大學(xué),在教數(shù)據(jù)挖掘、數(shù)據(jù)專業(yè)的時候并不會用Java來教,而是用Python來教。像深度學(xué)習(xí)的領(lǐng)域也是被Python這門語言壟斷了,所以說到HanLP2.0的時候,HanLP會主要用Python來實現(xiàn),同時提供其他編程語言的API接口,這是第二個非常不同的地方。第三個特點涉及語種的問題,HanLP目前的版本是只從漢語這一語種出發(fā),是有一些局限性的,事實上HanLP用的技術(shù),完全是可以用于其他任何語種的。所以在2.0的時候,HanLP會把這個語種做成一種配置,相當(dāng)于你給我什么語種的習(xí)題集,HanLP就能處理什么語種。目前看,至少會有這三個最核心的特點和變化。

        Q:如何看待當(dāng)前人工智能的發(fā)展?

        A:個人認為,現(xiàn)在大眾理解的人工智能的發(fā)展離實際情況太遙遠了,或者說可能是很久之后的人工智能的發(fā)展?fàn)顟B(tài)?,F(xiàn)在的這個人工智能的狀態(tài),就是人們用一些經(jīng)驗數(shù)據(jù),一些標(biāo)注好的數(shù)據(jù)去教機器,而不是機器從概念上理解數(shù)據(jù)的本質(zhì),那個太遙遠,像科幻一樣,不是本世紀(jì)關(guān)注的事情。

        因此,目前人工智能的市場會有一些泡沫在里面,一些非專業(yè)媒體或普通的傳統(tǒng)行業(yè)客戶對當(dāng)前的形勢估計過于樂觀。無論是從學(xué)術(shù)研究還是實際的發(fā)展情況來看,當(dāng)前人工智能的發(fā)展是遠遠低于大眾的預(yù)期的,有大量的學(xué)者和研究者都在很嚴(yán)肅地對待這個問題。也就是說整體還處于弱人工智能狀態(tài)。

        行業(yè)應(yīng)用案例

        案例名稱:某市刑偵語義搜索系統(tǒng)

        核心特點:

        自動分析警情要素

        自動分析警情要素是指輸入非結(jié)構(gòu)化的報警記錄時,系統(tǒng)能夠自動提取出“何時(時間)、何地(地點)、何事(事情)、何物(作案工具)、何情(作案情形)、何故(動機目的)、何人(嫌疑人)”7種要素。并利用我們開發(fā)的標(biāo)注系統(tǒng),將這些要素視作命名實體,訓(xùn)練統(tǒng)計模型。在標(biāo)注的過程中增量地訓(xùn)練模型,降低標(biāo)注成本的同時,提高了分析識別的準(zhǔn)確率。將大量的、枯燥的文字記錄分析工作交給機器,將警務(wù)人員從傳統(tǒng)的記錄篩選任務(wù)中解脫出來,系統(tǒng)自動探測跟蹤并觸發(fā)報警,警務(wù)人員只需要進行記錄查看,確認警情并聯(lián)絡(luò)相關(guān)部門采取措施。

        智能判斷出警建議

        系統(tǒng)通過文本分類技術(shù)進行警情預(yù)分析,首先完成對案件的性質(zhì)判斷,并將其歸檔到數(shù)據(jù)庫。系統(tǒng)通過詞頻特征選擇進行分類,結(jié)合詞條在分類內(nèi)部出現(xiàn)的概率和類別內(nèi)部文檔中出現(xiàn)概率,以一種詞分布均衡度評價特征詞選擇方法,作為信息抽取的基礎(chǔ)和關(guān)鍵步驟。再根據(jù)數(shù)據(jù)庫中的歷史接警級別,以及用戶設(shè)置的出警規(guī)則,提供相應(yīng)預(yù)判。通過對模型的不斷優(yōu)化調(diào)整,得到最優(yōu)的預(yù)測模型,實現(xiàn)了對每種警情的準(zhǔn)確判斷與智能建議。

        警情結(jié)果可視化展示

        將歷史警情匯總并分門別類地可視化展示,提供包括時間、地域、類別、等級等全方位的檢索接口,便于工作人員直觀地獲取歷史信息,從而有針對性地布置警力。

        應(yīng)用解讀:

        刑事案件數(shù)據(jù)主要由辦案過程中積累下來各類案件、涉案人員等信息以及報警信息組成,這些信息由于數(shù)據(jù)采集來自不同的設(shè)備、數(shù)據(jù)的發(fā)布或維護機構(gòu)不同、存儲介質(zhì)多樣,造成數(shù)據(jù)類型不一、模式復(fù)雜多變、組織混亂、重復(fù)等特點,使得在刑偵案件偵破過程中,信息獲取過程繁瑣,難以適應(yīng)高速緊張的工作需要。如何利用有限的精力,迅速完成警情分析、出警預(yù)判、信息整理成為了現(xiàn)代化刑偵必須解決的問題。

        該系統(tǒng)能夠根據(jù)歷史接警記錄,自動標(biāo)注案發(fā)地址、時間、作案工具和損失財務(wù)等警情要素。結(jié)合過往出警記錄,判斷警情等級并給出相應(yīng)建議。這大幅縮短了工作人員錄入檔案的時間,降低了高峰時期的人力負載,甚至為領(lǐng)導(dǎo)的宏觀分析提供了信息來源。

        應(yīng)用價值:

        該系統(tǒng)采用了大量的機器學(xué)習(xí)與自然語言處理驅(qū)動技術(shù),構(gòu)建了準(zhǔn)確的分析模型與全方位的展示界面,為警務(wù)管理提供了新的敏捷性與準(zhǔn)確性。使用語義檢索代替了傳統(tǒng)的關(guān)鍵字檢索,有機地整合了警情信息,精確地提供了出警建議。自動化了接警流程,縮短了出警時滯,提供了智能化的預(yù)判建議。

        從學(xué)術(shù)角度出發(fā),該系統(tǒng)以模式多變、格式迥異的文檔為輸入,以結(jié)構(gòu)化的案件事實為輸出,在刑偵數(shù)據(jù)處理領(lǐng)域?qū)δP万?qū)動的案件抽取進行了初步的研究和有意義的探索。保證輸出案件事實的前提下,同時存儲了抽取的中間結(jié)果,為指代消歧、案件事實融合等后續(xù)研究工作奠定了基礎(chǔ)。

        猜你喜歡
        警情語料庫機器
        機器狗
        機器狗
        《語料庫翻譯文體學(xué)》評介
        未來機器城
        電影(2018年8期)2018-09-21 08:00:06
        不能吃的餃子
        派出所工作(2017年9期)2017-05-30 10:48:04
        “霉神”彥哥
        派出所工作(2017年9期)2017-05-30 10:48:04
        警情多,賴別人的嘴?
        派出所工作(2017年9期)2017-05-30 10:48:04
        把課文的優(yōu)美表達存進語料庫
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        無敵機器蛛
        人妻丰满av无码中文字幕| 久九九久视频精品网站| 精品国产一区二区三区免费| 日本三级欧美三级人妇视频| 国产视频在线一区二区三区四区| 国产一区二区三区资源在线观看| 蜜臀久久久精品国产亚洲av| 男男啪啪激烈高潮无遮挡网站网址 | 亚洲一区二区三区av在线免费| 能看的网站中文字幕不卡av| 日本一区二区高清精品| 日本污ww视频网站| 亚洲av无码国产精品色午夜洪| 中年人妻丰满AV无码久久不卡| 亚洲中文字幕黄色小视频| 人妻蜜桃日产一本久道综合在线| 青青草视频华人绿色在线 | 亚洲国产精品成人无码区| 91视频爱爱| 国产一区二区三区日韩精品| 日韩美女人妻一区二区三区| 国产不卡视频在线观看| 成熟丰满熟妇av无码区| 久久婷婷成人综合色| 国产91一区二这在线播放| 免费看黄在线永久观看| 中文字幕亚洲一区二区不下| 成人aaa片一区国产精品| 先锋影音av资源我色资源| 久久久精品亚洲懂色av| 中文字幕一区二区三区四区| 国产精品无码一区二区在线观一| 国产人妻无码一区二区三区免费| 亚洲日本国产乱码va在线观看| 国产伦理一区二区久久精品| 天天做天天爱夜夜爽毛片毛片| 亚洲 精品 综合 精品 自拍| 免费无码av片在线观看 | 无码人妻一区二区三区免费| 亚洲又黄又大又爽毛片| 少妇太爽了在线观看免费 |