亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        新一代信息技術(shù)產(chǎn)業(yè)專利數(shù)據(jù)挖掘與分析

        2022-10-18 07:11:18劉連政
        合作經(jīng)濟(jì)與科技 2022年22期
        關(guān)鍵詞:數(shù)據(jù)挖掘主體信息技術(shù)

        □文/笪 偉 夏 麗 劉連政

        (南京市知識(shí)產(chǎn)權(quán)保護(hù)中心 江蘇·南京)

        [提要]本文剖析新一代信息技術(shù)產(chǎn)業(yè)領(lǐng)域的創(chuàng)新特點(diǎn)以及專利信息挖掘過程,通過專利申請(qǐng)數(shù)據(jù)挖掘?qū)嵗?,?gòu)建數(shù)據(jù)模型,分析數(shù)據(jù)預(yù)處理、挖掘手段或方法選取、模型構(gòu)建、優(yōu)化與應(yīng)用等方面的主要關(guān)注點(diǎn)。通過在實(shí)例中采用聚類分析算法,闡述所構(gòu)建的模型優(yōu)化以及模型評(píng)價(jià)等因素與輸出分析結(jié)果的影響,以便為研究人員在相關(guān)領(lǐng)域內(nèi)對(duì)于海量數(shù)據(jù)信息的挖掘、分析與利用提供思路,尤其是在專利信息的挖掘模式、維度以及趨勢(shì)分析等方面提供參考。

        一、新一代信息技術(shù)產(chǎn)業(yè)領(lǐng)域創(chuàng)新特點(diǎn)

        近幾年,在國(guó)家層面以及地方層面對(duì)于戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展與深耕拓展的形勢(shì)下,我國(guó)的新一代信息技術(shù)產(chǎn)業(yè)得到了較快的發(fā)展,包含下一代信息網(wǎng)絡(luò)產(chǎn)業(yè)、電子核心產(chǎn)業(yè)、新興軟件和新型信息技術(shù)服務(wù)、互聯(lián)網(wǎng)與云計(jì)算、大數(shù)據(jù)服務(wù)、人工智能五部分,產(chǎn)業(yè)鏈的上下游生態(tài)也得到穩(wěn)步推進(jìn),逐步形成政府與政策引導(dǎo)、產(chǎn)業(yè)融合、創(chuàng)新成果產(chǎn)出與落地的發(fā)展新格局。發(fā)展至今,新一代信息技術(shù)產(chǎn)業(yè)領(lǐng)域的多個(gè)層面基本具有以下幾點(diǎn)共性,這也是與其他領(lǐng)域存在明顯區(qū)別的特點(diǎn):

        (一)技術(shù)更新或升級(jí)的節(jié)奏較快。新一代信息技術(shù)發(fā)展具有技術(shù)更新或者升級(jí)的節(jié)奏較快等特點(diǎn),而且如今各行業(yè)的信息化發(fā)展已趨向規(guī)?;⑾到y(tǒng)化,使得新一代信息技術(shù)領(lǐng)域的相關(guān)技術(shù)推進(jìn)與其他眾多行業(yè)發(fā)展發(fā)生交叉,產(chǎn)生較為緊密的聯(lián)系,因而在面向新一代信息技術(shù)產(chǎn)業(yè)領(lǐng)域的專利信息數(shù)據(jù)挖掘時(shí),可著重關(guān)注專利申請(qǐng)趨勢(shì)、技術(shù)生命周期以及趨勢(shì)預(yù)測(cè)這幾個(gè)方面對(duì)于細(xì)粒度挖掘與分析的要求。

        (二)應(yīng)用場(chǎng)景或者用戶需求的變化所產(chǎn)生的直接影響。綜合近些年新一代信息技術(shù)產(chǎn)業(yè)的發(fā)展情況,較多的是應(yīng)用場(chǎng)景的變化或者用戶需求的變化催化了創(chuàng)新成果或者創(chuàng)新模式的生成。例如,下一代信息網(wǎng)絡(luò)部分的新一代移動(dòng)通信技術(shù),從4G-LTE通信技術(shù)至5G通信技術(shù),再到后續(xù)的6G通信技術(shù)研究等,直接使得應(yīng)用的場(chǎng)景發(fā)生較大的變化,更為高速、穩(wěn)定的數(shù)據(jù)流交互改變了人們?nèi)粘9ぷ髋c生活的溝通聯(lián)系方式以及市場(chǎng)與行業(yè)的進(jìn)一步細(xì)分和相關(guān)技術(shù)演進(jìn)。因而,在面向該領(lǐng)域的專利信息數(shù)據(jù)挖掘時(shí),應(yīng)用場(chǎng)景或用戶需求的變化趨勢(shì)等成為數(shù)據(jù)挖掘與分析的一個(gè)參考維度。

        (三)下一步發(fā)展的不確定性。目前來看,我們只能初步看到技術(shù)發(fā)展的整體趨勢(shì),而對(duì)于具體在何種細(xì)分領(lǐng)域、何種應(yīng)用或場(chǎng)景得到顯著的發(fā)展與探索并不是很清楚,也就是新一代信息技術(shù)產(chǎn)業(yè)的后續(xù)發(fā)展存在不確定性。例如,區(qū)塊鏈相關(guān)技術(shù)的發(fā)展,早期從20世紀(jì)90年代開始就有相關(guān)研究,并且早期是“區(qū)塊+鏈”的初始形態(tài),但在近些年演進(jìn)成區(qū)塊鏈的形態(tài),才成為研究與風(fēng)險(xiǎn)投資的一個(gè)熱點(diǎn),雖然現(xiàn)在很多人在這方面看到了潛力與潛在利益,但從目前的發(fā)展來看,其還是缺乏較為成熟的、整體的實(shí)踐。因而在面向該領(lǐng)域的專利信息的數(shù)據(jù)挖掘時(shí),如何進(jìn)行后續(xù)發(fā)展的趨勢(shì)分析與預(yù)測(cè)、相關(guān)決策支撐等也成為研究關(guān)注點(diǎn)。

        二、面向新一代信息技術(shù)產(chǎn)業(yè)領(lǐng)域的專利數(shù)據(jù)挖掘

        (一)數(shù)據(jù)挖掘特點(diǎn)剖析。數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中的信息的過程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。

        發(fā)展至今,各個(gè)行業(yè)的信息化之類的系統(tǒng)已經(jīng)具有了眾多的數(shù)據(jù)信息,特別是在新一代信息技術(shù)產(chǎn)業(yè)領(lǐng)域,本身就是在構(gòu)建眾多基礎(chǔ)信息數(shù)據(jù)流的基礎(chǔ)上進(jìn)行各個(gè)細(xì)分場(chǎng)景層面的相關(guān)處理、分析、拓展與延伸等工作,面對(duì)這些海量的數(shù)據(jù)信息,如何進(jìn)行更為有效的處理與使用已然成為現(xiàn)今的一個(gè)熱門研究點(diǎn)。這里的處理與使用所采取的手段主要包括:海量數(shù)據(jù)信息的統(tǒng)計(jì)、分析、利用以及決策。當(dāng)然,在數(shù)據(jù)挖掘過程中,也是存在目的性的,構(gòu)建較為明確的數(shù)據(jù)挖掘目標(biāo),使得人們從海量的數(shù)據(jù)信息中進(jìn)行數(shù)據(jù)信息的提取、分揀、歸類,挖掘出隱含的有用數(shù)據(jù)信息,為支撐相關(guān)決策提供研究與處理的方向。對(duì)于數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用則成為一個(gè)重要的抓手。數(shù)據(jù)挖掘主要有以下幾個(gè)特點(diǎn):

        一是隱含性。數(shù)據(jù)挖掘就是要從海量的、存在噪聲的數(shù)據(jù)信息中提取隱含的知識(shí)信息,發(fā)現(xiàn)或者挖掘存在于其中的、人們事先并不具體了解的、潛在的有用信息以及知識(shí),而不是常規(guī)的處理,如從數(shù)據(jù)表象層面通過一些BI工具即可獲得一些信息的過程。

        二是交叉性。數(shù)據(jù)挖掘是一門交叉學(xué)科,其與人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)計(jì)算和數(shù)理統(tǒng)計(jì)等學(xué)科領(lǐng)域交叉,它將對(duì)數(shù)據(jù)信息的應(yīng)用從簡(jiǎn)單的查詢、統(tǒng)計(jì)等基本處理操作直接轉(zhuǎn)變?yōu)閺暮A繑?shù)據(jù)信息中挖掘、搜索、發(fā)現(xiàn)隱藏于其中的有著特殊關(guān)聯(lián)的知識(shí)信息。當(dāng)然,所發(fā)現(xiàn)的知識(shí)信息也是相對(duì)的,在不同領(lǐng)域、不同前提以及不同約束條件的場(chǎng)景中所獲取的知識(shí)信息也存在一定的差異,能夠發(fā)現(xiàn)潛在的有效知識(shí)信息或者挖掘出內(nèi)在的聯(lián)系,有助于提供或者輔助更深層次的決策支持。

        三是價(jià)值性。在早期,由于計(jì)算能力以及不同行業(yè)或領(lǐng)域的業(yè)務(wù)數(shù)據(jù)的運(yùn)行、生成與互聯(lián)電子化的局限性,對(duì)于海量的數(shù)據(jù)信息,人們并沒有進(jìn)行深入的數(shù)據(jù)挖掘研究,大多數(shù)的數(shù)據(jù)處理止步于海量數(shù)據(jù)信息的深層次分析與挖掘?,F(xiàn)在,通過數(shù)據(jù)挖掘?yàn)槠髽I(yè)提供有價(jià)值的知識(shí)信息,進(jìn)而獲取直接或者間接利益、業(yè)界優(yōu)勢(shì),為商業(yè)決策或部署提供支撐,已然成為一個(gè)重要的手段。對(duì)海量的數(shù)據(jù)信息進(jìn)行深層次的分析,有助于挖掘、發(fā)現(xiàn)商業(yè)發(fā)展以及市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì)等方面的有用的知識(shí)信息。

        (二)專利信息的挖掘。通過專利信息的挖掘,能夠幫助人們對(duì)專利文獻(xiàn)、相關(guān)的技術(shù)特征信息、法律信息、潛在的技術(shù)價(jià)值信息以及市場(chǎng)價(jià)值信息進(jìn)行更深層次的、顯性化的信息提取與研究,不管是專利技術(shù)層面上對(duì)于技術(shù)創(chuàng)新發(fā)展以及相關(guān)領(lǐng)域技術(shù)演進(jìn)趨勢(shì),還是專利價(jià)值層面上對(duì)于市場(chǎng)價(jià)值與技術(shù)價(jià)值的權(quán)衡以及后續(xù)發(fā)展決策的支撐,能夠在創(chuàng)新主體的創(chuàng)新成果研發(fā)、專利布局、專利風(fēng)險(xiǎn)規(guī)避以及創(chuàng)新或發(fā)展決策過程中發(fā)揮重要作用。

        一般來說,有關(guān)專利信息的挖掘存在兩種詮釋。第一種詮釋主要是指對(duì)貫穿檢索、分析、專利數(shù)據(jù)與文本挖掘等過程進(jìn)行挖掘與研究,目的就是挖掘、發(fā)現(xiàn)并處理有用的專利信息,進(jìn)而在這些有用信息的基礎(chǔ)上進(jìn)行更深層次的應(yīng)用研究、輔助決策或趨勢(shì)預(yù)測(cè)等工作。第二種詮釋主要對(duì)專利數(shù)據(jù)以及專利文本兩個(gè)方面進(jìn)行挖掘與研究,其中專利數(shù)據(jù)挖掘主要是對(duì)專利基礎(chǔ)數(shù)據(jù)進(jìn)行處理,通過數(shù)據(jù)挖掘方法獲取專利共現(xiàn)、共引或共類、時(shí)間序列和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)等方面的研究成果;專利文本挖掘則是對(duì)專利文件的字段進(jìn)行分析與研究,例如權(quán)利要求中涉及技術(shù)特征的字段,通過文本挖掘的方法獲取專利分類、聚類等方面的研究成果。

        結(jié)合前述新一代信息技術(shù)產(chǎn)業(yè)領(lǐng)域的特點(diǎn)以及專利信息挖掘的主要內(nèi)容,本文面向新一代信息技術(shù)產(chǎn)業(yè)領(lǐng)域,進(jìn)行相關(guān)專利申請(qǐng)案件信息的數(shù)據(jù)挖掘與分析。

        (三)專利信息挖掘的驅(qū)動(dòng)分析?,F(xiàn)今,常見的專利信息挖掘方向主要由目標(biāo)驅(qū)動(dòng)以及技術(shù)驅(qū)動(dòng)兩個(gè)層面初步確立,具體分析如下。

        1、目標(biāo)驅(qū)動(dòng)層面。一是以現(xiàn)有技術(shù)與主要競(jìng)爭(zhēng)對(duì)手的專利布局為基礎(chǔ)進(jìn)行專利信息的挖掘。得益于知識(shí)產(chǎn)權(quán)的相關(guān)法規(guī)與制度的發(fā)展和完善,以及市場(chǎng)不斷向前發(fā)展乃至創(chuàng)新的特性,本領(lǐng)域的技術(shù)人員能夠獲取并研究本領(lǐng)域相關(guān)的、較為先進(jìn)的公開技術(shù)以及主要競(jìng)爭(zhēng)對(duì)手的專利布局情況,從而進(jìn)行相關(guān)技術(shù)的改進(jìn)與創(chuàng)新,挖掘出有價(jià)值的潛在技術(shù)點(diǎn)或創(chuàng)新點(diǎn),逐步構(gòu)建具有法律保護(hù)意義的專利內(nèi)容,以明確后續(xù)發(fā)展、風(fēng)險(xiǎn)防范與技術(shù)創(chuàng)新的決策路線。二是以變化的需求為基礎(chǔ)進(jìn)行專利信息的挖掘,這里的需求主要有市場(chǎng)需求、用戶需求、場(chǎng)景或引用需求以及其他相關(guān)領(lǐng)域技術(shù)或發(fā)展模式的變化產(chǎn)生關(guān)聯(lián)性驅(qū)動(dòng),催化對(duì)專利信息的更深層次的挖掘。三是以本身開展的項(xiàng)目研究為基礎(chǔ)進(jìn)行專利信息的挖掘。綜合前述兩個(gè)方面的內(nèi)容,主動(dòng)開展項(xiàng)目研究以及專利信息的挖掘,這兩部分工作同時(shí)開展,在本身開展的各個(gè)項(xiàng)目研發(fā)的節(jié)點(diǎn)同步進(jìn)行相關(guān)信息的挖掘,也就是說,挖掘的工作研發(fā)項(xiàng)目的生命周期息息相關(guān),在項(xiàng)目驗(yàn)收之后,也需綜合本身的專利布局體系進(jìn)行各階段的專利申請(qǐng)或布局體系的完善,以實(shí)現(xiàn)對(duì)自身創(chuàng)新成果的保護(hù),穩(wěn)固或提升市場(chǎng)優(yōu)勢(shì)地位以及風(fēng)險(xiǎn)防范力。

        2、技術(shù)驅(qū)動(dòng)層面。這一層面直接體現(xiàn)了數(shù)據(jù)挖掘的交叉性,如人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、數(shù)理統(tǒng)計(jì)等多個(gè)學(xué)科的發(fā)展,直接驅(qū)動(dòng)了研究人員在專利信息的挖掘方法、手段或技術(shù)上產(chǎn)生了較大的變化。如,信息抽取、自然語言處理、特征構(gòu)建、數(shù)據(jù)建模、數(shù)據(jù)清洗、構(gòu)建模型與優(yōu)化等方面技術(shù)或算法的改進(jìn)與突破,對(duì)專利信息的挖掘深度、挖掘維度以及模式等均有實(shí)質(zhì)性的推動(dòng),與其伴隨的數(shù)據(jù)分析、應(yīng)用以及決策支持、趨勢(shì)預(yù)測(cè)等方面也取得較大的進(jìn)展。

        (四)面向新一代信息技術(shù)產(chǎn)業(yè)領(lǐng)域的數(shù)據(jù)挖掘?qū)嵗治?。本文以南京市知識(shí)產(chǎn)權(quán)保護(hù)中心業(yè)務(wù)系統(tǒng)受理的專利申請(qǐng)數(shù)據(jù)以及備案主體作為基礎(chǔ)數(shù)據(jù)來源,專利申請(qǐng)案件的領(lǐng)域范圍為新一代信息技術(shù)產(chǎn)業(yè)領(lǐng)域。其中,選取的專利申請(qǐng)數(shù)據(jù)時(shí)間跨度為一年,即從2021年1月31日至2021年12月31日,在此基礎(chǔ)上進(jìn)行相關(guān)的數(shù)據(jù)挖掘與分析。對(duì)專利申請(qǐng)相關(guān)數(shù)據(jù)的深入挖掘與分析,能夠在一定程度上反映在設(shè)定的時(shí)間維度、產(chǎn)業(yè)領(lǐng)域內(nèi),南京市知識(shí)產(chǎn)權(quán)保護(hù)中心業(yè)務(wù)系統(tǒng)的申請(qǐng)主體的行為以及趨勢(shì)走向情況,可以為后續(xù)更深層次的分析與應(yīng)用提供一種參考。

        數(shù)據(jù)挖掘總體流程如圖1所示,主要涉及三個(gè)階段:數(shù)據(jù)集抽取階段、數(shù)據(jù)挖掘與清洗階段、模型構(gòu)建與分析階段。(圖1)

        圖1 數(shù)據(jù)挖掘總體流程圖

        1、數(shù)據(jù)集抽取。在這一階段涉及兩方面的基礎(chǔ)數(shù)據(jù)庫,一個(gè)是保護(hù)中心業(yè)務(wù)系統(tǒng)的專利申請(qǐng)數(shù)據(jù)庫,另一個(gè)是保護(hù)中心業(yè)務(wù)系統(tǒng)的備案主體數(shù)據(jù)庫。保護(hù)中心現(xiàn)有的業(yè)務(wù)系統(tǒng)中已有大量的專利申請(qǐng)數(shù)據(jù),根據(jù)預(yù)設(shè)條件從基礎(chǔ)數(shù)據(jù)庫中進(jìn)行各項(xiàng)數(shù)據(jù)的抽取。本實(shí)例的專利申請(qǐng)數(shù)據(jù)抽取預(yù)設(shè)條件即是按照前述的領(lǐng)域、時(shí)間段設(shè)定,備案主體數(shù)據(jù)抽取預(yù)設(shè)條件為備案審核通過的申請(qǐng)主體信息數(shù)據(jù)。

        2、數(shù)據(jù)挖掘與清洗。在這一階段涉及數(shù)據(jù)的預(yù)處理、特征提取與構(gòu)建以及后續(xù)建模數(shù)據(jù)的標(biāo)準(zhǔn)化處理,其中數(shù)據(jù)的預(yù)處理包括對(duì)系統(tǒng)的專利申請(qǐng)數(shù)據(jù)集的相關(guān)異常數(shù)值進(jìn)行處理,如申請(qǐng)案件編號(hào)亂碼、提交案件數(shù)量的數(shù)值為0等異常數(shù)據(jù)記錄的處理。針對(duì)本實(shí)例,特征的提取與構(gòu)建主要從申請(qǐng)主體在預(yù)設(shè)條件下的最近一次專利申請(qǐng)案件提交情況、累計(jì)案件數(shù)量、審查總周期、備案審核通過至預(yù)設(shè)時(shí)間的時(shí)間長(zhǎng)度、平均預(yù)審周期系數(shù)這五個(gè)方面進(jìn)行考量,這里的審查總周期包括通過保護(hù)中心預(yù)審的周期以及提交至專利電子申請(qǐng)系統(tǒng)后的授權(quán)周期。后續(xù)建模數(shù)據(jù)的標(biāo)準(zhǔn)化處理還包括根據(jù)程序開發(fā)語言以及相應(yīng)的函數(shù)對(duì)數(shù)據(jù)進(jìn)行格式或數(shù)值的轉(zhuǎn)化等處理,以符合后續(xù)運(yùn)行的數(shù)據(jù)條件。

        3、模型構(gòu)建與分析。結(jié)合上述五個(gè)方面的特征,基于RFM模型進(jìn)行改進(jìn),通過增加備案審核通過至預(yù)設(shè)時(shí)間的時(shí)間長(zhǎng)度,進(jìn)一步分析申請(qǐng)主體與保護(hù)中心的業(yè)務(wù)關(guān)系黏度,通過增加平均預(yù)審周期系數(shù),以進(jìn)一步反映申請(qǐng)主體的案件質(zhì)量,構(gòu)建專利申請(qǐng)主體行為模型。本實(shí)例采用Python語言,采用kmeans算法進(jìn)行聚類分析。圖2為申請(qǐng)主體特征分布圖,通過模型分析,對(duì)專利申請(qǐng)主體進(jìn)行分類,如圖2所示,并對(duì)不同類別的專利申請(qǐng)主體進(jìn)行前述五個(gè)方面的特征分析,以比較不同類別的專利申請(qǐng)主體在保護(hù)中心的行為趨勢(shì),并生成申請(qǐng)主體行為畫像。(圖2)

        圖2 申請(qǐng)主體特征分布圖

        本實(shí)例通過k-means算法進(jìn)行分析時(shí),選取的k值為3。由于k-means算法的計(jì)算過程屬于無監(jiān)督學(xué)習(xí),因而我們?cè)谌绾未_定較好的k值,也就是簇的數(shù)值時(shí),需要進(jìn)行相關(guān)分析與考量,以保證簇類的數(shù)據(jù)具有較大的相似性,并且簇之間的數(shù)據(jù)存在較為明顯的差異。因此,本實(shí)例在k值的選取方面,采取了三個(gè)維度:簇內(nèi)誤方差(SSE)、輪廓系數(shù)(silhouette coefficient)、CH指標(biāo)(Calinski-Harabaz),綜合這三個(gè)維度情況,進(jìn)行聚類結(jié)果的測(cè)試評(píng)價(jià),進(jìn)而確定具有更優(yōu)聚類效果時(shí)所對(duì)應(yīng)的k值,即確定簇?cái)?shù)值,將申請(qǐng)主體分成了三類。本實(shí)例選取的基礎(chǔ)數(shù)據(jù)集共有2,528條記錄,即在預(yù)設(shè)的條件下,共有2,528條申請(qǐng)主體提交至保護(hù)中心的專利申請(qǐng)數(shù)據(jù),此時(shí)基礎(chǔ)數(shù)據(jù)集存在同一申請(qǐng)主體提交的多個(gè)不同的專利申請(qǐng)記錄。經(jīng)數(shù)據(jù)處理之后,得到760條數(shù)據(jù)記錄,即符合模型分析的數(shù)據(jù)記錄有760條,此時(shí)的數(shù)據(jù)集中已經(jīng)按照一個(gè)申請(qǐng)主體只有一個(gè)數(shù)據(jù)記錄的設(shè)定完成處理,并剔除異常數(shù)值,這其中就增加了特征標(biāo)簽,以符合所構(gòu)建模型進(jìn)行分析時(shí)的數(shù)據(jù)要求。如表1所示,可知各類之間的相似度較小,類內(nèi)部的相似度較大,進(jìn)而實(shí)現(xiàn)了申請(qǐng)主體群體的進(jìn)一步劃分,最后輸出各類數(shù)據(jù),以進(jìn)行后續(xù)決策的支撐。(表1)

        表1 聚類分析結(jié)果一覽表

        總而言之,專利信息的數(shù)據(jù)挖掘與分析是密不可分的,最終形成能夠被人們所認(rèn)識(shí)、利用或參考的知識(shí)信息。通過上述的專利數(shù)據(jù)挖掘?qū)嵗^程,確定了在進(jìn)行數(shù)據(jù)挖掘時(shí)需考慮數(shù)據(jù)預(yù)處理,挖掘手段或方法,模型構(gòu)建、優(yōu)化與應(yīng)用等主要節(jié)點(diǎn)的工作。在對(duì)數(shù)據(jù)處理時(shí),不僅要考慮基礎(chǔ)數(shù)據(jù)集的準(zhǔn)確性、適用性、全面性,還要考慮各類數(shù)據(jù)之間的內(nèi)在聯(lián)系、異常數(shù)據(jù)的處理以及模型訓(xùn)練測(cè)試所需的數(shù)據(jù)要求,如對(duì)數(shù)據(jù)進(jìn)行降維處理,或者在本實(shí)例模型分析時(shí)需對(duì)數(shù)據(jù)進(jìn)行無量綱化處理,以實(shí)現(xiàn)模型數(shù)據(jù)的標(biāo)準(zhǔn)化。選擇較為合適的數(shù)據(jù)挖掘手段或方法則是確定后續(xù)模型構(gòu)建、分析與優(yōu)化效果的一個(gè)方向。模型的構(gòu)建與優(yōu)化則需關(guān)注特征抽取、迭代分析、模型如何評(píng)價(jià)以及應(yīng)用這幾個(gè)方面,進(jìn)一步明確更優(yōu)的模型輸出結(jié)果與更好的分析效果。

        猜你喜歡
        數(shù)據(jù)挖掘主體信息技術(shù)
        新一代信息技術(shù)征稿啟示
        論自然人破產(chǎn)法的適用主體
        新一代信息技術(shù)征稿啟示
        新一代信息技術(shù)征稿啟示
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        信息技術(shù)在幼兒教育中的有效應(yīng)用
        甘肅教育(2020年2期)2020-09-11 08:00:44
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        關(guān)于遺產(chǎn)保護(hù)主體的思考
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        論多元主體的生成
        中文字幕人妻一区二区二区| 84pao强力打造免费视频34| 香蕉视频免费在线| 人妻少妇中文字幕av| 久久精品国产亚洲av麻豆会员| 国产白袜脚足j棉袜在线观看| 婷婷四房色播| 久久午夜无码鲁丝片直播午夜精品| 国产另类人妖在线观看| 老师开裆丝袜喷水视频| 国产av精国产传媒| 国产精品美女AV免费观看| 激情偷拍视频一区二区| 完整版免费av片| 骚小妹影院| 2021国产最新无码视频| 午夜视频一区二区在线观看| 日韩国产人妻一区二区三区| 性一乱一搞一交一伦一性| 亚洲区精选网址| 精品一区二区三区亚洲综合| 日本一区二区在线播放| 国产精品 高清 尿 小便 嘘嘘 | 看全色黄大色大片免费久久久| 那有一级内射黄片可以免费看| 欧美一区二区三区久久综| 福利一区二区三区视频午夜观看 | 国产人成无码视频在线| 高清国产精品一区二区| 特黄 做受又硬又粗又大视频| 台湾佬综合网| 日韩人妻无码精品系列专区无遮| 国产精品一区二区久久久av| 亚洲精品国偷拍自产在线观看| 欧美精品区| 精品人妻夜夜爽一区二区| 日韩乱码人妻无码系列中文字幕| 孩交精品xxxx视频视频| 亚洲www视频| 国产丝袜长腿美臀在线观看| 一本色道无码道在线观看|