亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于文本挖掘的學(xué)科領(lǐng)域相關(guān)問題研究

2018-01-01 00:00:00馬敏中

大科技·D版 2018年4期

摘要：在科學(xué)技術(shù)快速發(fā)展的過程中，傳統(tǒng)的科學(xué)需要不斷發(fā)展和分化，新的科學(xué)也隨之產(chǎn)生，各個(gè)學(xué)科之間的聯(lián)系也逐漸緊密，逐漸向著整體化、綜合化的方向發(fā)展。本文主要研究了學(xué)科整體的組成，探究了各個(gè)學(xué)科的特點(diǎn)，研究了學(xué)科之間的較差部分以及整個(gè)學(xué)科的演化趨勢，對科技工作者研究學(xué)科的發(fā)展歷程以及各個(gè)學(xué)科之間的協(xié)調(diào)發(fā)展有著十分重要的作用。

關(guān)鍵詞：演化趨勢；文本挖掘；學(xué)科代碼

中圖分類號：G252 文獻(xiàn)標(biāo)識碼：A 文章編號：1004-7344（2018）12-0022-02

從20世紀(jì)開始，科學(xué)技術(shù)得到了較為快速的發(fā)展，科學(xué)研究的范圍逐漸寬廣，科學(xué)研究的學(xué)科交叉融合、綜合性和等現(xiàn)象變得日益明顯，學(xué)科的發(fā)展情況有了很大變化。在科學(xué)技術(shù)得到快速發(fā)展時(shí)，傳統(tǒng)的自然科學(xué)就會(huì)出現(xiàn)相應(yīng)的發(fā)展和細(xì)分，各個(gè)學(xué)科之間的滲透情況變得日益明顯，交叉學(xué)科、邊緣學(xué)科開始大量出現(xiàn)，新的學(xué)科不斷產(chǎn)生，科學(xué)技術(shù)也逐漸向整體化、綜合化發(fā)展。

1 對學(xué)科領(lǐng)域進(jìn)行劃分的兩種主要方式

從相關(guān)資料中發(fā)掘?qū)W科領(lǐng)域的組成結(jié)構(gòu)、研究其發(fā)展前景，就需要了解這門學(xué)科的外延范圍。外延范圍一般就是指這門學(xué)科的范圍所包含的建議書集合。因?yàn)閱蝹€(gè)建議書只從屬于一定的學(xué)科領(lǐng)域外延，因此就需要對建議書語料進(jìn)行相應(yīng)的劃分，進(jìn)而就能得到學(xué)科的領(lǐng)域范圍。

對學(xué)科領(lǐng)域進(jìn)行劃分時(shí)通常采用兩種方式。①通過學(xué)科代碼進(jìn)行相應(yīng)的劃分。因?yàn)榻ㄗh書是某個(gè)具體學(xué)科的代碼，換句話說這個(gè)項(xiàng)目建議書是具體學(xué)科的學(xué)科代碼，因此對應(yīng)學(xué)科的科學(xué)代碼則表示了這個(gè)學(xué)科的代碼以及相應(yīng)的外延范圍。②對學(xué)科的建議書語料直接進(jìn)行相應(yīng)的劃分。在劃分的過程中直接忽略了該學(xué)科的學(xué)科代碼，項(xiàng)目建議書本身表示了該學(xué)科所有的外延知識，也就是特定學(xué)科的項(xiàng)目建議書可直接反映該學(xué)科所有的外延范圍[1]。

所以在對學(xué)科代碼進(jìn)行確定的過程中可直接從學(xué)科代碼來對相關(guān)語料進(jìn)行劃分，并且還能直接忽略該學(xué)科的學(xué)科代碼，從而對學(xué)科語料進(jìn)行直接劃分。為了進(jìn)行明確的區(qū)別，本次研究將這兩種劃分方式所得到的學(xué)科領(lǐng)域命名為學(xué)科簇類以及學(xué)科代碼。學(xué)科簇類和學(xué)科代碼分別表示了該學(xué)科的領(lǐng)域，只是在劃分的方式存在著明顯差異。

2 對學(xué)科的文本進(jìn)行挖掘

挖掘的內(nèi)容主要是指抽取有用、新穎、散布在文本里面的只是，還要利用這些知識充分利用組織信息。1998年底，在國家研究項(xiàng)目中明確提出，文本挖掘的主要內(nèi)容是對“自然語言理解、語言、圖像與知識”中的內(nèi)容進(jìn)行挖掘。并且這種挖掘是對信息挖掘的主要過程，能將文本信息進(jìn)行充分利用。文本挖掘的只要方式是對智能算法充分利用，就像對可能性推理、基于案例的推理、神經(jīng)網(wǎng)絡(luò)等，并根據(jù)相應(yīng)的處理技術(shù)，對文本源（如網(wǎng)頁、問題查詢、客戶電子郵件、電子表格、文檔等）進(jìn)行大量分析，標(biāo)記文本中的文字信息，然后根據(jù)內(nèi)容進(jìn)行分類，從而得到有用的文本信息[2]。文本挖掘是一個(gè)較為復(fù)雜的過程，并且其中應(yīng)用了多種技術(shù)，主要有概率理論、線性幾何、統(tǒng)計(jì)數(shù)據(jù)分析，計(jì)算語言學(xué)、自然語言處理、機(jī)器學(xué)習(xí)、信息檢索、信息抽取、數(shù)據(jù)挖掘技術(shù)甚至還有圖論。

3 對文本分類的內(nèi)容進(jìn)行分析和處理

從上面得出的結(jié)論可發(fā)現(xiàn)，文本語料是在學(xué)科代碼的基礎(chǔ)上分類而來的，并且屬于同一類型。但這種方式主要通過人工進(jìn)行劃分，經(jīng)常會(huì)出現(xiàn)偏差，有些建議書或許會(huì)被分在沒有相關(guān)性的學(xué)科代碼中，文章列出了集中主要原因。

（1）學(xué)科代碼列出的只是和代碼有關(guān)系的領(lǐng)域，并沒有明確這個(gè)領(lǐng)域研究的主要內(nèi)容，研究人員只是按照代碼所對應(yīng)的領(lǐng)域進(jìn)行申報(bào)。由于每個(gè)人的理解水平存在差異，這就會(huì)造成申請項(xiàng)目和學(xué)科代碼出現(xiàn)差異的現(xiàn)象。

（2）隨著科學(xué)技術(shù)的不斷發(fā)展，學(xué)科領(lǐng)域中也出現(xiàn)了交叉融合的現(xiàn)象，而且有的研究范圍也出現(xiàn)了模糊的現(xiàn)象；研究的內(nèi)涵也發(fā)生了巨大變化，新的研究對象也在不斷出現(xiàn)，有很多舊的研究方式不斷被淘汰。面對這種狀況，要是申請的項(xiàng)目涉及的領(lǐng)域較多時(shí)，科研工作者在申報(bào)項(xiàng)目的過程中就會(huì)出現(xiàn)迷惑，無法將申報(bào)的項(xiàng)目和科學(xué)代碼進(jìn)行對應(yīng)，經(jīng)常會(huì)出現(xiàn)是申報(bào)項(xiàng)目和代碼不符的狀況。

（3）在研究的過程中還會(huì)受到科研人員的主觀因素影響，為了最大程度的提升申報(bào)成功率，故意把項(xiàng)目申報(bào)在關(guān)系不密切的學(xué)科代碼下。

受到上面因素的影響，建議書語料里面或許存在著和項(xiàng)目代碼不符的狀況，在一般情況下，80%的建議書能申報(bào)到相符的科學(xué)代碼之下，但仍然有20%的建議書或許存在著偏差。要是沒有注意到這種偏差，直接通過代碼對語料進(jìn)行挖掘，進(jìn)行相應(yīng)的分析，那么得到的結(jié)果就會(huì)出現(xiàn)偏差。

為了防止偏差的出現(xiàn)，本次研究通過文本分類的方式建議書文本集合進(jìn)行相應(yīng)的處理。通過文本分類的方式，能按照文本內(nèi)容來對文本類別進(jìn)行自動(dòng)確定。同時(shí)還能進(jìn)行相應(yīng)的分類，按照反復(fù)分類的方式將存在偏差的建議書分類到正確的代碼之下。在此基礎(chǔ)上，對相關(guān)領(lǐng)域進(jìn)行分析。

4 對文本聚類進(jìn)行相應(yīng)的處理和評價(jià)

把學(xué)科代碼當(dāng)作學(xué)科領(lǐng)域中的內(nèi)容，然后再進(jìn)行相應(yīng)的學(xué)科領(lǐng)域分析，這種方式較為科學(xué)和準(zhǔn)確，但這種方式還有著一些問題：①建立相應(yīng)的學(xué)科代碼是為了充分利用而設(shè)立的，因此學(xué)科代碼在分類的過程中不是完全根據(jù)學(xué)科分類而進(jìn)行劃分的。學(xué)科代碼只能對學(xué)科領(lǐng)域的情況進(jìn)行部分反映，并不能全部包括無法對所有領(lǐng)域的學(xué)科情況進(jìn)行反應(yīng)，而且在對有些學(xué)科進(jìn)行劃分的過程中可能過于細(xì)致，但在學(xué)科領(lǐng)域劃分時(shí)過于細(xì)致或許是不必要的。②學(xué)科代碼體系會(huì)在較短的時(shí)間之內(nèi)保持不變，但科學(xué)技術(shù)在發(fā)展的過程中是不斷變化的，研究的領(lǐng)域和內(nèi)容不斷出現(xiàn)，學(xué)科領(lǐng)域也會(huì)出現(xiàn)相應(yīng)的變化，因此學(xué)科代碼不能對科學(xué)研究的情況進(jìn)行完全反映，而且也不能對學(xué)科領(lǐng)域隨著時(shí)間的變化情況進(jìn)行完全反映。從建議書語料里面對學(xué)科領(lǐng)域進(jìn)行相應(yīng)的劃分，也是很好的研究方式。所以本次研究主要通過文本聚類的方式對建議書語料進(jìn)行相應(yīng)的劃分，然后把聚類所獲得的結(jié)論叫做學(xué)科簇類，從而對學(xué)科領(lǐng)域的情況進(jìn)行反映。

5 文本挖掘的前景

數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)技術(shù)發(fā)展過程中的一個(gè)全新領(lǐng)域，文本挖掘的時(shí)間相對較短。傳統(tǒng)的信息檢索技術(shù)對信息量較大的數(shù)據(jù)處理效果不是很好，因此文本挖掘就顯得更為重要了，由此可發(fā)現(xiàn)文本挖掘技術(shù)主要是從信息挖掘領(lǐng)域而逐漸發(fā)展起來的。

隨著網(wǎng)計(jì)算機(jī)技術(shù)的不斷發(fā)展，用戶能獲得娛樂資訊、商業(yè)信息到新聞報(bào)道、技術(shù)資料等多方面的信息和文檔，從而形成了一個(gè)十分廣闊的有著異構(gòu)性、開放性特征的數(shù)據(jù)資料庫，在這個(gè)數(shù)據(jù)庫中有著很多的非文本數(shù)據(jù)。然后再和人工智能中的計(jì)算機(jī)語言學(xué)以及自然語言理解進(jìn)行結(jié)合，在數(shù)據(jù)挖掘的過程中產(chǎn)生了兩種新興的領(lǐng)域：文本挖掘以及網(wǎng)絡(luò)挖掘。

網(wǎng)絡(luò)挖掘的過程中主要是分析和挖掘網(wǎng)絡(luò)中的有關(guān)數(shù)據(jù)，主要有鏈接結(jié)構(gòu)（運(yùn)行過程中所產(chǎn)生的網(wǎng)絡(luò)導(dǎo)航）、文本。一個(gè)網(wǎng)頁中有著各個(gè)方面的數(shù)據(jù)類型，所以網(wǎng)絡(luò)挖掘的內(nèi)容就包括了圖像挖掘、數(shù)據(jù)挖掘、文本挖掘等。文本挖掘是一種較為新穎的數(shù)據(jù)挖掘方式，主要的目的就是把文本信息轉(zhuǎn)變?yōu)槿祟惸軕?yīng)用的知識。

6 結(jié)束語

綜上所述，當(dāng)前有越來越多的研究人員把學(xué)科的特征、整體性質(zhì)當(dāng)作學(xué)科研究的重點(diǎn)，再次認(rèn)識學(xué)科的特點(diǎn)，從而不斷發(fā)掘?qū)W科的發(fā)展規(guī)律、特征、性質(zhì)和整體結(jié)構(gòu)的重要性，探究各個(gè)學(xué)科的特點(diǎn)，研究學(xué)科之間的較差部分以及整個(gè)學(xué)科的演化趨勢，這對開展學(xué)科研究、各個(gè)學(xué)科之間協(xié)調(diào)發(fā)展有著十分重要的作用。

參考文獻(xiàn)

[1]任剛.面向?qū)W科相關(guān)性分析的文本關(guān)聯(lián)規(guī)則挖掘技術(shù)研究[D].長沙：中南大學(xué)，2011.

[2]陳黎.基于文本挖掘的學(xué)科領(lǐng)域相關(guān)問題研究[D].大連：大連理工大學(xué)，2008.

收稿日期：2018-3-26

作者簡介：馬敏中（1992-），男，廣東廣州人，本科，從事教育工作。

大科技·D版2018年4期

大科技·D版的其它文章: 關(guān)于建筑工程樁基施工技術(shù)的探究; 鋼筋混凝土建筑施工出現(xiàn)的問題與對策; 高層建筑中異形柱施工技術(shù)分析; 基于設(shè)計(jì)角度來強(qiáng)化河道的生態(tài)化治理; 城市污水水質(zhì)在線監(jiān)測應(yīng)用分析; 淺談盤錦遼河濕地的現(xiàn)狀及保護(hù)對策