亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        人工智能和大數(shù)據(jù)存在的隱患

        2019-09-10 07:22:44王雄
        關(guān)鍵詞:計(jì)算能力模型

        王雄

        從數(shù)據(jù)稀缺到現(xiàn)在有大量的數(shù)據(jù),近年來,可用的數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),大數(shù)據(jù)變得無處不在。這是由于數(shù)據(jù)記錄設(shè)備數(shù)量的巨大增長(zhǎng),以及這些設(shè)備之間通過物聯(lián)網(wǎng)連接。似乎每個(gè)人都有收集、分析大數(shù)據(jù)的力量。

        盡管AI目前非常擅長(zhǎng)在大型數(shù)據(jù)中查找模式和關(guān)系,但它仍然不是很智能。計(jì)算數(shù)字可以有效地識(shí)別并發(fā)現(xiàn)數(shù)據(jù)中的細(xì)微模式,但不能直接告訴我們這些關(guān)系中哪些實(shí)際上有意義。

        相關(guān)性和因果關(guān)系

        相關(guān)性并不意味著因果關(guān)系?!叭欢?,人類的大腦天生就會(huì)尋找規(guī)律,當(dāng)我們看到曲線傾斜在一起,數(shù)據(jù)中出現(xiàn)明顯的規(guī)律時(shí),我們的大腦就會(huì)自動(dòng)給出規(guī)律?!?/p>

        然而,從統(tǒng)計(jì)數(shù)據(jù)來看,我們?nèi)匀粺o法實(shí)現(xiàn)這一飛躍?!短摷傧嚓P(guān)性》一書的作者Tyler Vigen在自己的網(wǎng)站上對(duì)此進(jìn)行了調(diào)侃,還有很多例子,比如,展示冰淇淋是如何明顯地導(dǎo)致許多壞事的,從森林大火到鯊魚襲擊和脊髓灰質(zhì)炎爆發(fā)。

        看看這些情節(jié),人們可能會(huì)爭(zhēng)辯說,我們很可能早就應(yīng)該禁止冰淇淋了。而且,實(shí)際上,在1940年代的小兒麻痹癥例子中,公共衛(wèi)生專家建議人們停止吃冰淇淋作為“反政治飲食”的一部分。幸運(yùn)的是,他們最終意識(shí)到小兒麻痹癥暴發(fā)與冰淇淋消費(fèi)之間的相關(guān)性是“完全是由于小兒麻痹癥的爆發(fā)在夏季最為普遍”。

        在統(tǒng)計(jì)中,虛假關(guān)系或虛假相關(guān)性是一種數(shù)學(xué)關(guān)系,其中2個(gè)或多個(gè)事件或變量相關(guān)聯(lián),但由于某種偶然的或某些第3個(gè)未見因素的存在而因果相關(guān)(稱為“常見響應(yīng)”變量”“混雜因素”或“潛伏變量”)。這樣的“潛伏變量”的例子可以是冰淇淋銷量與鯊魚襲擊之間的相關(guān)性(雖然冰淇淋銷量的增長(zhǎng)不會(huì)導(dǎo)致鯊魚襲擊人們)。但是,這2個(gè)數(shù)字之間有一個(gè)共同的環(huán)節(jié),即溫度。較高的溫度導(dǎo)致更多的人購(gòu)買冰淇淋以及更多的人去游泳。因此,這個(gè)“潛變量”確實(shí)是表觀相關(guān)性的原因。幸運(yùn)的是,我們已經(jīng)學(xué)會(huì)將一種因果關(guān)系與另一種因果關(guān)系分開。而且,在炎熱的夏日,我們?nèi)匀豢梢韵硎鼙苛?,而不必?fù)?dān)心小兒麻痹癥爆發(fā)和鯊魚襲擊。

        相關(guān)性的力量和局限性

        有了足夠的數(shù)據(jù),將會(huì)發(fā)現(xiàn)計(jì)算能力和統(tǒng)計(jì)算法的模式。但并不是所有的模式都有意義,因?yàn)樘摷倌J降臄?shù)量很容易超過有意義的模式。將大數(shù)據(jù)與算法結(jié)合起來,如果能正確地用于解決問題,將是一個(gè)非常有用的工具。然而,沒有科學(xué)家會(huì)認(rèn)為你可以通過單獨(dú)處理數(shù)據(jù)來解決這個(gè)問題,無論統(tǒng)計(jì)分析是多么強(qiáng)大,應(yīng)該始終基于對(duì)要解決的問題的基本理解來進(jìn)行分析。

        數(shù)據(jù)科學(xué)是科學(xué)的終結(jié)嗎

        2008年6月,《連線》雜志前主編C. Anderson寫了一篇頗具煽動(dòng)性的文章,題為《理論的終結(jié):數(shù)據(jù)洪流使科學(xué)方法過時(shí)》。“相關(guān)性取代因果關(guān)系,即使沒有連貫的模型和統(tǒng)一的理論,科學(xué)也能進(jìn)步。”

        這種方法的強(qiáng)度和通用性依賴于數(shù)據(jù)量,也就是說數(shù)據(jù)越多,基于計(jì)算發(fā)現(xiàn)的相關(guān)性的方法就越強(qiáng)大和有效。我們可以簡(jiǎn)單地把數(shù)字輸入計(jì)算機(jī),讓統(tǒng)計(jì)算法自動(dòng)發(fā)現(xiàn)有趣的模式和見解。

        但是,這種簡(jiǎn)化的分析方法也存在一些陷阱,可以通過John Poppelaars在博客上找到的示例很好地說明:

        假設(shè)我們要為某些變量創(chuàng)建一個(gè)預(yù)測(cè)模型。例如公司的股價(jià)、在線廣告的點(diǎn)擊率或下周的天氣。接下來,我們收集所有可以使用的數(shù)據(jù),并將其放入統(tǒng)計(jì)過程中,以找到的最佳預(yù)測(cè)模型。常見的過程是首先使用所有變量對(duì)模型進(jìn)行估計(jì),篩選出不重要的變量,然后使用所選的變量子集重新估算模型,然后重復(fù)此過程,直到找到重要的模型為止。

        但是,Anderson提出的分析方法存在一些嚴(yán)重的缺陷。我選擇了一個(gè)實(shí)例,從0到1的均勻分布中抽取100個(gè)樣本,為

        創(chuàng)建了一組數(shù)據(jù)點(diǎn),所以它是隨機(jī)噪聲。接下來,通過從0~1之間的均勻分布中抽取100個(gè)樣本,創(chuàng)建了一組50個(gè)解釋變量()。因此,所有50個(gè)解釋變量也是隨機(jī)噪聲。使用所有的()變量來預(yù)測(cè),估計(jì)一個(gè)線性回歸模型。因?yàn)闆]有任何相關(guān)的東西(所有的均布和自變量),所以期望2(0),但實(shí)際上不是,結(jié)果是0.5,對(duì)于隨機(jī)噪聲的回歸來說還不錯(cuò)。幸運(yùn)的是,這個(gè)模型并不重要。逐步剔除不顯著的變量,重新估計(jì)模型。重復(fù)這個(gè)過程,直到找到一個(gè)重要的模型。經(jīng)過幾個(gè)步驟后,發(fā)現(xiàn)一個(gè)顯著性模型,調(diào)整后的平方為0.4,7個(gè)變量的顯著性水平至少為99 %。再次,我們是在回歸隨機(jī)噪聲,它絕對(duì)沒有關(guān)系,但我們?nèi)匀徽业接?個(gè)重要參數(shù)的顯著模型。如果我們只是將數(shù)據(jù)輸入統(tǒng)計(jì)算法來尋找模式,就會(huì)出現(xiàn)這種情況。

        數(shù)據(jù)集越大,噪聲越強(qiáng)

        最近的研究證明,隨著數(shù)據(jù)集的增長(zhǎng),它們必定包含任意相關(guān)性。這些相關(guān)性根據(jù)數(shù)據(jù)的大小而出現(xiàn),這表明,許多相關(guān)性都是虛假的。不幸的是,很多信息往往表面看顯得很少。

        這是處理多維數(shù)據(jù)的應(yīng)用程序中的主要問題。舉例來說,假設(shè)您從一家工廠的數(shù)千個(gè)傳感器中收集傳感器數(shù)據(jù),然后挖掘這些數(shù)據(jù)以獲取模式優(yōu)化性能。在這種情況下,很容易被數(shù)據(jù)的表象所迷惑,而不是真正的運(yùn)營(yíng)績(jī)效指標(biāo)。無論從財(cái)務(wù)上還是在工廠的安全運(yùn)行方面,這都可能是一個(gè)壞消息。

        添加數(shù)據(jù)和添加信息

        作為數(shù)據(jù)科學(xué)家,我們可能經(jīng)常會(huì)說,改善人工智能模型的優(yōu)秀解決方案是“添加更多數(shù)據(jù)”。然而,僅“添加更多數(shù)據(jù)”就能提高模型性能嗎?不是這樣的。應(yīng)該關(guān)注的是“添加更多的信息”?!疤砑訑?shù)據(jù)”和“添加信息”之間的區(qū)別是至關(guān)重要的,添加更多的數(shù)據(jù)并不等于添加更多的信息。相反,盲目地添加越來越多的數(shù)據(jù),有可能添加包含錯(cuò)誤信息的數(shù)據(jù),這些錯(cuò)誤信息會(huì)相應(yīng)地降低模型的性能。根據(jù)數(shù)據(jù)的大量訪問以及處理數(shù)據(jù)的計(jì)算能力,考慮這一點(diǎn)變得越來越重要。

        那么,上述挑戰(zhàn)是否應(yīng)該阻止您采用以數(shù)據(jù)為依據(jù)的決策?不,數(shù)據(jù)驅(qū)動(dòng)的決策將繼續(xù)存在。隨著獲得更多有關(guān)如何很好利用數(shù)據(jù)和信息以提高績(jī)效的知識(shí),這些將變得越來越有價(jià)值。

        但是要意識(shí)到,想使方案成功,不僅需要硬件和大量數(shù)據(jù),大數(shù)據(jù)和計(jì)算能力也是重要的組成部分,而且,應(yīng)該了解連接數(shù)據(jù)的基本機(jī)制。數(shù)據(jù)不能說明一切,是人類給數(shù)字賦予了含義,數(shù)據(jù)的數(shù)量、種類是無法更改的。

        猜你喜歡
        計(jì)算能力模型
        一半模型
        淺談如何提高小學(xué)生的計(jì)算能力
        厘清算理,提高學(xué)生計(jì)算能力
        小學(xué)生計(jì)算能力的提高策略
        甘肅教育(2021年10期)2021-11-02 06:14:02
        重要模型『一線三等角』
        小學(xué)低年級(jí)學(xué)生計(jì)算能力的培養(yǎng)策略
        甘肅教育(2020年18期)2020-10-28 09:07:06
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        小學(xué)生計(jì)算能力的培養(yǎng)
        甘肅教育(2020年21期)2020-04-13 08:08:42
        淺談小學(xué)生計(jì)算能力的培養(yǎng)
        3D打印中的模型分割與打包
        亚洲爆乳大丰满无码专区| 色窝窝无码一区二区三区| 精品亚洲成a人无码成a在线观看| 久久热免费最新精品视频网站| 天天狠天天透天干天天| 亚洲国产精品毛片av不卡在线| 精品国产av 无码一区二区三区| 依依成人影视国产精品| 精品亚洲av一区二区| 狠狠躁夜夜躁av网站中文字幕 | 精品人妻中文无码av在线| 久久青青热| 亚洲一区二区av偷偷| 一本色道久久88—综合亚洲精品| 欧美成免费a级毛片| 国产乱视频| 91在线观看国产自拍| 国产亚洲精品97在线视频一| 免费少妇a级毛片人成网| 小12箩利洗澡无码视频网站| 国产av一区二区内射| 日本在线视频www色| 免费观看黄网站在线播放| 国产高清国内精品福利99久久| 日韩一区二区三区人妻中文字幕| 欧美老妇交乱视频在线观看 | 夜晚黄色福利国产精品| 久久精品国产亚洲av高清热| 午夜免费福利在线观看| 国产av一区仑乱久久精品| 国产精品沙发午睡系列| 久久精品国产亚洲av大全| 亚洲综合网站精品一区二区| 国产自拍一区在线视频| 久久久亚洲精品一区二区三区| 日韩中文字幕欧美亚洲第一区| 综合激情中文字幕一区二区| 亚洲国产av自拍一区| 亚州无吗一区二区三区| 男人的天堂免费a级毛片无码| 久久艹影院|