備案號:遼ICP備19007957號-1
聆聽您的聲音:feedback@highmark.com.cn企業(yè)熱線:400-778-8318
Copyright ?2015- 海馬課堂網(wǎng)絡(luò)科技(大連)有限公司辦公地址:遼寧省大連市高新技術(shù)產(chǎn)業(yè)園區(qū)火炬路32A號創(chuàng)業(yè)大廈A座18層1801室
學(xué)習(xí)關(guān)于探索性數(shù)據(jù)分析(EDA)的一切,這是一種用于分析和總結(jié)數(shù)據(jù)集的方法。這篇文章為大家講解探索性數(shù)據(jù)分析的目的是什么?美國課程輔導(dǎo)
一、什么是探索性數(shù)據(jù)分析?
探索性數(shù)據(jù)分析(EDA)是數(shù)據(jù)科學(xué)家用于分析和調(diào)查數(shù)據(jù)集并總結(jié)其主要特征的方法,通常使用數(shù)據(jù)可視化方法。它有助于確定如何最好地操作數(shù)據(jù)源以獲得所需的答案,使數(shù)據(jù)科學(xué)家更容易發(fā)現(xiàn)模式、發(fā)現(xiàn)異常、測試假設(shè)或檢查前提條件。
EDA主要用于查看數(shù)據(jù)在形式建模或假設(shè)測試任務(wù)之外可以揭示什么,并提供對數(shù)據(jù)集變量及其之間關(guān)系的更好理解。它還可以幫助確定您正在考慮進(jìn)行數(shù)據(jù)分析的統(tǒng)計技術(shù)是否合適。探索性數(shù)據(jù)分析最初是由美國數(shù)學(xué)家約翰·圖基(John Tukey)在1970年代開發(fā)的,至今仍然是數(shù)據(jù)發(fā)現(xiàn)過程中廣泛使用的方法。
探索性數(shù)據(jù)分析在數(shù)據(jù)科學(xué)中為什么重要?
EDA的主要目的是在做任何假設(shè)之前查看數(shù)據(jù)。它有助于識別明顯的錯誤,更好地理解數(shù)據(jù)中的模式,檢測異常事件或異常事件,找到變量之間的有趣關(guān)系。
數(shù)據(jù)科學(xué)家可以使用探索性分析來確保他們產(chǎn)生的結(jié)果對任何期望的業(yè)務(wù)結(jié)果和目標(biāo)都是有效的。EDA還通過確認(rèn)他們提出了正確的問題,幫助利益相關(guān)者。EDA可以回答有關(guān)標(biāo)準(zhǔn)偏差、分類變量和置信區(qū)間的問題。一旦EDA完成并得出見解,其特征就可以用于更復(fù)雜的數(shù)據(jù)分析或建模,包括機(jī)器學(xué)習(xí)。
二、探索性數(shù)據(jù)分析工具
使用EDA工具可以執(zhí)行的特定統(tǒng)計功能和技術(shù)包括:
聚類和降維技術(shù),用于創(chuàng)建包含許多變量的高維數(shù)據(jù)的圖形顯示。
對原始數(shù)據(jù)集中每個字段進(jìn)行單變量可視化,同時提供摘要統(tǒng)計信息。
允許您評估數(shù)據(jù)集中每個變量與目標(biāo)變量之間關(guān)系的雙變量可視化和摘要統(tǒng)計信息。
多變量可視化,用于繪制和理解數(shù)據(jù)中不同字段之間的相互作用。
K均值聚類是一種無監(jiān)督學(xué)習(xí)的聚類方法,根據(jù)每個組的中心點(diǎn)與數(shù)據(jù)點(diǎn)之間的距離將數(shù)據(jù)點(diǎn)分配到K組,即聚類數(shù)。距離最近的數(shù)據(jù)點(diǎn)將被聚集在同一類別下。K均值聚類通常用于市場分割、模式識別和圖像壓縮。
預(yù)測模型,例如線性回歸,使用統(tǒng)計和數(shù)據(jù)來預(yù)測結(jié)果。
三、探索性數(shù)據(jù)分析的類型
有四種主要類型的EDA:
1. 單變量非圖形。這是數(shù)據(jù)分析的最簡單形式,被分析的數(shù)據(jù)僅包含一個變量。由于它是單一變量,因此不涉及原因或關(guān)系。單變量分析的主要目的是描述數(shù)據(jù)并找到其中存在的模式。
2. 單變量圖形。非圖形方法不能提供數(shù)據(jù)的完整圖像,因此需要圖形方法。常見的單變量圖形包括:
- 莖葉圖,顯示所有數(shù)據(jù)值和分布形狀。
- 直方圖,每個柱代表一定值范圍的頻率(計數(shù))或比例(計數(shù)/總計數(shù))。
- 箱線圖,以圖形方式描繪最小、第一四分位、中位數(shù)、第三四分位和最大值的五數(shù)總結(jié)。
3. 多變量非圖形:多變量數(shù)據(jù)來自多個變量。多變量非圖形EDA技術(shù)通常通過列聯(lián)表或統(tǒng)計學(xué)來顯示數(shù)據(jù)的兩個或多個變量之間的關(guān)系。
4. 多變量圖形:多變量數(shù)據(jù)使用圖形來顯示兩個或多個數(shù)據(jù)集之間的關(guān)系。最常用的圖形是分組的條形圖或柱狀圖,其中每個組代表一個變量的一個水平,每個組內(nèi)的每個條形代表另一個變量的水平。
其他常見的多變量圖形包括:
- 散點(diǎn)圖,用于在水平和垂直軸上繪制數(shù)據(jù)點(diǎn),以顯示一個變量受另一個變量影響的程度。
- 多變量圖,是因子和響應(yīng)之間關(guān)系的圖形表示。
- 趨勢圖,是隨時間繪制的數(shù)據(jù)的折線圖。
- 泡沫圖,是在二維圖上顯示多個圓圈(泡沫)的數(shù)據(jù)可視化。
- 熱力圖,是通過顏色來描繪數(shù)據(jù)的圖形表示。
四、探索性數(shù)據(jù)分析工具
用于創(chuàng)建EDA的一些常見數(shù)據(jù)科學(xué)工具包括:
1. Python:一種解釋性的、面向?qū)ο蟮木幊陶Z言,具有動態(tài)語義。其高級內(nèi)置數(shù)據(jù)結(jié)構(gòu),與動態(tài)類型和動態(tài)綁定相結(jié)合,使其非常適合快速應(yīng)用程序開發(fā),以及用作腳本或粘合語言將現(xiàn)有組件連接在一起。Python和EDA可以一起使用,以識別數(shù)據(jù)集中的缺失值,這對于決定如何處理機(jī)器學(xué)習(xí)中的缺失值至關(guān)重要。
2. R:一種用于統(tǒng)計計算和圖形的自由軟件環(huán)境的開源編程語言,由R基金會支持。在數(shù)據(jù)科學(xué)中,R語言廣泛用于開發(fā)統(tǒng)計觀察和數(shù)據(jù)分析。
海馬課堂專業(yè)課程輔導(dǎo)做出以下新改變啦:
?試聽課全面升級,不滿意退50%,
?課程輔導(dǎo)產(chǎn)品升級,贈送考前保障呦
?輔導(dǎo)不滿意可以隨心退!
海馬課堂,3500+嚴(yán)選碩博學(xué)霸師資,針對學(xué)生的薄弱科目和學(xué)校教學(xué)進(jìn)度,匹配背景相符的導(dǎo)師,根據(jù)學(xué)生情況進(jìn)行1V1專屬備課,上課時間靈活安排,中英雙語詳細(xì)講解課程中的考點(diǎn)、 難點(diǎn)問題,并提供多方位的課后輔導(dǎo),輔助學(xué)生掌握全部課程知識,補(bǔ)足短板。
閱讀原文:http://www.brains-tank.com/news/17453_60.html
版權(quán)作品,未經(jīng)海馬課堂 highmarktutor.com 書面授權(quán),嚴(yán)禁轉(zhuǎn)載,違者將被追究法律責(zé)任。
24h在線客服



備案號:遼ICP備19007957號-1
聆聽您的聲音:feedback@highmark.com.cn企業(yè)熱線:400-778-8318
Copyright ?2015- 海馬課堂網(wǎng)絡(luò)科技(大連)有限公司辦公地址:遼寧省大連市高新技術(shù)產(chǎn)業(yè)園區(qū)火炬路32A號創(chuàng)業(yè)大廈A座18層1801室
hmkt088
91乱伦| 一区二区色| 三级在线视频| 国产麻豆天美果冻无码视频| 日本高清视频在线观看| 日日操夜夜爽| 国精产品一区一区三区四区| 亚洲欧美性爱| 国产精品黄色| h片在线| 久久久精品国产sm调教网站| 日日夜夜av| 日韩无码影片| 国产精品乱码一区二区| 99免费视频| 亚洲人妻av| 亚洲午夜视频| 精品人妻无码一区二区色欲产成人| 国产高清无码视频| 97精品视频| 一区二区三区中文字幕| 成人片网址| 久久精品中文| 乱伦精品| 69av视频| 亚洲一区无码| 欧美巨鞭大战丰满少妇| 中文字幕在线看| 中文字幕免费视频| 亚洲AV激情无码专区在线播放| 凹凸熟女白浆精品国产91| 天天躁日日躁狠狠很躁| 一区中文字幕| 精品国产免费无码久久久| 黄色三级网站| 97碰碰碰| 日本黄色高清视频| 天天操天天射天天日| 日本日逼视频| 欧美人与性动交α欧美精品| 中文字幕成人电影|