在线亚洲黄色-在线亚洲观看-在线亚洲电影-在线亚洲成人-岛国大片在线观看免费版-岛国大片在线播放高清

數據分析(二):數據清洗步驟

導讀數據清洗內容如下:數據分析的步驟;數據分析的步驟分為5步:數據清洗,構建模型,數據可視化。一、理解數據;整體上理解數據集中的的數據字段意義,需要理解數據集的數據類型:文本型,數值型,邏輯性,錯誤值。二、數據清洗;數據清洗也叫做數據預處理,一般進行數據清洗需要通過通過7個步驟進行處理: 選擇子集,列名重命名,刪除重復值,缺失值處理,一致化處理,數據排序處理,異常值處理。2.1 選擇子集;即選擇需要進行分析的數據集中的數據列,為避免干擾可對其他不參與分析的數列進行隱藏處理。2.2 列名重名命;若數據集中出現同樣列名稱,或含義相同的兩個列名,為避免干擾分析結果則需要針對某一個數據列的列名進行重命名。2.3 刪除重復值;刪除數據中的重復數據值,注意只會保留重復數據的第一條數據。

數據清洗內容如下:

數據分析的步驟

數據分析的步驟分為5步:數據清洗,構建模型,數據可視化

一、理解數據

整體上理解數據集中的的數據字段意義,需要理解數據集的數據類型:文本型,數值型,邏輯性,錯誤值

二、數據清洗

數據清洗也叫做數據預處理,一般進行數據清洗需要通過通過7個步驟進行處理: 選擇子集,列名重命名,刪除重復值,缺失值處理,一致化處理,數據排序處理,異常值處理

2.1 選擇子集

即選擇需要進行分析的數據集中的數據列,為避免干擾可對其他不參與分析的數列進行隱藏處理

2.2 列名重名命

若數據集中出現同樣列名稱,或含義相同的兩個列名,為避免干擾分析結果則需要針對某一個數據列的列名進行重命名

2.3 刪除重復值

刪除數據中的重復數據值,注意只會保留重復數據的第一條數據

2.4 缺失值處理

原始數據中可能會出現數據值缺失,即數據集中存在無數據的數據單元格。在數據分析時會影響結果,需要將缺失的數據值進行補全。 可人工手動一次性補全缺失值:首先通過定位條件查找的方式,查找到缺失值。然后Ctrl選中所有缺失值,在公式輸入框輸入對應內容,使用Ctrl+Enter可補全選中的缺失值

2.5 一致化處理

數據集中會存在某一個數據列的數據至標準不一致或命名規則不一致的情況,可以使用分列功能將不一致的數據列中的數據值進行拆分

2.6 數據值函數應用

對列數據集中的數據進行篩選排序,升序,降序排列等函數的應用

LEN(字符串所在單元格的位置),獲取整個字符串的長度,例如LEN(A2)=6

Find(要查找的字符串,字符串所在單元格的位置),例如查找"k"的位置,通過Find("k",A2)=2,即k在字符串中的位置是2

Left/Right(字符串所在單元格位置,從左/右開始到某個位置進行字符串截取),例如截取最低薪水"7",通過與函數Find的結合應用,Left(A2,Find("k",A2)-1)=7

Mid(字符串所在單元格位置,起始位置,截取長度),例如截取最高薪水"9",通過MID(A2,FIND("-",A2)+1,LEN(A2)-FIND("-",A2)-1)=9

2.7 異常值處理

即數據處理模式,Split(數據分組)-Apply(函數應用)-Combine(組合結果)。數據的組合結果,對清洗后的數據進行分析,應用到數據透視表。需要了解的函數的應用公式Average,Sun,Max,Min,Date,If,Or,Countif

例如要用數據透視表統計數據集中數據分析崗位的相關的數量:選擇插入——>數據透視表生成新的工作表,選擇職位名稱拖動到行和值的區間,生成職位的數據透視表,再通過篩選排序匯總出職位數量最高的職位名稱“數據分析師”

通過函數IF,COUNT,FIND 對職位名稱進行數據處理,清洗出符合數據分析師崗位的數據集

運用函數公式IF(COUNT(FIND({"數據運營","數據分析","分析師"},L2)),"是","否"),篩選出數據集中為"是"的數據分析師相關職位數據集

三、構建模型

還是以招聘數據為例,提出哪個城市的找到數據分析的工作機會比較大的問題?創建城市的數據透視表,篩選出不同城市對數據分析職位的工作年限要求排名,通過右鍵選擇列匯總百分比,數據按照百分比的形式進行展示。

使用Excel的分析工具庫,生成平均薪水的描述統計,且針對行(城市),值(平均薪水)建立數據透視表,獲得不同城市的平均薪水數據指標

日期數據字段處理

日期數據的處理:先通過"分列"以及"設置單元格格式"的對日期數據進行一致化處理。

之后生成數據透視圖,通過對透視圖的日期數據右鍵進行組合操作,可統計出年,月,周,日數據

四、多表關聯查詢Vlookup的使用

4.1 vlookup函數

找什么,在哪找,第幾列,是準確的找還是近似的找。以三好學生表,學生信息表為例,問題:要通過vlookup,找到學生信息表中三好學生的所在的班級。

使用應用函數vlookup

精確查找:若有多個值滿足查找條件,只會顯示查找到的第一條數據,所以如何查找重復值。通過添加輔助列,用姓名+學號進行相對引用的形式輸入內容,例如猴子001=C2+B2,

再通過使用vlookup改變表2要查找的區域,并重新設置表2要查找的位置參數,以及查找的方式為"0"模糊查。這樣就可以區分出同一個姓名不同的班組

4.2 對數據進行分組

有兩組數據,但缺少消費分組的數據。使用vlookup對數據進行分組處理。選中C2單元格,插入函數vlookup,選擇表1的數據列,表2的區域(注意要絕對引用,獲取表2數據的位置,查找方式),即可對當前月份的消費水平根據表2進行消費分組

五. 引用方式

5.1 相對引用:A1

絕對引用:$A$1:C2=B2+$F$1.使用絕對飲用后,向下拖動數據后,下方數據自動+F1,即F1的數據會被固定默認與B2~BN的數據進行相加

5.2 混合引用:$A1 A$1

五. 總結

本章內容主要從Excel工具的角度,對數據進行分析需要的基本步驟進行概述。內容較為繁雜,后期會對內容進行多個子章節的內容詳細分析

文中內容補充:

=DATEDIF(出生時間,購買時間,”M”)計算購買時的月份“M”月份,“Y”年份,“D”天

=IFERROR(DATEDIF(I5,G5,"M"),"錯誤"):如果返回錯誤值,顯示“錯誤”

為你推薦
資訊專欄
熱門視頻
相關推薦
如何開啟CSM?主板BIOS開啟CSM方法(華碩、微星、技嘉、攀升) 計算機格式化的方法有哪些? WiFi信號旁邊一直有個小嘆號,重啟WiFi也不行,求解救? 序列號無效什么意思? Type C / Thunderbolt 接口是未來的趨勢,雷電接口有什么優勢,雷電3和雷電4有什么區別。 歷代iPhone(iPhone發展史) 干貨| WEB安全漏洞之SSRF 想買蘋果手機,13promax 14promax和15選哪個? 蘋果14pro還會發售嘛? 關于Apple Care+你一定不知道的事兒【iPhone篇】 辦公室大神必看!打印機型號中字母代表的含義 iQOO12內置大容量電池與200W閃充,還帶來五種亮點 十個免費PDF在線轉換網站 iPhone 14ProMax和iPhone13ProMax哪個更值得入手? 天璣7050怎么樣 手把手教你安裝VMware workstation虛擬機(最新版本15.5) jpg格式怎么轉換 什么材質的鍋適合電磁爐使用 明明不是獨創技術,為什么很多人習慣把Type C稱為“華為口”? 微信20萬限額解除方法 18款在線文檔編輯軟件,你聽說過幾個? Windows11游戲無法安裝,NET3.5錯誤950解決方案? 在word中實現標題自動編號(多級列表的使用)以及樣式的創建和修改 Tomcat 啟動閃退、亂碼 怎樣將手機里的照片轉為文件格式JPG? 事實認識錯誤的分類及處理方法 華為發布會發布了什么新品 怎么創建自己的公眾號 9月12號華為發布會在哪里 燃氣熱水器哪個品牌好用耐用 掃描電鏡原理 華為發布會主要內容 熱水水龍頭哪個牌子好 mate60pro與mate60pro+參數對比 手機怎么開啟5g 蘋果有必要花688裝原裝電池 在每天下午5點使用計算機結束時斷開終端的連接屬于() 華為mate60pro怎么截屏 蘋果15搶購時間 除濕和制冷哪個費電
Top 主站蜘蛛池模板: 国产成人亚洲综合a∨婷婷 国产成人免费在线视频 | 国产成人精品日本亚洲网址 | 亚洲欧美日韩三级 | 高清国产一区二区三区 | 精品国产一区二区三区久久影院 | 国产精品一区二区午夜嘿嘿嘿小说 | 伊人精品成人久久综合欧美 | 亚洲 欧美 手机 在线观看 | 国产伦精品一区二区三区免 | 国产日韩中文字幕 | 日韩欧美综合 | 国产欧美日韩在线播放 | 国产欧美日 | 操比网站 | 欧美va在线 | 久久经典视频 | 国产视频一区二区在线播放 | 福利视频一区二区牛牛 | 久久久久久久一精品 | 大香伊人中文字幕精品 | 日产精品久久久一区二区 | 日韩 国产 欧美 | 国产最新进精品视频 | 亚洲欧美在线免费观看 | 亚欧在线观看 | 久久96国产精品久久久 | 国产精品九九久久精品女同 | www.日韩视频| 国产高清视频免费在线观看 | 亚欧色| 亚洲精品社区 | 国产九九精品 | 久久久久国产成人精品亚洲午夜 | 精品国产一区二区三区成人 | 欧美在线观看一区二区三区 | 亚洲伊人久久综合一区二区 | 久久国产毛片 | 欧美日韩1区 | 国产在线视频资源 | 欧美日韩精 | 欧美精品aaa久久久影院 |