數據清洗內容如下:
數據分析的步驟
數據分析的步驟分為5步:數據清洗,構建模型,數據可視化
一、理解數據
整體上理解數據集中的的數據字段意義,需要理解數據集的數據類型:文本型,數值型,邏輯性,錯誤值
二、數據清洗
數據清洗也叫做數據預處理,一般進行數據清洗需要通過通過7個步驟進行處理: 選擇子集,列名重命名,刪除重復值,缺失值處理,一致化處理,數據排序處理,異常值處理
2.1 選擇子集
即選擇需要進行分析的數據集中的數據列,為避免干擾可對其他不參與分析的數列進行隱藏處理
2.2 列名重名命
若數據集中出現同樣列名稱,或含義相同的兩個列名,為避免干擾分析結果則需要針對某一個數據列的列名進行重命名
2.3 刪除重復值
刪除數據中的重復數據值,注意只會保留重復數據的第一條數據
2.4 缺失值處理
原始數據中可能會出現數據值缺失,即數據集中存在無數據的數據單元格。在數據分析時會影響結果,需要將缺失的數據值進行補全。 可人工手動一次性補全缺失值:首先通過定位條件查找的方式,查找到缺失值。然后Ctrl選中所有缺失值,在公式輸入框輸入對應內容,使用Ctrl+Enter可補全選中的缺失值
2.5 一致化處理
數據集中會存在某一個數據列的數據至標準不一致或命名規則不一致的情況,可以使用分列功能將不一致的數據列中的數據值進行拆分
2.6 數據值函數應用
對列數據集中的數據進行篩選排序,升序,降序排列等函數的應用
LEN(字符串所在單元格的位置),獲取整個字符串的長度,例如LEN(A2)=6
Find(要查找的字符串,字符串所在單元格的位置),例如查找"k"的位置,通過Find("k",A2)=2,即k在字符串中的位置是2
Left/Right(字符串所在單元格位置,從左/右開始到某個位置進行字符串截取),例如截取最低薪水"7",通過與函數Find的結合應用,Left(A2,Find("k",A2)-1)=7
Mid(字符串所在單元格位置,起始位置,截取長度),例如截取最高薪水"9",通過MID(A2,FIND("-",A2)+1,LEN(A2)-FIND("-",A2)-1)=9
2.7 異常值處理
即數據處理模式,Split(數據分組)-Apply(函數應用)-Combine(組合結果)。數據的組合結果,對清洗后的數據進行分析,應用到數據透視表。需要了解的函數的應用公式Average,Sun,Max,Min,Date,If,Or,Countif
例如要用數據透視表統計數據集中數據分析崗位的相關的數量:選擇插入——>數據透視表生成新的工作表,選擇職位名稱拖動到行和值的區間,生成職位的數據透視表,再通過篩選排序匯總出職位數量最高的職位名稱“數據分析師”
通過函數IF,COUNT,FIND 對職位名稱進行數據處理,清洗出符合數據分析師崗位的數據集
運用函數公式IF(COUNT(FIND({"數據運營","數據分析","分析師"},L2)),"是","否"),篩選出數據集中為"是"的數據分析師相關職位數據集
三、構建模型
還是以招聘數據為例,提出哪個城市的找到數據分析的工作機會比較大的問題?創建城市的數據透視表,篩選出不同城市對數據分析職位的工作年限要求排名,通過右鍵選擇列匯總百分比,數據按照百分比的形式進行展示。
使用Excel的分析工具庫,生成平均薪水的描述統計,且針對行(城市),值(平均薪水)建立數據透視表,獲得不同城市的平均薪水數據指標
日期數據字段處理
日期數據的處理:先通過"分列"以及"設置單元格格式"的對日期數據進行一致化處理。
之后生成數據透視圖,通過對透視圖的日期數據右鍵進行組合操作,可統計出年,月,周,日數據
四、多表關聯查詢Vlookup的使用
4.1 vlookup函數
找什么,在哪找,第幾列,是準確的找還是近似的找。以三好學生表,學生信息表為例,問題:要通過vlookup,找到學生信息表中三好學生的所在的班級。
使用應用函數vlookup
精確查找:若有多個值滿足查找條件,只會顯示查找到的第一條數據,所以如何查找重復值。通過添加輔助列,用姓名+學號進行相對引用的形式輸入內容,例如猴子001=C2+B2,
再通過使用vlookup改變表2要查找的區域,并重新設置表2要查找的位置參數,以及查找的方式為"0"模糊查。這樣就可以區分出同一個姓名不同的班組
4.2 對數據進行分組
有兩組數據,但缺少消費分組的數據。使用vlookup對數據進行分組處理。選中C2單元格,插入函數vlookup,選擇表1的數據列,表2的區域(注意要絕對引用,獲取表2數據的位置,查找方式),即可對當前月份的消費水平根據表2進行消費分組
五. 引用方式
5.1 相對引用:A1
絕對引用:$A$1:C2=B2+$F$1.使用絕對飲用后,向下拖動數據后,下方數據自動+F1,即F1的數據會被固定默認與B2~BN的數據進行相加
5.2 混合引用:$A1 A$1
五. 總結
本章內容主要從Excel工具的角度,對數據進行分析需要的基本步驟進行概述。內容較為繁雜,后期會對內容進行多個子章節的內容詳細分析
文中內容補充:
=DATEDIF(出生時間,購買時間,”M”)計算購買時的月份“M”月份,“Y”年份,“D”天
=IFERROR(DATEDIF(I5,G5,"M"),"錯誤"):如果返回錯誤值,顯示“錯誤”