动手学习数据分析第1章
本文是Datawhale的组队学习动手学习数据分析的学习笔记,课件内容来源于Datawhale的团队;代码部分参考了b站up主橘子冰的一隅角落的系列视频
第一节 数据载入及初步观察
1.1 载入数据
1.导入numpy和pandas
import numpy as np
import pandas as pd
2.载入数据
pd.read_csv("<路径>")
read_csv()和read_table()之间的区别
函数read_csv()和read_table()的作用相同,只是默认分隔符不同。
在read_csv()中,定界符为,
,在read_table()中,定界符为\ t
3.每1000行为一个数据模块,逐块读取
pd.read_csv("<路径>",chunksize=1000)
4.将表头改成中文,索引改为乘客ID
pd.columns = []
pd.rename = ['原表头':'新表头']
1.2 初步观察
1.查看数据的基本信息
df.info()
df.describe()
2.观察表格前10行的数据和后15行的数据
df.head(n) #前n行
df.tai(n) #后n行
3.判断数据是否为空,为空的地方返回True,其余地方返回False
df.isnull()
1.3 保存数据
将你加载并做出改变的数据,在工作目录下保存为一个新文件train_chinese.csv
df.to_csv("train_chinese.csv")
第二节 pandas基础
1.4 知道你的数据叫什么
1.pandas中有两个数据类型DateFrame和Series,通过查找简单了解他们。
Series是一维数组,DataFrame是二维数组。
2.查看DataFrame数据的每列的名称
df.columns
3.查看”Cabin”这列的所有值
df.Cabin #属性法
df['Cabin'] #字典法
4.加载文件”加载文件”test_1.csv”,然后对比”train.csv”,看看有哪些多出的列,然后将多出的列删除,然后对比”train.csv”,看看有哪些多出的列,然后将多出的列删除
df1 = pd.read_csv("test_1.csv)
del df1['']
df1.pop("")
df1.drop("",axis = 1/0) #1代表列0代表行
5.将[‘PassengerId’,’Name’,’Age’,’Ticket’]这几个列元素隐藏,只观察其他几个列元素
使用drop方式删除,若加上参数inplace = True 则表示彻底删除
1.5 筛选的逻辑
1.我们以”Age”为筛选条件,显示年龄在10岁以下的乘客信息。
df1[df1['Age'] < 10]
- 以”Age”为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来,并将这个数据命名为midage
midage = df1[(df1['Age'] > 10) & (df1['Age'] < 50)]
3.将midage的数据中第100行的”Pclass”和”Sex”的数据显示出来
midage = midage.reset_index(drop=True)
midage.to_csv('midage.csv',index=False)
midage = pd.read_csv('midage.csv')
midage1 = midage.loc[[100], ['Pclass','Pclass']]
4.使用iloc方法将midage的数据中第100,105,108行的”Pclass”,”Name”和”Sex”的数据显示出来
midage1.iloc[[100,105,108],[3,4,5]]
第三节:探索性数据分析
1.6 了解你的数据吗?
sample = pd.DataFrame(np.random.randn(3,3),
index = list('213')
columns = list('bca'))
1.让行索引升序排序
sample.sort_index()
2.让列索引升序排序
sample.sort_index(axis = 1)
3.让列索引降序排序
sample.sort_index(axis = 1,ascending = False)
4.让任选两列数据同时降序排序
sample.sort_index(['a','c'],ascending = False)