动手学习数据分析第1章

本文是Datawhale的组队学习动手学习数据分析的学习笔记,课件内容来源于Datawhale的团队;代码部分参考了b站up主橘子冰的一隅角落的系列视频

第一节 数据载入及初步观察

1.1 载入数据

1.导入numpy和pandas

import numpy as np
import pandas as pd

2.载入数据

pd.read_csv("<路径>")

read_csv()和read_table()之间的区别

函数read_csv()和read_table()的作用相同,只是默认分隔符不同。

在read_csv()中,定界符为,,在read_table()中,定界符为\ t

3.每1000行为一个数据模块,逐块读取

pd.read_csv("<路径>",chunksize=1000)

4.将表头改成中文,索引改为乘客ID

pd.columns = []
pd.rename = ['原表头':'新表头']

1.2 初步观察

1.查看数据的基本信息

df.info()
df.describe()

2.观察表格前10行的数据和后15行的数据

df.head(n)  #前n行
df.tai(n)   #后n行

3.判断数据是否为空,为空的地方返回True,其余地方返回False

df.isnull()

1.3 保存数据

将你加载并做出改变的数据,在工作目录下保存为一个新文件train_chinese.csv

df.to_csv("train_chinese.csv")

第二节 pandas基础

1.4 知道你的数据叫什么

1.pandas中有两个数据类型DateFrame和Series,通过查找简单了解他们。

Series是一维数组,DataFrame是二维数组。

2.查看DataFrame数据的每列的名称

df.columns

3.查看”Cabin”这列的所有值

df.Cabin #属性法
df['Cabin'] #字典法

4.加载文件”加载文件”test_1.csv”,然后对比”train.csv”,看看有哪些多出的列,然后将多出的列删除,然后对比”train.csv”,看看有哪些多出的列,然后将多出的列删除

df1 = pd.read_csv("test_1.csv)
del df1[''] 
df1.pop("")
df1.drop("",axis = 1/0) #1代表列0代表行                 

5.将[‘PassengerId’,’Name’,’Age’,’Ticket’]这几个列元素隐藏,只观察其他几个列元素

使用drop方式删除,若加上参数inplace = True 则表示彻底删除

1.5 筛选的逻辑

1.我们以”Age”为筛选条件,显示年龄在10岁以下的乘客信息。

df1[df1['Age'] < 10]
  1. 以”Age”为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来,并将这个数据命名为midage
midage = df1[(df1['Age'] > 10) & (df1['Age'] < 50)]

3.将midage的数据中第100行的”Pclass”和”Sex”的数据显示出来

midage = midage.reset_index(drop=True)
midage.to_csv('midage.csv',index=False)
midage = pd.read_csv('midage.csv')
midage1 = midage.loc[[100], ['Pclass','Pclass']]

4.使用iloc方法将midage的数据中第100,105,108行的”Pclass”,”Name”和”Sex”的数据显示出来

midage1.iloc[[100,105,108],[3,4,5]]

第三节:探索性数据分析

1.6 了解你的数据吗?

sample = pd.DataFrame(np.random.randn(3,3),
                      index = list('213')
                      columns = list('bca'))

1.让行索引升序排序

sample.sort_index()

2.让列索引升序排序

sample.sort_index(axis = 1)

3.让列索引降序排序

sample.sort_index(axis = 1,ascending = False)

4.让任选两列数据同时降序排序

sample.sort_index(['a','c'],ascending = False)
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。