cxm'blog

  • 首页
  • 关于
  • 日常
  • 读书
  • 观影
  • 投资
  • 学习笔记
  • 发现
oiam.top
  1. 首页
  2. 学习笔记
  3. 正文

pandas常用函数

2021年12月22日 210点热度 1人点赞 0条评论

官方文档
import pandas as pd  # 将pandas作为第三方库导入

1、数据导入 
df = pd.read_csv(
filepath_or_buffer=r'本地路径' ,
# 要注意字符串转义符号 \ ,可以使用加r变为raw string或者每一个进行\\转义
encoding='gbk' ,
#编码格式gbk
sep=',' ,
# 数据分隔符
skiprows=1,
#跳过第1行不读入
nrows=n,
#只读取前n行,若不指定,读入全部的数据
parse_dates=['列名字'],
#将指定列的数据识别为日期格式。若不指定,时间数据将会以字符串形式读入。
index_col=['列名字'],
# 将指定列设置为行标签(index)。若不指定,index默认为0, 1, 2, 3, 4...
usecols=['列1', '列2'],
# 读取指定的几列数据。若不指定,读入全部列
error_bad_lines=False,
当某行数据有问题时,报错。设定为False时即不报错,直接跳过该行。当数据比较脏乱的时候用这个。
na_values='NULL',
# 将数据中的null识别为空值
)

2、查看数据print(
df.shape # 输出dataframe有多少行、多少列。
df.shape[0] # 输出行数量,相应的列数量就是df.shape[1]
df.columns # 顺序输出每一列的名字
    可以使用for语句遍历列名字
    for col in df.columns:
        print(col)
df.index # 顺序输出每一行的名字,可以用for语句遍历,方法同上。
df.dtypes # 数据每一列的类型不一样,比如数字、字符串、日期等。该方法输出每一列变量类型
df.head(3) # 看前3行的数据
df.tail(3) # 看最后3行的数据
df.sample(n=3) # 随机抽取3行,想要去固定比例的话,可以用frac参数
df.describe() # 查看每列特征,如平均值、标准差,最大最小值,百分位等,只会对数字类型的列有效
)
对数据格式进行修正
pd.set_option('expand_frame_repr', False) # 当列太多时显示不清楚,True就是可以换行显示,设置成False的时候不允许换行
pd.set_option("display.max_rows", 1000) # 设定显示最大的行数
pd.set_option('precision', 1) # 浮点数的精度




                        
标签: 暂无
最后更新:2022年10月6日

wanbabi

这个人很懒,什么都没留下

点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

归档
  • 2023年2月
  • 2022年12月
  • 2022年11月
  • 2022年10月
  • 2022年1月
  • 2021年12月
分类
  • 学习笔记
  • 投资
  • 日常
  • 未分类
  • 观影

COPYRIGHT © 2022 cxm'blog. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

粤ICP备2022016824号