官方文档 import pandas as pd # 将pandas作为第三方库导入 1、数据导入 df = pd.read_csv( filepath_or_buffer=r'本地路径' , # 要注意字符串转义符号 \ ,可以使用加r变为raw string或者每一个进行\\转义 encoding='gbk' , #编码格式gbk sep=',' , # 数据分隔符 skiprows=1, #跳过第1行不读入 nrows=n, #只读取前n行,若不指定,读入全部的数据 parse_dates=['列名字'], #将指定列的数据识别为日期格式。若不指定,时间数据将会以字符串形式读入。 index_col=['列名字'], # 将指定列设置为行标签(index)。若不指定,index默认为0, 1, 2, 3, 4... usecols=['列1', '列2'], # 读取指定的几列数据。若不指定,读入全部列 error_bad_lines=False, 当某行数据有问题时,报错。设定为False时即不报错,直接跳过该行。当数据比较脏乱的时候用这个。 na_values='NULL', # 将数据中的null识别为空值 ) 2、查看数据print( df.shape # 输出dataframe有多少行、多少列。 df.shape[0] # 输出行数量,相应的列数量就是df.shape[1] df.columns # 顺序输出每一列的名字 可以使用for语句遍历列名字 for col in df.columns: print(col) df.index # 顺序输出每一行的名字,可以用for语句遍历,方法同上。 df.dtypes # 数据每一列的类型不一样,比如数字、字符串、日期等。该方法输出每一列变量类型 df.head(3) # 看前3行的数据 df.tail(3) # 看最后3行的数据 df.sample(n=3) # 随机抽取3行,想要去固定比例的话,可以用frac参数 df.describe() # 查看每列特征,如平均值、标准差,最大最小值,百分位等,只会对数字类型的列有效 ) 对数据格式进行修正 pd.set_option('expand_frame_repr', False) # 当列太多时显示不清楚,True就是可以换行显示,设置成False的时候不允许换行 pd.set_option("display.max_rows", 1000) # 设定显示最大的行数 pd.set_option('precision', 1) # 浮点数的精度
文章评论