建模常用的pandas语句-白红宇

建模常用的pandas语句

阅读量：7026 次

发布时间：2019-06-28

本文共 979 字，大约阅读时间需要 3 分钟。

　　pandas对象是Python常用的数据分析模块，它主要包括series对象，dataframe对象和index对象。每种对象都有自己所特有的方法和属性。今天小编更新下建模中常用的pandas语句。

　　额外提一句哈。小编不私聊哈，有事的话请加qq群的，微信群已满。

　　1.导入和numpy模块

　　import pandas as pd

　　import numpy as np

　　import os

　　2.查看并更改工作路径

　　pwd

　　os.chdir('更改的路径')

　　3.读入数据集

　　df=pd.read_csv(r'文件路径')

　　4.查看列数、行数

　　print(df1.columns.size,df.iloc[:,0].size)

　　5.查看列名

　　df.columns.tolist()

　　6.查看每个特征的类型

　　for col in fk_df.columns:print(col,fk_df[col].dtype)

　　7.计算坏账率

　　badRate=df['target'].sum()/df['target'].count()

　　8.计算特征空值率

　　null_rate=1-df.count()/df.shape[0]

　　9.保留空值率小于0.2的特征

　　cols=null_rate[null_rate<0.2].index.tolist()

　　10.查找数据集数值中型特征小于0的值并置为nan

　　def rep(x):if type(x)!=str and x<0:print(x)return np.nan return x df=df.applymap(rep)

　　11.设置新的索引

　　df=df.reindex()

　　12.检查常量特征

　　df1=df.loc[:,df1.apply(pd.Series.nunique)!=1]

　　13.查看是否有重复特征

　　len(set(list(df1.columns)))==df1.shape[1]

　　14.查看特征类别数

　　df1['education'].value_counts()

转载于:https://my.oschina.net/u/3953752/blog/2885602

你可能感兴趣的文章

node的fs模块

查看>>

wordpress和传统网站的加载性能优化

查看>>

wordpress主机选择并不难，符合这五条的都是好主机！

查看>>

javaweb中的三个域

查看>>

double free or corruption (!prev): 0x080644c8 ***

CM android的CMUpdater分析(一)

查看>>

2017python学习的第八天，socket的使用

【BZOJ】4565: [Haoi2016]字符合并

查看>>

用C#的Windows Service 来同步ActiveDirectory

查看>>

GLUT Trackball Demo

查看>>

golang: impressed by its cross compiling possibilities

查看>>

QQ在线交谈一句代码搞定

查看>>

编辑拓展对空物体进行面板上的编辑窗口 Slider Tag 文本枚举

查看>>

pip install selenium==版本号报错

查看>>

ubuntu 11.10 initial configuration

查看>>