博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
建模常用的pandas语句
阅读量:7026 次
发布时间:2019-06-28

本文共 979 字,大约阅读时间需要 3 分钟。

hot3.png

  pandas对象是Python常用的数据分析模块,它主要包括series对象,dataframe对象和index对象。每种对象都有自己所特有的方法和属性。今天小编更新下建模中常用的pandas语句。

  额外提一句哈。小编不私聊哈,有事的话请加qq群的,微信群已满。

  1.导入和numpy模块

  import pandas as pd

  import numpy as np

  import os

  2.查看并更改工作路径

  pwd

  os.chdir('更改的路径')

  3.读入数据集

  df=pd.read_csv(r'文件路径')

  4.查看列数、行数

  print(df1.columns.size,df.iloc[:,0].size)

  5.查看列名

  df.columns.tolist()

  6.查看每个特征的类型

  for col in fk_df.columns:print(col,fk_df[col].dtype)

  7.计算坏账率

  badRate=df['target'].sum()/df['target'].count()

  8.计算特征空值率

  null_rate=1-df.count()/df.shape[0]

  9.保留空值率小于0.2的特征

  cols=null_rate[null_rate<0.2].index.tolist()

  10.查找数据集数值中型特征小于0的值并置为nan

  def rep(x):if type(x)!=str and x<0:print(x)return np.nan return x df=df.applymap(rep)

  11.设置新的索引

  df=df.reindex()

  12.检查常量特征

  df1=df.loc[:,df1.apply(pd.Series.nunique)!=1]

  13.查看是否有重复特征

  len(set(list(df1.columns)))==df1.shape[1]

  14.查看特征类别数

  df1['education'].value_counts()

转载于:https://my.oschina.net/u/3953752/blog/2885602

你可能感兴趣的文章
node的fs模块
查看>>
wordpress和传统网站的加载性能优化
查看>>
wordpress主机选择并不难,符合这五条的都是好主机!
查看>>
javaweb中的三个域
查看>>
double free or corruption (!prev): 0x080644c8 ***
查看>>
集训第五周动态规划 H题 回文串统计
查看>>
约瑟夫问题
查看>>
CM android的CMUpdater分析(一)
查看>>
2017python学习的第八天,socket的使用
查看>>
条件编译
查看>>
类百度DOC编辑区域
查看>>
[转载]Linux下终端字体颜色设置方法
查看>>
【BZOJ】4565: [Haoi2016]字符合并
查看>>
用C#的Windows Service 来同步ActiveDirectory
查看>>
GLUT Trackball Demo
查看>>
golang: impressed by its cross compiling possibilities
查看>>
QQ在线交谈一句代码搞定
查看>>
编辑拓展 对空物体进行面板上的编辑 窗口 Slider Tag 文本 枚举
查看>>
pip install selenium==版本号 报错
查看>>
ubuntu 11.10 initial configuration
查看>>