初识Pandas-初探数据文件

pip install pandas

额外的安装jupyter,我们的全部编程都在jupyter进行编写

加载数据文件

  import pandas as pd
  pd_imdb = pd.read_csv("IMDB.csv") #这里面我们以IMDB.csv文件为演示

文件自行下载

操作及食用方法

查看所有的列名

  pd_imdb.columns #查看所有的列名

查询前/后几行数据

  pd_imdb.head(3) #查看前三行
  pd_imdb.tail(3) #查看末尾三行

查看基础的描述信息

  pd_imdb.describe() #查看基础的描述信息

iloc 和 loc 的区别
iloc是根据索引值来获取内容的，loc是根据列名来获取内容的：
iloc: pd_imdb[1:10,3:6] -> 这样是选择第1到9行，第3到5列的内容注意！这里面不包含第10行
loc:pd_imdb[0:10,[‘Title’,’Actors’]] -> 这样是选择’Title’,’Actors’列的第0到10行

选出最大值及最大值的索引

  pd_imdb.loc[:,['Revenue (Millions)']].max() #选出票房最高的电影

  pd_imdb.loc[:,['Revenue (Millions)']].idxmax() #选出票房最高的电影的索引(行号)

范围的选取

  pd_imdb[pd_imdb['Revenue (Millions)'] > 500] #选出票房大于500的行

选取包含的内容

  pd_imdb[pd_imdb['Genre'].str.contains('Sci-Fi')] #选出风格中包含科幻的

统计某列数据所有字眼出现的次数

  pd_imdb['Director'].value_counts() #统计出每个导演导演了多少部影片

本博客所有文章如无特别注明均为原创。作者：止语，复制或转载请以超链接形式注明转自止语。
原文地址《初识Pandas-初探数据文件》

止语