安装pandas
pip install pandas
额外的安装
jupyter
,我们的全部编程都在jupyter
进行编写
初探数据文件
- 需要的数据文件
IMDB.csv 提取码: y8c9 加载数据文件
import pandas as pd pd_imdb = pd.read_csv("IMDB.csv") #这里面我们以IMDB.csv文件为演示
文件自行下载
操作及食用方法
查看数据的基本信息
pd_imdb.info() #查看数据基本信息
会显示出来该数据文件的基本信息
查看所有的列名
pd_imdb.columns #查看所有的列名
查询前/后几行数据
pd_imdb.head(3) #查看前三行 pd_imdb.tail(3) #查看末尾三行
查看基础的描述信息
pd_imdb.describe() #查看基础的描述信息
iloc 和 loc 的区别
iloc是根据索引值来获取内容的,loc是根据列名来获取内容的:
iloc: pd_imdb[1:10,3:6] -> 这样是选择第1到9行,第3到5列的内容 注意!这里面不包含第10行
loc:pd_imdb[0:10,[‘Title’,’Actors’]] -> 这样是选择’Title’,’Actors’列的第0到10行选出最大值及最大值的索引
pd_imdb.loc[:,['Revenue (Millions)']].max() #选出票房最高的电影
pd_imdb.loc[:,['Revenue (Millions)']].idxmax() #选出票房最高的电影的索引(行号)
范围的选取
pd_imdb[pd_imdb['Revenue (Millions)'] > 500] #选出票房大于500的行
选取包含的内容
pd_imdb[pd_imdb['Genre'].str.contains('Sci-Fi')] #选出风格中包含科幻的
统计某列数据所有字眼出现的次数
pd_imdb['Director'].value_counts() #统计出每个导演导演了多少部影片