总结下pandas使用的技巧
读取json数据并转成Python格式
计数功能实现
代码语言:javascript复制# 方法1
def get_counts(sequence):
counts = {} # 将计数值保存在字典中
for x in sequence:
if x in counts:
counts[x] = 1 # 存在则计数加1
else:
counts[x] = 1 # 不存在则定为1
return counts
# 方法2
from collections import defaultdict
def get_counts2(sequence):
counts = defaultdict(int)
for x in sequence:
counts[x] = 1
return counts
缺失值填充
利用seaborn制作条形堆积图
如何标准化数据
代码语言:javascript复制# 标准化过程:使用自定义的标准化函数实现
def normal_total(group):
group['normed_total'] = group.total / group.total.sum()
return group
透视表制作
代码语言:javascript复制# 按照性别计算平均得分
mean_ratings = data.pivot_table('rating', # 得分
index='title', # 行索引index
columns='gender', # 列属性gender
aggfunc='mean') # 使用的函数:平均分
mean_ratings[:5]
查看文件的前n行
代码语言:javascript复制!head -n 10 /Users/peter/data-visualization/pydata-book/datasets/babynames/yob1880.txt
# 查看某个文件的前10行数据