数据分析流程
提出问题 –> 准备数据 –> 分析数据 –> 获得结论 –> 成果可视化
conda 环境安装
conda: data science package & environment manager
创建环境:
conda create --name python3 python=3
切换环境:
windows: activate python3
linux/macos: source activate python3
matplotlib
- 概念最流行的Python底层绘图库,主要做数据可视化图表
- 基本要点
- 用法
导入:
from matplotlib import pyplot as plt
plt.plot(横坐标列表,值列表)
传入横坐标列表和值列表,通过plot绘制出折线图plt.show()
在执行程序的时候展示图形- 功能
- 设置图片大小
plt.figure(figsize=(20, 8), dpi=80)
- 保存到本地
plt.savefig("./气温.png")
- 描述信息
plt.xlabel('横坐标')
plt.ylabel('纵坐标')
plt.title('标题')
- 线条的样式
plt.plot(color='r', linestyle='--', linewidth=5, alpha=0.4)
- 网格透明度
plt.grid(alpha=0.4)
- 标记处特殊的点
- 添加水印
- 标记线条名称
plt.plot(x,x_str,'名称')
- 添加图例
plt.legend(prop=字体, loc=位置对应的数字或字符串)
添加字体 prop=字体 - 设置坐标轴的刻度
plt.xticks(x)
或plt.xticks(x, ['h{}'.format(i) for i in x]], rotation=90)
rotation旋转度数 - 设置字体a. window和linux
import matplotlib
# 设置字体
font = {
'family': 'MicroSoft YaHei',
'weight': 'bold'
}
matplotlib.rc("font", **font)
b. window、macos和linux
代码语言:javascript复制from matplotlib import font_manager
font = font_manager.FontProperties(fname='字体绝对路径')
plt.xticks(x, x_str, ratation=45, fontproperties=font)
散点图、直方图、柱状图对比:折线图:显示数据的变化趋势,反映事物的变化情况
直方图: 绘制连续性的数据,展示一组或多组数据的分布情况
绘制 plt.hist(值列表, 组数)
注:
- 组数分法:
记录数<100 –> 5-12 组
记录数<100 –> 极差/组距 组
- 组距尽量设置为能被极差整除,极差=最大值-最小值
- 值列表中的值是未经过统计的数据,如果是统计后的数据,则无法绘制直方图,可以考虑使用无间隔的条形图来显示。
条形图: 绘制离散的数据,显示数据的大小。比较数据之间的差别
绘制
代码语言:javascript复制竖:plt.bar(横坐标, 值列表, width=0.3)
横:plt.barh(横坐标, 值列表, height=0.3)
散点图: 判断变量之间是否存在数量关联趋势,展示离群点(分布规律)
绘制 plt.scatter(横坐标, 值列表)
其他画图工具
- 百度echarts
- seaborn
- plotly