序言
预测未来,是人们梦寐以求的一项能力。
本文将用一个简单的人工智能算法,即线性回归算法,预测阿里巴巴 2019 年双 11 的交易额。
1. 准备工作
首先,我们导入 Python 中所需的库,并简单进行设置,让图片内嵌在 Jupyter 中显示,并能正常显示中文标签。
代码语言:javascript复制# 导入所需的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
# 内嵌画图
%matplotlib inline
# 设置正常显示中文标签
plt.rcParams['font.sans-serif'] = ['SimHei']
2. 处理数据
其次,我把历年双 11 的交易额数据,保存到文件「1111.xlsx」中,在林骥的公众号后台回复「1111」,可以获取该文件的链接。用 Pandas 读取数据,并用 NumPy 转换为算法所需的变量数组。
有时候,最简单的办法反而是最有效的。为了简化算法模型,提高算法的评分,舍弃掉前几年相对较小的数据,只保留最近 5 年的数据。
代码语言:javascript复制# 读取数据,在林骥的公众号后台回复「1111」
df = pd.read_excel('./data/1111.xlsx')
# x 年份,只用最近几年的数据
x = np.array(df.iloc[5:, 0]).reshape(-1, 1)
# y 交易额
y = np.array(df.iloc[5:, 1])
# z 预测的年份
z = [[2019]]
3. 进行预测
接下来,我们调用 sklearn 库中的线性回归算法,对历年双 11 的交易额数据进行拟合,并对 2019 年进行预测,预测结果是 2471 亿元。
代码语言:javascript复制# 调用线性回归算法
lr = LinearRegression()
lr.fit(x, y)
# 用线性回归算法进行预测
predict = lr.predict(z)
# 输出预测结果
print('预测 2019 年双 11 的交易额是', str(round(predict[0],0)), '亿元。')
print('线性回归算法的评分:', lr.score(x, y))
预测 2019 年双 11 的交易额是 2471.0 亿元。 线性回归算法的评分:0.9906552024771336
4. 数据可视化
为了更加直观地展示预测的结果,我们用 matplotlib 中的散点图,画出历史数据和预测数据。
代码语言:javascript复制# 将数据可视化,设置图像大小
fig = plt.figure(figsize=(10, 8))
ax = fig.add_subplot(111)
# 绘制散点图
ax.scatter(x, y, color='#0085c3', s=100)
ax.scatter(z, predict, color='#dc5034', marker='*', s=260)
# 设置标签等
plt.xlabel('年份', fontsize=20)
plt.ylabel('双 11 交易额', fontsize=20)
plt.tick_params(labelsize=20)
# 绘制预测的直线
x2 = np.concatenate([x, z])
y2 = lr.predict(x2)
plt.plot(x2, y2, '-')
plt.show()
5. 注意事项
最后,提醒几点需要注意的事项:
(1)线性回归代表的是变量之间的数量变换关系,而不是因果关系。
(2)线性回归算法对异常值比较敏感,应予以剔除。
(3)算法也要与时俱进,当算法模型与现实情况严重不符时,要及时调整算法。
线性回归算法,属于人工智能领域一种比较简单的算法,而现实世界往往是复杂多变的,预测结果仅供参考。
小结
本文用一个简单的人工智能算法,预测 2019 年双 11 的交易额为 2471 亿元,并用图形展示了预测的结果。
到此,预测工作算是基本完成了,但数据分析工作还要继续。等双 11 活动结束之后,我们还应该进行复盘,拿实际数据与预测的结果进行对比分析,计算预测的准确率,分析差异的原因,提出改进的方案,想方设法提高下一次预测的准确率。
虽然现实情况千变万化,但是基本原理和解决问题的思路是相通的。