数据挖掘学习小组之(抽样分布篇)

2019-08-28 16:40:38 浏览数 (1)

第六周

哈哈,又多坚持了一周,依然为自己点赞!

知识点

抽样分布,使用Python实现!

我的吐槽

在参加数据挖掘学习小组之前,居士做了一个调查:每周能投入在学习上的时间是多少。我记得当时我选了3-5小时。我这是第六周了,可以说每周投入的时间都超过了这个数字。因为自己的数学基础本身比较差,对数据挖掘也是门外汉,每周的学习做起来都要查大量的资料,我觉得自己找资料的时间都不止3小时,而作业时间也不只2小时,加在一起绝对超过了5小时。 不过,正是因为学起来有困难,我认为才有学习的必要。如果是学一些gis类的东西,结合自己的经验应该会容易很多,但这次要学的不是gis,是数据挖掘,是我为了提升自己的能力自己选的方向。为了学好这些知识,除了每周发起者写的一些学习内容与要求,我自己也买了一些机器学习的书籍在看,总之,为了遇见更好的自己,加油吧!

作业

直接代码吧!

截图

代码

代码语言:javascript复制
import matplotlib as mpl
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as stats
#防止乱码
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False

#读取数据
df = pd.read_excel(r'D:BaiduNetdiskDownloaddatadata.xlsx')

#获取数据的描述
des = df.groupby(['Embarked']).describe()
print('idn','-*'*38 '-n',des['ID'])
print('Agen','-*'*38 '-n',des['Age'])
print('Faren','-*'*38 '-n',des['Fare'])

#绘分布图
plt.hist(df['Fare'],bins=30)
plt.show()

others

能力所限(工作之外的主要精力放在了机器学习部分),这次的作业没能全部完成,只完成了部分,有点惭愧了!

我这个人有个小毛病,光看书学不会,必须要写代码,要实践!毕竟我们伟大领袖都说过:实践出真知!

0 人点赞