最新 最热

整理一份详细的数据预处理方法

熟悉数据挖掘和机器学习的小伙伴们都知道,数据处理相关的工作时间占据了整个项目的70%以上。数据的质量,直接决定了模型的预测和泛化能力的好坏。它涉及很多因素,包括:准确性、完整性、一致性、时效性、可信性和解释性。...

2019-10-30
0

常见面试算法:支持向量机

1、SVM - Support Vector Machine ,俗称支持向量机,是一种 supervised learning (监督学习)算法,属于 classification (分类)的范畴。

2019-10-28
0

如何识别“答非所问”?使用gensim进行文本相似度计算

在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性。

2019-10-28
0

特征工程(三):特征缩放,从词袋到 TF-IDF

其他的像是“magnificently,” “gleamed,” “intimidated,” “tentatively,” 和“reigned,”这些辅助奠定段落基调的词也是很好的选择。它们表示情绪,这对数据科学家来说可能是非常有价值的信息。 所以,理想情况下,...

2019-10-28
0

房价预测可视化项目

对于数据挖掘工程师来说,有时候需要抓取地理位置信息,比如统计房子周边基础设施信息,比如医院、公交车站、写字楼、地铁站、商场等,一般的爬虫可以采用python脚本爬取,有很多成型的框架如scrapy,但是想要爬百度地图就必须...

2019-10-28
1

textCNN和lightGBM模型对景区口碑评价进行情感分析

思路 分类问题:通过分类器学习评论与情感值的复杂映射关系。 回归问题:情感值实际是有先后等级关系,因此可以采用回归大法,直接预测。注意:分类可以采用softmax多分的手段,实测效果很差。因此,我最终还是采用了回归大...

2019-10-28
0

xgboost融合模型:大学助学金精准资助预测(有数据)

你所看到的这份代码,是Data Castle数据挖掘公开赛《助学金精准预测》的冠军作品。本程序以大学生的行为数据以及历史获助学金情况作为训练数据集,对代码内的模型进行训练,后可根据新的大学生行为数据进行助学金获得情况...

2019-10-28
0

深入浅出大数据:到底什么是Hadoop?

1998年9月4日,Google公司在美国硅谷成立。正如大家所知,它是一家做搜索引擎起家的公司。

2019-10-25
1

文章测序数据下载碰到的问题的小总结(南京站学员分享)

全国巡讲南京站过去还不到一周,学员们课后练习都很拼,微信群答疑对话一不留神就几百条了,爱学习的你是最美丽的!

2019-10-25
1

基于wifi的行为轨迹数据挖掘分享

(1)微观层次的数据挖掘,主要在移动对象轨迹数据内部,从采样点及采样时间的分布上来研究移动对象的活动特征。其包括轨迹的聚类分析、轨迹的分类分析、轨迹的异常检测分析、轨迹的异常检测分析、轨迹的索引建立。...

2019-10-23
0