「杂谈」推荐10个数据分析与挖掘公开数据集网站『收藏系列2』

2022-12-09 11:32:14 浏览数 (1)

预计阅读时间:5min

阅读建议:本篇为网址推荐类文章,建议收藏,业余时间慢慢品尝。

解决痛点:要提升数据分析及挖掘能力,需在工作中不断探索,但如果工作中没有涉及,要怎么办呢?利用公开数据集,在业余时间实操方法论及模型,是比较好的方式。而公开数据哪里找呢?这些网址也许你用的到!

00

序言

小火龙为大家总结了10个常用的公开数据集,涵盖三大方向,包括:国家官方统计数据、第三方机构统计数据、数据科学竞赛数据。

01

国家官方统计数据

网站1:国家统计局「常用指数:3星」

http://www.stats.gov.cn/tjsj/

主要涵盖国家宏观经济、社会、民生等重要数据。

网站2:中国互联网信息中心 CNNIC「常用指数:3星」

http://www.cnnic.cn/

主要涵盖中国互联网发展相关数据,相比第三方平台,权威性更强。

02

第三方机构统计数据

网站3:百度指数「常用指数:5星」

https://index.baidu.com/v2/index.html#/

基于百度的用户行为数据,覆盖面较广,支持以API形式调取,可用于分析行业热度等。

网站4:艾瑞数据 「常用指数:4星」

https://data.iresearch.com.cn/home.shtml

网站除了定期发布互联网报告外,还涵盖了互联网细分行业数据,可作为百度指数的补充。

网站5:互联网数据资讯网 199IT 「常用指数:4星」

http://www.199it.com/

除了涵盖互联网相关报告外,还拥有「大数据导航」,可以查询热门方向的趋势数据。

网站6:搜数网 「常用指数:3星」

http://www.soshoo.com/index.do

行业分布比较广,可作为国家统计局数据的补充。

网站7:数据堂 「常用指数:3星」

http://www.datatang.com/

主要涵盖人工智能的训练数据,对于正在学习算法的同学,可以重点关注一下。

03

数据科学竞赛数据

网站8:Kaggle 「常用指数:5星」

https://www.kaggle.com/

Kaggle是2010年创立的数据挖掘线上竞赛平台。作为数据挖掘爱好者的聚集地,不光可以通过竞赛提升算法及代码能力,运气好的话还可以获得奖金。除此之外,网站上还有很多开源数据,可用于日常模型训练,例如:大家耳熟能详的“泰坦尼克号生存预测数据”等。

网站9:阿里天池「常用指数:5星」

同Kaggle类似,背靠阿里的大数据竞赛平台,也是国内算法大佬的聚集地,开源数据可直接下载应用。

网站10:DataCastle 「常用指数:5星」

https://www.datacastle.cn/index.html

中国头部的数据科学竞赛平台,同Kaggle、天池类似,有众多开源数据可以下载应用,作为数据挖掘练习的样本。

以上就是本期的内容分享。码字不易,如果觉得对你有一点点帮助,欢迎「关注」「点赞」「分享」哦,我会持续为大家输出优质的「原创内容」~~

0 人点赞