大家好,我是不温卜火,昵称来源于成语—
不温不火
,本意是希望自己性情温和
。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!博客主页:https://buwenbuhuo.blog.csdn.net/
目录
- 前言
- 一、大数据时代到来的动因
- 1.1 第三次信息化浪潮
- 1.2 信息科技为大数据时代提供技术支撑
- 1.2.1 存储设备容量不断增加
- 1.2.2 CPU处理能力大幅提升
- 1.3.1 网络带宽不断增加
- 1.3 数据生产方式的变革促成大数据时代的来临
- 二、大数据的简单介绍
- 2.1 大数据的定义
- 2.2 大数据的特点(5V)
- 2.3 大数据的发展历程
- 2.4 大数据的关键技术
- 2.5 大数据计算模式
- 2.6 大数据产业
- 2.7 大数据与云计算、物联网的关系
- 2.8 大数据开发的一般过程
- 2.8.1 数据采集
- 2.8.2 数据存储
- 2.8.3 数据清洗
- 2.8.4 数据分析
- 2.8.5 数据可视化
- 2.9 大数据的应用场景
- 三、大数据的影响以及未来前景展望
- 3.1 大数据的影响
- 3.2 大数据行业发展趋势的两个层面
- 3.2.1 国家层面
- 3.2.2 高校教育和就业层面
- 3.3 未来展望
- 3.4 大数据职业发展路线
前言
此系列主要为我的学弟学妹们所创作,在某些方面可能偏基础。如果读者感觉较为简单,还望见谅!如果文中出现错误,欢迎指正~
本文主要介绍了大数据发展历程及大数据的简单介绍,包括促进大数据时代到来的动因、大数据简介、大数据开发的一般过程、大数据的应用场景以及未来展望。
一、大数据时代到来的动因
1.1 第三次信息化浪潮
根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革。在2010年前后爆发的第三次信息化浪潮期间,由于信息逐渐增加,为了解决信息爆炸问题,物联网、云计算和大数据相继兴起了起来。下图为三次信息化浪潮发生时间、标志、解决问题以及代表企业。
1.2 信息科技为大数据时代提供技术支撑
1.2.1 存储设备容量不断增加
根据上图我们可以清晰的看出存储价格随着时间的变化而变化。
1.2.2 CPU处理能力大幅提升
根据上图我们可以清晰的看到CPU晶体管数目随着时间的变化而变化。
1.3.1 网络带宽不断增加
根据上图我们可以清晰的看到网络带宽随着时间的变化而变化。
在信息化基础设施方面,据工业和信息化部官网消息,截至2019年12月底,我国互联网宽带接入端口数量达9.16亿个,其中,光纤接入端口占互联网接入端口的比重达91.3%;光缆线路总长度已达4750万公里,相当于在京沪高铁线上往返1.8万余次。同时,近五年来固定宽带和移动宽带资费平均下降90%,速率提升6倍。目前,我国已基本实现“城市光纤到楼入户,农村宽带进乡入村”。
据中国信息通信研究院(简称中国信通院)数据,截至2020年2月底,全国建设开通5G基站达16.4万个,5G网络建设基础不断夯实。2020年中国将建设60万~80万个5G基站。
1.3 数据生产方式的变革促成大数据时代的来临
二、大数据的简单介绍
2.1 大数据的定义
大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2.2 大数据的特点(5V)
- 1、大量 采集、存储和计算的数据量都非常大。 随着科学技术的发展和互联网的普及,全球的数据量已经大到爆了,而传统的关系型数据库根本处理不了如此海量的数据。 截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是5EB。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
- 2、高速 根据IDC的“数字宇宙”的报告,预计到2025年,全球数据使用量将达到163ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。 在大数据时代,数据的创建、存储、分析都要求被高速处理,比如电商网站的个性化推荐尽可能要求实时完成推荐,这也是大数据区别于传统数据挖掘的显著特征。
- 3、多样 数据形式和来源多样化,包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等,多类型的数据对数据的处理能力提出了更高的要求。其数据类型按照分类可划分为: ①结构化数据: Excel文件、csv文件等。 结构化数据为表格形式的数据:每列数据类型相同,切不可再细分。 ②半结构化数据: 邮件、网页、JSON文件、日志文件等。 这些数据的结构和内容混在一起,没有明显的区分。 ③非结构化数据: 图片、视频等
- 4、真实 确保数据的真实性,才能保证数据分析的正确性。
- 5、低价值 数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵 。 互联网发展催生了大量数据,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题,也是一个有难度的课题。
2.3 大数据的发展历程
2.4 大数据的关键技术
下图为大数据技术的不同层面及其功能的解释:
大数据的两大关键技术分别为:分布式存储和分布式处理。
2.5 大数据计算模式
2.6 大数据产业
大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合
2.7 大数据与云计算、物联网的关系
云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别,在此就不过多赘述云计算和物联网。如有兴趣可自行查阅相关资料。
2.8 大数据开发的一般过程
如果说公司有需求,比如说双十一实时大屏功能的实现:
下图为实现过程分析:
如果我们想要完整实现的话,一般需要经过以下几个步骤:
下面分别介绍下这几个过程所用到的工具及其简单介绍。
关于数据存储和数据清洗的问题,可以采用原始的先存储后清洗,也可以先进行数据清洗,然后进行数据存储。
2.8.1 数据采集
数据采集:又称数据获取,从传感器和互联网等渠道自动采集信息的过程。
下面为一些常见的数据采集工具:
1️⃣ 普通 1、python网络爬虫:
Urllib:HTTP请求库,用于请求、下载网页
Requests:基于Urllib,但更加快捷方便
Scrapy:爬虫框架,用于从网页中提取数据
2、Webmagic(Java):垂直爬虫框架,简单爬虫开发流程,专注于逻辑功能的开发。
3、BotnetSpider(C#):国人开源的跨平台、高性能、轻量级爬虫软件,.NET最为优秀的开源爬虫之一
2️⃣分布式采集工具
1、Chukwa(hadoop):用于监控大型分布式系统的数据收集系统,构建在HDFS和Mapreduce之上。
2、Kafka:由Apache开源,高吞吐量的分布式发布订阅消息系统。
3、Flume:分布式的海量日志采集、集合和传输系统。
2.8.2 数据存储