- 前言
曾记得我在读研的时候,参加了中国统计年会(2013年),在会上很多领域内的专家都谈及了大数据一词,然而那个时候的我并没有那么敏感。短短5年过去了,大数据行业发展之迅速,技术迭代之成熟,迫使自己不断地学习新的技能。对于大数据领域,有哪些必备技能需要掌握呢?
首先是基础语言的使用,例如Java就是大数据中最基础的编程语言,很多大数据架构工具都是基于Java开发的,如果不掌握她,该如何驾驭大数据工具呢?还有就是Scala,她的运行机制跟Java非常像(而且语法上也非常相似),更要紧的是,Spark与Kafka等工具都是采用Scala编程的。
然后是应用语言的掌握,例如Python,她在统计建模、可视化、机器学习上可是赚足了风头,很多企业在招聘数据分析师或挖掘工程师时都会提到该项技能的掌握。另外,还有Linux系统中的Shell编程,准确的说Linux系统(相比于Window系统)也算是基础内容了,几乎所有的架构师、开发团队都是基于Linux系统干活的。
最后是分布式存储和计算,这才是大数据领域中最核心最有价值的部分,属于Boos级别了。基于Hadoop、MapReduce、Spark等工具可以让大批量的数据在秒级内完成数据的存储和运算。然而进入到该阶段之前,基础语言的使用和应用语言的掌握才是最主要的。
- 安装
所以,从本期开始,将脚踏实地的学习这些大数据方面的技能,并以系列的形式将学习的内容和踩过的坑分享给各位网友,希望自己的学习和分享能够对您有帮助。
在本次的分享中,将带着各位朋友在Windows系统内安装Linux系统,后续大数据方面的分享都会基于Linux系统来完成,所以还没有安装过Linux系统的朋友不妨看看下面的内容哦。
安装VMware和Linux系统
在安装Linux系统之前,需要在Windows系统中安装虚拟机,这里使用的是VMware12版本的虚拟机,Linux系统选用的是CentOS6.10。这两款软件都可以在文末提供的百度网盘链接中下载到。
由于整个安装环节比较多,考虑到篇幅的影响,这里就挑最重要的步骤给大家分享,如需获得详细的安装材料,可以在文末的百度网盘链接中下载。
- 从安装VMware开始
双击VMware-workstation-full-12.5.6-5528349.exe文件,准备进入安装
选择VMware的安装路径
安装进程与成功页
- 基于VMware安装Linux系统
双击VMware图标,准备安装
选择操作系统
配置内存、处理器、网络(内存一般配置2GB差不多够用了,但不能超过你物理机的内存大小;处理器可以配置成双处理器,双核效果;网络需要配置为NAT模式)
启动虚拟机
配置分区,包含引导分区/boot(200M)、SWAP(2048M)和根分区/(剩余空间)
成功安装
对于虚拟机和系统的安装,其整体过程还是非常简单的,读者跟着网盘中的安装手册就可以轻松搞定。对于渴望学习大数据的你来说,读完该篇文章,并实地安装对应的软件,就算跨出第一步啦~~希望读者能够跟我一起勇敢地走下去,加油!
- 结语
OK,踏出学习大数据的第一步就分享到这里,如果你有任何问题,欢迎在公众号的留言区表达你的疑问。同时,也欢迎各位朋友继续转发与分享文中的内容,让更多的人学习和进步。
文中提到的软件和安装材料都已经上传到了百度网盘,读者朋友可以在下方的链接中下载到。
链接:https://pan.baidu.com/s/1ZbpaXsS-ge0y6HxIDx5U0w
提取码:ecwh