Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapR...
弹性分布式数据集(RDD)是一组不可变的JVM对象的分布集,可以用于执行高速运算,它是Apache Spark的核心。
本人使用的是Jupyter notebook 编辑器做数据分析的,API 是pyspark,有时候需要把 pyspark DataFrame 转成 pandas Dataframe,然后转成CSV 文件去汇报工作,发现有中文导出的时候是乱码,问了运维的同事的他们已经设置成了UT...
在 Linux 上自建 MySQL 服务器,经常遇到各种无法启动或启动后异常的问题,本文列举一些常见问题的解决办法。