一切技术的出现都是为了解决现实问题,而现实问题分为简单问题和复杂问题。简单问题,需要简单分析,我们使用数据分析。复杂问题,需要复杂分析,我们使用机器学习。...
学生时代对于自己以后想做什么工作都是很迷茫的。没有太多想法,按部就班,想着毕业之后就是做自己本行的事情,虽然也算不上很热爱。
工欲善其事,必先利其器。系统的解决大数据安全,必须建设一套符合大数据平台自身特点的事后安全审计体系,以统筹解决安全威胁,并进行系统性的安全威胁消除。通过借鉴国内外大数据平台安全体系建设经验,参考业界前沿的安全技...
本篇博客将会汇总记录大部分的Spark RDD / Dataset的常用操作以及一些容易混淆的操作对比。
## Spark Streaming(DStreaming) VS Spark Structured Streaming 区别比较 优劣势
在大数据时代中我们迫切需要实时应用解决源源不断涌入的数据,然而建立这么一个应用需要解决多个问题:
这篇博客将会记录Structured Streaming + Kafka的一些基本使用(Java 版)
以上场景都涉及到“用户画像”的使用。我们需要定义用户群体,需要更了解用户,自然而然就会去认知用户,收集用户的相关信息,这些步骤其实就是在逐步构建用户画像。...
贝叶斯定理太有用了,不管是在投资领域,还是机器学习,或是日常生活中高手几乎都在用到它。
之前通过文章介绍过canal,本篇文章主要简述一下Canal、Maxwell、mysql_streamer对比。