在初次介绍用户画像项目的时候我们谈到过,按照实现方式,标签可以分为匹配型,统计型和挖掘型。之前已经为大家介绍了关于用户画像项目中匹配型标签的开发流程。...
写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水...
经过了用户画像,标签系统的介绍,又经过了业务数据调研与ETL处理之后,本篇博客,我们终于可以迎来【企业级用户画像】之标签开发。
之前关于用户画像项目部分的讲解大多停留在理论层面,本篇我们正式开始对该项目中所使用到的业务数据进行调研和ETL处理。
本篇博客,博主为大家介绍的是关于Kylin的增量构建的步骤过程,以及其与全量构建的差异对比!看完之后,相信你也一定能够感受到这里面的大学问~
作为快速入门Kafka系列的第六篇博客,本篇为大家带来的是Kafka的JavaAPI操作~
接下来的几天,博主将开始更Redis系列的博客,希望大家多多支持~本篇博客作为Redis系列第一篇,为大家带来的是Redis介绍及环境安装。
本文集合了小编在日常学习和生产实践中遇到的使用Hbase中的各种问题和优化方法,分别从表设计、rowkey设计、内存、读写、配置等各个领域对Hbase常用的调优方式进行了总结,希望能对读者有帮助。本文参考结合自己实际优化...
Spark的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。文件格式分为:Text文件、Json文件、Csv文件、Sequence文件以及Object文件;文件系统分为:本地文件系统、HDFS、HBASE以及数据库。...