最新 最热

7种最常见的Hadoop和Spark项目

称之为“企业级数据中心”或“数据湖”,这个想法是你有不同的数据源,你想对它们进行数据分析。这类项目包括从所有来源获得数据源(实时或批处理)并且把它们存储在hadoop中。有时,这是成为一个“数据驱动的公司”的第一步;有...

2018-07-25
1

如何避免HBase写入过快引起的各种问题

client api ==> RPC ==> server IPC ==> RPC queue ==> RPC handler ==> write WAL ==> write memstore ==> flush to filesystem

2018-07-25
1

Spark Streaming应用与实战全攻略

有一块业务主要是做爬虫抓取与数据输出,通过大数据这边提供的SOA服务入库到HBase,架构大致如下:

2018-07-25
1

分布式爬虫系统设计、实现与实战:爬取京东、苏宁易购全网手机商品数据+MySQL、HBase存储

1、概述在不用爬虫框架的情况,经过多方学习,尝试实现了一个分布式爬虫系统,并且可以将数据保存到不同地方,类似MySQL、HBase等。基于面向接口的编码思想来开发,因此这个系统具有一定的扩展性,...

2018-07-20
1

学习Java基础知识,打通面试关十~IO流

在做大数据的时候刚开始把所有数据都存入lhbase中,结果导致hbase每天都有很多数据 而且key设置的是ip虽然散列了,但是随着数据量的增加,用spark查询是越来越慢,因为新学习当时没有了解到Hbase的具体存储模式。在知道之后,...

2018-07-19
1

如何在CDH中使用HBase的Quotas设置资源请求限制

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的----HBase集群在实...

2018-07-12
1

如何在CDH中使用HBase的ACLs进行授权

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的----在集群中使用HB...

2018-07-12
1

Spark2Streaming读Kerberos环境的Kafka并写数据到HBase

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的----在前面的文章Fayson介绍了在Kerberos环境下《...

2018-07-12
1

如何在CDH5.14.2中安装Phoenix4.14.0

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的----Fayson在前面的文章《Cloudera Labs中的Phoen...

2018-07-12
1

如何使用Phoenix在CDH的HBase中创建二级索引

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的----对于HBase而言,如果想精确地定位到某行记录,唯...

2018-07-12
1