Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集...
2015年12月8日,Apache Kylin 从 Apache 孵化器项目毕业,正式升级为顶级项目,也是第一个由中国团队完整贡献到 Apache 的顶级项目。kylin的诞生,为大数据高效的olap查询提供解决方案,主要由以下特点:...
MySQL + HBase 是我们日常应用中常用的两个数据库,分别解决应用的在线事务问题和大数据场景的海量存储问题。
本文主结合作者近千万级开发实战经验,和大家一起深入探讨一下Elasticsearch 索引设计,历时两周+的时间完成此文,干货满满,避免大家掉坑。
Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金...
Phoenix 在 HBase 生态系统中占据了非常重要的地位,本文主要包括以下几方面内容:
昨晚看了一下gitchat收益,没想到累计1800+了。这也是我没想到的,有很多好友问我这是哪个平台,这篇文章便是统一回复,如果你只是单纯的想知道这个答案,ok,后面不用看了,如果你是想提升自我能力,把这篇文章当做普通文章看待的,那...
Hbase单表可以有百亿行、百万列,数据矩阵横向和纵向两个维度所支持的数据量级都非常具有弹性
在这篇文章中,我们看一下 HBase Java 客户端 API 如何使用。HBase 用 Java 编写,并提供 Java API 与之通信。客户端 API 提供了DDL(数据定义语言)和DML(数据操作语言)语义,这与我们在关系数据库中的语义非常相似。因此,我们学...
由于离线数仓每天凌晨拉去线上生成数据库(凌晨请求较少,减少线上库压力),导致数据是T+1,而对于一些时效性要求较强的场景。比如需要看现在的用户数、GMV等等,离线方案就很难解决了。...