NoSQL = Not only SQL (不仅是SQL),即泛指非关系型数据库。随着Web2.0时代诞生!NoSQL在当今大数据的环境下发展十分迅速! NoSQL 是一项全新的数据库革命性运动,早期就有人提出,发展至2009年趋势越发高涨。NoSQL的拥护者们...
我们都知道,数据传输的方式有很多种。通常我们都是使用HttpClient 发起请求,传输JSON格式的数据。但是遇到数据量比较大的情况,或者需要传输比较大的XML报文时,可能就会用到Socket了。...
2、NumPy(Numerical Python)——Python科学计算的基础包
Hive表中的数据不能通过insert语句插入,而是load data语句进行加载,其中加载的数据来源主要包括:
Flink是新的stream计算引擎,用java实现。既可以处理stream data也可以处理batch data,可以同时兼顾Spark以及Spark streaming的功能,与Spark不同的是,Flink本质上只有stream的概念,batch被认为是special stream。Flink在运...
我们知道实时计算中,数据时间比较敏感,有eventTime和processTime区分,一般来说eventTime是从原始的消息中提取过来的,processTime是Flink自己提供的,Flink中一个亮点就是可以基于eventTime计算,这个功能很有用,因为实时数据...
最近在从事实时方面的工作,主要涉及到数据处理、加工及可视化,在采坑的过程中总结出一套比较简单的实时计算方案,供大家参考。主要涉及到几个组件,kafka,flink,redis,druid和es。相信大家对以上几个组件都比较熟悉了,这里就不...
流行的大数据技术有Hadoop, Storm, Hive、Spark等,这些都是大集群方案,适合有海量规模数据的巨大企业。实际上,流行的大数据技术通常也源自这类头部互联网企业。很多场景下,数据虽然也很多,但小集群甚至无集群就足够处理,远...
与memcached客户端支持分布式方案不同,Redis更倾向于在服务端构建分布式存储。
Kafka不是一个单纯的消息引擎系统,而是能够实现精确一次(Exactly-once)处理语义的实时流处理平台