最新 最热

vivo大数据日志采集Agent设计实践

在企业大数据体系建设过程中,数据采集是其中的首要环节。然而,当前行业内的相关开源数据采集组件,并无法满足企业大规模数据采集的需求与有效的数据采集治理,所以大部分企业都采用自研开发采集组件的方式。本文通过在vivo...

2022-11-28
1

最简单的ubuntu18.04下mongodb介绍和安装

废话不多说,开始安装,以ubuntu18.04为例 更多内容 - 使用python远程操作mongodb mongodb的安装

2022-11-27
1

Python常见的反爬手段和反反爬虫方法

这里要切记,人力成本也是资源,而且比机器更重要。因为,根据摩尔定律,机器越来越便宜。而根据IT行业的发展趋势,程序员工资越来越贵。因此,通常服务器反爬就是让爬虫工程师加班才是王道,机器成本并不是特别值钱。...

2022-11-27
1

【SaaS播客】nextS6E06. 对话Databricks联合创始人Reynold Xin:380 亿美元估值背后的长期主义

Databricks是大数据领域的元老公司,我印象中在14/15年那段时间是和Cloudera、Hortonworks齐名的,而18年那两家已经走下坡路合并了,但Databricks反而这几年越来越好,和Snowflake成为双子星。我司也用Spark(或者说它是批计算...

2022-11-26
1

京东零售大数据云原生平台化实践

导读:随着业务调整和集群资源整合需求,大数据系统中集群数据迁移复杂混乱。本文将以京东大数据平台为例,介绍京东近一年在数据分布式存储和分层存储上的探索和实践。...

2022-11-26
0

为什么要用Hive?

Hive是Hadoop生态系统中比不可少的一个工具,它提供了一种SQL(结构化查询语言)方言,可以查询存储在Hadoop分布式文件系统(HDFS)中的数据或其他和Hadoop集成的文件系统,如MapR-FS、Amazon的S3和像HBase(Hadoop数据仓库)和Cassa...

2022-11-26
1

袋鼠云数据湖平台「DataLake」,存储全量数据,打造数字底座

数据湖的起源,应该追溯到 2010 年 10 月。基于对半结构化、非结构化存储的需求,同时为了推广自家的 Pentaho 产品以及 Hadoop,2010 年 Pentaho 的创始人兼 CTO James Dixon 首次提出了数据湖的概念。...

2022-11-25
1

Flink 非确定性更新(NDU)问题探索和规避

非确定性函数(Non-Deterministic Functions)一直是影响流处理系统状态匹配的梦魇。例如用户在定义源表时,某个虚拟列字段调用了 RAND()、NOW()、UUID() 等函数;那么每次作业崩溃后重新运行,即使输入的数据流完全一致,输出结...

2022-11-24
1

【说站】利用Java连接Hadoop进行编程

这篇文章主要介绍了利用Java连接Hadoop进行编程,文章围绕主题展开详细的内容介绍,具有一定的参考价值,感兴趣的小伙伴可以参考一下!

2022-11-24
1

大数据开发!Pandas转spark无痛指南!⛵

Pandas 是每位数据科学家和 Python 数据分析师都熟悉的工具库,它灵活且强大具备丰富的功能,但在处理大型数据集时,它是非常受限的。

2022-11-24
1