最新 最热

内存省一半、CPU降三成,腾讯大数据团队论文入选数据库顶会 VLDB!

2023 年 8 月 28 日至 9 月 1 日,第49届VLDB国际会议将在加拿大温哥华举行。腾讯大数据平台大脑团队在Spark自动调优领域的研究成果入选了VLDB 2023,并受邀在大会上进行现场报告。VLDB国际会议 (全称为International Co...

2023-05-24
1

Docker平台如何部署运维自动化作业调度系统 TASKCTL

由于在dockerhub上没有查询到有关于TASKCTL的镜像就只能自己制作了,但由于本人仅是对软进 行件部署安装,没有实际的应用场景,所有制作的镜像也仅提供了最基础的运行环境。这也是给想要 在Docker上部署TASKCTL的小伙伴提...

2023-05-24
1

python爬虫常见状态码之504错误

python爬虫请求网站然后抓取数据返回的过程之中,实际上是通过http超文本传输协议将自己的请求信息发送到了网站上等待响应,而网站响应之后就会返回状态码以及相关的数据回去。我们需要快速地对http请求返回的各种异常状...

2023-05-23
1

python爬取叮咚买菜评价数据

疫情这这几年,线上买菜成了大家日常生活的一部分,出现了叮咚买菜,京东到家,朴朴超市等app,这些买菜app我们可以买到新鲜蔬菜、水果、肉禽蛋、米面粮油、水产海鲜、南北干货、方便速食等等。对上班族来说真的是很方便的软件...

2023-05-22
1

大数据Doris(二十四):Doris数据Insert Into导入方式介绍

Doris 提供多种数据导入方案,可以针对不同的数据源进行选择不同的数据导入方式。Doris支持各种各样的数据导入方式:Insert Into、json格式数据导入、Binlog Load、Broker Load、Routine Load、Spark Load、Stream Load...

2023-05-22
1

两个绕过网站反爬机制的方式

在日常爬取网站的时候,我们经常会遇到一个问题,就是很多网站上都部署了反爬虫机制,当服务器检测到一段时间内同一个 IP 持续密集的访问网站,则将其判定为爬虫程序,在一段时间内不允许该 IP 地址访问服务器。...

2023-05-15
1

大数据Doris(十七):Random Distribution和复合分区使用场景

如果 OLAP 表没有更新类型的字段,将表的数据分桶模式设置为 RANDOM,则可以避免严重的数据倾斜(数据在导入表对应的分区的时候,单次导入作业每个 batch 的数据将随机选择一个tablet进行写入),分桶模式设置为RANDOM只需要建...

2023-05-13
1

大数据Doris(十五):Doris分区Partition

第一层是 Partition,即分区。用户可以指定某一维度列作为分区列,并指定每个分区的取值范围,分区支持 Range 和 List 的划分方式。

2023-05-11
1

MySQL与Hadoop数据同步方案:Sqoop与Flume的应用探究【上进小菜猪大数据系列】

随着大数据技术的发展,越来越多的企业开始采用分布式系统和云计算技术来处理和存储海量数据。Hadoop是一种开源的分布式系统,可用于存储和处理大规模数据集。MySQL则是最受欢迎的关系型数据库之一,它被广泛应用于企业级...

2023-05-09
1

小米对华为一项专利发起无效宣告请求!

5月1日消息,据多家媒体报道,针对华为此前起诉小米四项专利侵权一事,近期小米开始进行了还击。

2023-05-09
1