最新 最热

详解数据服务共享发布

随着云计算、大数据、物联网等技术兴起,数据朝着多样性、高体量、高速度方向发展,如何将海量数据安全、稳定、高效地数据共享出去成为各企业关注的重点。本次微课堂通过普元在数据服务共享平台研发过程中的实践,和大家分...

2019-09-04
0

硬核吃瓜!上万条数据撕开微博热搜真相

关于新浪微博,向来都是各路吃瓜群众聚集之地,大家在微博中可以尽情吃瓜,各种类型的瓜应有尽有,只有你想不到的,没有你吃不到的。微博热搜榜更是各路明星的“必争之地”,能够上热搜也是代表了其知名度,“包月热搜套餐”,“买热...

2019-07-19
0

TBDS工作流调度python脚本示例及排错方法

TBDS中的Shell任务工作流可通过shell脚本调用python,也可以直接调用python脚本,以下为两种方法介绍。

2019-07-03
0

mysql导入hive的NULL值处理方案

目前提供两种方法解决数据库中的字段值为NULl导入到HIVE中后变成空字符串的方法,使用以下方法可以保障在mysql中存储的是NULL,导入到HIVE表后也是NULL

2019-07-02
0

在TBDS部署sqoop组件及抽取数据至hive的使用方法

导语:本身TBDS平台不提供sqoop组件,若用户想在TBDS平台上使用sqoop抽取外部数据导入至TBDS平台,需要单独部署sqoop组件。

2019-07-02
0

小文件数过多导致distcp迁移报错

DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝...

2019-07-02
0

如何免费获得高质量标注数据?

自从开始了解机器学习以后,想必你已经发现,数据分析领域,标注(annotation)是很重要的。

2019-06-19
0

我们对比了5款数据库,告诉你NewSQL的独到之处

对大多数开发人员而言,SQL 以及 MySQL、PostgreSQL 等关系数据库管理系统(即 RDBMS)并不陌生。RDBMS 的基本架构原则已历经了数十年的发展。而 MongoDB、Cassandra 等 NoSQL 解决方案,则是在本世纪初为满足数据分布可扩展...

2019-06-14
0

《Nature》最新研究:大数据预测你的偶像何时凉凉?

最近一项发表在《Nature》子刊 Communications 中的研究引起了科学界和演艺界的广泛关注,来自伦敦玛丽皇后学院数学系的几位研究人员,发布了一篇关于《通过量化方法,预测演员事业发展周期》的文章。...

2019-06-14
0

storm 分布式实时计算系统介绍

在Storm之前,进行实时处理是非常痛苦的事情: 需要维护一堆消息队列和消费者,他们构成了非常复杂的图结构。消费者进程从队列里取消息,处理完成后,去更新数据库,或者给其他队列发新消息。...

2019-05-17
1