大数据和云计算技术周报(第93期)

2019-09-24 16:10:18 浏览数 (1)

导语

“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。 本期会给大家奉献上精彩的:kylin、Kerberos、Griffin、Hbase、AI、SVD、实时计算、MongoDB。全是干货,希望大家喜欢!!! #大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。相信长期坚持认真阅读周报的同学,在技术的道路上一定会日益精进!感谢编辑们的长期坚持!也请同学们继续打赏,支持社区,支持编辑们持续奉献高质量知识! #大数据和云计算技术社区#长期招募有兴趣参与社区编辑和运营的同学,欢迎扫描文末二维码联系(参与社区工作,收获知识和进步,还有红包哦)。 特别提醒,文末有惊喜! 以下是正文,限于众编辑水平有限,不保证大家都喜欢。(如果链接不能点开 请用二维码 谢谢)

1实时计算

有赞是一个商家服务公司,提供全行业全场景的电商解决方案。在有赞,大量的业务场景依赖对实时数据的处理,作为一类基础技术组件,服务着有赞内部几十个业务产品,几百个实时计算任务,其中包括交易数据大屏,商品实时统计分析,日志平台,调用链,风控等多个业务场景,本文将介绍有赞实时计算当前的发展历程和当前的实时计算技术架构。。

https://mp.weixin.qq.com/s/ZkVK9S-BSoQTo09ALBI9aA

2kylin

kylin通过sdk支持数据源快速接入

https://mp.weixin.qq.com/s/oRyTZNJQxAcZ3VwLeqxiVA

3Kerberos

本篇文章主要讲解了principal与keytab之间的关系,并详细讲解了Kerberos如何认证用户,并使用HDFS、Mapreduce、HBase、Hive、Spark服务。

https://mp.weixin.qq.com/s/JAmfKY9nZfxUwysJGIcERQ

4Griffin

Apache Griffin 是开源的大数据数据质量解决方案,支持批处理和流模式,其是基于 Apache Hadoop 和 Apache Spark 构建,由 eBay 开发,并于 2016年12月07日进入 Apache 孵化。Griffin 提供了一个可以处理不同的任务,如定义数据质量模型,执行数据质量测量,自动化数据分析和验证,以及跨多个数据系统的统一数据质量可视化的全面的框架,旨在解决大数据应用中数据质量领域的挑战。

https://www.iteblog.com/archives/2492.html

5MongoDB

本文讲述了MongoDB的异常值模型的使用示例,对于一些字段可以存在值激增情况,异常值模型可谓是优选解决方案

http://www.mongoing.com/archives/24757

6AI

如何利用机器学习将海量的视频内容充分利用起来,成为 AI 领域研究人员和企业开发应用的重要课题。本文,我们将分享爱奇艺资深科学家王涛在 AICon 上的精彩演讲,介绍爱奇艺在大规模视频分析理解方面的实践探索。

https://mp.weixin.qq.com/s/jqICZ2nkv-1vF_XPCWRxiQ

7TensorFlow

这篇文章介绍TensorFlow一些最基础的知识,浅显易懂,一文了解TF.。

https://mp.weixin.qq.com/s/gi-18SIn5_Rc7c5eFJpMnA

8奇异值分解

奇异值分解(SVD)在降维,数据压缩,推荐系统等有广泛的应用,任何矩阵都可以进行奇异值分解,本文通过正交变换不改变基向量间的夹角循序渐进的推导SVD算法,以及用协方差含义去理解行降维和列降维,最后介绍了SVD的数据压缩原理 。

https://mp.weixin.qq.com/s/ESl7TxxfuYzjscyfJWLisw

9Kubernetes

本文主要介绍微博平台落地 Kubernetes 过程中的一些经验教训

https://mp.weixin.qq.com/s/sT_kG2VcPQzrhyYJFS9fEA

10HBase

HBase 是一个分布式,可扩展,面向列的适合存储海量数据的数据库,其最主要的功能是解决海量数据下的实时随机读写的问题。 通常 HBase 依赖 HDFS 做为底层分布式文件系统,本文以此做前提并展开,详细介绍 HBase 的架构,读路径以及优化实践。

https://mp.weixin.qq.com/s/cj-HJNfZ2O7kCAFNL4l7Eg

11开心一刻

某公众号最近几天的文章,推荐你们好好看看:

《面向对象的优越性:从C到C 》 《JAVA比C 好的7大理由》 《数据时代:python才是主角》 《Golang:放弃python的九大理由》 《Julia:数据分析最好用的语言》 《高性能计算的胜者:C/C 》

致谢:

周蓬勃、王在道、孙亚飞、冯艺帆、陈少军、邓开表、张少华、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉、郭飞

0 人点赞