兴致勃勃的在网络上看了亚马逊AWS年度大会re:Invent2022。我每年有空就会看,虽然从来没去LasVegas现场参观。
今年也没有免俗,除了正常上班以外就忙着盯电脑看视频。结果硬是把自己的眼睛看得红肿发炎了。休息了一整个星期天也没完全好。这篇文章算是带病写的。
要说今年大数据相关的,我只能说惨不忍睹,实在不知道怎么去写。AWS CEO Adam Selipsky的Keynotes里面发布,有关纯粹大数据东西很少。
值得提的大致上是这几个:
1.Aurora 到Redshift的integratio.细节看这里:re:Invent 2022:亚马逊对HTAP说不!
2.Spark到Redshift的Integration。这东西我没仔细研究。我最好奇的是,按理来说,Spark通过正常的jdbc就应该能连Redshift吧,就是效率不高。不知道这个integration是不是能够把一整个join都push进Redshift。如果能的话倒是一个新鲜玩意。
3.DataZone。这是一个enterprise catalog的产品,可以做data的governance。一点都不稀奇会有这样的产品出来,我觉得稀奇的是,为什么这样的产品出来的那么晚。Informatic的Enterprise Catalog几年前就已经是很成熟的产品了。云上那么多数据,不需要一个类似的东西吗?说真的,国内的云厂商至少在2018年就已经开始研发类似的产品了。我只能说,这个产品对我来说,一点惊喜都没有。
Adam的Keynotes里面还提到了可视化产品quicksight的东西,重点强调了AI自动回答问题自动做图,通过问答方式交互。这个就不算大数据了。
说起来 Adam Selipsky在Tableau做CEO的时候,我还有机会见到真人,握过手,等去了AWS做CEO就只能在直播里看了。当然这只是我显摆吹牛一下。
重点来了,Tableau的可视化理念,Adam作为CEO应该懂啊,之前Tableau收购了一个小公司,做语音识别的,然后把语音识别的东西整合进Tableau的产品里。现在Quicksight的很多思路,看起来多多少少有抄Tableau的嫌疑啊。Adam作为前后两任CEO,在Keynote上讲的面不红心不跳的,我也只能呵呵了。
当然,第三天的会议还有一个Keynote,是AWS官员data和AI的VP SwamiSivasubramanian的,讲的都是大数据和AI的东西。这个老印在Linkedin上的profile真的是非常的牛逼。升的如同坐火箭一般。
这个Keynote因为聚焦了data和AI,所以讲了一些新东西。照例一开始吹了一波水,data很重要,AWS在data方面很牛逼很牛逼。
第一个新的服务官宣的是Athena for Spark。以前我们知道Athena背后是某个版本的Presto魔改的产物。现在语言上增加了Spark。用户可以用Spark做interactive analysis。这东西应该会有不少人喜欢吧。不知道对Databricks会不是是个挑战。
当然老印也不忘吹嘘一下AWS自己魔改的Spark比开源版本快3x的牛逼。当然我不知道这个3x是通过什么样的benchmark比较出来的。和Databricks的收费版比起来,到底哪个更厉害。
下一个官宣的是DocumenDB的弹性服务。现在什么东西都讲究弹性,这个抄袭了某个版本的MongoDB的DocumentDB终于也开始弹性了。说实话,MongoDB不知道心里怎么想。
下一个官宣的是一个新的开源项目:Trusted Language Extensions for PostgreSQL。这个项目的主要目的是为了让用户写的extension可以不需要经过AWS的批准就直接使用在AWS的PostgreSQL相关的服务上,主要是Amazon RDS以及Aurora。这方面我没太多想评论的。
下一个官宣的是 Amazon Redshift Multi-AZ。通过multi-AZ支持自动fail-over的功能。这个我想字如其意,不用多解释了。
下一个官宣的是Amazon GuardDuty RDS Protection。主要用来保护Aurora里面的用户数据。基本上就是结合machine learning来应对各种威胁吧。
下一个官宣的是AWS Glue Data Quality。这是一个数据质量管理的服务,用户定义规则以后,服务就会监控数据质量。值得注意的是,这个服务可以帮助用户自动生成管理的rule。这个东西倒是Databricks一直宣传的自己的Delta Lake的优点之一。不知道有没有人喜欢这个服务。
下一个官宣的是一个feature:在AWS Lake Formation里面支持对Redshift Data Sharing进行集中的权限管控。字如其意。不用多解释了。
老印的Keynote再一次官宣了DataZone,还让另外一个老印上来给了一个demo。具体的参考前面我分析CEO Adam的那一段吧。讲真的,这个Keynote里面全是老印。可见Data and AI这个部门真的是老印掌权了。
下一个功能比较有意思一点:Redshift auto-copy from S3。解释一下就是,你可以设置好一个S3的位置,每当这个位置出现新的S3文件的时候,这些文件会自动被load进对应的Redshift表里面去。用户设置一次,然后就不用管了。难得看到一个实用的功能。
我的总结就到这里了,希望对大家有所帮助。最后小结一下,看着发布了不少东西,但是真的让我觉得很惊艳或者很实用的,真的很有限。
如果要我选一个最喜欢的功能,那就是Redshift auto-copy from S3。不知道你是怎么看的?欢迎留言。欢迎加飞总知识星球讨论问题。