4月17日下午,以《大规模应用下的计算技术实践》为主题的2021 腾讯云Techo Hub技术巡回活动首站在深圳湾科技生态园盛大开启。
多样化的计算形态,满足多样化的需求
腾讯云计算高级产品经理邹弘宇首先带来了题为《多样化的计算形态》的演讲。
人们常把云计算比作社会发展的水和电,邹弘宇认为,用户对于计算的需求更加多样化,“有的需要咖啡,有的需要茶,还有的需要东鹏特饮”。
云计算服务的初衷就是解决用户自建机房、购买服务器带来的资源浪费、运营成本高居不下的痛点。腾讯云也是如此。起初,腾讯云利用富余资源,通过自研的系统,实现了弹性扩容、按秒计费。到目前,腾讯云已经在全球27个地域建立了61个可用区,覆盖北美、东南亚、欧洲等区域。在国内,除了各大城市的主要节点,腾讯云还在各大省会城市设置了节点,来满足客户就近接入的需求。
在IaaS层面,腾讯云拥有多样化的计算形态:面对通用的标准型、高主频计算、大内存应用、高IO、大容量存储数据场景,腾讯云都有可以提供对应的服务器实例。面对异构算力场景,腾讯云有GPU、NPU、ASIC等专用场景的计算芯片,还有面对超高性能计算场景的RDMA高速互联的计算集群,星星海高性能服务器;以及ARM架构下服务器。
邹弘宇对此进行了详细的介绍。GPU依托并行计算架构,具备非常强的浮点运算能力,数据吞吐量大,在高性能计算场景下变得不可替代。腾讯云以GPU为主的异构算力,通过PCI直通的技术,以及vGPU的虚拟化技术,让机器内部使用异构算力资源。
在高性能计算方面,为了提升单机纵向的性能提,腾讯首推自研的星星海AMD云服务器,CPU核数具有208核,约700G的大内存,更大的内存带宽,可以提供整机高达2倍的性能提升,性价比提升35%以上。在集群横向上的提升方面,基于黑石物理服务器2.0推出的高性能计算集群,GPU算力通过RDMA高速网络,不再遵从tcp/ip的网络协议栈,减少内核协议栈开销,实现0内存拷贝。
这些多样化的计算形态的快速上线,离不开腾讯云统一算力底座:自主研发的水杉平台系统。
通过水杉平台系统,网络存储已经全卸载,同时大部分虚拟化组件也卸载到硬件芯片上,无论物理机或虚拟机,都可以更加快速地适配各式各样的CPU、GPU的变化,让多样化的计算资源可以更快地提供给云上的客户进行使用。
从中心到边缘,从公有到私有的算力延展
接下来,腾讯云计算专家工程师陈远带来了题为《全网调度:无处不在的算力》的演讲。
随着5G互联网浪潮的到来,智慧城市、工业互联、车联网等产业在快速发展,大量的边缘数据随之而来。通过边缘计算,可以进行实时和短周期的数据处理并进行决策,进而推动产业转型。
腾讯云通过把可用区的能力向边缘延展,建立EdgeZone,以此在边缘提供就近计算服务。通过CDC一体机承载云服务,然后将其输送到运营商机房,解决边缘计算最后一公里的传输问题。同时CDC一体机还能直接放在客户的机房,实现客户数据本地化存储和处理。陈远指出,无论是通过可用区延展的方式,还是通过CDC一体机进行延展的方式,其管控都是就近接入腾讯公有云区域的。
当涉及敏感性客户需要管控、数据全面私有化部署的时候,企业可以通过腾讯云TCE解决方案来解决,腾讯云TCE对外提供的是全私有化部署解决方案,是把腾讯公有云的能力进行打包之后1:1的方式完全输出到企业内部。
从公有云到私有云的输出,从云计算到边缘计算的延伸,都离不开腾讯云全网调度的能力。在此,陈远介绍了腾讯云最新的产品:腾讯云本地专用集群CDC。CDC是腾讯云全新推出的基础设施类产品,目的是将中心化的公有云服务,延伸为可在客户机房落地的近场服务,融合公有云与本地 IDC 的双重优势,用户可以以本地化的时延和数据安全来使用公有云的丰富能力。CDC 通过一体化机柜的形式在用户机房部署本地化算力,资源就近接入临近公有云地域实现统一管理,用户可通过公有云现有工具(控制台、API 等)来管理 CDC 资源。
陈远将CDC的优势总结为:标准化快速交付,开箱即用;极致混合云体验,云上能力无缝延展;就近提供计算能力,低延时低带宽成本;数据本地化存储和处理;设备托管运维。
高并发系统架构的实践
接下来,云集基础服务负责人&高级经理张强带来了题为《高并发下的系统架构&踩坑》的主题演讲。
云集是一家电商公司,于2015年成立,总部在杭州,研发中心设在深圳。通过短短几年的发展,云集获得了单品单日最高销售额2.78亿,全球精选狂欢周总销售额破25.9亿,单日页面访问量破10.82亿,单日发出包裹量超386万,单日销售额超10.8亿等亮眼的成绩。
这些成绩离不开云集系统架构的支撑。在2015年的萌芽期,云集仅有一个程序员,一台ECS 一台RDS,解决问题完全依靠工单系统。随着业务发展越来越快,单机系统逐渐无法支撑,云集的系统架构进入了V2.0时期。
在V2.0架构中,云集将买家和卖家APP分开,安卓和IOS各一个版本。接入层通过云计算服务的高访问量路由到NG到接入层,再到BD,数据库做了读写分离。然而这套架构系统与业务不解耦,数据库虽然读写分离但是在线上业务场景中,一个数据库挂了,业务就中断了。所以云集开始了系统架构V3.0的改造。
V3.0首先是对架构进行了微服务化,把所有的H5、小程序等路由到接入层,从接入层开始做服务化。V3.0架构分为五层:接入层、业务层、中台服务层、基础层、数据层。张强将这套架构体系的亮点总结为:多地缓存、多极限流、降级开关等。通过这套架构,云集最高撑了一百多万QBS(不包含直播)。
张强将云集的并发系统总结为三套方案:一是缓存,以空间换时间;二是限流,即形成部分的用户体验,保证平台不会整体瘫痪;三是降级,以最小的闭环,完成整个交易链路的正常进行。对于一些非核心服务,如果影响到主业务,会毫不犹豫关掉。
在系统架构的演进过程中,云集不可避免地踩过一些“坑”。张强对缓存穿透问题、DB主从延时问题、黑产风控问题、中间件踩坑进行了详细解读。对于未来,云集将专注于通过技术中台、业务中台、SaaS等实现效能提升;紧跟低代码趋势,从平台化到Serverless等前沿技术趋势;借助腾讯云,实现精准营销和价值最大化;通过业务、技术能够反推产品形态。
详解腾讯云提升可靠性背后的技术
腾讯云星星海实验室副总监李志高,腾讯云服务器运营中心专家工程师牛犇共同带来《腾讯云可靠性提升背后的技术应用》的演讲分享。
腾讯云专家工程师牛犇介绍,随着磁存储技术和工艺制程的发展,硬盘容量越来越大,故障率和故障恢复时长也随之变长,这会对云上开发带来很大的稳定性挑战。为了给开发者提供更为稳健的云服务,腾讯云通过对硬盘来料质量,运营监控和技术创新等手段进行智能化运营。
在来料质量方面,腾讯云采取基于业务模型的来料筛选机制,通过云业务模型与硬盘底层参数建模,分析参数统计分布,定制化筛选标准,使得硬盘年化故障率显著降低至1/5。在运营监控方面,腾讯云的硬盘智能监控系统通过多维度硬盘健康评分和AI 故障预测,可使硬盘故障提前识别率提升至80%。
在谈到对数据中心硬盘运营的未来展望,牛犇提出希望能够利用腾讯云百万级服务器的运营经验以及依托腾讯云强大的服务器智能监控平台,对新介质、新技术提前进行现网应用评估,和合作伙伴一起构建开放透明的云服务生态体系,为云上的用户和开发者提供最优质、稳健的云服务。
李志高则对如何提高服务器内存可靠性进行了深入介绍。因为云服务器是基于物理服务器,提供的高可用性是基于物理机高可靠性和软件优化的结果。所以物理机宕机会影响部署在云服务器上的业务,可能导致客诉甚至赔偿。持续降低服务器宕机率,让云服务不中断,改善用户体验,是腾讯云的重要课题。降低宕机机率的措施主要有两种:由于内存是降低服务器宕机率的关键要素,但是内存故障又是不可避免的,所以尽量降低内存故障率,并减少内存故障导致的宕机,是达成目标的关键路径!腾讯云通过生产导入腾讯压测算法、跟内存厂家合作导入SMART PPR及落地和优化多条RAS特性来实现降低内存故障率。
接下来,李志高详细介绍了MCA Recovery的技术。
现在,腾讯云是业界第一个大规模部署MCA Recovery技术的厂家,已经能够降低40%以上内存故障导致的宕机。腾讯云还与Intel 联合推出了白皮书,并推动MCA Recovery成为标准特性。
虎牙直播Web网关的云演进之路
茶歇过后,虎牙直播底层计算技术和中间件技术负责人张波带来了题为《虎牙直播Web网关的云演进之路》的演讲。
张波从网关的作用、网关的云原生演进之路、及未来的展望三个方面进行了阐述。
网关的主要作用有三个:统一接入、网络加速、通用功能offload,如认证、白名单、日志等通用功能,以及审计的功能。
对于虎牙的网关来说,统一接入的作用主要有五个:动静分离、HTTPS加速&证书管理、入口流量的限流、智能流量转发策略、逻辑分流与容灾等。在网络加速方面,虎牙的主要技术是通过端线做到更快的流量回源。通用功能则包括流量控制、调用审计、服务治理等。
虎牙从2017年开始做网关的自建,主要经过了四个阶段:包括YY剥离,混合云的建设,云原生的演进和全球化改造。目前,虎牙正在进行网关2.0的建设。
虎牙最新的网关2.0解决方案解决的主要问题有跨洋访问网络质量差、跨洋专线不可靠,Reload频繁、流量负载不均衡、接入点太多导致的勾选复杂、负载均衡功能迭代升级慢。虎牙网关2.0的演进思路,首先是为了解决全球加速的问题,在负载均衡之上引入了网络加速层,网络加速点和业务所在点通过专线打通,实现网络加速。虎牙网关2.0还引入了Apisix网关解决方案。Apisix基于 OpenResty 和 etcd 来实现,和传统 API 网关相比,APISIX 具备动态路由和插件热加载,特别适合微服务体系下的 API 管理。
虎牙网关2.0的网络加速产品比同类云产品的延时低了15%左右;对开发可以做到后端无需关心接入点的选择,配置更新的时候不需要Reload,同时,模块化带来了开发效率的提升。
谈到对未来的展望,张波认为Service Mesh是微服务治理与业务逻辑的解耦,异构系统的统一治理。一些重量级组件增加了链路与运维的复杂度,需要更专业的运维技能。而微网关是把网关做小,甚至可以做到一个微服务一个网关,甚至一个节点一个网关,从而实现网关的弹性。
海量规模实时计算平台解密
接下来,腾讯云大数据流计算产品负责人郑灿彬带来了题为《腾讯云海量规模实时计算平台解密》的分享。
郑灿彬首先介绍了腾讯第三代实时计算引擎Flink。Flink的四大优势可以总结为:丰富的实时计算的语义表达、有效的状态管理支持、提供了Exactly-Once的容错语义、出色的执行性能。
Flink的性能虽好,但是在上线一个任务的时候,需要经过开发、测试、部署、运维四个阶段,每个阶段需要用不同的工具与环境,开发效率较低。为了持续提高用户整体的开发效率,做持续的发布和集成,腾讯云产品中心在2018年下半年,推出了云端的一站式全托管实时流计算平台Oceanus。Oceanus集开发、测试、部署、运维于一体,同时打通了API管理、监控、日志等周边服务,为用户提供了一套完整的Flink作业全生命周期管理的工具平台。
Oceanus特点如下:
开发测试:用户可在线进行业务开发及业务逻辑调试 部署管理:用户可在线进行作业的启动、停止、发布、暂停、恢复及删除等操作 运维监控:丰富的在线指标、快速诊断和自动调优能力 权限管理:用户可进行多租户、细粒度作业权限管理,保障生产环境安全 开放API:生命周期管理均有云API接口支持,支持作业批量管理、混合云调度诉求
Oceanus提供 Web 端多种应用构建方式,郑灿彬详细展示了Oceanus允许用户快速进行业务生产,分钟级上线新业务;提供细粒度运行指标,以便于精细化运营;允许用户快速诊断线上故障,快速解决问题;实时根据业务负载进行在线参数调优,动态调整作业资源等特点,并详细介绍了Oceanus基于 Kubernetes 容器的资源管理和调度。
Oceanus 对 Flink 内核进行了大量的改进来提高其可用性,包括稳定性优化,如云原生容器化,无感知 Master Failover;丰富了 SQL 能力,如 Windowing Table-valued Function,内联函数,增强窗口,补数窗口;性能提升,如回撤流优化。在此期间,腾讯云也将大量的内部优化贡献到Apache Flink 开源社区,累计commit数超过400个。
在案例介绍部分,郑灿彬以国内顶级游戏厂商的使用场景为例,介绍了其多数据源的数据同步和ETL、实时数仓-数据湖分析系统。
关于未来规划,郑灿彬表示腾讯云首先考虑的是产品规划,包括元数据库表管理、血缘管理、变量管理、多语言支持,异构资源支持,跨可用区容灾调度;以及SaaS化的实时ETL工具。第二方面是内核规划,包括支持更多的 SQL 算子、在容错方面支持单 task 故障的快速恢复、在性能方面继续增强,如Checkpoint 小文件处理等的优化。
边缘计算助力行业应用
最后,腾讯云边缘计算高级产品经理朱祥艳带来了题为《腾讯云边缘计算助力行业应用》的分享。
朱祥艳从腾讯云边缘计算的布局、ECM和ECP产品介绍、行业应用三个方面进行了阐述。
腾讯云边缘计算基础设施的优势主要包括:庞大的oc基础设施支撑;腾讯庞大的2B2C业务,可以帮助腾讯云撑起边缘计算建设规模;有强大的AI能力等赋能边缘计算。腾讯云边缘计算基础设施产品相较于竞品,率先提供了三通节点,且有边缘LB服务,同时,其边缘计算源于中心云技术方案,所以云边协同更方便。
接下来,朱祥艳重点介绍了边缘计算机器ECM和边缘计算平台ECP产品。
腾讯云ECM达到了省内覆盖单向10ms左右的时延,5G UPF分流进一步降低了时延。通过ECM构建了高性价比分布式的应用。同时,同源技术,实现了云边协同及无缝迁移和对接。目前,ECM在工业云、在线教育、云渲染等场景都有了较为成熟的应用。
边缘计算平台ECP配合边缘网关盒子,可以覆盖1-2ms场景。基于Docker管理和编排应用,一次编译随处运行,实现了高便捷特性。同时,ECP与云结合,把中心能力下放到边缘,实现了云边协同。ECP产品目前在智慧水利行业也有了广泛的应用。
Techo Hub的大幕开启,更多精彩值得期待
腾讯云一向高度重视开发者的需求,全面助力开发者的个人成长和创造价值。继去年Techo Park开发者大会之后,今年,腾讯云全新推出Techo Hub技术巡回活动,旨在更好的和全国不同地区的开发者连接,让更多的开发者获得学习、交流的机会。
以“大规模应用下的计算技术实践”为主题深圳站巡回活动拉开了2021 腾讯云Techo Hub的大幕,接下来,巡回活动还将走进西安、长沙、武汉、北京、上海、成都、杭州七座城市,持续与全国开发者分享热点技术、主流应用、开源生态和产品革新,与广大开发者共同成长!