1 产品介绍
1.1 产品简介
腾讯云TStack是腾讯基于自身强大技术能力和海量运营经验推出的私有云平台,提供集IaaS、PaaS和SaaS为一体的综合云服务解决方案;支持对国产CPU的虚拟化,并通过云管理平台软件提供云主机、云存储、云网络和云负载均衡等IaaS层基础功能。大量私有化部署经验,具有高稳定性、统一管理、可视化运营等特点,强兼容性可与国产服务器实现良好适配,助力政府、企业构建稳定安全的云环境和健康的云生态。
1.2 产品发展历程
2012年从腾讯内部正式开始使用,到2015年正式对外,落地第一个私有云,腾讯云TStack经过7年的发展,已经成为一个能帮政企完成资源上云和业务上云的全栈云平台,获得国内外大奖20 ,通过国家各种权威资质测评,产品从功能的完整性和稳定性均经过严格的检验,并在百家政企客户现场使用,是一个能真正帮企业提升资源使用率、提高研发效率的云平台。
1.3 基本概念介绍
l 集群(region) :一个集群是类似物理主机(Host)组成的逻辑组。
l 管理节点:用来部署云管理平台的物理主机。
l 计算节点:用来生产虚拟机的物理服务器,用来生产裸金属服务器的物理服务器也是计算节点。
l 虚拟机:运行在物理机上的虚拟机实例,具有独立的IP地址,可以访问公共网络,运行应用服务。
l 块存储:用来生产分布式云硬盘供虚拟机或者裸金属使用的存储磁盘。
l VPC:虚拟私有网络,由虚拟私有网络和一个路由器组成的私有网络。
l 虚拟数据中心:用来做资源隔离和权限管理的一组逻辑隔离资源池。
l AZ可用区域:用于在不知道物理基础架构的情况下对云进行分区,是用户可见的逻辑抽象。可以简单理解为一组具有独立的电力供应节点的集合,AZ主要是通过冗余来解决可用性问题。同时,AZ也可以进行资源配额管理,可以根据租户指定的资源配额(包括CPU、内存、存储、支持容灾的虚拟机数、最大可使用备份空间、对象存储空间等),租户的总体资源不得超过所设定的配额。
l Project: 租户,可以理解为一个人、项目或者组织拥有的资源的合集。在一个租户中可以拥有很多个用户,这些用户可以根据权限的划分使用租户中的资源。租户下的用户,可以申请本租户所授权的资源池,保证资源有效利用和统一管理。
2 产品架构
2.1 产品组成
腾讯云私有全栈云平台,核心主要由底层虚拟化管理平台和云管平台两大部分组成,基础云负责底层资源的生产与调度,云管平台负责资源的管理与使用;
1) 云管平台
云管平台包括自助服务平台、监控运维平台,
l 自助服务平台
自助服务平台为用户提供了资源、服务等全方面的自助操作功能,用户可通过自助平台轻松地管理自己名下的资源,并使用云平台提供的SaaS服务和PaaS服务,从而大大提高了用户的工作效率和使用体验。
自助服务平台是一个面向资源或服务使用者的Portal平台,通过调用API将基础云平台的能力逻辑化,供上层云服务功能进行使用,这些云服务功能可以由云平台的云服务自助平台提供直接使用,也可由第三方公司调用基础云平台的接口做二次开发。
自助服务平台提供了包括计算、存储、网络、数据库、负载均衡、镜像、快照、应用市场、解决方案等多种PaaS和SaaS云服务功能,同时还支持管理使用多个不同的云环境,是真正的混合云管理自助平台。
l 监控运维平台
监控运维平台提供平台的资源使用和服务能力总览,为用户了解平台运营情况提供快速入口。
资源总览以基础云的资源数据为基础,为用户实时展示平台的资源现状,如计算资源的数量及使用率、存储资源的容量及网络资源的使用情况等。
服务总览是对云服务的各项关键指标进行综合分析,根据服务能力进行不同的颜色展示,通过该展示,能够使用户迅速了解平台的服务健康状况。
监控运维平台为运维人员提供统一管理、集中监控的云监控平台,用户可通过云运维平台对物理设备、平台服务及平台运营状况进行监控和管理。另外,平台提供自定义配置的监控策略,及时获取异常信息,确保平台及资源的稳定运营。
监控运维平台作为云服务的运营保障,可以让运维人员了解资源的健康状况和平台的运营能力,做到及时响应,预防故障的发生;同时也让运维人员了解平台资源的使用现状、性能指数和服务状态,从而做到充分且细致的全盘监控。
2) 基础云平台
基础云平台是基于OpenStack进行了二次开发,包括从功能、性能、可靠行、安全性等方面的优化和增强。腾讯云TStack支持各种类型的云环境,通过各种互补的服务提供了基础设施即服务(IaaS)的解决方案,每个服务提供API以进行集成。
基础云平台主要由控制面板、云控制器、集群控制器、分布式存储、节点控制器、网络控制器及覆盖平台各个层面的云监控、云安全、数据采集层等几大组件组成。每个组件都能做到高可用和动态扩展,当整个云平台的资源不足时,新的物理服务器资源可以自动被识别到,并加入到平台的资源池中,而整个过程不应停止原有服务,且不对原有服务造成影响。
2.2 产品全景图
腾讯云TStack整体由基础资源层、IaaS服务层、PaaS/SaaS服务层、安全、运维管理组成。
基础资源层提供底层物理资源的统一管理,能够兼容不同的厂商、不同架构的设备。基于这些物理硬件提供了虚拟化服务,包括计算虚拟化、网络虚拟化和存储虚拟化。
Iass服务层基于基础资源层提供了进行了服务化封装,提供了包括计算、存储和网络服务在内的多种服务形态,满足不同场景的使用要求。
PaaS/SaaS服务层提供了常用的中间件服务、微服务/容器平台、大数据服务,以及应用服务。
运维管理层提供一个面向场景的,功能完整的运维平台,包含资源的基本管理、故障快速定位,专业的运维工具等。
安全层结合云计算本身安全特点以及业务安全需求,充分利用现有的、成熟的安全控制措施进行综合考虑和设计,以满足风险管理要求、合规性要求,保障和促进平台的稳定运行。
3 产品核心功能介绍
3.1 资源管理
目前平台已提供了云计算服务、云存储服务、云数据库服务、云安全服务、虚拟网络服务以及接入的其他PaaS和SaaS类服务:
1) 计算资源服务
计算资源服务提供镜像、虚拟机,GPU虚拟机,容器,裸金属、弹性伸缩、云编排。
2) 存储资源服务
云存储支持标准块存储、块存储快照、对象存储、文件存储。块存储能够支持对接硬件存储比如IPSAN、FCSAN。
3) 网络资源服务
网络资源服务包括私有网络、负载均衡、虚拟机网卡、弹性IP、外部网关、网络Qos、对等连接、虚拟防火墙。网络资源服务支持IPv6。
4) PaaS中间件服务管理
提供常用的中间件服务,比如分布式数据库、分布式消息队列、分布式Redis, 分布式MongoDB、分布式时序数据库等,核心主要对接腾讯内部的已经大规模使用的中间件。
5) 安全服务管理
安全服务管理,除平台本身安全能力,TStack支持对接腾讯云其他私有化安全能力和第三方安全服务能力。
6) 异构云资源管理
提供标准南向API,对接AWS、OpenStack、Cloudstack、VMware、QCloud,能够进行资源的基础操作和数据同步,实现资源的申请、管理、回收申请、弹性伸缩、挂载、卸载,以及云主机、云数据库、云存储、云安全、虚拟化网络等服务。
3.2 资源服务编排
平台通过资源编排中心来定义和管理资源编排模板,可以根据用户的实际使用情况定制配置编排规格,快速方便的对资源进行创建和管理。
l 统一规范:通过编排规则创建对应的规格、镜像等资源服务。
l 一键式资源部署:用户可在前端页面编辑模板并通过模板创建资源栈,实现IaaS层资源一键式部署功能。
l 模板管理:用户可通过模板列表对自己创建或使用过的模板进行统一管理,同时提供模板仓库功能,覆盖常见应用场景以供用户参考或直接使用。
l 资源栈管理:云编排服务支持以实例的方式对资源栈进行统一管理,便于用户实时监控资源栈运行情况和生命周期管理。资源栈支持15种资源类型。
3.3 资源生命周期管理
目前平台支持自定义流程,以及相关审批推送消息,相关单据审批历史对账等功能:
l 查询审批日志:用户可以通过日志查询某单据在什么时候、什么人、做了什么样的审批。
3.4 资源自助维护
云服务自助平台同时可以管理多个异构云平台的资源:
l 资源操作:重启、开机、关机、挂载、卸载、重装、快照、回滚快照、制作镜像、指定自定义镜像创建虚拟机、负载均衡、绑定主机防火墙,以确保资源功能全面性。
l 资源数据同步:启用定时任务定时同步不同异构平台的云资源数据,保证数据准确性。
l 资源状态实时更新:定时任务会定时拉取异构云平台资源状态,同时也会锁定部分资源状态,保证状态一致性和有效性。
3.5 资源配额管理
配额管理,主要是针对租户资源的控制以及相关成本管理,通过虚拟数据中心实现配额的分配和管理,有效控制资源的使用率,避免资源浪费,同时也通过配额也可以深入挖掘用户实际需求以及实际使用情况。平台可以针对租户有以下几个维度的配额控制:元数据、用户、CPU、内存、硬盘、快照、自定义镜像、网络、子网、端口、路由、安全组、安全组规则、浮动IP、负载均衡等。
主要能实现单物理DC划分为多个逻辑VDC、多物理DC资源合并成一个虚拟VDC、支持子VDC资源管理划分、VDC支持设定集群资源池、可用区可见权限、保障业务云化隔离管理
3.6 多维度资源监控管理
1)平台提供多维度的监控对象,主要有服务器资源、网络设备、用户行为和安全事件;资源主要涵盖母机,虚拟机,数据库,存储等资源使用情况;网络设备主要涵盖路由器、交换机等网络设备CPU,内存,端口流量,包量以及丢包率延迟率等;用户行为主要是用户在基础云上的行为日志;对安全事件的监控等。
2)提供多渠道,多视图的监控及告警,包含以下几种途径:电话、短信、邮件、企业微信、微信、PC,用户应该可以根据自己需要设定阀值并选择告警渠道,用户告警需要有运营经验的团队进行数据收敛,否则仅实现平台功能,海量告警将使得监控告警系统形同虚设。
3)监控总览提供平台的资源使用和服务能力总览,为用户了解平台运营情况提供快速入口。同时也支持大屏展示,监控平台通过数据可视化,将资源、网络等相关数据展现为直观的图形,用艺术的形式呈现非常沉闷冗余的数据,并且使复杂分散的数据简单化,将信息清晰、高效地传递给用户,真正做到了让用户一目了然。
3.7 流程单管理
资源申请需要走申请流程,流程是可自定义。资源发起创建后需要进行状态监控。
l 用户通过自助服务平台提交资源申请,选择基本网络类型以及资源所在机房,并根据业务和使用情况选择申请资源的种类、数量、镜像、规模,流程单提交成功后会推送消息给审批人,进入下一流程;
l 流程审批人驳回流程单,流程单结束,如果通过审批则进入下一个流程审批直至完成审批流程;
l 流程单通过审批后,单据进入资源创建队列,同时启用定时任务定时发起资源创建;
l 资源创建结束后,各个资源进入监控队列,同时启用定时任务实时监控资源创建进度;
l 资源创建结束后发出消息,将所有资源交付用户,结束整个流程。
3.8 统一配置平台
构建功能丰富,架构灵活的运维配置平台,实现多个运维场景的运维功能。CMDB 配置管理配置管理范围包括,操作系统、数据库、中间件、应用。功能包括:
l 模型管理模块:提供配置模型管理功能,可创建和修改资源模型,可灵活调整和查询资源对象的属性、关系;
l 配置清单管理:可逐条和批量对资源配置数据进行新增和编辑操作,支持多种方式的查询,导入导出;
l 拓扑与展示模块:可丰富的定义拓扑,并进行图表的整体展示;数据集成模块:支持数据通过Webservice、Restful 等标准接口输入输出;
l 系统管理模块:提供机型、镜像、网络、子网、租户、用户等基础数据的生命周期管理,统一在配置系统增删改查,并通过异步任务下发到集群,实现平台数据同步;
l 报表模块:提供丰富的报表,多维度展示配置信息和关系,并支持导出和在线查看。
3.9 故障自愈
提供故障自动处理的解决方案,实时发现告警,预诊断分析,自动恢复故障,并连通周边系统实现全流程闭环,让故障恢复过程更高效可靠,可以显著提升服务可用性,降低业务损失,减轻人员值守压力。
3.10 计费计量
计费系统功能分计价、计费两个模块。计价是实现产品根据规格进行定价策略的模块,计费是实现云服务资源的计算费用管理资源相关出入账功能。同时提供两种类型的云服务资源购买方式,包年包月和按量计费,分别适用于不同场景下的用户需求。
3.11 统一用户管理
提供多租户的管理,租户可独立管理资源,并根据项目需求分配资源额度。除了租户管理,平台用户管理功能还提供账号管理、基于RBAC的角色和权限管理等。平台支持集成对接企业已有的身份管理系统进行单点登录,支持通过SAML、OAUTH2等标准协议进行集成。
3.12 工单管理
用户可以根据不同租户的需求,来由针对的管理,维护和追踪一系列的问题和请求。
3.13 知识库管理
运维过程积累了不少case,通过整理和总结慢慢完善自己的“知识库”功能,方便运营和学习,用户通过知识库后台维护相关知识库的目录和问题处理方案。
4 产品优势
4.1 上层扩展能力丰富
云平台除了提供云主机、云存储、云网络和云负载均衡等IaaS层基础功能外,还具备丰富的PaaS、SaaS扩展能力,如:PB级云文件存储,工作流、消息队列、统一认证授权、音视频云、云数据库、自然语言处理、人脸识别(业界识别率第一)、图片云、地图、移动信息推送和大数据分析能力等,可以满足各类业务的实际需求。
4.2 国产兼容开放性强
云平台在对底层硬件的适配上,不仅能够支持传统的X86架构,也能够支持基于ARM架构的飞腾、华为鲲鹏等,同时还能够支持海光、兆芯、申威等。在操作系统上,不仅支持CentOS/Ubuntu,还支持银河麒麟,中标麒麟等,并且在这些硬件和软件的组合上,做了大量的适配和验证工作,保证了云平台的稳定运行。
4.3 平台异构兼容能力
云平台是基于开放、兼容的架构进行开发,经过了7年的迭代,对OpenStack进行了大量的优化和定制开发,不仅在稳定性和性能上远优于开源的OpenStack,同时保持了对外开放兼容开发。一方面,对外能够提供标准的API接口,方便第三方的开发和扩展;另一方面,对内能够兼容多种异构的云平台,不仅能够支持原生的OpenStack多个版本,如OpenStack Kilo、OpenStack Mitaka、OpenStack Pike等。同时能够对其他的云进行对接和纳管,如腾讯公有云、华为私有云FusionCloud、VMware vCenter等。同时也支持X86和ARM架构的混合管理,支撑多云管理从全局到局部的可知、可管、可控。
4.4 多IDC多层次大屏展示
监控平台通过数据可视化,将资源、网络等相关数据展现为直观的图表,用可视化的形式呈现数据,并且使复杂分散的数据简单化,将信息清晰、高效地传递给用户,真正做到了让用户一目了然。用户可以通过监控平台对物理设备、平台服务及平台运营状况进行统一管理和集中监控,及时了解云平台运行现状,确保平台和资源的稳定运行。
大屏展示以多数据中心的分布作为视角,清晰地展示各个数据中心资源的使用情况,包括可用性和资源使用情况等运营数据,并且从数据中心可以直观点击到机房、机架甚至到机位的颗粒度展示,真正做到多层次的、视觉效果上可以巡检全国数据中心,帮助用户快速了解平台资源的使用现状、性能指数和服务状态等。
5 应用场景
5.1 企业IT信息化建设
随着企业信息化建设的发展,资源云化管理已经迫在眉睫,TStack能帮助政府企业解决资源上云的问题,并能实现资源的统一监控与管理。
5.2 多云与混合云场景
一些政企用户应用网络复杂,对资源的要求也高,需要资源的灵活扩展并能保证业务的安全性,混合云场景能满足客户不同业务场景需要,根据业务情况,随时进行资源扩容,并能保证数据的安全性。
对于存量的资源,平台支持纳管不同的云平台,能满足政企对资源利旧对需求。
5.3 国产化场景
为响应技术强国路线,对政府、央企客户,需要信息化建设全国产化,对云平台的兼容性要求很高,TStack已完成主流国产服务器硬件平台适配,并且与对应厂商进行产品兼容性互认证,保证软件平台可以可靠的支撑多种硬件和操作系统。同时,TStack支持异构部署模式,通过不同架构服务器集群的混合部署,可以实现应用过渡迁移与资源合理使用,最大化满足客户多样性需求。