产学研合作新标杆:腾讯大数据开源项目Angel获央视点赞

2021-05-13 15:10:12 浏览数 (2)

导读 / Introduction

5月10日,中央广播电视总台《经济半小时》栏目播出《软件开源里的中国声音》特别节目,点赞了腾讯工程师们在技术开放和软件开源上所做的努力。目前腾讯已经开源了120 个项目,有数千位贡献者, Star 数超过35万,开源贡献居于全球前列。

作为腾讯的明星开源项目,Angel机器学习平台能够支持万亿级维度的机器学习全流程开发,广泛接入了大数据和AI生态,如Spark、Pytorch等,大幅降低了海量数据规模下的机器学习开发门槛。

点击观看视频:

此次节目中重点介绍的就是Angel在全球最大的代码托管平台 GitHub 上, Star (星标)数量代表着项目的受欢迎程度。目前在 GitHub 上, Angel 获得了 6200 Star,受到开发者和企业的广泛欢迎。

博思数采科技发展有限公司的 CTO 牛京杰在节目中谈到,在两年前,公司从数据库到产品开发框架一直在使用国外的开源软件,在 Angel 开源后,将业务全部转为使用  Angel 系统,并和腾讯一起开发了“票据云”,数据安全性和效率都进一步得到了保障。

Angel 在行业中的影响力不是一天就达成的。早在2015年,腾讯就意识到随着前沿技术的深入发展,已有的开源软件无法满足业务快速发展的需求,大数据体系正在不断迭代。腾讯大数据团队与北京大学崔斌教授团队展开合作,依托于“北京大学-腾讯协同创新实验室”,在2016年底推出了自主研发的机器学习平台 Angel ,应用在微信支付、QQ、腾讯视频、腾讯社交广告及用户画像挖掘等业务上。

“北京大学-腾讯协同创新实验室”由北京大学与腾讯共建,主要面向人工智能、大数据和其他新兴科研领域开展科学研究、学术合作和人才培养,是产学协同创新的一体化平台。Angel 作为该创新实验室的重要科研成果,兼顾了工业界的高可用性和学术界的创新性。

肖品是腾讯大数据团队的专家工程师,也是 Angel 最早一批开发者,他回忆当时自己以最快的速度恶补了机器学习的各类专业书籍,2015年10月,就和团队就将系统的架子搭起来,并跑通了第一个算法:“我们当时还是很兴奋,就看到了希望。”

2017年 Angel 正式对外开源,成为腾讯第一个 AI 开源项目。但随后却有很多用户提issue(议题),表示 Angel 在他们的系统环境中跑不下来,“当时有一些小小的失望。”肖品说。后来他和团队发现,这是由于开源社区开发者和用户在运行环境、使用场景和算法需求等方面,与腾讯内部有很多不一样的地方, Angel 需要在很多地方持续进行优化,包括产品化部署、二次开发、性能优化和稳定性优化等。

之后, Angel 逐渐完善起来,陆续发布了多个大版本,对系统架构进行优化升级,并覆盖了传统机器学习、图计算和深度学习等功能。北京大学崔斌教授团队通过Angel系统,在腾讯数据平台的集群上用了2000台机器训练4个小时,经过100轮迭代,完成了3000亿个单词量级的处理任务。Angel系统的处理速度相较当时业界的LightLDA系统提速了5倍以上,这意味着过去一周才能计算完的模型,现在一天左右就能出结果。

腾讯大数据专家工程师程勇及其同事目前正在研发的 Angel PowerFL 联邦学习平台,就是基于 Angel 开发的下一代大数据平台,该平台的目的是为了在保障数据安全的同时提升数据应用价值。程勇介绍道:“在性能方面, Angel PowerFL 支持千亿级别的海量数据计算,通过多种技术突破来提高计算和通信效率,并且已经在金融、医疗、政务、教育等多个行业应用落地。”

2018年,腾讯将 Angel 捐赠给 Linux 基金会旗下的 LF AI 基金会,并在2019年12月正式从基金会毕业,成为国内第一个LF AI基金会的顶级项目。这意味着 Angel 获得了世界级的认可,据了解,目前包括华为、小米等在内,有超过100家公司和机构的开发者和用户参与了 Angel 的开源生态建设

除了 Angel 项目外,腾讯开源的明星项目还有高性能 RPC 开发框架 TARS 、轻量级物联网实时操作系统 TencentOS tiny 、跨平台深度学习推理框架 TNN 等,同时,腾讯还是 Linux、Apache 等9大开源基金会最高级别会员,并孵化了首个起源于中国开源项目的国际开源基金会——TARS基金会。腾讯云在KVM社区已贡献超过170个patch,超过20个技术特性,其中8个被评为KVM年度核心突破,贡献国内排名第一,同时连续四年登上KVM开源贡献榜,成为国内唯一取得这一成就的云服务商。正如腾讯公司董事会主席兼首席执行官马化腾所表态:“腾讯将通过内外部开放源代码等方式,积极参与全球科技共同体共建。”

据腾讯公司副总裁王巨宏介绍,曾经能够在 GitHub 周榜上排第一的基本都是美国公司,前十中几乎看不到中国公司,而到了2018年,腾讯开始进入全球排名的前十,并成功在 GitHub 上霸过周榜。

开源运动经过数十年的发展,目前正在影响着绝大部分的软件系统。近年来,中国开源技术力量正在加速崛起,中国在 GitHub 的开发者数量居于第二,增长速度也为全球最快,并为 GitHub 贡献了 550 万个项目。可以预见,未来腾讯等中国科技公司和广大的中国开发者们,还将为开源贡献更多的中国力量!

扫码关注 | 即刻了解腾讯大数据技术动态

0 人点赞