访谈 | 前排大神教你如何用TI-ONE杀疯算法大赛

2021-12-21 11:24:53 浏览数 (3)

4月30日,2021腾讯广告算法大赛初赛已经正式拉开帷幕。2021腾讯广告算法大赛由腾讯广告主办,腾讯云AI、腾讯大数据、腾讯招聘、腾讯高校合作以及英伟达联合主办。TI-ONE与英伟达共同支持AI算法平台,同时与腾讯大数据Angel全栈机器学习平台共同提供算法资源支持。

与此同时,本届赛事与计算机国际学术顶会ACM Multimedia强强联合,围绕视频广告开设的两大赛道,已成功入选2021年ACM MM grand challenge,国际影响力进一步提升。

为助力选手更好参与赛事,腾讯广告算法大赛特邀往届前排选手进行TI-ONE参赛使用心得的分享。

与TI-ONE结缘


笔者在2020年使用腾讯TI-ONE机器学习平台参加了2020届腾讯广告算法大赛,2020年digix 华为大数据竞赛点击率预估赛道,先后都取得了前排名次。

可以说2020年下半年开始大部分业余时间投入在了数据竞赛上,TI-ONE平台承担了我主要的算力需求,日以继夜地稳定运行输出着。仅以本短文谈谈平台的使用心得与感想。

TI-ONE使用心得与感想


  • 腾讯TI-ONE机器学习平台是成熟的算法工程师的开发平台。提供了工程模式(GUI )以及自由度更大的NoteBook模式两种开发方式。前者包含了丰富的算法组件,涵盖了数据处理,机器学习,深度学习,常见的NLP任务模型,无监督模型等模块。这些工程师开发好的模块可以通过拖拉拽的方式快速帮助算法同学,数据同学,在项目POC阶段进行Baseline搭建,实现想法,论证项目可行性。同时对经典的文本分类,图像分类等问题都给出了典型任务流,这使得初期研发同学可以在很少的代码量下进行基线任务的研发与评估,组件的资源分配都经过了优化,无需再投入精力。后续相信基于工程项目的部署技术腾讯也很成熟,开发同学可以不受限于框架的限制,先走通流程。
  • Notebook开发模式更适合熟悉各类框架的工程师使用,用户可以申请不同资源大小的实例。每个实例是独立的容器,容器内有完备的conda环境,如果有需要安装的新环境或者新库可以通过生命周期配置进行,这样每次开启实例时就会进行安装。需要配置自己的conda环境的同学建议通过生命周期配置进行,不然每次重启实例之前自己建立的conda环境都不会保留,而且实例内安装环境的网速有时候有较大的优化空间,不管从哪个镜像都很玄学,有时候很快有时候就只能挂机等一上午。在每个实例内部和服务器的开发模式一致,相信熟悉linux基本命令的同学都可以很快上手,算法工程师可以自由分配内存显存进行开发。除了自己watch实例的资源消耗情况外,每个实例均有监控与日志,最常见的实例崩溃事件往往是内存撑满造成的,这些都可以在历史监控中发现。这种开发方式可以得到精度更好的模型,整个docker打包进行部署也比较方便。
  • TI-ONE平台主要依托cos对象存储桶进行数据传输。从一个实例到另一个实例,或者到其他服务器都需要通过cos对象存储桶进行。官方有相关的说明文档,总体感受传输速度相当快,美中不足是没有进度条,常面对未知的等待。当然较小的数据,比如提交文件也可以直接点击下载走网页流量直接下载到本地。
  • 在2020年腾讯广告大赛中复赛数据量陡增,我使用了V100*4的豪华配置通过MirroredStrategy 充分使用了巨大的显存,大bs加BN策略也让模型收敛的又快又好。大赛的数据结构相对简单明了,特征都由神经网络学习,设计好数据流后V100*4实例的130gb内存并不是瓶颈可以全部数据加载到内存进行训练,显存配置也是越大越好。华为点击率预估比赛中需要人工延伸很多特征,加上还有序列特征,导致内存出现了瓶颈,而且并没有发现bs越大收益越好,此时V100*4庞大的显存印衬下130gb的内存就显得有点尴尬了,只好用过生成器的方式训练,往往加了一批特征内存就不够了又要调小bs。
  • 数据竞赛是有一些辛苦的,但是算法平台更加辛苦,每时每刻算力都被榨干。当然最辛苦的还是平台的支持运维同学了,007地陪伴着支持着算法工程师们,熬到再晚也有在线人员回复问题。今年腾讯算法大赛又如期开始,时隔数月再次回到TI-ONE,像看到了一位既熟悉又陌生的朋友。发现有很多更新,组件多了很多,实例内部对pytorch, tensorflow所有的常见版本都配置了conda环境,而且实验下来所有环境都找得到N卡,再也不用自己装新环境了。希望有机会大家都来使用,体验一下TI-ONE平台。在使用的同学珍惜占用的算力,毕竟在这个币圈火爆的年代如此稳定强大的算力是很珍贵的。

想要获取更多TIONE教程,点击赛事专题,轻松玩转大赛,赢取百万奖金!

0 人点赞