开源贡献者:阿水、致Great、姚程栋、卜首等
有同学希望通过今年的世界人工智能大赛来提升专业能力,同时增加履历,拿到这次赛事的直推offer。根据大家反馈遇到的问题,我们邀请了头部选手阿水,致Great,姚程栋等,针对世界人工智能创新大赛NLP赛道和CV赛道进行了赛题分析和开源方案总结,希望对大家有所帮助。
一、NLP赛道学习
赛题背景分析
1.1 实践任务
《互联网舆情企业风险事件的识别和预警》通过采集互联网上的企业舆情信息来挖掘潜在风险事件是一种较为有效的方式。从海量的互联网资讯中,识别出存在潜在风险的公司主题名称,并通过自然语言理解,对风险事件的舆情类型进行分类。
如下图所示,该实践赛题包含命名主题识别(识别公司主题名称)和文本分类(舆情类型分类)两大任务,均属于NLP中基本、常见且重要的任务类型。适合实践较少的学习者上手。
1.2 实践数据
将互联网中新闻标题数据作为训练集,数据在「参赛提交」标签下「下载」栏目中获取。训练集数据维度如下。数据集下载可参考文档《报名及数据集下载指南》。
基础方案参考
完整实践Baseline下载:
https://pan.baidu.com/s/1Odao4jGegiG5A4kNfUj6UQ 提取码:1234
代码实践思路如下图。对于初学者,遇到环境配置问题可参考《环境配置指南》
资料汇总
赛题地址:互联网舆情企业风险事件的识别和预警
http://ailab.aiwin.org.cn/competitions/48
Baseline讲解:
https://www.bilibili.com/video/BV1Fv411E7Vs
进阶提升讲解:
https://www.bilibili.com/video/BV1XB4y1c7Ys
环境配置指南:
https://shimo.im/docs/loqeW9vBRohG5Anz/
报名及数据集下载指南:
https://shimo.im/docs/D6xOt6klfF8JUz3d/
二、CV赛道学习
赛题背景分析
1.1 实践任务
《保险文本视觉认知问答竞赛》利用OCR技术自动识别影像资料,通过AI智能判断所识别文字的内在逻辑,回答关于图片的自然语言问题。问题的答案是可以从图片中提取的任何文本/标记。
例如:
提问:西药费的金额是多少?
回答:140.16
提问:140.16元购买了什么药品?
回答:{甲}缘沙坦胶囊{基}
1.2 实践数据
本次大赛提供的数据集使用的文档类型包括票据、说明、报告等图片。混合了印刷、打字和手写的内容。下列仅提供其中两种文档类型:票据和说明书。
基础方案参考
代码已部署到线上,可直接运行。使用平台为AI Studio,选择高级版GPU环境运行代码即可,可申请免费算力。
代码地址:https://aistudio.baidu.com/aistudio/projectdetail/1910545?shared=1
资料汇总
赛题地址:保险文本视觉认知问答竞赛
http://ailab.aiwin.org.cnitions/49
Baseline讲解:
https://www.bilibili.com/video/BV1u64y117UF
进阶提升讲解:
https://www.bilibili.com/video/BV1XB4y1c7Ys
报名及数据集下载指南:
https://shimo.im/docs/R13j89pKrEiZ25k5/
↓↓点击直接进入赛事
http://www.aiwin.org.cn/#/