翻译 | 火火酱,编辑 | Carol
出品 | AI科技大本营(ID:rgznai100)
在这篇机器学习新闻综述中,我们将回顾一些2019年以来在人工智能各个领域广泛传播或产生影响的重大新闻。此外,我们还将简要介绍一些有意思的人工智能应用程序,几款2019年发布的游戏,以及一些机器学习项目的开源数据集资源。
自动驾驶汽车
1、特斯拉最新自动驾驶致死案与之前事故相似
文章链接:
https://www.wired.com/story/teslas-latest-autopilot-death-looks-like-prior-crash/
2019年对于特斯拉来说可以算是多事之秋了,该公司在这一年里遭遇了不少不幸。最引人注目的是,2019年5月,一场涉及特斯拉Model 3的悲剧事故导致驾驶员死亡。事故发生时,汽车启动了自动驾驶功能,在没有采取任何规避措施的情况下,直接撞上了一辆停在路边的卡车。这起事故导致人们对公路上常见的自动驾驶汽车的安全性产生了怀疑。
特斯拉Model 3:致命事故中的自动驾驶系统
https://www.bbc.com/news/technology-48308852
2、Waymo:“完全无人驾驶的Waymo就要来了”
文章链接:
https://techcrunch.com/2019/10/09/·waymo-to-customers-completely-driverless-waymo-cars-are-on-the-way
Waymo是自动驾驶汽车行业中另一家大型企业,该公司在去年推出了自己的自动驾驶汽车,消息一经发布便登上了新闻头条。严格来讲,Waymo隶属于谷歌的母公司Alphabet。它给其打车软件的所有用户发送了一封电子邮件,邮件中提到:您下一次的Waymo之旅或许会是完全自主的无人驾驶之旅。
自然语言处理 (NLP)
3. Open AI发布GPT1 1.5B
文章链接:
https://openai.com/blog/gpt-2-1-5b-release/
自然语言处理(NLP)领域中最大的事件之一就是在2019年11月发布的GPT2 1.5B。GPT2是来自于Open AI的文本生成神经网络,由于其生成自然语音文本的惊人能力而成为世界各地的头条新闻。一些作者甚至能够使用GPT2创建完整的文章,该技术吸引了许多在机器学习领域有影响力的人和多位著名科学家的关注。
NLP:
https://lionbridge.ai/articles/natural-language-processing-101/
使用GPT2创建完整的文章:
https://lionbridge.ai/articles/this-entire-article-was-written-by-an-ai-open-ai-gpt2/
Open AI曾经也发布过旧版本的神经网络,但是GPT2 1.5B是迄今为止的最强迭代。
在这篇文章中,Open AI解释了其5个主要发现:
1. GPT2的输出具有说服力和可信度。
2. 可以对GPT2神经网络进行微调以防滥用。
3. 合成文本检测极具挑战性。
4. 迄今为止,还没有能够证明滥用的有力证据。
5. 仍需制定出防止偏见的标准。
合成媒体
4. 美国众议院就深度伪造(Deepfake)的风险举行听证会
文章链接:
https://lionbridge.ai/articles/deepfakes-a-threat-to-individuals-and-national-security/
深度伪造(Deepfake)是2019年最大的机器学习主题之一。Deepfake所取得的全所未有的发展导致了对该技术的广泛滥用和公众的恐惧。因此,为了解和应对该技术可能会带来的威胁,美国情报委员会于2019年6月就Deepfake和AI相关问题召开了公开听证会。
视频链接:
https://youtu.be/lArPEDS0GTA
这篇文章总结了每位演讲者提出的核心观点、Deepfake的潜在风险以及其解决方法和对策。
相关文章:
众议院情报委员会将举行有关Deepfake和AI问题的公开听证会
https://intelligence.house.gov/news/documentsingle.aspx?DocumentID=657
一起来看看2020年的Deepfake。
https://lionbridge.ai/articles/a-look-at-deepfakes-in-2020/
5. Replica Studio简介
合成声音和音频是一项新兴产业,并在去年取得了飞跃性发展。Replica Studios是一家语音合成公司,该公司在2019年引起轰动,吸引了很多数据科学家、名人和对使用他们的软件感兴趣的游戏开发工作室的注意。
这种病毒式传播源自于是一段令人印象深刻的概念验证(proof-of-concept)视频,其中展示了桑达尔·皮查伊(谷歌的CEO)、杰夫·贝佐斯(亚马逊的CEO)、阿诺德·施瓦辛格、凯文·哈特、摩根·弗里曼、大卫·艾登堡、史努比·道格、艾伦·德杰尼勒斯,甚至是《The Witcher》中里维亚的合成语音。
视频链接:https://youtu.be/f4DgHI9J3U8
令人印象深刻的是,Replica Studios仅需几分钟的语音录音就可以合成任何语音副本。在一次采访中,Replica的首席执行官什里亚斯·尼瓦斯(Shreyas Nivas)说,这项技术已经到达了“合成声音与真实声音无法区分并且可以与人类声音媲美”的水平。
什里亚斯·尼瓦斯采访链接:
https://lionbridge.ai/articles/how-synthetic-voice-actors-rival-human-actors-an-interview-with-replica-studios/
数据集
6. Google如何通过Google Dataset Search来引领数据搜索
文章链接:
https://lionbridge.ai/articles/how-google-is-leading-the-quest-for-data-with-google-dataset-search/
获取训练数据是目前阻碍人工智能进步的重要因素之一。特别是在深度学习中,许多模型需要不止数千个,而是数百万个训练数据实例。因此,许多数据科学家和学生转而使用Kaggle这样的数据集聚合器,并依赖于社区提供的开源数据。为了改善对开源数据的访问,谷歌发布了一款仅用于发布和下载数据集的搜索引擎。
虽然Google Dataset Search在2019年仍处于测试阶段,但谷歌在1月23日宣布已索引了近2500万个数据集,该搜索引擎正式退出测试阶段。
2019年发布的有意思的人工智能应用程序和资源
Talk To Transformer——开源AI的GPT2 1.5B的用户友好型实现。任何人都可以使用:只需输入一个自定义提示、一篇文章的标题或一首歌的首句歌词,就可以看看文本生成神经网络会为你带来什么结果。
Talk To Transformer:https://talktotransformer.com/
Google Dataset Search——如上面第6篇文章中提到的,这是由谷歌提供的免费数据集搜索引擎。你可以在上面搜索开源的数据集,并学习如何通过搜索引擎爬取自己的资源。
Google Dataset Search:
https://datasetsearch.research.google.com/
AI Dungeon 2——一款文字冒险游戏,玩家的每一个决定都会带来独特的故事情节。在GPT2的驱动下,这款游戏可以有无数种可能,所有的故事都是不同的。点击以下链接查看示例:
https://lionbridge.ai/articles/creative-ai-the-storytelling-of-ai-dungeon/
AI Dungeon 2:https://play.aidungeon.io/
Ultimate Dataset Aggregator——来自Lionbridge AI的数据集聚合器,包括数百个开源数据集,跨越几十个用例和主题(包括计算机视觉、并行文本、生命科学、金融等等)。页面随着新数据集的不断更新而更新。
Ultimate Dataset Aggregator:
https://lionbridge.ai/datasets/ultimate-dataset-aggregator-for-machine-learning/
人工智能是世界上发展最快的行业之一,2020年肯定会有更多关于机器学习的重大新闻。希望以上提到的人工智能文章能激发你的兴趣。
原文:
https://hackernoon.com/machine-learning-news-roundup-6-essential-ai-articles-of-2019-gbw331i
(*本文由 AI 科技大本营编译,转载请联系微信1092722531)