原文链接:https://cuijiahua.com/blog/2019/10/life-46.html
一直保持的追求有三点:技术、快乐、财富,这里记录每周值得分享的内容,周五把欢乐送达。
技术
1、Image Deduplicator
忙碌的工作中,我们有时会碰到图像去重的任务。例如,通过网络定向抓取的图片数据存在大量重复,因为特定需求,需要去除那些重复的图片数据。
悠闲的生活中,我们也有遇到拥有类似功能的软件。例如,手机相册中,有对相似图自动归类的功能;手机助手中,有对相似图片一键清理的功能等。
对于图像内容完全一样,或者有少量的尺度、位移、色彩、亮度变化,或者是添加了少量其他内容的图像匹配及去重,最简单的方法是类似SIFT特征进行图像匹配,但是这样一个图片对其他所有图片的匹配方式,在大量数据集面前,就显得捉襟见肘了。同时,匹配的效果也可能不尽人意。
显然,仅用类似SIFT的特征去匹配图像是远远不够的,还需要进行特征Hash,二值特征比较等一系列工作,做好一个图像匹配去重的功能,可能需要花费一些心血才行。
好在,开源项目越来越多,这也大大缩短了我们的开发周期。
来自德国的商品比较服务商Idealo开源了Image Deduplicator(imagededup)算法,为我们提供了快速的图像查重功能。
项目地址:点击查看
2、1MB 轻量级通用人脸检测模型
一个好的算法,不仅要有较高的精度,也要有轻量的体积,同时也能在较低算力的平台上运行。
因为算法的落地场景,往往有一些苛刻的条件,例如,工业界对于产品成本的把控等。
近期,Github上,就开源了一个轻量级的通用人脸检测模型,足够轻量,模型体积仅有1MB,检测精度和深度也不弱于当前业界主流的开源人脸检测算法。
该模型设计是针对边缘计算设备或低算力设备(如用ARM推理)设计的实时超轻量级通用人脸检测模型,可以在低算力设备中如用ARM进行实时的通用场景的人脸检测推理,同样适用于移动端、PC。
在模型大小上,默认FP32精度下的文件大小为 1.04~1.1MB,int8量化后大小为 300KB 左右。
在模型计算量上,320x240的输入分辨率需要 90~109 MFlops 左右的计算量。
项目地址:点击查看
3、Detectron2
作为一个长期存在的基础性课题,目标检测算法可以说是构成图像理解和计算机视觉的重要前提,在解决分割、场景理解、目标追踪、图像描述、事件检测和活动识别等更复杂更高层次的视觉任务中起到了基石的作用。
在目标检测算法方面,Facebook AI研究院(FAIR)一直走在前列。2018年初推出了当时业内最高水平的目标检测平台:Detectron。该项目实现了众多的SOTA算法,深受目标检测研究者们的喜爱。
近日,FAIR又开源了Detectron的升级版:Detectron2。
Detectron2抛弃了Detectron使用的Caffe框架,转而投入Pytorch的怀抱。
通过全新的模块化设计,Detectron2具有更高的灵活性和可扩展性,能够直接在单个或多个GPU服务器进行更快的训练,同时能够帮助研究人员更有效的探索最先进的算法设计。
Detectron2也包含了众多的目标检测算法,可谓应有尽有。
项目地址:点击查看
4、dabnn
二值化网络研究也是人们关注的方向,二值化网络是一种特殊的神经网络,它将网络的权重和中间特征压缩为1个 bit,可以看作是普通浮点型网络量化到极致的结果。
在二值网络领域已经有一些推断框架,例如 BMXNet、BitStream、BitFlow。其中,BitStream 和 BitFlow 只有论文,而没有源代码或二进制库,BMXNet 虽然开源,但在 Google Pixel 1 手机上进行的测试显示,它甚至比全精度推断框架 TensorFlow Lite 还要慢。
为了填补这个空白,京东 AI 开源了一个针对 arm 指令集高度优化的二值网络 inference 框架 dabnn。
据介绍,这是第一个高度优化的针对二值网络的开源推理框架,和 BMXNet 相比,dabnn 的速度有一个数量级的提升,为BMXNet速度的 800%~2400%倍。
同时,为了方便开发者使用,dabnn还提供了onnx2bnn的工具,我们可以使用工具轻松地将各种框架通用的ONNX模型转换为dabnn格式的模型。
项目地址:点击查看
5、NL2SQL
NL2SQL是追一科技主办的一项竞赛,也就是把自然语言“翻译”成机器能理解的SQL语句,在人机交互中有巨大的价值。
这次挑战赛这么受关注,很大一部分可以归功于新数据集的发布。
挑战赛使用的中文 NL2SQL 数据集包含约 4 万条有标签的训练数据、1 万条无标签的测试数据,也就是说一共包括 4,870 张表格数据、49,752 条标注数据。
NL2SQL 希望根据 "question" 和对应表格预测出 "sql" 到底是什么样的。
首届的NL2SQL竞赛冠军团队已经诞生,成绩达到了92.19%的准确率,超过英文NL2SQL数据集WikiSQL目前完全匹配精度86.0%,执行匹配精度91.8%的最高成绩。
团队的方案已经在Github放出。
项目地址:点击查看
6、3D人体姿态估计
人体姿态估计是当前计算机视觉领域的热点研究问题。对人体骨架关节点进行准确提取并构建人体骨架模型,为进一步的人体姿态识别、实时交互游戏等应用提供了基础。
3D人体位姿估计是当前的一个热点研究课题,也具有广泛的应用潜力。
近期,发表于ICCV 2019的一篇名为"Learnable Triangulation of Human Pose"的文章,在Github进行代码开源。
该项目有助于帮助我们完成多视角的3D人体姿态估计,代码可以直接在Human3.6M上训练和测试,CMU Panoptic数据集也会在后续添加。
项目地址:点击查看
7、KnowledgeGraphData
知识就是力量,知识图谱是人工智能新时代的产物,简单地说知识图谱就是通过关联关系将知识组成网状的结构,然后我们的人工智能可以通过这个图谱来认识其代表的这一个现实事件,这个事件可以是现实,也可以是虚构的。
知识图谱可以应用于机器人问答系统,知识推荐等等。
近日,ownthink开源了大规模的1.4亿中文知识图谱。
项目地址:点击查看