演示视频
PPT
AIoT创新应用比赛是一个命题作文,AIoT = AI IoT 是基本了解;要求使用RT1062和TencentOS-tiny是限制条件,也是IDEA创意的出发点。充分利用前提条件的产品形态(IDEA)是正确的进入方式。
个人角度:“终端强大AI模型 MQTT上云及物联网平台-小程序-手机端生态加持”是理想IDEA形态;本文从创意IDEA条件筛选出发,到IDEA分解为嵌入式工程工作流,数据科学工作流,及总结构成,内容构成如下:
1. IDEA
1) 条件
2) 手语定义
手语是使用视觉-手动方式来传达意义的语言。 手语是成熟的自然语言,有自己的语法和词典。 ASL(Argentinian Sign Language) 是一种完整而复杂的语言,它使用通过移动双手与面部表情和身体姿势相结合的符号。
现实生活也有很多无接触、又无声、基于视觉信号序列传递消息及控制的场景:你和家人看投影,你想不打扰他人调高音量,于是你对着“无接触视觉解析控制器”做了个手势,于是播放音量调高了;你在图书馆看书,你从听音乐切换到听订阅号,你对着手机做出几个手势;类似的场景很多。人类与机器&系统交互信息是结构化的,不需要像聋哑人使用手语一样复杂,通常只需要5-10个基础手势,可以定义组合使用就可以完成几种特定场景结构化环境与系统的交流目的。
墙上安装了带有摄像头的“手语交互器”,在房间摄像头的视野中,你举起一个拳头,2-3秒后系统就为你就打开音乐;给出一个“布”,一回而系统就关闭音乐。当然事情不止这么简单。比如给出,“拳头-布-1个指头”,系统就为了下单定了个1号咖啡收藏店的咖啡。感觉就是结手印,做暗号,而且这个暗号是你独家定制的。
再想象一个场景,你邀请心仪的对象来家里;时间场景合适了,你很酷的、表演性质做出一方魔法手势、姿态,于是灯光黯淡了,背景音乐想起来了,扫地机器人拖着一个盒子过来了,这不成功率大增。
你需要一个心灵一点通的“管家”,一个眼神、一个手势、一个姿态,她就理解了你,一切都为你准备好。 这就是“实时手语交互”技术的出场时机!
重新定义
本文定义的手语:是人与机器(智能系统)信息输出的方式,是手势识别、序列到特定语义转换的框架。
本文提出了一个基于计算机视觉的模型,可以识别少量特定手势(石头、剪刀、布),并建立手势序列到命令的检测。
3) Core Value
- 特立独行 “酷”
有别于常见按钮、声音的交互,我们隔空无声的传递消息;
- 我的语言我定义 “酷”
在于恋人们的灵犀一点的默契;
在于群体的共同语言
- 姿势帅 “酷”
比如手指舞
4) 工作流
5) 架构图 及 关键技术
Embedded Engineering Flow (黄色粗虚线框)
- 手语框架:图像à语义信息“语言 ”
‒模型选择(OD、CLS)
‒噪声抑制
‒断句
‒鲁棒性
‒灵活性(变长输入)
‒输出后处理
‒输入前处理
‒流畅(2s时延 人类无感知)
Data Science Flow(绿色粗虚线框)
- AI模型
推理延迟
资源消耗(内存、存储)
精度
- 数据Pipeline
真实场景数据采集
数据增广
数据合成
2. Embedded Engineering Flow
1) AI Model Type Select
2) Sign Language Framework
3) 基于TencentOS-Tiny的多任务设置
4)手势识别数据流
3 Data Science Flow
4. 后记
1)一些中间结果
2) 反思
Demo现状精度问题的原因及后续思考:
3) 感想
对于TencentOS-Tiny
- 代码简洁、可做RTOS学习参考
- 架构清晰、移植简便
- 中间件强大
- 物联网MQTT和腾讯物联网无缝结合,接入方便,生态很好
NXP RT1062 & eIQ
- mcu基础定位(价格、性能),近1G的处理性能
- eIQ提供了机器学习模型数据端到模型验证部署的工具链,切实提供云端模型到终端的实现框架;还提供了多种嵌入式部署方式(tflm、glow、deepview)
过程反思
- 一个人就像“单脚跳”着跑1千米,有队友就是“两脚走”
- 群友好有才,说话好好听;上下限都高,但很包容;
- 经历过的人,一句话点拨,节省数十根头发
- 可怕的拖延症…
- 不到deadline,不知道你有多大生产力
- 比赛就像一个旅程,在乎不是终点,而是沿途的风景
4)代码
https://gitee.com/flavorfan/realtime-sign-language-interact