最新 最热

前端语音信号处理

语音活动检测(Voice Activity Detection, VAD)用于检测出语音信号的起始位置,分离出语音段和非语音(静音或噪声)段。VAD算法大致分为三类:基于阈值的VAD、基于分类器的VAD和基于模型的VAD。...

2022-09-01
1

国科大&港中文提出带视觉语言验证和迭代推理的Visual Grounding框架,性能SOTA,代码已开源!(CVPR2022)

Visual grounding是一项定位自然语言表达所指示目标的任务。现有的方法将通用目标检测框架扩展到这个问题上。他们将Visual grounding建立在来自预先生成的proposals或anchors,并将这些特征与文本嵌入融合,以定位文本提...

2022-09-01
1

CVPR2022Mask Modeling在视频任务中也有效?复旦&微软提出Video版本BEVT,在多个视频数据集上SOTA!

本文分享 CVPR 2022 论文『BEVT: BERT Pretraining of Video Transformers』,复旦&微软提出 Video 版本 BERT,在多个视频数据集上SOTA!

2022-09-01
0

多模态理解与生成,西南交大&MSRA提出统一的"视频和语言预训练"模型:UniVL!

本文分享论文『UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation』,由西南交大&MSRA提出《UniVL》,用于多模态理解和生成的统一视频和语言预训练模型!...

2022-09-01
1

​金融产业应用详解 | 表单自动识别、保险智能问答端到端方案

随着人工智能技术的逐渐成熟,计算机视觉、语音、自然语言处理等技术在金融行业的应用从广度和深度上都在加速,这不仅降低了金融机构的运营和风险成本,而且有助于提升客户的满意度,比如:利用OCR技术快速处理海量表格做信息...

2022-09-01
1

产业级信息抽取技术开源,为什么Prompt更有效?

在金融、政务、法律、医疗等众多行业中,大量文档信息需要进行数字化及结构化处理,而人工处理方式往往费时费力,且容易产生错误。信息抽取技术能很好地解决这个问题。信息抽取(Information Extraction,IE)指的是从自然语言...

2022-08-31
0

这项最新调查劝退效果拉满:67% 的 NLPer 怀疑自己的研究没价值

工业界垄断资源,NLP 寒冬 30 年内到来,可解释研究走错方向,NLPer:我太难了。作者 | 李梅编辑 | 陈彩娴一味追求大模型是不是走错了路?未来最有影响力的进展是会来自工业界还是学术界?语言模型到底有没有理解语言?我做的研究...

2022-08-31
0

未来十年,AI 语音识别将朝着这五个方向发展

作者 | Migüel Jetté编译 | bluemin编辑 | 陈彩娴在过去的两年中,自动语音识别(Automatic Speech Recognition, ASR)在商用上取得了重要的发展,其中一个衡量指标就是:多个完全基于神经网络的企业级 ASR 模型成功上市,如 A...

2022-08-31
0

百度吴甜提出大模型落地关键路径 业内首发行业大模型

5月20日,由深度学习技术与应用国家工程研究中心主办、飞桨承办的WAVE SUMMIT 2022深度学习开发者峰会在线上举办。百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜发布飞桨文心最新全景图,提出支撑大模...

2022-08-31
0

百度发布首个集分析与增强于一体的可信AI工具集TrustAI

5月20日,在WAVE SUMMIT 2022深度学习开发者峰会上,百度发布首个集可信分析和增强于一体的可信AI工具集-TrustAI,帮助NLP领域开发者了解神经网络模型的预测机制,构建更加可信、效果更强的模型,助力神经网络模型更安全、可...

2022-08-31
0