一秒一张A4纸?这个笔内置全景拼接,「一扫即查」中英日韩

2020-06-17 16:10:42 浏览数 (1)

新智元报道

编辑:白峰、鹏飞

【新智元导读】将16公斤牛津高阶词典装进一支笔是什么感受?词汇量超10本牛津高阶词典重量却不到其4%,有道词典笔专业版迎来大升级:一扫即查、断点续翻,自适应全景拼接,业内最快OCR扫描速度,准确度高达96.8%。

有一次去参加朋友聚会,刚巧一位非常喜欢旅行的朋友要回国。因为彼此都对旅行和文化的共同爱好,她送了我一本书。正是这本书让她开启了中国之旅。对她来说意义非凡。

这本书叫做《China Road》,讲述的是NPR记者Rod Gifford在中国工作、生活6年时间后的告别旅行。

这是一次特殊的背包旅行。Gifford选择了素有「中国的66号公路」之称的312国道,起点上海人民公园,终点在新疆霍尔果斯,全程将近5000公里,途经中国古代的「丝绸之路」。到达终点后,他站在中哈边境上,转身向中国告别。

这趟旅行花费了他两个月的时间。作为记者,沿途接触了各类人群、各种职业。他在书中写到:「如果想真正了解中国,没有比随着一个开长途车穿越隔壁沙漠的卡车司机畅谈一路,更好的方式了。」简直太浪漫了!

这本书激起了我极大的兴趣。于是我回到家,兴冲冲的捧起来开始阅读。结果第一句就把我难住了。Thud这个词是四六级单词吗?Worn black road是「虫子一样的黑色公路」的意思吗?

明明很多词看起来很简单,但读起来就不是那么回事了。好在手机上下载了词典app,可以边读边查单词,但是时间久了发现很不方便:

  • 来回在书和手机之间切换,很影响阅读体验
  • 碰到像「The worn black road shoots like an arrow」这种整句、整段看不懂的,手机输入简直是灾难
  • 手机上经常有消息提示,极大的分散了我的注意力。结果是:看书5分钟,群里吹水2小时

于是没过多久,这本书被放在了角落里,蒙上厚厚的一层灰尘。

作为一个热衷于总结的人,我梳理了一下整个流程,明白了为什么会出现这样的情况:原来我缺的是一款好用的查词专用工具啊!

一款可以划词翻译的词典笔,让我找回了阅读英文书的快乐

没想到,这个问题却被一个小小的有道词典笔解决了。

有道词典笔,是专为语言学习者量身定制的产品。全身只有两个按键,一个电源键、一个类似home键的主按键。

没什么花哨的的功能(现如今,功能不花哨的电子产品简直是太难得了),产品的目的性很纯粹,主打的功能是「一扫即查」。

我用的这款是最新上市的有道词典笔专业版。相比去年推出的2.0版,专业版在支持的语种、词库、存储、音质音量方面都有很大提升。

新增英文单词跟读功能,可以选择英音/美音真人发音,同时AI智能纠正口音,一边练听力、一边纠正口音。可以单个词独立查询,也可以选择朗读原文或者译文。还可以接着此前的内容,继续扫描。

说到练听力,专业版词典笔还新增了听力功能,只需要把听力资料的MP3导入词典笔中,即可随时随地练习听力!

这款笔不需要联网即可查词。它内置了高中生词典、汉英大词典、SSAT、SAT、GRE、TOEFL、IELTS、现代汉语规范词典、有道汉英释义、有道汉语释义、有道简明释义外,专业版还新增牛津高阶英汉双解词典第七版,累计近240万超大词库。

因为是升级款,所以这只笔不仅可以中英互译,还可以实现中、英、日、韩四国语言互译,日语韩语的发音也极其标准。这一点,对「人在国外刚下飞机」来说可以说是非常重要了!作为一个热爱旅行的人,每次回国都会「代购」不少东西,有从日本代购也有从韩国代购。那么在当地免税店,就可以用有道词典笔来翻译产品说明,避免买错。

我特意找了一张背景比较复杂的日文竖排漫画图试了一下,毫无压力!

不仅仅是白底黑字的内页文字,连背景花哨的封面的文字也能轻松识别出来。

实际使用中,以下几点非常好的解决了我此前阅读英文书籍的痛点:

  1. 操作上极其简单,只需要将笔头轻轻压在需要识别的内容上扫过,途经的内容就会实时显示在尾部的触控显示屏上。7岁到70岁的人都能轻松上手
  2. 不需要在书本和词典笔之间来回切换,像极了上学时候用来划词高亮的荧光笔
  3. 支持多行扫描,这样就可以将整段一起扫进去得到一个完整的段落翻译
  4. 速度非常快,笔头一扫过单词立马就能显示出来
  5. 准确率非常高,甚至连魔戒前传《精灵宝钻》里托尔金杜撰出来的人名比如Turgon、Fingolfin等也能识别出来
  6. 扫描完成后,词典笔还会将扫描的内容朗读出来,并且可以选择朗读原文或者译文

后来我天天带到公司,引起了身边的妈妈同事的好奇。了解到这个情况后她非常高兴:「太好了!我们孩子上课不许带手机。要是有了这个东西可真方便不少,而且这个词典笔不能下游戏,孩子用着我也放心啦!」(说着打开了淘宝把有道词典笔放进了购物车)。

又是小体积、又是离线可用、又是识别速度快、又是准确率高,有道词典笔为什么能同时拥有这些看似互相矛盾的属性呢?

自适应全景拼接、目前业内最快OCR扫描速度,打造真•沉浸式阅读体验

网易有道词典笔使用了网易有道自主研发的AI技术与能力:包括 OCR 光学字符识别、 NMT 神经网络翻译、TTS 语音合成、ASR 语音识别、NLU 自然语言理解等几大块。

很多手机app也有OCR的功能,但是拍照识别有几个问题,当句子很长时镜头拍不全,拍全了看不清识别效果差,拍完还要上传服务器等待后台回传识别结果。而有道词典笔独创的自适应全景拼接技术,可以实现连续划词和换行翻译,整段扫描毫无压力。

这就是有道词典最强AI黑科技:自适应全景拼接!

所谓自适应全景拼接,就是将多幅来自同一场景的有重叠区域的小尺寸图像合成一幅大尺寸的高质量的图像。图像拼接是将存在公共部分的图像序列进行配准和融合,并合成完整图像的技术。

?普通拼接效果

?自适应全景拼接效果

有了全景拼接,就能得到一个正确的文本输入图像,通过模型自动将这个全景图像自动切分成多行,就能进一步提高识别的准确率。

有道词典笔的OCR技术实现了目前业内最快扫描速度:240mm/s ,这约等于一张A4纸的长边,相当于1秒可以识别40个汉字 。识别准确率方面,「一扫即查」的平均识别准确率,从2019年8月刚上市时的95.5%,提升为目前96.8%,远远领先业内平均 82%的水平。

从BERT诞生以来,NLP领域预训练语言模型取得了巨大进展,有道也将预训练模型引入到了 NMT神经网络翻译中。

理论上只要平行语料足够多,NMT是可以实现任意两种语言的互译,目前有道的词典笔只加入了中英、中日、中韩三种,一方面是目前这几种语言场景需求最高,另一方面NMT模型是非常大的,难以直接嵌入一个小小的词典笔,精简模型本身,提高移动端离线推理的速度就显得尤为重要。

有道采用了更加精简的离线端模型,在保证效果的同时极力压缩了模型尺寸。有道词典笔的离线神经网络翻译,一秒钟可以翻译30个字,并且离线翻译的结果接近联网水平。

离线状态下,平均识别准确率超96%,最高识别准确率超过98.5%

虽然词典笔看起来是一个非常小众的市场,但它却是有着非常强的刚需场景。点开电商平台搜一下词典笔,你会发现已经有不少厂家开始布局这块市场。

学生群体自然是这些厂商的核心目标人群,不过,实际上只要是有学习外语、阅读外文文献、出国等需求的人,都是词典笔的潜在用户。如果给他们做个画像,将会是一个数量庞大、分布广泛、年龄跨度大的松散群体。

小小一个词典笔,功能非常有限。让它做到「能用」很好办,但要让它做到「好用」,就需要有背后技术的强大支持力、对用户需求的深刻洞察力,以及对产品的设计开发能力,三管齐下。

技术能力上,有道的AI技术让有道词典笔能够更加智能,识别速度快、准确率高,让这款小小的词典笔用起来非常顺手。在离线状态下,相比此前的版本,专业版的平均识别准确率从95.5%提升到了96.8%。

此外,在日语和韩语的识别率方面,有道词典笔的表现也相当亮眼。离线状态下,专业版的日语平均识别率达到了98.77%,韩语则达到了98.07%。

洞察能力上,有道专注于用户需求的研究,一切功能都从用户的真实场景出发,不做功能的堆砌,最大限度的发挥一个功能的潜力。

产品设计上,有道词典笔无论从原材料、美观度、握持手感等方面,均可圈可点。B站上一个专门给硬件产品做评测的账号「硬核拆解」拆开了一只词典笔,感叹「没想到做工这么好!」

最终,有道词典笔为我们带来了一个闭环的、沉浸式阅读体验。妈妈再也不用担心我看书分神了!

0 人点赞