时尚新闻资讯网站

谷歌AR工具Google Lens登陆全球Google Go市场,带来更好的理解能力

来源:Yingwei.com作者广州嘉宾

今年5月谷歌的I/O大会宣布将视觉AR工具镜头纳入Google Go。但Google Go最初只支持Android Go设备,并且只针对特定市场登录Google Play。但是,谷歌最近将此工具带到了全球的Play商店。

全世界有数百万人第一次上网,其中许多人是世界上超过8亿非识字成年人中的一员,或刚搬到一个陌生的城市或镇上的新居民。作为基于智能手机相机的工具,Google Lens具有帮助人们的潜力。镜头主要使用计算机视觉,机器学习和谷歌知识图谱,可以将现实世界所看到的内容放入视觉搜索栏中以识别相关对象或将现实世界文本复制并粘贴到智能手机上。

谷歌指出:“为了帮助更多人,我们需要创建一个支持更多基本型号的版本。因此,在2019年的I/O大会上,我们发布了支持基本输入设备的Lens for Google Go版本。还包括旨在帮助用户应对阅读挑战和其他语言挑战的新功能。“

Google在一篇博文中表示,为了支持读写功能,Lens的Google Go版本需要在一系列设备中捕获高质量的文本,然后识别文本,了解其结构,翻译和叠加最后,再次阅读。

1。图像捕获

入门级设备的图像捕获非常具有挑战性,因为您需要与一系列不同的设备兼容,其中大多数设备没有旗舰级性能。为了构建一个能够可靠地以最小延迟捕获高质量图像的通用工具,谷歌将谷歌的lens转变为一个新的android支持库camerax的早期采用者。jetpack中包含的camerax(android开发人员的一组库、工具和指南)是android camera2 api的抽象层,它解决了设备兼容性问题,因此开发人员不需要编写自己的设备特定代码。

为了平衡捕获延迟和性能影响,google使用camerax实现了两种捕获策略。对于高端手机来说,它们足以提供恒定的高分辨率帧,因此系统可以即时捕获。对于相对低端的设备,由于CPU性能有限,流式传输帧可能会导致相机延迟,因此当用户单击“捕获”时,谷歌会处理帧并生成一个按需高分辨率图像。

<P>2。文本识别

当Lens在Google Go中捕获图像时,需要了解相关的形状以及构成单词,句子和段落的字母。因此,图像将按比例缩小并发送到镜头服务器,然后进行处理。接下来,应用光学字符识别(OCR),其使用区域提议网络来检测可以合并成用于文本识别的行的字符级边界框。

将字符框组合成单词是一个两步顺序过程。第一步是应用Hough变换;第二步是使用文本流。无论是笔直的,弯曲的还是两者的混合,这个过程将确保系统识别和处理具有各种分布的文本。

由于Google镜头拍摄的图像可能包含标签,手写字符或文档等来源,因此可能还存在一系列其他挑战。例如,可以遮挡文本并且可以模糊图像。所有这些问题都可能导致OCR引擎误解每个单词中的各种字符。为了纠正错误并提高单词的准确性,Google中的镜头使用周围单词的情况来纠正它们。它还使用知识图来提供情境线索,例如单词是否是专有名词,因此不应进行拼写更正。

从脚本检测到方向识别到文本识别,所有这些步骤都由单独的卷积神经网络和附加的量化LSTM网络(长短期记忆)执行。此外,扫描图像从ReCaptcha到Google Books。该模型使用各种来源的数据进行培训。

3.了解结构

一旦识别出单个单词,Lens必须确定如何将它们组合在一起。人类在现实世界中遇到的文本以多种不同的方式展示。例如,一份报纸的文章包括标题,文章和广告。同时,公交时刻表中一列是目的地,另一列则有时间。尽管理解文本结构对人类来说非常自然,但计算机则不然。Lens使用卷积神经网络来检测连贯的文本块,如列,或文本的一致样式或颜色。然后,在每个块中,它利用文本对齐,语言和段落的几何关系等信号来确定其最终阅读顺序。

检测文档结构的另一个挑战是,我们会从不同的角度拍摄文本,并且通常是翘曲的视角。这意味着我们无法恢复依赖于现成的检测器,而是必须普遍化系统,从而使其能够处理单应性失真。

4. 情景翻译

为了向用户提供最有用的信息,翻译必须精确且具有情景上下文。Lens利用了神经机器翻译算法。另外,为了提高翻译的效用,这需要在原始文本的情景上下文中进行。例如,当翻译ATM的指令时,重要的是要知道哪些按钮对应于哪些指令。

挑战的一部分是,翻译后的文本可能比原文短得多或长得多。例如,德语句子往往比英语句子长。为了实现这种无缝叠加,Lens将译文重新分配到相似长度的行中,并选择适当的字体大小进行匹配。它同时能够匹配翻译的颜色及其背景。Lens可以分类像素是表示背景还是文本,然后从这两个区域中采样平均颜色,从而确保翻译文本与原始文本匹配。

5. 诵读文本

Google Go的Lens的最后一个挑战是大声诵读文本。系统利用谷歌的文本转语音(TTS)技术来生成高保真音频(一种应用机器学习来消除歧义的服务),并使用它来生成基于DeepMind WaveNet的真实语音。

当与屏幕配对时,它们将变得更具情景性和实用性。Lens利用来自TTS服务的定时注释来标记每个单词的开头,从而在诵读时突出显示屏幕的每个单词,就类似于卡拉OK机。例如,用户可以捕获不同按钮有着不同标签的ATM屏幕图像。这种卡拉OK效果将允许用户知道哪个标签适用于哪个按钮。它同时可以帮助用户学习如何发音相关单词。

6. 展望未来

谷歌表示:“我们希望这些功能可以对数百万人的日常生活产生积极影响。展望未来,我们将继续对这些阅读功能进行更新,包括改进文本结构理解(例如多列文本)和识别印度语脚本。在我们解决这些文本挑战时,我们继续寻找集合机器学习和智能手机摄像头的新方式,从而帮助改善人们的生活质量。”

原文链接:

演讲经纪