百度再出Lens黑科技!用PaddleMobile实现类人眼视觉AI能力

你知道吗?人类有 70%的信息获取来自于视觉。但目前存在两个问题: ①人眼自己只能看到物理世界,没法看到其背后复杂的信息世界; ②人类的记忆力有限,视野有限,因而会出现看了就忘、视野窄等各类问题。html

 

科幻片里常见这样一种“人肉外挂”:经过一系列的技术改造,主人公(好比史塔克)眼前出现的一切物体都会被自动识别,什么名称、用途、用法用量,全均可以秒速反馈回来,并被即时载入到记忆中,过目不忘。linux

 

现在,百度识图在百度 App 和简单搜索 App 上推出的最新版,经过应用Lens技术把这种科幻场景往现实生活中拉得更近了一点!android

下载安装命令

## CPU版本安装命令
pip install -f https://paddlepaddle.org.cn/pip/oschina/cpu paddlepaddle

## GPU版本安装命令
pip install -f https://paddlepaddle.org.cn/pip/oschina/gpu paddlepaddle-gpu

 

 1、百度识图可以作什么?ios

 

做为目前全球识别能力最广的AI视觉产品,百度识图已支持超过 30+场景的认知。 web

例如:扫商品找同款比价格,扫植物学辨认技巧看养护知识,扫人脸测面相运势,扫菜品/食材看热量知功效作法、扫明星看八卦追行程、扫汽车了解型号价格、扫红酒查酒庄年份、扫题目搜答案看解析。算法

 

此外还有AR翻译、文字、图书、海报、药品、货币、电影等多品类的认知能力。服务器

点击查看演示视频网络

 

 

 

 

 2、Lens技术是什么?app

 

Lens技术是一种基于移动端实时感知和云端视觉搜索的类人眼视觉 AI 能力,可以实现所见即所得的信息浏览体验。框架

应用Lens技术后,打开百度识图,无需拍照,毫秒内自动扫描并锁定镜头内检测到的所有物体,即刻反馈“它是什么”,“它背后的相关信息”,让你随时随地拥有“移动的百科全书”。

 

 3、本次升级有什么重要意义?

 

1. 从行为层面,它将深度强化人眼视觉理解能力,改变人类认知事物的习惯并为将来的智能眼镜奠基坚实基础。你能够借助百度识图真正实现边走边看,不间断浏览,同时,依托于百度识图背后的超级百度大脑,将确保为每一个实物提供精准、深度的信息介绍,让你边看边学。

 

2. 从技术层面,它首次实现了类人眼的对实时视频流数据的感知和认知能力。百度识图具有了目前全球最快最稳定的跨平台实时视觉 AI 能力,能够嵌入到 Android/iOS 系统部署,依靠百度移动端深度学习预测框架Paddle-mobile,支持 ios,android,linux-arm,fpga等平台的编译和部署,使深度学习模型可以在移动端和智能硬件中运行,并保持业内遥遥领先的性能和效果指标。

 

 

 、百度识图的Lens技术攻克了哪些难题?

 

为了达到类人眼的视力,人工智能必须充分调动起复杂且涉及众多环节的能力。在这一过程当中,百度识图Lens技术遇到并解决了4个核心问题。

 

 1、快速连续稳定地发现新物体 

 

人眼对视觉信号反应时间170ms~400ms,新进入视野的物体可以被快速的看见,当视角发生变化时新视野的物体在被发现的同时,也可以创建与旧视野内物体的对应关系。具体到技术上,分为两个问题:单帧图像的物体检测的性能和连续帧图像物体检测的稳定性。

 

 单帧物体检测的性能包含准确率、召回率和检测速度。过深的 CNN,相应地耗时也都较长。并且终端 GPU 相比服务器 GPU 的性能还要拉开十倍以上的差距,耗时更长。

 

所以,咱们选择构建轻量级的 MobileNet 网络结构实现移动端物体检测,而且构建覆盖通用场景的百万级别通用物体检测图片数据集。针对基础模型进行压缩,进一步提高预测速度,同时模型运行在百度自研的移动端深度学习预测框架Paddle-mobile上,做为PaddlePaddle的移动端预测引擎,针对嵌入式手机等平台的计算芯片作了大量优化,最终可支持在手机端实现单帧多目标检测耗时60 ms 之内,主要物体检测准确率和召回率均在95%以上。

 

② 连续帧图像物体检测的稳定性是咱们面临的一个新挑战,它关注解决的问题是如何量化衡量在连续帧上不断的进行物体检测时,物体是否被检测到的状态变化。

 

在图像上物体的微小平移、尺度、姿态变换,都致使 CNN 输出变化剧烈

 

百度提出了一种移动终端基于视觉跟踪的连续帧多目标检测方法专利,在实时连续帧数据上,用跟踪完成短时的物体状态保持,并在视野物体发生变化时,在检测模型中融合跟踪算法的输出,给出最终的稳定的连续帧物体检测结果。最终帧错误率从16.7%下降到2%。

 

 2、连续实时跟踪物体 

 

为了让反馈信息像放置在真实世界中的同样稳定,百度采用了 SLAM(Simultaneous Localization and Mapping)技术。在未知环境中,经过对环境的观测肯定自身的运动轨迹,同时构建出环境三维地图。

对文字跟踪的场景,还涵盖了 Texture Mapping 技术,将文字的翻译结果,无缝地融合到源语言文字位置处,达到原生视觉效果。

 

 3、视觉信号多层认知,

 先粗看再细看 

 

人眼会对视野内的物体先产生初步理解,例如左前方有辆汽车。当眼睛注意力集中到汽车时,再由具体认知环节分辨是宝马320仍是奔驰C200。

 

粗粒度语义理解模型的训练,整理构建涵盖办公、家庭生活、商场、超市、户外园区和街道等主要场景的300+标签分类标签体系,包含百万级物体局部图的数据集。

 

细粒度物体认知是由一整套复杂的云端系统构成,包含万级别大规模细粒度分类模型,以及基于 ANN 最近邻向量检索构建的百度新一代视觉检索技术,支持类似图、同款商品、名人脸等检索。

 

 4、无缝链接以上三个环节 

 

人眼在接收到视觉信号后,由大脑完美地调度,发现、跟踪和多层认知三个环节实现无缝衔接。在技术实现上,却须要考虑很是多的因素,包括用户注意力判断、注意力集中时的选帧算法、跟踪和检测算法的调度切换策略。

 

经过精细的组合调度算法,咱们将百度识图耗电量控制在 2%/10min 之内,知足了移动端部署对能耗的要求。

 

最终,物体的发现感知、连续跟踪、粗粒度语义理解,以及根据用户行为和视觉场景动态组合和调度以上模型的 multi-task planning 算法,总体构成感知计算模块 Walle SDK,能够支持在IOS、Android 以及服务器等多种平台部署。

 

 

 5、将来还有哪些新期待?

 

1. 在用户行为及信息理解层面,将来的百度识图,将会融合:多模态的交互方式、多形态的信息呈现方式以及多纵深角度的信息识别结果,带来更聪明的视觉理解体验。那个时候,借助智能设备,咱们只须要动动眼睛,说一句话,咱们所须要的信息就会以 AR 的方式叠加到咱们面前。

 

2. 在技术应用层面,百度识图将会成为跨平台应用、并持续丰富物体高级感知能力的维度,促进全人类的人眼视觉能力强化。目前百度识图能力由纯C++实现的跨平台运行库,核心库大小300KB,几乎能够嵌入任何支持深度学习模型运行的终端平台,例如智能硬件、一些智能摄像头、无人驾驶汽车等等。

 

 6、怎样体验百度识图黑科技?

 

说了这么多,你是否是也想赶忙体验一下呢?升级到最新版百度识图,就能够体验黑科技啦,iPhone用户能够在百度 App(11.2版本) 和简单搜索App(3.1版本) 的“自动拍” 入口体验,安卓用户须要耐心等待一下哦,百度App 安卓端将在1月份发布的11.3版本上线黑科技,简单搜索的安卓版后续也会很快上线!后续还会推广到其余场景。

下面以百度 App 为例,带你一块儿体验!

 

 

将来,咱们会将百度识图的Lens技术开放给开发者,帮助你们以极小的开发成本

便可让本身的摄像头具有类人眼能力。

而今天,你能够打开百度 App 和简单搜索 App,体验移动端深度学习框架Paddle Mobile的应用,运用Paddle Mobile从新认识你身边的视界。

>> 访问 PaddlePaddle 官网,了解更多相关内容

下载安装命令

## CPU版本安装命令
pip install -f https://paddlepaddle.org.cn/pip/oschina/cpu paddlepaddle

## GPU版本安装命令
pip install -f https://paddlepaddle.org.cn/pip/oschina/gpu paddlepaddle-gpu