UCSB研究发现计算机与人类视觉差异,用人眼搜索策略提升计算机视觉

赞赏 2017-09-29

加州大学圣巴巴拉分校的研究人员发现,当人类在寻找一个特定的物体时,经常容易看漏大小与场景的其余部分不相匹配的物体。他们研究这一现象,试图更好地理解人类和计算机在进行视觉搜索时的区别,提出利用人类的视觉搜索策略提高计算机视觉能力。相关研究发表在最新一期 Current Biology 杂志。


新智元编译  

来源:kurzweilai.net

编译:neko


在继续阅读之前,请观察下图,找出图中所有的牙刷。



你注意到图中左边那支巨大的牙刷了吗?可能没有。根据加州大学圣巴巴拉分校心理学与脑科学系的科学家们的说法,这是因为当人类在寻找一个特定的物体时,经常容易看漏大小与场景的其余部分不相匹配的物体。


科学家们正在研究这一现象,试图更好地理解人类和计算机在进行视觉搜索时的区别。他们的发现发表在最新一期 Current Biology 杂志上。


藏在眼皮底下


“当某些东西以不同寻常的大小出现时,你会更经常地看漏,因为你的大脑会自动忽略它,”UCSB教授Miguel Eckstein说,他专门研究计算人类视觉(computational human vision)、视觉注意力和搜索。


该实验使用的是计算机生成的图像中的普通物体的场景,这些图像的颜色、角度和大小不一,并混进“目标缺失”的场景。研究人员要求60名被试者在这些图像中搜索特定物品(例如:牙刷、停车计时器、鼠标),并使用眼球追踪软件监控他们的视线。


研究人员发现,当物体大小与寻常大小差别很大(太大或太小)时,人们往往会更容易忽略目标,哪怕他们已经直直地盯着目标对象。


相比之下,根据科学家们的报告,计算机视觉不会出现这个问题。但是,在实验中,研究人员发现,最先进的计算机视觉技术——深度神经网络——也有其自身的局限性。


人类搜索策略可以改进计算机视觉


深度学习算法将红色框里的键盘错误地识别为手机(来源:UC Santa Barbara)


例如,一个CNN深度学习神经网络错误地将计算机键盘识别为手机,它基于形状的相似性,以及物体相对手的位置(手机经常被拿在手中)。但对人类来说,这个物体的大小(相对于人的手)显然与手机是不一致的。


研究人员在论文中指出:“这种策略可以让人在快速做决策时减少失误。”


Eckstein说:“我们的想法是,当你第一次看到一个场景时,你的大脑会在几百毫秒甚至更短的时间里快速处理这个场景的信息,然后你会使用这些信息来引导你寻找物体出现的典型位置。”“同时,你也会把注意力集中在那些与你所寻找的物体大小一致的物体上。”


也就是说,人类的大脑利用物体间的关系来引导他们的眼睛——这是一个快速处理场景信息的有用策略,可以消除干扰,减少误报。


根据研究人员的说法,通过利用大脑用来减少误报的一些技巧,这一发现可能对改善计算机视觉有所启发。


未来的研究


Eckstein说:“有一些理论认为,患有自闭症谱系障碍的人更关注局部的场景信息,而不是整体的结构。”Eckstein正在计划一项后续研究,他说:“因此,有一种可能性是,患有自闭症谱系障碍的人可能更不容易看漏那些被错误放大的物体,但在我们进行这项研究之前,尚没法确定这一点。”


接下来,研究人员将关注当我们看到错误放大的物体时发生的大脑活动。


博士后研究员Lauren Welbourne说:“有许多研究已经确定了大脑中处理场景和物体的区域,现在研究人员正在努力了解这些场景和物体的哪些特定属性被呈现给大脑的这些区域。”目前的研究主要集中在物体是如何在大脑皮层上呈现,以及场景背景如何影响物体的感知。


他说:“所以我们要做的是找出这些大脑区域对在一个场景中正确或错误地缩放的物体是如何做出反应的。这可能有助于我们确定哪些区域对使我们看漏被错误放大的物体有影响。”



论文:Humans, but Not Deep Neural Networks, Often Miss Giant Targets in Scenes



摘要:


即使机器视觉方面取得了巨大的进步,仍然无法比得上动物在复杂场景的视觉搜索方面的能力。动物,从蜜蜂、鸟类到人类,他们学习视觉环境中的统计关系,并利用来指导和帮助他们寻找目标。在这个研究里,我们调查了人类利用来快速获取有关场景的信息的一种新方式,即利用目标物体的一般大小来指导搜索。我们发现,当物体的大小与场景的其余部分格格不入时,他们往往会忽略该目标。即使目标变得更大、更突出,观察者即使盯着目标也无法察觉。相反,我们发现,最先进的深度神经网络在搜索大小不一致的目标时不会表现出这样的缺陷,但与人类不同的是,它们会被目标形状的干扰所迷惑。因此,当目标物体与场景的大小不一致时,看漏了目标并不是人类的缺陷;相反,它是一种有用的策略的副产品,即大脑能够快速减少潜在的干扰物的影响。


原文:http://www.kurzweilai.net/human-vs-deep-neural-network-performance-in-object-recognition

登陆后阅读全文
阅读 2228 赞赏 0 有用 7 没用 0 收藏 1 分享

   



0 条留言

列位于大天的头像

列位于大天

六合八荒唯我独尊

相关文章

黑爪:风靡的“深度学习”只有这一刷子了?

阿里小蜜如何读懂人话?(深度学习)

有料推荐

这世界欠我一个这样的老公!

高校学生模仿“世界名画”摆拍,可以说是戏精本精了

iPhone X 跌破发行价,苏宁200亿入股恒大 | 财经日日评

果然是高手!这次在日本,特朗普竹杠敲得不是一般狠

资深黄牛现身说法:iPhone X价格秒变不停,就像炒股一样

长一样的双胞胎也能识别?蚂蚁金服发布「眼纹识别」技术

苏联是怎么被阿富汗拖垮的?

美团或入局「分时租赁」共享汽车,王兴要大笔投入「泛出行」领域了? | 36氪独家

你或许被“一盘番茄炒蛋”刷屏了,但有人辛酸,有人质疑

iPhone X发售前夜,黄牛与苹果公司的不安

他的文章

【面试107问】谷歌等巨头机器学习面试题:从逻辑回归到智力测验

牛津大学研发类脑光子芯片,运算速度超人脑1000倍

【深度学习框架的未来】李沐:AWS开源端到端AI框架编译器NNVM

【AI拯救爱情】婚姻/恋爱关系垂危,AI帮你重返爱河

【谷歌新项目公开】无需学编程,用手机摄像头和浏览器即可机器学习

手把手搭建游戏AI—如何使用深度学习搞定《流放之路》

4亿欧元的天价收购的DeepMind去年巨亏1.6亿美元,他为谷歌带来了什么?

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【大咖解读Bengio笔记】邓侃:用深度学习模型,解构并重构人类思维

深度线性神经网络也能做非线性计算,OpenAI使用进化策略新发现

手机扫一扫
分享文章