伤口部位过一年出现白斑是怎么会师 http://www.zgbdf.net/baidianfengbaojian/jiatinghuli/54630.html
今天我们选择分享的是一场演讲,演讲者是中科创星投资的上海爱观视觉科技有限公司负责人张晓林。
人的眼睛有局限性,不能够变焦只有对焦,仿生眼未来将超越人眼!正如寒武纪眼睛的出现导致了生命的大爆发一样,随着未来机器人视觉能力的成熟,也必将引发机器人物种的大爆发!
张晓林提出了双眼视觉运动控制理论,申请中国、日本、美国等各国专利30余项,已有多项研究成果被产品化。他提示,人类大脑接受的70%以上的信息都来自于视觉。与拥有正常视觉的人相比,盲人的学习之路艰难曲折。在人工智能领域,科学家也有类似提议,如何让机器人拥有正常的视觉,让它们开眼看世界,自主学习?“这是科学家们的梦想。”
如何真正的去实现这一梦想?张晓林的演讲探讨了一些可能的思考或是解决之法。这并不是一件容易的事情,因为科技的发展总是充满艰辛,希望你在选择投身科学事业或者科技创业中有所准备。以下,Enjoy:
(完整视频时长25分钟,请在WiFi环境下观看,土豪请忽略)
演讲者/张晓林
来源/SELF格致论道
人的眼睛有局限性,不能够变焦只有对焦,仿生眼未来将超越人眼!正如寒武纪眼睛的出现导致了生命的大爆发一样,随着未来机器人视觉能力的成熟,也必将引发机器人物种的大爆发!
各位嘉宾下午好,有机会来讲这个我感到非常激动,因为我在日本26年做了很多相关科研的工作,我今天可能会把我们这二十多年的一个研究成果很详细地介绍给大家。
聊仿生眼之前,我们先聊聊眼睛
我做了20多年的仿生眼,最开始是以产业机器人的控制为主的,之后又进了东京医科齿科大学,在仿生眼及人类的眼球运动构造上来解释工学上的眼睛应该是什么样子。今天我来详细的介绍一下我们的眼睛。
大家知不知道寒武纪这个时代?这是一个非常重要的时期。当时发生了生物大爆炸——在短短几百万年间,很多生命突然冒出来了,一开始大家不知道为什么会在这么短的时间内出来这么多的生命体。后来有一个研究就认为,历史上有一个阶段,海洋虫的大脑细胞产生了感光效应,这个感光细胞慢慢变成了眼睛,由于有了眼睛,生命就大量的诞生了。
这个是寒武纪时期的海洋蠕虫叫奇虾,当时它有两只眼睛,现在判断应该是复眼。因为有了眼睛,它当时成为了海洋的霸主。
奇虾的复眼到现在还存在,也是地球上种类最多的眼睛,几乎所有的昆虫都是复眼,蜻蜓是最多的,有两万多只复眼。由于复眼的运算功能很容易得到立体视觉,所以昆虫这种比较简单的动物,是比较容易用复眼的。但人类使用复眼会有问题,如果人使用复眼的话,一个直径一米多的大眼睛才能够达到人眼现在的功能。
还有一种眼睛是蜘蛛的眼睛。这种蜘蛛叫跳蛛,它是不织网的,是在地面上跑着抓食物。这种蜘蛛的眼睛有8只,都是单眼,前面4只后面4只,因为它的脖子是不能动的。其实我们人眼也是一样,人类的眼球相当于两个摄像机。
还有一种是鱿鱼的眼睛,它跟脊椎动物的眼睛是完全不同的方向,但是它的构造和脊椎动物眼睛很像,只是它的视网膜不太一样。相比之下,胜出的是脊椎动物的眼睛,几乎所有的脊椎动物都是有两只眼睛,而且这两只眼睛都是动的,几乎没有不动的眼睛,除了青蛙以外。青蛙这种动物因为它眼睛不动,所以说你不动他就看不到你。
脊椎动物的眼睛里面又分几种,我把它分成了四种。
一种是食草性动物眼睛,像兔子有度的视角,全方位能看到,但它的缺陷就是没有交叉,也就是它没有立体感。因为它也不需要立体感,它不追踪不去捕食,它只是防止肉食性动物来吃它,所以它只要范围广就可以了。
食肉性的动物的眼睛比较接近人了,它是朝前看的,它要捕捉动物,所以说它要很准确的测量对方的距离,这时候它的两个眼睛重合的部分很大。比较特殊的是鹰眼,它可以在一千多米的高空,看到地面的小老鼠或者是蛇。这种眼睛和我们人不一样的是的中心凹有两个以上。什么叫中间凹?就是我们人眼看东西的时候,能把中间看得很清楚,旁边的模糊,这就是一个中心凹的结构。鹰眼它有两个中心凹,它在一千多米高空看下面的时候,它用的是深度的中心凹看远处的。所以,你看鹰一直在盘旋,它用一只眼睛在看下面,等看到了目标物以后它会盘旋下来,到快接近地面的时候它用两只眼睛看,用比较近的中心凹来看,走直线去抓,准确度很高。
隐秘而伟大的人眼
我们主要还是研究人类的眼睛。人类的眼睛是所有动物里面,整体综合性能最高的。我估计是因为人类的祖先——像猴子是在树和树之间跳跃,它不仅要用单个的立体视觉距离,而且它随时能抓到树枝,整体的视觉能力很强,所以说它的立体视觉能力和颜色辨别能力都是很强的。
所以作为人类我们应该感到很骄傲,我们的眼睛是所有动物里最好的。我们研究人眼也是因为它的数据最全,因为我们研究疾病时做的人眼解剖,对它功能的理解也是最多的。当然我们在做生理实验的时候,活体用的是猴子或者是猫。
人眼接收信息占人脑外面接触信息的83%以上,这个是哈佛商学院的一个研究成果。实际上也是这样,从视觉进来的信号,在大脑处理的部分是非常大的。视觉神经实际上是脑细胞上进化出来的,人的眼睛是大脑伸到体表的一部分,也就是人眼其实是大脑的一部分。
现在简单介绍一下眼睛的构造。这个眼睛是朝上看的,这里有一个叫中心凹,光到了中心凹以后,正负十度以内看的东西很清楚。中心凹里面的视觉细胞叫视锥细胞,它有七百多万个。周边视也就是除中心凹以外的周围,里面视锥细胞很少,主要是视杆细胞,而视杆细胞竟然有一亿五千多个。
也就是说,我们看东西看得清楚但并不等于这个地方的细胞就多,就最重要。生物有一个废用性,就是经常不用的东西,它会慢慢越来越少。因此从废用性上考虑,视杆细胞也是更重要的。
我们看不清的部分为什么会更重要?解析它的原理就会发现,周边视很重要,我们人体或者说是动物测量自己的位置、方向或者是发现危险,都是用周边视这个部分来做的。
那周边视为什么看不清楚?通过解析和解剖学的测试,发现周边视的视杆细胞有个低通滤波器的功能,也就是说它把图像模糊了,通过模糊以后,它的运算速度会提高,精度也会变高。可能大家直观上不容易理解,相当于咱们说的“难得糊涂”,“糊涂”了反倒容易看清楚本质。我们的图像处理也需要把图像模糊以后找出它的特征点。
运动功能是很重要的。现在做机器人视觉,眼睛基本上都是不动的,偶尔动也只是模仿人的眼睛运动而已,不是真正的运动。
机器人模拟人眼,难在哪儿?
几乎所有动物的眼睛都是动的,包括人眼。人眼有三对肌肉,左右、上下还有旋转着动。除了左右、上下动之外,这个旋转也很重要,我们头往左转的时候,眼睛也会往右转。这三个运动加上两个眼球的各个三个运动,就可以把空间上的运动分为六个自由度,所以说眼球的运动非常关键。还有一个重要的部分就是视交叉。左眼和右眼的信息它是交汇在一起的,只有这样才能产生立体视觉。
大概很多人只注意到,人眼能看到东西及或者说是知道这个东西是什么,实际上,人眼最重要的功能是检测自身的位置,比如说自己走了多少,自己转了多少,它一定要知道这个,这是最基础也是最关键,需要优先处理。然后才是对象的距离、位置和它的方向,再加上它的尺寸,这些都是最基本的功能,几乎所有的动物都有。
有些动物没有大脑和小脑,它仍然满地跑,仍然有视觉功能。但真正的智能部分是在后面,包括对空间环境的感知,也就是说我在整个空间里我在什么位置——首先它能够回到自己的窝里去。怎么才能回到窝里去?它需要有整个空间的地图,自己脑部慢慢拼接产生的地图,它知道自己在地图的什么位置,这样才能找到窝,这也是视觉系统的后端。
人的眼睛和动物有什么不同?先看一下变色龙。变色龙的眼睛是可以任意转的,左眼看一个东西,右眼也看一个东西它是动的。但是人眼不行。也就是说人眼左眼看这个手指头,右眼就不能看另一个手指头,他两眼只能同时看一个。这是为什么?变色龙的两只眼睛虽然可以分别看,但是用舌头来打苍蝇的时候,这两只眼睛肯定要先对在一起,对这个苍蝇有个的距离测量,然后舌头才能打出去。也就是说,它是在一瞬间把对象物的位置测出来的。而人眼要的不是某一个对象物,它要知道整体空间的立体视觉,所以他一直要保持左眼和右眼的位置关系,这个位置关系很微妙。
由于两个眼睛可以同时走但又可以对眼,也就是说当一个东西逐渐走近或走远的时候,眼睛是相对运动的。也就是说,不只是一起动,而且还可以相对动,但是它又不能够分开。当时我们在医科大学做研究的时候,一直是没有理解这个原理,它为什么这样,是怎么做的?后来我们通过做神经的模型,把这个运动问题解决了。
人的左眼和右眼的相对位置关系我们叫标准辐辏,是个非常精密的位置关系,有六个自由度。也就是说左右眼睛之间的上下旋转,还有距离高低,所有这些东西都能够做出来。
还有一种功能叫前庭动眼反射,人的耳朵里有半规管和耳石是用来测量头部的旋转和平移运动的,这个信号用来控制眼睛,所以人的眼睛非常稳,无论是开摩托车也好、跑也好,眼睛看的东西是非常稳定的。你的头往左转,你在黑夜里眼睛自然会往右转。
当然这也是一个问题,比如说你在椅子上一直转,转个十几秒,耳朵的半规管慢慢地信号减弱了,你一停下来它认为你反转了,眼睛就动起来了,这就是晕的原因了。还有一些晕的原因,比如说我们在汽车上看汽车里面的东西,由于汽车在动,耳朵里的半规管和耳石测出车运动了,但是眼睛看的东西是不动的,这是矛盾的,这种矛盾身体自然就会认为你是不是吃错了药或者吃了什么有毒的东西,会恶心让你吐出来,这也是半规管的一个问题。正是有了半规管,眼睛会非常稳定。
还有颈眼反射,就是脖子里面的肌肉对眼睛也有控制功能。比如说跳芭蕾舞的演员总是身体先转,因为脖子的肌肉让眼睛动然后头再转,耳朵里的半规管又让眼睛反方向动,眼睛就停在这不动了,否则眼睛要晃。
再有一个很重要的功能叫跳跃性眼动,眼睛盯一个东西,下一眼要盯另一个东西的时候,这时眼睛是有一个很高速的跳跃——从一个物体跳到另一个物体,这个最高速度每秒钟可以达度,而且在跳的过程中,所有的图像都被切断掉,模糊的这一段你是看不见的。这个跳跃功能很强,比如说你在跑对方也在跑,但是你想看谁就能看谁,这个在机器人上是非常难实现的。
仿生眼发展之路
要想模仿人的眼睛主要分三大部分,第一是眼球的构造要和人眼类似,再一个运动控制系统是在人的脑干上,还有就是大脑的部分做图像处理的。
现在大部分机器人视觉都在做图像处理,很少研究眼球运动的,我们正好是研究眼球运动的,最近运动和图像处理开始慢慢结合在一起了,可以做出比一般的固定双目视觉性能更高的仿生眼。
我们总共做了几代。最开始我是做眼球控制神经,然后做数学模型,这个数学模型是为了测人大脑疾病的。因为眼睛的运动跟大脑直接相关,所以说眼睛哪个地方运动有问题的话,反算出来知道大脑哪儿出问题,后来发现这个模型能够用来做机器人,所以做了第一代机器人,然后第二代、第三代一直做下去。
这是我做的第一代机器人。这个机器人两只眼睛的运动和人很像。但是我做完以后才发现,如果我给它两只球,它眼睛不会分开只能盯一个。当时我是在医科大学自己花了三年时间做了这么一个东西,后来到了东京工业大学一直在做仿生眼。
这是第二代,一会儿会给大家看一下功能。
第三代是跟日本的JVC公司一起做的,第三代还没完全做完,我就响应国家号召就回来了。现在打算做第四代,就是把各个眼球运动的功能算法都做在芯片里,然后再跟视觉云、互联网连接,把大数据的一些功能用上,使这个眼睛接近于人甚至超过于人的功能。
这个眼睛就是我们最后完结以后的情况。它有周边视和中心视,它下面怎么晃上面都是很稳定的,而且它也可以跟踪,当你快走它也可以跳。
跳跃性眼球运动它也有,我们可以详细地解释一下这个原理。普通的机器人不用模型的话,当遮住一只眼睛的时候它就不动了。或者说给它两个相同球的时候,它左眼右眼会分开、会乱,这也是机器人的眼睛为什么不能动的一个很重要原因,它一乱了以后图像处理根本没办法做了。
用了模型以后,遮一只眼睛以后它也动,就和人眼一样,你遮一只眼睛,另一只眼动的话它也会一起走,这是它的视觉反馈。要是遮两只眼睛它就不动了,再给它两个球它也不会乱。因为这个球是两个完全相同的,它有时候会认错,但错是一起错,它不会分开,这个和人的眼睛是一样的——乒乓球满地跳的话你是不会乱的。人的眼睛不会出现这个问题,我估计变色龙就会出问题。
这是我们主要的研究成果。有了这个成果以后,各种运动都很容易地做出来了。比如说双目跟踪,它可以测到你的距离,我走进它就可以退,我退它就跟。以后机器人有了视觉,它可以跟着主人走而不至于撞到主人身上。
前庭动眼反射这个功能也基本上实现了。如果不加前庭动眼反射,一快走它就跑掉了,防震功能是没有的。有些人可能用过手机的防震拍摄,下面有三个马达加上一个手机,你下面怎么晃上面都很稳定。单眼的可以,双目的稳拍只有我们这儿可以做出来。
这个地方有个陀螺和加速传感器,把陀螺和加速传感器这个信号加到视觉反馈系统里以后,整个眼睛就会变得非常稳定,比如说快速转它也不会跑掉。
还有个就是跳跃。对方有两个目标在动,我自己也在动的时候我也想看谁就能看谁,这个在控制上比较复杂。所以我们花的时间比较长,大概是在六七年前完成的,应用就比较广了。我们先做了两个固定的,运动控制是用软件来实现的。比如说我拿着这个双目的在研究室里走,这里可以看到黄的这个地方是代表双目摄像机,那么我走的轨迹就画出来了,你要给它一个地图,它就知道自己在地图上什么位置了,这就是视觉里程计的一个功能。在楼道里也是一样,或者是在外边,在室外也是可以的。这条轨迹可以看出来画得很清楚,你就知道自己走了多少。
有了这个视觉里程计功能,就开始知道障碍物了。比如通过这个深度三维重建,红的部分是近,蓝的部分是远。通过这个三维重建处理以后,我们就把远和近分离开了,什么地方是障碍物,什么地方能走就知道了。下面绿的代表检测出来的地平面,地平面有多宽,汽车也好,我们机器人也好就可以照自己的轨迹走了。
仿生眼的未来
仿生眼达到人眼的一些基本功能以后,很多地方它会超越人眼,刚才讲的比如说眼球机构,人的眼睛不能够变焦只有对焦。但仿生眼可以做变焦,眼球机构的转角传感器精度会很高,比如万分之一度,测量精度会高很多。控制系统也是一样,控制速度可以远远超过人眼的反应。再一个是信息处理,就是大脑这部分,如果通过大数据和互联网,你可以大量的数据同时处理,这部分的功能也是人大脑所没有的。比如说把摄像机跟互联网连上以后,点哪里所有的摄像机都可以对准它,也就是通过互联网联动。
我们的视觉系统现在主要是用主动视觉,比如雷达,它放出波(能量)比如说激光、微波、红外线或者超音波,然后接受反射信号来算它的距离,由于原理比较简单,所以大量地在使用,现在的无人驾驶多半是它。但是未来肯定主要是用被动式的,就是单目或者双目视觉系统。
还有一种功能就是我们拍3D摄影的时候,因为拍3D电影,两个摄像机的位置要跟人眼完全一样的时候才不晕,这个功能在阿凡达出来以后才注意到这个问题。因为当时实拍时,摄像机的矫正花两个多小时,所以它拍了四年。
因为我们做机器人的时候已经有这个功能了,所以我们做了一个全自动的3D摄影系统,这个系统现在效果很好,是全世界唯一可以自动拍摄3D的系统。
今天就讲到这里吧。我相信,机器人视觉的成熟将来一定会让机器人物种有一个大爆炸!
谢谢大家!
?点击阅读原文,了解更多
预览时标签不可点收录于话题#个上一篇下一篇