那我们把各种感知加到计算机里,我们想给最终用户带来三样东西,Natural Intuitive Immersive。英特尔最新的3D感知摄像头,它也是世界上最小的3D感知摄像头,可以提供很精准的深度信息,并且也兼顾普通红绿蓝摄像头功能。通过这个摄像头,我们可以实现手势控制、增强现实、虚拟现实、脸部扫描、三维扫描等功能,同时还可以做语音输入。英特尔的目标是想让人类在与计算机的交互中,变得更加直观和直接,给人们带来一种沉浸式的感觉,让用户身临其境。
英特尔感知计算事业部中国区负责人 汤振宇 |
以下为视频文字实录:
大家好,很高兴也很荣幸来到无穷公开课,今天很高兴为大家介绍英特尔的实感(RealSense)技术。
首先什么是实感技术?如果大家看英特尔的CPU的发展,因为经常有人把英特尔的CPU比作是人的大脑。如果你看英特尔CPU的发展,你会发现它的发展已经变化非常快。从1971年英特尔推出第一代产品4004,当时我们只能放到2300个晶体管在里面,它的速度只能达到740kHz。可是今天呢我们能够放大概两个Billion也就是20亿的晶体管在里面,然后我们的速度可以达到将近3GHz。那我们做一个很快的计算,我们发现英特尔的CPU已经发展超过了350万倍,从它的处理能力来说。
可是从另外一个方面来看,我们和机器的交互方式来看,有什么变化吗?鼠标、键盘再加上现在的触摸屏,如此而已。这是我们需要的吗?是足够能够满足我们的需求吗?你我坐着交谈的时候你听到的是我的语音你看到的是我的表情你看到的是我的动作,这才是我们认为真正的人机交互方式,这也是英特尔实感技术会给大家所带来的,把感知加到各个设备里面去。
我们如何定义这个呢?我们是把人的视觉、听觉、表情、语音甚至触摸各种感知都加在里面,那我们专门有一个团队来做这些方面的分析。在分析中我们发现超过人的感知超过80%实际是来自于视觉,这是英特尔实感技术现在关注于英特尔的实感三维摄像头。那我们把各种感知加到计算机里,我们想终给带来什么呢?我们想给最终用户带来三样东西,Natural Intuitive Immersive。意味着什么呢?
Natural是说我们希望是一个自然的交互方式,你不需要用任何工具包括你可以用你的手势你的语音来做交互。 Intuitive是说给你一个自发的交互方式你不需要经过任何训练,当你我在用手机的时候你会用这个方式来说放大缩小。这实在不是人的自然交互方式,没有任何一个人跟你说话这个是大这个是小的。我们说一个东西很大很小是这么说的,这才是我们追求的一个自然的方式。而且我们不需要你去学习,你是自然自发的方式。最后我们希望带给你一个Immersive就是身临其境的感觉,那是我们想追求的目标。那也是我们所有产品所追求的目标,所以Natural Intuitive Immersive。
那我们今天呢给大家带来了两个摄像头,第一个想给大家介绍是面向用户的英特尔的三维摄像头。这是全世界最小的三维摄像头,它的技术是结构光的技术。大家可以看到它其实中间有一个摄像头,这是正常的红绿蓝的RGB的摄像头1080P。而同时呢它有红外发射仪,通过红外发射这种结构光的技术它事先定义好的结构光,然后你可以用红外的摄像头来捕捉。通过捕捉呢你可以很准确地得到任何物体离这个摄像头的距离。大家知道两维摄像头你所捕捉的任何信息都是一个两维的XY如此而已,你没有办法判断一个物体的大小和远近,因为这是小儿辩日的问题。你离一个物体越近你显示照片就会越大,这是两维摄像头永远无法解决的问题。但在我们三维摄像头里面因为我可以探测出任何物体离这个深度摄像头的距离,所以我得到了第三维我们叫Z Information就是深度信息。那在得到深度信息以后你会发现你拍的任何一样东西它都有三维座标XYZ,那有这个信息我们可以做什么事情?
第一件事情是说,因为你能知道我和我的背景离这个摄像头不同的位置,所以我可以很容易地把我的背景给切除甚至置换掉,那在这种情况下我们可以有很好的工作模式,我们在和同事在和朋友视频聊天的时候我们不再单纯地说把我和这种嘈杂的背景或者任何背景显现出来,而是我可以有意地选择我想要的背景,比如我们在谈同一个项目,我可以把那个项目显现在我们背景里面,然后我们几个同事在一起指着这个项目说请把这个地方移到左边请把这个地方移到右边,这会变成很自然的交互方式。或者我们和朋友和家人分享照片的时候,你可以很容易地把你度假时的照片放在后面,大家一起谈论当时发生了什么事情,这种用户体验是我们希望带给大家的。
第二种使用模式当然就是说游戏,游戏是一个很大的类,然后你会发现我们玩游戏和别人玩游戏的方式不一样,我们可以用手势甚至语音操控一个游戏,这会让游戏变得非常有趣。
第三大使用模式我们叫Interact Naturally它是说我们自然的一种交互方式,很简单的一个例子,比如今天我和我的女儿她两岁十个月,我们两个一起看照片的时候,我需要人前倾拿手去翻触摸屏或者点鼠标我才能翻到下一页,但这样的时候我经常会把她的视线挡住,然后她会很不满意会很不高兴会有抱怨。但是如果想象一下,我在跟她看一张我拍的照片的时候,我只是坐在这里翻一下很轻松地翻一下,然后她也很轻松地陪我在一起分享这种照片的时刻的时候是一个多么惬意的事情。
第四种交互方式我们叫做寓教于乐,因为我们提供了虚拟现实和增强现实技术,在这种技术里面我可以把真实的环境和虚拟的环境融合在一起,让小孩子甚至成年人在学习的过程中他体会到了乐趣,因为他很多东西可以通过虚拟的世界来学习,但同时他也没有脱开他这个现实的世界。
第五种交互方式是我想特别重点介绍一下的,因为这是叫做三维扫描建模,现在还很难有技术做到这一点。为什么说呢?因为我们生活在一个真正三维的世界里面,因为我身处的空间每时每刻我们都在一个三维的世界里,但你如果看到数字不管是电视、媒体、计算机、平板、手机它其实都是一个两维的世界,它只是把三维的世界用两维的摄像头捕捉以后来重现这个事情,同时它丢掉了很多信息。那在三维的世界里面因为有了我们的深度信息,我可以很轻松地把这个重现过来,我可以解决让你我每一个用户每一个一般的用户都可以做的事情就是我可以直接去扫描一个物体把它建成三维的一个模式。
我今天给大家带来了一些模型,包括这是我的一个同事,你可以看到他的模型通过我们摄像头三维摄像头把它扫描以后直接建立成一个模型,然后把它三维打印出来。
谈完了面向用户的摄像头还想给大家介绍一款新的摄像头,这是英特尔刚刚最新推出的摄像头我们叫做world—facing或者说面向这个世界的后置摄像头,它有什么不一样呢,大家看一下就可以看出来。这个是我们的后置摄像头,这个是我们的前置摄像头,大家可以看到它的大小啊形状啊都有一些变化,因为它用的是不同的技术,前置摄像头我已经介绍过,它用的是结构光的技术,那后置摄像头我们用的叫Active-stereo就是立体成像技术,什么叫立体成像?很简单的例子,你把任何一个物体摆在你的面前,用左眼看和右眼看你会发现这个物体在移动,这是人的视差视觉的视差自然造成的,但人在做这个过程中是一个很自然的人大脑皮层的自然反映自然处理,你会判断出任何一个物体离你的距离,这是人的自然的一个反映,从小从一个婴儿开始你就会有这种反应。那么我们模拟的是同样的意思。
在后置摄像头我也想给大家介绍一下我们的使用模式,第一个最主要的是说三维扫描,因为三维扫描大家可以看出来这是我们设计的工程样品,我们已经把这个摄像头集成在里面了,那大家可以看到我拿着一个平板来扫描一个物体扫描一个人,我甚至可以扫描整个房间,它没有任何限制。这有什么好处?扫描整个人你可以看到我可以得出整个人的图象来,我可以把它三维打印出来,想象一下我扫描的时候像我开始介绍的,我已经知道我扫描的东西任何一个XYZ的座标,所以当我扫描一个人的时候我已经知道他的胸围、腰围、他的肩宽,所有的信息我都拿到了,把它想象一下用在你的电子商务上,你拿到你用户的所有的这些资料你可以把什么数据推送给他。
当然当我扫描一个整个房间的时候我也同时得到整个房间的信息,而且更酷的是说我扫描这个房间的时候我扫描的是真实的世界,是真实的房间,可是我可以把虚拟的物体加进来,我可以把虚拟的家具、虚拟的厨柜甚至虚拟的人加进来让这个变成一个很生动的事情,那你可以重新设计你的房子,让你去选购你的家具,让你去选购你不同的东西。这是我们希望给大家带来的。
第二个使用模式,是说因为我们的三维摄像头它可以处理到60帧每秒的速度,它可以做任何事情都可以做到实时处理。那我们现在如果出去玩的话很多人喜欢带单反相机,为什么?因为你可以通过调快门,你可以调景深你可以拍出不同的效果来,比如你要拍一个花你可以把花拍出来然后把背景虚掉去。可是一般的手机或者一般的摄像头你是很难做到这一点的,那有了我们的深度摄像头很容易,为什么呢?因为你拍的任何一个点它都已经有深度信息,你需要做的只是说把我和我的深度信息和我背景的深度信息切开来,根据不同的深度信息来做不同的处理。比方说你把我留下来把我的背景虚化去,很简单的一件事情,它会注意我们是可以对图片、视频做实时处理,这是我们的优势。
第三大使用模式,我们叫做场景的增强现实,像我刚才举的一个例子比方说我把房间扫下来我可以把虚拟的家具和真实的场景结合起来。这只是其中一个例子,把它想象在教育行业你甚至在游戏方面,我举着一个平板电脑或者我在玩的过程中我可以把任何一个地方任何一个场景变成你实时你想玩的场景,它会把虚拟的世界和现实的世界融合在一起,让你不仅玩你还可以学到东西。
英特尔策略一直是说我们希望提供整个平台给大家,我们把整个平台开放给大家,所以我们推出了两款摄像头,我们推出的这个硬件,但同时我们推出了软件我们叫SDK软件开发工具包。有了这个软件开发工具包,软件开发者可以做什么呢?脸部检测、脸部识别、手指跟踪、手势判断、背景切除、三维扫描、语音识别、增强现实、虚拟现实,所有这些功能所有的这些模块我们都集成好了都放到我们的SDK免费提供给大家,免费提供给所有的开发者来开发使用,因为我们希望是建立整个这样一个生态系统让大家一起来把这种最好的用户体验带给最终的用户。
最后想说的是,我们每个人都从小就会说有科幻小说、科幻电影,然后告诉你其实那是科学幻想所以叫科幻。但今天我们想说的是那是科学不是幻想,因为我们已经把它实现了,我们也希望把这种实现了的目标和大家一起合作一起带给我们最终的用户,让他们有这种自然、自发、身临其境的用户体验。
谢谢大家!