透过交互技术分析智能眼镜的主流方案

发布时间：2016-09-18 阅读量：1729 来源: 发布人:

最近，快包平台上迎来了几个大项目，是关于智能眼镜方案的，由于这些任务有一点的开发难度，目前雇主仍在寻找最适合的竞标团队，力求最快最好地保证项目完成。本期小编透过市场上常见智能眼镜交互技术的原理，给雇主与服务商一些选择上的帮助。

5_副本.png

智能眼镜，也称智能镜，是指“像智能手机一样，具有独立的操作系统，可以由用户安装软件、游戏等软件服务商提供的程序，可通过语音或动作操控完成添加日程、地图导航、与好友互动、拍摄照片和视频、与朋友展开视频通话等功能，并可以通过移动通讯网络来实现无线网络接入的这样一类眼镜的总称”。

它是最近几年被提出而且是最被看好的可穿戴智能设备之一。其具有使用简便，体积较小等，特点公众普遍认为智能眼镜的出现将会方便人们的生活，因此它得到了谷歌，微软等重点研发，被视为未来智能科技产品的重要增长点。

智能眼镜的交互性非常强，应用于其中比较广泛的三种交互方式是语音控制、手势识别和眼动跟踪。

语音控制

在人们的日常交流中，说话是最常用的方式，将语音交互引入可穿戴领域，那人们将能够享受到更加自然和轻松的交互体验。语音控制即是让计算设备能听懂人说的话，还能根据人的说话内容去执行相应的指令。对于体积小、佩戴在身体上的智能眼镜来说，语音控制是行之有效的交互方式。

语音控制原理

语音控制中最核心部分是对语音的识别技术。骨传导技术能完成对语音的高效识别和传输，多款智能眼镜均采用了此项技术。以Buhel的Sound Glass为例，Sound Glass中配备了间接骨传导传感器。他的每个镜腿内各有一个发声变频器，变频器振动时产生的声音能够通过用户头部侧面的骨头传递到内耳，这样用户就可以听到声音了.语音控制虽然是智能眼镜中重要的交互方式，但语音控制却碰到了不少难题。

语音控制的缺陷

首先，对语音信号的提取有着不少的干扰因素，例如个体间的发声差异以及自身语调的变化、不同地区以及文化背景不同的人们说话方式的区别、环境的噪声对语音信号的干扰等，以上这些因素都会对语音信号的提取产生不利影响。其次，语音识别的效率和速度还有待提高，这两点直接影响着语音控制在智能眼镜中的应用价值，是应用价值的重要的衡量指标。另外，用户对语音控制的期望很高，但实际情况是语音控制还不能满足用户的需求，例如当用户使用谷歌眼镜发起语音控制命令时，用户必须严格地按照谷歌眼镜提供的标准方式发出，当用户要打电话时，必须说”ok glass,make a call to...”，而更习惯的方式”ok glass,call.”则完全无效。

手势识别

以手势作为输入，完成以智能眼镜的交互功能，优势在于采用了非接触式方式。手势识别技术从简单粗略到复杂精细可以分为三个种类：二维的手型识别、二维的手势识别、三维的手势识别。三维手势识别跟二维手势识别的区别在于三维手势识别的输入信息还包含着深度信息，智能眼镜采用三维手势识别能实现更多更复杂的交互方式。

手势识别原理及传感器

三维手势识别要用到深度信息，能够识别各种手势、手型和动作。要获取深度信息就要用到特别的硬件，在配合上识别算法就能实现三维手势识别了。接下来，介绍几款手势识别专用的传感器：TMG399，该产品是非接触式光学IR手势识别传感器，配备有手势识别、环境光检测、接近感知和颜色感知的四合一传感器模块；MGC3130，微芯科技推出的3D手势识别芯片，在其电场的作用下，无需接触就能感应手势，能够在15cm的距离以内按150dpi的高精度确定坐标位置；MYO，初创公司Thalmic Labs的产品，它是一个戴在手臂上的臂环；16Lab，这是一款用于手势控制的智能戒指，内置有惯性传感器模块、处理器和低功耗蓝牙模块。

手势识别缺陷

但手势识别在应用于智能眼镜的过程中也暴露出一些缺陷。首先，手势识别的精度偏低，定位还不够精准，由于每一个人的手结构都不尽相同，很难通过捕捉手的动作实现精准的定位。其次，手势识别的关键是对手指特征的提取，在繁杂的背景下要能够准确分辨出目标的特征，但对于手势遭到遮挡的情况或者对冗余信息的去除等方面，目前来说仍是难以攻克的难题。

眼动跟踪

眼动跟踪即是对眼睛的注视点或者是眼镜相对于头部的运动状态进行测量的过程。谷歌眼镜能够通过眼动跟踪技术感知到用户的情绪，来判断用户对注视的广告的反应。

眼动跟踪原理

现目前，用于智能眼镜的眼动跟踪测量技术主要是基于图像和视频测量法，该方法囊括了多种测量可区分眼动特征的技术，这些特征有巩膜和虹膜的异色边沿、角膜反射的光强以及瞳孔的外观形状等。基于图像、结合瞳孔形状变化以及角膜反射的方法在测量用户视线的关注点中应用很广泛。

眼动跟踪缺陷

虽然眼睛是身体当中接收信息最广和最快的方式，但眼动跟踪却离人性化的交互方式有很大差距。由于眼睛本身存在固有的眨动以及抖动等特点，会产生很多的干扰信号，可能会造成数据的中断，这样会导致从眼动信息中提取到准确数据的难度大大升高。

智能眼镜的方案分类与工作流程

目前市场上智能眼镜的方案并不完善，根据用途上分，大体可以分为民用和军用两大类，按照这两类，得出两种典型的设计方案。

民用型方案
民用型智能眼镜方案设计的重点是：轻便、娱乐功能强、造价低廉。从轻便和牢固的角度考虑，本方案采用环形头箍式结构设计，这样兼顾了轻便和运动时需要的一定牢固的要求，其外形结构见图1。民用型方案功能多样、结构复杂，在轻便的要求下各功能部件必须小型化甚至微型化。

图1 民用型智能眼镜方案

Fig．1 Design scheme of civil intelligent glasses

在图1中，高性能电池需要固定在头箍带上，位于人耳的后边，这种结构考虑到了对眼睛的保护( 手机锂电池爆炸的概率虽然小，但毕竟真实存在) 。同时，在阳光充足的情况下，备用太阳能电池的配合充电，可以有效地增加智能眼镜的供电时间，从而降低主电池的容量和体积。人耳之前的温度、压敏等传感器，可以有效地测量人体体征，以获得人体健康数据。位于镜片中间上边的X 光投射器，可以提供医学检测。

民用型方案一个显著的特点是采用了双摄像头设计。拉杆式结构的摄像头可0° ～ 360°旋转，这种设计主要是为了视频通话时，摄像头能够清晰地摄取到用户的面貌。双摄像头设计的最终目的是为智能眼镜系统提供3D 手势输入，同时为3D 影像制作创造条件( 最新的谷歌概念手机已经采用了4 个摄像头以获取3D 手势信息) 。此外，智能眼镜系统还为用户提供触控板输入和语音输入，以耳机为轴心的麦克风为系统提供清晰的语音输入，眼镜镜片中间上边的激光投影，为将来的激光键盘输入提供可能。

军用型方案
军用型方案采用一体式头盔结构设计，这种结构主要是考虑飞行员使用，而作战、反恐单兵也可以采用此类设计，军用型智能眼镜的结构如图2 所示。

图2 军用型智能眼镜方案

Fig．2 The design scheme of military intelligent glasses

相比民用型智能眼镜来说，军用型智能眼镜的功能要少一些，但其显著的优点是结实牢固，可靠性高。考虑到飞行员的佩戴舒适性，头盔宜采用重量较轻的材料制作，某些特种材料的头盔可以保护弹片之类外来的伤害，具备了移动互联功能的智能眼镜，享有大数据信息服务，作战时可以通过网络共享敌我双方信息和协同信息交互。此外，在夜晚或者雨雾天气，军用型智能眼镜可以借助于红外夜视仪进行远距离探视。

在通用航空方面，对于没有平视显示器( HUD) 的轻型通航飞机，这样的头盔式智能眼镜基本上可以当作HUD 使用，而且它有着HUD 所不具备的强大功能。

当前图像识别技术不断发展，对地面、空中目标的图像特征识别已经日趋成熟，通过智能眼镜内置的软硬件处理，便可实现对地面、空中目标的识别，以及反恐场合下对罪犯脸谱的识别。

与此同时，关于敌方威胁目标接近一定距离时的智能告警，以及周围环境条件、士兵身体健康状态等信息均可以通过智能眼镜以声音和图像的方式提醒用户，并经过专家智能决策系统处理后给出应对方案。

智能眼镜的工作流程

无论是民用型还是军用型智能眼镜，其工作流程通常是首先选择工作模式，然后根据不同的工作模式，综合外界各种输入信号和操作，进行显示和处理。民用型智能眼镜的一般工作流程如图3 所示。

图3 智能眼镜的工作流程

Fig.3 Work flow of intelligent glasses
图3 所示为民用型智能眼镜的通用工作流程，而专业的医疗型、军用型智能眼镜同样有类似的工作流程，以及相应的处理方式和内容。

主要功能构想
根据智能眼镜使用的场景和需求分析可知，不同的智能眼镜有其相应的配套功能。同时，为了保证系统的运行速度，同种智能眼镜在不同的工作模式下也需要尽量删减去不必要的功能触发和后台运行。民用型和军用型智能眼镜的功能矩阵见表3。以民用型智能眼镜为例，智能眼镜可能的技术要求如下所述。

1：接口：蓝牙、WI-FI、3．5mm耳机插孔、语音输入、激光投影键盘、触控板、3D手势输入、眼部传感器技术、HDMI 输出等。

2：安全保护：虹膜识别+ 语音识别等。
3：音频、视频播放，高保真耳机、双高清摄像头，
3：影像制作。
4：操作系统： Android 或iOS 或WPhone 可选。
5：网络模式： GSM，TD-SCDMA，WCDMA，TDLTE，FDD-LTE，2G，3 G，4G 网络兼容。
6：GPS + 北斗定位。
7：传感器：温度、压敏、光线等传感器。
8：NFC(近距离非接触智能芯片)快速名片交换、移动支付。
9：配套设备：全键盘输入设备(通过蓝牙或2．4G技术)。
10：更换镜片：双镜片可直接观看1 080P 分辨率3D 影像( 含近视、远视矫正) ，偏振用于观看其他3D影视，偏光、透光用于保护眼睛，红外镜片用于夜视，X射线镜片用于医疗。
11：镜片模式：工作模式、无效模式( 相当于普通眼镜) 。
12：供电：高性能大容量电池+ 太阳能电池。

透过​交互技术分析智能眼镜的主流方案

透过交互技术分析智能眼镜的主流方案