广告

智能眼镜的困境和解法:“百镜大战”的未来在哪儿?

2025-04-19 13:39:31 黄烨锋 阅读:
Ray-Ban Meta AI眼镜可能带火了整个智能眼镜市场,但智能眼镜的发展仍受到“不可能三角”的制约,有人开始做新标准,有人在做新生态......解决问题的关键会是什么?

可穿戴设备兴起的核心需求点之一,在于其“符合直觉”或“自然”属性。5mDednc

一般我们说,可穿戴设备是比手机更符合直觉、存在感更低、使用更简单的电子产品。比如智能手表/手环用于监测心率、计步、记录睡眠或其他健康信息,就在于整个过程更加无感、无负担、始终在线——不像手机这类外物。5mDednc

而可穿戴设备门类里头,有个一直被人类寄予厚望,却始终未见市场大规模爆发的形态:智能眼镜。这里我们所说的“智能眼镜”,主要是AI/AR眼镜;或许MR头显类设备可能在未来与此类智能眼镜的界限越来越模糊,但常规意义上智能眼镜通常更为轻便、紧凑,更具备可穿戴设备的特性。5mDednc

一般认为,现代智能眼镜热潮出现的分水岭,是2012年Google Glass谷歌眼镜的发布,随后AR设备很快掀起了一波新的热浪。只不过热潮褪去后,包括智能眼镜在内的AR头显设备也曾经历衰退期——毕竟连谷歌眼镜自身也没有获得真正意义上的商业化成功。似乎大部分AR头显设备、智能眼镜都与人类对智能眼镜的预期相去甚远。5mDednc

5mDednc

最近芯原举办的可穿戴专题技术研讨会上,Omdia高级分析师林麟甚至下了这样一个有趣的判断:“对于AI/AR眼镜而言,如果没电以后,消费者仍然愿意戴着它,或者说没有迫切要取下来的意愿,这样的产品大概就成功了70-80%;如果功能足够完善,成功率就接近90-100%了。”这是当代智能眼镜作为“可穿戴设备”“符合直觉”与“自然”的必然.5mDednc

研讨会上的所有嘉宾都认为,Ray-Ban Meta AI眼镜是最接近这一基本需求的。所以这款眼镜罕见地达成破百万甚至数百万销量,且预期要在今年达成千万级别的出货。“它把不算完全成熟的显示模块砍掉,减轻了眼镜的重量,而且也比较美观。”5mDednc

在下面这张展示AR行业发展史的图中,我们也看到行业在经过重新思考以后,Rokid、雷鸟、XREAL为代表的智能眼镜市场参与者开始再度让AR头显设备市场回弹,乃至这两年已经出现了“百镜大战”的局面。这中间究竟发生了什么?目前智能眼镜领域正在做什么?未来又将朝向哪个方向发展?在我们看来,这场研讨会给出了一些有趣的思路。5mDednc

5mDednc

 5mDednc

AI带来了新机会,但有个大问题

谷歌此前展示了他们对当代智能眼镜的期望,这里列举几个我们认为颇具代表性的场景:5mDednc

  1. 用户可以直接通过语音来询问智能眼镜:我现在看到的这是什么?Demo展示中,谷歌的方案精准到了连一款音箱负责高频输出的扬声器就能识别出来的程度;
  2. 看到有程序员在写代码,凑近看代码内容,然后问智能眼镜:这些代码是什么意思,具体实现了哪些功能——智能眼镜能秒速识别并精准应答;
  3. 用户找不到某个东西了(如钥匙),于是问智能眼镜是否见过,放在了哪里——智能眼镜可基于此前记录的历史信息,轻松给出回答,指出极为具体的位置...

对AI熟悉的读者应该知道,这几个场景的功能实现,对高算力设备而言其实不算什么;生成式AI要解决上述问题也是小菜一碟。但对智能眼镜而言,情况就完全不同了。当我们藉由智能眼镜来实现这些功能,而非手机或更高算力的端侧乃至云上设备,则至少有两方面的差异:5mDednc

其一,如文首所述,智能眼镜更加“符合直觉(intuitive)”因为我们眼睛看到的,也基本就是智能眼镜看到的——或者我们可以认为智能眼镜是人类感官的某种延伸;也就不需要像用智能手机那样,至少需要有把手机举起来、主动开启相机之类的动作;5mDednc

且智能眼镜作为可穿戴设备,可长时间处在always-on甚至全天候数据采集状态,用戴伟进(芯原股份首席战略官、执行副总裁、IP 事业部总经理)的话来说,它就是个生活伴侣(companion),超脱了电子设备本身(beyond device),才可能在问它是否见过丢失的某个东西时,给出回答。5mDednc

故而戴伟进形容可穿戴设备是AI的入口(gateway);研讨会现场的好几名嘉宾,也都说智能眼镜是公认的多模态AI数据最佳入口——或者也有人说“智能眼镜是适配混合AI的天然品类”。在我们看来,“最佳”的根本就是可穿戴设备的“符合直觉”特性。5mDednc

换句话说,AI、生成式AI是成就这波智能眼镜涨势的技术基础。所以有人说Ray-Ban Meta是“打响了AI眼镜的第一枪”(能跑Llama 3);“大家对AI有了更多期待以后,越来越多的厂商都准备加入到AI眼镜的竞争中来。”也才有了百镜大战的现状,郝鹏鹏(芯原微电子SoC设计高级总监)在演讲中说。5mDednc

5mDednc

Ray-Ban Meta AI glass5mDednc

其二,智能眼镜至少就现在来看,算力水平还与智能手机相去甚远——这是其体型限制决定的。上述三个场景看起来简单,但输入的信息至少已经包含了文本(OCR识别后的代码)、图片、视频(眼前看到的画面,及索引历史视频画面),在眼镜上真的有可能达成这样的多模态交互愿景吗?5mDednc

恰巧在研讨会现场,陈一敏(万有引力(宁波)电子科技有限公司联合创始人、芯片研发负责人)也多少谈到了类似场景。他说对于用户询问看到了什么的问题,一般是基于眼动ROI触发的,这要求智能眼镜至少需要:眼动摄像、专用低功耗眼动硬件通路、NPU眼动算法与物体检测算法部署、并行高分辨率RGB拍摄、基于ROI的crop/zoom操作,以及结合运动检测的ROI识别。当然它列举这些大概也是因为万有引力VX100芯片具备这些能力。5mDednc

而在用户找不到钥匙,询问智能眼镜是否见过的场景下,“这个功能现在也已经能够做到,但对芯片的要求也会更高。”陈一敏说,在这一用户不触发主动交互场景中,更要求智能眼镜的低功耗能力,包括mW级全天候always-on拍摄、NPU PROI算法部署,还有“灵活的小图/大图/局部大图回传”“智能蓝牙唤醒与回传”等。5mDednc

就这样一个简单的功能,就有可能要求鼻梁上的眼镜,以不过数百毫安时的电池容量跑上10+小时,才有机会实现。5mDednc

5mDednc

5mDednc

采用芯原2.5D GPU的AI眼镜5mDednc

 5mDednc

智能眼镜的困境,有机会解决吗?

由此,我们也能基于谷歌预期的智能眼镜场景,来发现其技术实现的困境,常被业者称作“不可能三角”,即智能眼镜要同时满足“性能”“重量”“续航”的不可能,或者在这三要素间的权衡与取舍。傅琰琰(上海道禾源信私募基金管理有限公司副总经理、董事总经理)在圆桌环节说:“不可能三角已经将智能眼镜的体积锁定——在特定的体积和重量下,才能拿到入场券。做到平衡是真正的考验。”5mDednc

5mDednc

不可能三角困境5mDednc

“百镜大战的关键之一就是重量。”林麟说,“这直接关乎消费者是否愿意佩戴。超过50g其实就已经很难在市场存活了,甚至>45g在我们看来都可能有些勉强。”芯原统计的47款AR眼镜产品中,“大部分消费类AR眼镜重量分布在30-80g,电池约在450mAh附近。”刘律宏(芯原股份解决方案架构工程师)也佐证了这一点。5mDednc

把这个“不可能三角困境”做个更具体的剖析:刘律宏给出了当前AI/AR眼镜可能的重量分布情况:双目波导方案显示系统大约需要占掉~10g的重量;手势识别摄像头、陀螺仪等传感器则大约3-5g;500-800mAh的电池8-12g;再考虑普通树脂镜片眼镜本身10-30g;5mDednc

则若如林麟所说,用户对智能眼镜的重量接受度上限在50g,那么上述三大组件的占比就超过了50%。他还特别列举了三款智能眼镜产品,分别采用不同的电池容量,从590mAh到1200+mAh,产品复杂度也由低到高,如下图所示:5mDednc

5mDednc

“当系统复杂性提高时,续航可想而知大幅降低。”且这张图并未呈现三款产品的重量,基本可以推测像“产品3”这样电池容量大、系统复杂,且续航还很短的设备,必然佩戴体验也不理想。基于其标注“3D解剖教学、手术模拟”应用,这应该是个面向特定行业的智能眼镜或头显设备。5mDednc

可见要让功能(或算力)、续航、重量(或佩戴舒适度)这三者都做到令人满意,几乎就是不可能的。“AR眼镜设计开发陷入死循环,产品功能越来越复杂、能耗越来越高;则增加电池容量,重量又攀升了。”这在我们看来,可能也是上一波智能眼镜步入一段时间低潮期的主要原因。5mDednc

如果说要求芯片做到小型化、低功耗、全天候AI,并且能拍照录像还有潜在可能性;重量与体积的限制或许还不在半导体技术上。对于带显示屏的智能眼镜而言,还存在光学体积上的物理限制。林麟在报告中说,目前AR显示屏方面的主流是基于micro LED的,其超高亮度用于户外信息提示时非常有价值,是目前看来最具潜力的技术方案之一——即便micro OLED的供应链更为成熟,LCoS的光机尺寸也在缩小。5mDednc

在Omdia看来,micro LED背光加上光波导,是智能眼镜之上更为顺其自然的解决方案。但是“AR眼镜在500k的年出货量上徘徊了好多年,主要就是因为光学方案进步缓慢,影响了AR眼镜的突破”。5mDednc

我们认为,从光学发展的角度来看,很多物理极限问题都将难以解决。就好像专业相机市场,即便伴随电子化技术的高速发展,包括半导体为CMOS图像传感器技术带来进步,却也依旧受制于光学限制,全画幅相机及镜头就是难以做小。5mDednc

眼镜作为穿戴类设备,可承载的重量就是个物理限制条件。就好像同代手机的算力永远也不可能超越PC,核心问题不在成本上,而在空间限制所致的功率、散热等客观因素上。同时代智能眼镜的算力也不可能与手机相提并论。所以高亢(恒玄科技(上海)股份有限公司)在圆桌上说:不要试图把手机、电脑塞进眼镜里,而应该让眼镜做自己最擅长的事5mDednc

 5mDednc

两个耳目一新的解决方案

“让眼镜做自己最擅长的事”可能是我们参加本届芯原可穿戴专题技术研讨会体会到最明确的主题。虽然现阶段我们无法系统地全面阐述,如何系统地让眼镜做自己最擅长的事,但我们在现场至少听到两个令人耳目一新的解决方案。5mDednc

一是眼镜只作为算力的一环,还可以借助手机和云的算力;二是特别为智能眼镜设立新的、可节约能耗的标准。5mDednc

先谈谈“眼镜只作为算力的一环”。这一条听起来可能并不怎么新鲜。但实际上芯原提出的关键是,智能眼镜先对多模态信息——如图像、视频等数据做token化(tokenization);且基于gating model先做简单预处理,然后通过多设备互联,由智能眼镜传出token,而非图像和视频原始信号,最终起到降低系统复杂度、减少延迟、节省带宽和功耗的目的。5mDednc

这套解决方案被芯原称为分布式神经级联(distributed neural cascades)的图像token化。对AI熟悉的读者应该普遍都清楚,黄仁勋曾经说过万物皆可token化、万物皆可生成。包括文本、图像、音频、视频、3D图形信息,都可做token归一化。从某种角度来看,token化就是一种信息的编码方式。5mDednc

而所谓的“神经级联”,则是指不少IoT设备都带AI算力——“把各种各样的设备联合起来,用于提升GenAI体验可能吗?我们认为是有机会的。”查凯南(芯原股份NPU IP研发副总裁)首先举例谈到了安防监控摄像头。5mDednc

“比如家里的安防监控摄像头首先将看见的图像信息变成image token;再由其上的gating model做出初步判断。”5mDednc

5mDednc

这里的“初步判断”可能是判断画面中是否有动物,如上图所示。则在数据传出前,首先就过滤了无效数据。基于这样的思路,查凯南提到可以用VLM(视觉语言模型)构建起gating model,如此一来当我们向安防监控摄像头发问“画面中是否有动物”,则安防摄像头就能给出回应——如此,交互也变得更加自然。5mDednc

对应到智能眼镜也是类似的,“自然语言场景可能是在开会的时候,对眼镜说,把与会人员的名字都打在屏幕上。”5mDednc

但前面我们已经提到,规模较大的大模型在智能眼镜这样重量、体积受限的设备上落地不现实。那么自然想到的就是蒸馏为更小的student gating model。如此一来智能眼镜就可以在端侧做简单的token化操作,基于gating model先做简单的判断——再将过滤后的image token信息传出到后端的手机或云,进行针对图片更复杂的判断。5mDednc

5mDednc

在这个过程中,“传输的是token向量,数据量小得多”。当然也不仅限于智能眼镜,各种可穿戴或小型IoT设备都可做此类基础计算,“端侧做的更多的就是环境感知,token化以后传输到手机、云,做更复杂的事情。”这大概也是戴伟进将AI眼镜称作AI入口(gateway)的依据之一。5mDednc

不过查凯南也提到,要将gating model真正在智能眼镜这样的小设备上全面落地也还是存在技术挑战的;与此同时业界目前也有对image token size再做压缩的主题研究。芯原自己目前所做的,除了与其他合作伙伴共同推进这一思路;还在于强化面向边缘、智能眼镜的IP产品(比如和谷歌合作的Kelvin:基于RISC-V的ML加速器开源设计,支持RISC-V矢量和矩阵扩展)。5mDednc

5mDednc

Open Se Cura,芯原为该项目提供了芯片硬件平台5mDednc

这样的思路无疑为智能眼镜的未来发展,指明了新的思路。戴伟进说,不要将AI眼镜视作单独的设备,而应该将其理解为整个AI解决方案的一部分;同时“传输整个图片或视频数据,功耗和延迟都很高”,gating model及tokenization的思路显然是更符合直觉的,即便这一思路的推进还面临诸多技术与生态上的挑战。5mDednc

除此之外,“为智能眼镜设立新的、可节约能耗的标准”无疑也是个不错的思路。本次研讨会上,能体现这一点的是数字光芯宣布新的ARPI标准(Standard of Augumented Reality Processor Interface,增强现实处理器接口标准),相比MIPI明显更为节能。5mDednc

“视频编解码标准是影响系统功耗的重要环节。由于AI/AR眼镜行业还很年轻,目前没有针对该细分行业的接口标准。”孙雷(广东省横琴数字光芯半导体科技有限公司CEO)在研讨会上特别谈到,“传统的MIPI接口针对单屏RGB彩色方案。”这和具备显示功能的智能眼镜是不适配的,智能眼镜之上“micro LED单片彩色方案成本高、良率低,真正大规模量产还需要好几年”。孙雷介绍说目前智能眼镜应用的显示方案仍以三片式合光micro LED+光波导为主。5mDednc

另外由于眼镜本身的形态关系,SoC芯片距离显示端最远可能到30cm,未来如果显示分辨率要向720p乃至1080p迈进,则FPC带宽或显示端的解码功耗都是问题。5mDednc

“我们希望和产业链一起,去发起针对AR领域micro LED+光波导方案,极致低功耗的接口和标准方案。”ARPI就是数字光芯与芯原“深入合作了一段时间”的接口标准。其基本思路是将RGB数据分三路传输,故而“ARPI相比MIPI节省了2/3的带宽”,“也意味着功耗的下降”。5mDednc

 5mDednc

5mDednc

MIPI与ARPI方案,对应不同分辨率及刷新率的带宽需求差异;孙雷说不仅是单路带宽大幅降低,而且也不需要显示端配DSC;5mDednc

480p分辨率的信号传输,ARPI相比MIPI单芯片可节约大约2mW功耗;故而双目彩色显示采用6颗芯片,则大约节约12mW功耗;“未来做720p和1080p显示方案,就能节省10mW, 20mW乃至30mW的功耗了”。孙雷说除了极致轻量化方案的AI眼镜,北美也有客户在做百万像素级别的产品,是现有显示分辨率的3倍,所以ARPI的价值会有更进一步的凸显。5mDednc

有关ARPI协议的细节,如系统连接方式、工作模式、对MIPI及现有实施方案兼容性等,受限于篇幅本文不做赘述。孙雷说,期望和行业合作伙伴“共建面向未来AR产品更高分辨率的标准,让SoC和显示端一起,携手把功耗降下来;并最终实现整条产业链上,对应产品真正的量产”。5mDednc

如戴伟民(芯原股份首席战略官、执行副总裁、IP事业部总经理)所说,在产品、生态、标准三者间,“做标准往往是最高境界”。5mDednc

实际上这里探讨的两个发展方向,分别代表的就是智能眼镜在生态(神经级联和tokenization)和标准(ARPI)两个方面的努力。无论具体到这两者未来是否能成功,它们都可以作为智能眼镜这个品类未来起量,达成本文首段提及的功能愿景的参考;而这两个大方向也是从根本上解决问题的必然。5mDednc

 5mDednc

还有一些脚踏实地的技术......

当然在大方向之外,更多还是要立足眼下,这些就看现如今市场参与者的努力了。郝鹏鹏在介绍芯原AI眼镜设计方案时说:“我们认为发展初期的AI眼镜应当以轻量级为主——重量在30g左右;综合持续使用时间最好能超过8小时——那么用户不需要在一天的时间里去充电;具备端侧小模型处理能力;可进行1080p图像处理。”5mDednc

涉及智能眼镜,有关紧凑、低功耗等芯片设计问题,可以谈的东西很多。比如郝鹏鹏在介绍AI眼镜实例时甚至提到芯原设计的某款SoC芯片,融合CPU、视觉、显示、总线、接口、外设、安全等多组成部分,全芯片的电源域超过了20个,always-on的待机功耗3.8mW,RTC模式功耗5μW等等...5mDednc

5mDednc

包含多种来自芯原IP的定制AR/VR SoC芯片,其中就有20+电源域;且IP互联基于FLEXA技术5mDednc

基于芯原可穿戴方案已经有不少项目落地,芯原的技术应当也能很大程度代表当代智能眼镜芯片的现状和设计特色。这里我们只挑几个关键技术点来谈。5mDednc

(1)芯原面向可穿戴的IP系列比较多样,显示、音频、视频、AI等都有;针对更紧凑和更多功能的需求,也有不同系列可选。IP层面颇有代表性的,可能就是芯原在研讨会上最新发布的专为可穿戴设备设计、具备3D/2.5D渲染能力的超低功耗OpenGL ES GPU IP,具体型号是GCNano3DVG,据说能够有效地在视觉性能和能耗之间做出平衡,面向的应用之一就有AI/AR眼镜。5mDednc

(2)“要将可穿戴IP灵活、紧凑地整合起来”就需要投入到系统层面的解决方案上。所以尤为值得一提的是芯原的系统互联IP,特别针对可穿戴产品低功耗、低带宽需求,如FLEXA——这种IP互联技术是“点对点形式的互联”,做到DDR-less,不需要IP通过传统外存方案进行数据交互,减少外存访问带宽和功耗;5mDednc

还有像是DECNano,这是一种无损数据压缩技术,可达成2-4倍的数据压缩率...类似这样的技术都强调减少系统开销和功耗,也节约开发成本。5mDednc

(3)还有个令我们印象比较深刻的,是郝鹏鹏提到的显示处理相关技术,显示控制器配套用上了AI超分(super resolution)的方案。也就是将低分辨率画面,超分为高分辨率的技术——价值就在于数据源相对低的分辨率,在显示控制之前的数据通路上都处理低分辨率画面即可,最后在显示时才通过超分来提高图像质量...5mDednc

实际上,智能眼镜芯片领域目前显然还处在百花齐放的阶段。比如炬芯科技:张天益(炬芯科技股份有限公司穿戴和感知事业部总经理)在主题演讲中介绍说,炬芯已经落地的第一代(GEN1)MMSCIM在环境降噪、语音识别场景下,相比HiFi5 DSP分别达成了98%和93%的功耗下降;跑不同神经网络的功耗降幅也都有80-90%;5mDednc

还有万有引力,除了前文提过VX100(AI+AR芯片)已经能满足部分AI眼镜复杂场景应用,陈一敏还提到万有引力上个月已经流片了一款对标Vision Pro R1的5nm工艺“下一代XR芯片”,预计明年就会问世。陈一敏说,未来即便是MR也不需要做到Vision Pro那样的形态,而更多地向普通眼镜形态看齐——“我们的刻板印象是,MR设备通常比较大,而AR眼镜相对更为轻量。以后二者的界限会越来越模糊,MR会和AR一样轻量。”5mDednc

5mDednc

在我们看来,智能眼镜或者说AI/AR眼镜产业目前还处在发展早期。不仅是ARPI标准的刚刚提出、神经级联生态仍在推进这些未来向探讨,还有现场嘉宾所述话题,放在了“智能眼镜未来要不要带显示(光机+波导)”、“重拍照还是重AI”、“行业应用优先还是消费市场起量”…5mDednc

还有“哪一类市场玩家(Meta为代表的互联网大厂、雷鸟为代表的初创智能眼镜硬件企业、小米为代表的手机厂商)会在发展中最终获胜”等明显在市场发展初期才探讨的话题。5mDednc

张天益在演讲时说,Ray-Ban Meta眼镜续航也不过3-4小时,视频录制工作时间更短,“要真正满足全天佩戴,则至少在此基础上x4”;加上体验层面也有待强化、隐私问题更是潜在探讨话题,智能眼镜还有巨大的推进空间。5mDednc

5mDednc

百镜大战市场现状,来源:Omdia5mDednc

林麟说,待市场真正走向成熟: “未来AR/AI眼镜产品可能会是赢家通吃的局面”,“现在是百镜大战,未来存活品牌不会超过5家”。这也符合一贯以来我们对此类市场的认知,发展到高级阶段时通常就是寡头市场。5mDednc

Omdia预期2025年AI眼镜(不带显示屏、以AI为核心)出货量约680万(Meta预计将占到550万),AR眼镜(带光学显示模块)则在67万左右。从其预期未来几年的出货量及涨幅来看,不少人预言2025、2026作为AI/AR眼镜发展元年还是有一定道理的——毕竟2028年的数字可能就要跃进到将近3000万副的出货量了。5mDednc

维深信息wellsennXR甚至大胆预测2035年全球AI眼镜销量就要达到14亿副,那将是又一个智能手机级别的大产业和市场机会,10年出货暴涨921倍。无论这个数字是否能达到,现下都还处在智能眼镜发展的初期,AI则将全面带动其发展——新的标准和生态已经开始逐渐确立。5mDednc

责编:Echo
本文为电子技术设计原创文章,未经授权禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
黄烨锋
欧阳洋葱,编辑、上海记者,专注成像、移动与半导体,热爱理论技术研究。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了