编者按

当我们想喝可乐的时候,在极长的时间都只有两个选择:百事可乐和可口可乐。当我们选择手机的时候,有 90% 的概率在苹果和华米 OV 等品牌里辗转。当我们买运动服饰的时候,第一时间想到的,大概率是 Nike、Adidas。 但世界之所以缤纷多彩,是因为在这些巨头之外,有一些不遵从传统,力求创造不同,注重设计和功能,着眼于明日的公司存在。 它们有着非主流的商业模式,设计与产品能提供独特的用户价值,和足够的社交谈资。重点是,它们没有大公司的包袱,敢于不顾一切的进步。它们,是「多样性公司」。 多样性,是开放世界的关键。爱范儿相信,只有真正关注和理解多样性公司才能比更多人更早地看见未来。在同名栏目中,爱范儿将以专访的形式,与你一同见证这些多样性公司,如何重塑未来,定义新常态。

本文为「多样性公司」栏目的第 10 篇。

2017 年,徐驰从 Magic Leap 辞职回国,创办了 XREAL(原 Nreal)。彼时,整个 XR 行业都在为 Magic Leap 的鲸鱼侧翻演示狂欢,所有人都觉得这就是未来,但没有人真正卖出过一副消费级 AR 眼镜。

九年过去,这个赛道经历了 VR 元宇宙的泡沫与退潮、Apple Vision Pro 的高调入场与遇冷、Meta Ray-Ban 的补贴式扩张,以及 AI 浪潮对一切终端形态的重新审视。

XREAL 活了下来,并且成了 Google Android XR 平台的首批硬件战略合作伙伴。根据 IDC 的数据,XREAL 已经连续四年稳居全球 AR 眼镜市场份额第一。而就在最近,XREAL 在港交所正式递交了上市申请。

这家蛰伏近十年的智能眼镜公司,即将迎来新的商业阶段。

爱范儿的这次专访,完成于 XREAL 向港交所递表前。在对话中,徐驰没有回避任何尖锐的问题——从「为什么苹果的 Vision Pro 注定有问题」,到「中国厂商在用供应链整合打一场上半场的战争」,再到「眼镜行业还没有任何一家公司真正赚到过钱」,但贯穿始终的,是一个清晰的判断:

眼镜是 AI 最好的载体,因为只有它能给模型提供最高品质的上下文。


XREAL 创始人兼 CEO 徐驰

从没有公司挣到钱的行业里活下来

Q:你当时从 Magic Leap 出来创业,做的是一个非常前沿的产品。为什么会想做这样一家公司?

A:我当年在 Magic Leap 的时候,最开始的几个月是很有惊艳感的。突然间,你站在了一个新时代的开端,并且有机会在最前头去见证,如果运气好,你还能参与去定义,这种感觉特别棒。

当时,我的判断是,这是下一个大机会,到 20 年肯定成了。我是 2016 年回来的,觉得再不回来就来不及了。当时想的就是,一定会有一个懂这个行业的人从国外回来——就像当年的李彦宏、张朝阳。那这个人可能是我,也可能是我的同事们,因为当时懂这块的人就那么多。那为什么不是你呢?你不可能准备好了再回来。实在做得不好,我就再回去呗,当时就是这么一个简单的想法。

这一路上很难,这个行业起起伏伏的。但我自己秉承了一件事,就是我们始终没有偏离初衷。这其实也是考验每个创业者的内在驱动力到底是什么——是为了名、为了成功、还是为了财富。

我们真的是认为眼镜就是下一个终端,这是一件不应该容易的事情。碰巧,我们近乎有种使命感地在最早进了这个行业,很想看看最终的答案到底什么样,甚至想一直陪伴到那个答案出来的时候。

Q:XREAL 今年初刚九周年。成立九年,有没有达到你的预期?

A:首先一定是不达预期,这个行业都不达预期,但我还蛮满意的。

以我们当时的认知和热情,走到今天确实蛮运气的。这路上遇到了很多对的人,很多好心人,上下游的合作伙伴,包括自己的团队,才走到今天。

当然,如果用今天的心智重新走一遍,一定会走得更好。这就是成长的过程。我时常跟同事们讲,如果 XR 有一个博物馆,记载了 XR 历史的每一步变迁,XREAL 一定已经留了自己很重的一笔。


Q:行业风口一直在变,你们有没有经历过至暗时刻?怎么克服的?

A:肯定有。

行业没有真正爆发的时候,每一个至暗时刻可能都伴随着一些高光时刻。印象最深的可能是疫情刚出现的时候。当时我们在海外生意最好,因为大家在家需要这样的产品,所有海外运营商都想跟我们合作,CES 亮相非常成功。

但突然疫情一来,人出不来了,融资节奏被打断,团队也不稳健,内外矛盾集中暴发。内部有策略争论、管理争论,外部有些企业本来好好的,合作突然就不要了。

现在回想会坦然得多,因为这些都是理所应当的过程。


Q:Vision Pro 在我看来是把 Magic Leap 的东西做出来了,甚至超越了。但 Vision Pro 没有达到预期,当时对你们来说是一个打击吗?

A:当时我们其实很遗憾。我印象很深,有一次去见美团的兴总,他也在关注这个领域,跟我们聊完之后就问,苹果在做什么?我当时就说,苹果做的那个产品大概率不行。

但当时中国有大批人认为「苹果做任何事情都是有道理的」,你没法说服他们。因为你很难拿一个还没有发售的产品去论证。后来你想说苹果做得不好,又会招黑。

我们只能顺应这件事情。但其实从蛮早我就觉得苹果的这个产品是有问题的。

Q:原因是什么?

A:我觉得这是苹果有史以来第一个不做剪裁的产品。

苹果以前乔布斯在的时候,是极致的剪裁——「我也不知道你想要什么,我给你的东西才是你想要的」。但 Vision Pro 明显就是「我也不知道你想要什么,所以我都给你」——这个也加,那个也加,它是一个堆料的产品。

据说苹果内部的产品逻辑确实如此。他们在重复 Apple Watch 的路线——Watch 第一代并不成功,但给了他们后续成功的机会,知道了做健康检测和运动是对的方向。

AVP 第一代的想法也是不做判断,努力把功能都加进来,看用户喜欢用什么。但他们犯的错误是:头戴设备加的东西多了之后,太重了,戴不住。

结果第一代产品并没有给苹果任何「下一代应该往哪个方向走」的反馈,样本太少了。所以下一步他们反而会更保守。


Q:你们现在主力出货产品其实是移动大屏。你什么时候开始判断先不做空间计算、而是先把移动大屏做出来?为什么认为移动大屏这个定位是对的?

A:这不是我判断出来的,是被打脸打出来的。我们今天的情况真的是一路走过来的。在无人区里探索,用户的真实反馈非常重要。

我们第一代产品就是奔着一个更小、更便宜、更好的方向去做。当时的想法是拉着运营商一起合作,他们有当地的影响力、品牌背书、渠道和生态,我们提供技术,软硬件全做。

我们曾经在韩国做了一个我们认为最完整的商业化闭环:手机预装 APP、眼镜跟手机捆绑销售、5G 合约打下价格、运营商和三星 LG 的渠道售卖、LG 找当地内容做生态。这是到目前为止我们看到在生态领域做得最完整的,但并不成功——因为我们和运营商都没有真正的平台号召力。


这时候你才会去反思,真正能做平台的是谁?

我做一个大胆的预测,只有苹果和 Google。Not even Meta,not even OpenAI。

因为过去 20 年他们在手机生态里的势能和积累,让他们是唯一能去做平台的。那时候我就想得很简单——Don’t do it。

因为如果有一天你做了一套东西,Google 出了一套系统,你所有的开发者其实被你带到了沟里。如果交互逻辑完全不一样,那怎么办?

所以我们一定要退回来做减法。我们是技术背景出身的,技术类的剪裁是最痛的。你要跟做 SLAM 的人讲,不好意思,我们原来做六自由度的,现在得做三自由度了。你说三自由度谁都能做,对吧?但这事是没办法的。

不过初心没变——虽然我们做了 Display 的方向,但另外一条线从来没断过。直到 Google 找到我们。


Q:你们跟 Google 的合作是怎么促成的?

A:我们一直跟 Google 有开源层面的联系。他们内部一直在关注我们,包括苹果的一些高管,每次我们新品出来第一时间都会去买。同行对你的关注,可能是对你最大的认可。

直到苹果的 AVP 出来,Google 也立刻做了一个决策说,我们也得跟进。但突然间发现 AVP 不成功。不成功有两个最大的 takeaway:太贵了,太重了。贵了,开发者不感兴趣,因为觉得没有量,三年五年之内起不来量。太重了,消费者没有长期佩戴和持续佩戴的意愿。

真正解决它,就是要做便宜、做轻,而 XREAL 从第一天开始就在做轻量化、做分体式,依托于我们在空间计算核心技术的长期积累和国内出色的供应链能力,在价格上也更具竞争力。于是这件事变得水到渠成。


XREAL 与 Google 合作的 Android XR 眼镜 Project Aura

眼镜是 AI 最好的载体

Q:无论是空间计算设备还是 AI 硬件,智能眼镜的终极形态应该是什么样的?行业里有人提过一个 L1 到 L5 的形态划分,你认同吗?因为在眼镜这个领域,当前 L1 的体验反而远远好于 L5,这件事挺奇怪的。

A:我以前给过一个 L1 到 L5 的定义,主要是智能程度的分级——早期偶尔能用,后来越来越像你自己的个人助理。但为什么轻量化眼镜注定没办法替代所有东西?因为显示和算力的物理边界。

如果想加显示,大家现在普遍认为是光波导。但光波导的显示做到极致,它也就是车载 HUD 的水平。拿它做个翻译、做个导航没有问题,但你不会用车载 HUD 看电影、玩游戏。而且我们已经被视网膜屏惯坏了——视网膜屏一方面是显示基础,另一方面背后需要很多 GPU 去渲染更多的像素。如果这件事是在一个轻量的全天候设备上,续航支持不了。

所以我们必须做取舍:有一个更轻量化的设备,全天候佩戴,但显示弱一些;有一个相对更重的,但是便携形态,显示能力跟今天视网膜屏是一个水准的。这两个先天就被分开了。

Q:所以你认为未来不存在一副眼镜解决所有问题?

A:大家一提到眼镜可能想到不同的形态。Meta Ray-Ban 是一个形态,我们现在做的是一个形态,大头盔是另外一个形态。这些不是三选一的问题。就跟今天你有手机、平板、笔记本、台式机一样,它们满足不同场景和不同优先级。

AI 眼镜是全天候佩戴的,一定要轻巧。第二个形态是我们现在的移动形态,是便携的而不是一直佩戴的。好处是可以稍微再重一点,但在工作过程中可以戴上,显示内容更丰富。再往另一侧是大头盔,包括 AVP,体验绝对很棒,但可能更像家里的专用设备。

我们认为这三种形态在未来 10 年甚至更长时间都会共存,不会是一个设备替代所有。就像我们原来科幻电影里希望用手表替代电话,但很遗憾今天我们还是既带着手表又带着手机。有些事情它有物理边界。


Q:我有手机、有电脑,为什么需要用眼镜去替代它们?

A:原来我认为,今天的电脑和手机是把一个互联网信息世界压缩到了一个二维的长方形小格子里。真正的感知三维化、显示三维化、虚实融合,是必然的。但最近我有一个新的思考——可能光这一点还不够强,不够让用户觉得「我必须得这样」。

这就是我们最近一年多思考的全新答案:要感谢 AI,AI 可能给我们带来了一种全新的交互方式。过去无论电脑还是手机,本质上是人控制机器。键盘高效但上手门槛高,触摸屏相对高效且上手门槛低,但仍然没有摆脱「人控制机器」的范式。苹果在 AVP 上用眼动追踪做 3D 交互,效率极低,本质是在 3D 画布下做交互。

当 AI 出来之后,我眼前一亮,真正的下一代交互不再是人控制机器,而是人跟一个智能体像我们现在这样高效地交流。以后你的手机、电脑、眼镜,都会有一个智能体,用人和人的交流方式——五感交流。

Q:现在很多 AI 硬件,带摄像头的耳机、挂饰等,也是 AI 的 input。你们怎么看待与它们的竞争?它们成本更低,使用场景甚至更广泛。

A:回到第一性原理。为什么眼镜是先天最好的 AI 载体?因为当你将来加上眼动追踪的时候,眼镜可能是唯一能知道你的聚焦点是什么的设备。

举个例子,无论是耳机还是其他设备,它想拍一张照片去分析,前面坐了三个人,你到底在看谁?而且把整张照片传上去计算量也很大。但如果有了眼动追踪,我可以发现你就在看某个人,我甚至可以把他的轮廓裁下来,只传他到云端。其实人类本来也是这样,当我专注跟你聊天的时候,可能只关注到了你的表情,后面的树我是没有关注的。这些事情只有眼镜能做。

> 本质上这跟 LLM 的原理很像——注意力机制。眼镜是最容易让你获得最高品质上下文的终端。

Q:我昨天体验了 Project Aura,感觉有了一块真正可用的显示屏之后,很多生产力场景在 AI Agent 的帮助下是成立的。比如我可以抛开一台电脑——只要我能下指令、能清晰地接收输出结果、能判断 Agent 的交付是否符合预期,就够了。

A:你说得非常好。再想象一下,假设你是一个公司的董事长,AI Agent就是下面的各种员工。怎么能让这些员工越来越精准地理解你的指令?

不是你用文字的方式去转述——因为文字有可能把一些背景信息压缩掉了——而是他本身就参与了你工作中的很多场景。当你跟他重复某个 idea 的时候,他说「哦,你是在那个场景想到的,你在跟某人聊天时讲到的」,他有更多的背景信息,就可能更精准地完成任务。

所以,我需要升维对AI Agent的input ,要把它变成一个 contextual 的输入,而不是仅仅是抽象出来的文字。


Project Aura

Q:如果你们未来打算做一款 AI 眼镜,你希望它是什么样的?

A:我希望它真的能给我带来一个第三方视角的、我注意不到的一些洞察。我还是从个人助理的视角来看。希望它能帮我在一天工作结束后复盘的时候,给到一些我自己从第一视角没有注意到的角度和事情。那它就得全天候、多模态。

Q:那这会跟你们现在做 Display 的方向背道而驰吗?你们的技术积累更多在显示这块,但你刚说的场景,好像不需要显示也能做。

A:今天 XREAL 做得好的是,当我们去解决问题的时候,会回到第一性原理,然后用更难的方式去解决这个问题,就像我们做芯片也不是为了显示。就像为什么特斯拉造车,一个原来做支付的人能造车?为什么造车的人能造火箭?他不是靠「这个事就近,所以我去做」,他牛的是他一直在走第一性原理——怎么用一个看似很复杂,但其实又是最近的方法去解决问题。

Q:那在你看来,XREAL 的第一性原理是什么?

A:一个多模态的、全天候的——至少保证八小时续航的 AI 设备,加上实现长期记忆。它就是一个变现能力非常强的 AI 个人助理。

我们的核心就是要做一个 AI 个人助理。只是说它到底是先实现全天候,还是先实现 Display 输出,还是先实现多模态。每一步都是成为最终个人助理的必经之路。这个想法真正沉淀下来,其实是在多模态 AI 成熟之后。多模态的 AI 拓展了我们认为这块能力的边界。我原来想的还是一个更小、更轻、更便宜的终端。


乱纪元中的长期主义

Q:你认为智能眼镜的核心价值是什么?

A:眼镜的核心价值在于,它是一个跟模型共享高品质上下文、分享注意力的最好的形态。今天的上下文很像 CPU 里的 Cache,是一种短期记忆。而长期记忆是一个全新的 Memory 系统。这件事会在未来两三年内出来,这其实也是现在 Agents 大家一直在研究的东西。

Q:这是行业共识吗,还是说很多做眼镜的只是想做眼镜?

A:当 iPhone 在 2007 年出来的时候,它都不是共识。我们今天其实进入了一个乱纪元。就像当年没有人能提前框定答案一样,都是回过头看才说马斯克牛、乔布斯厉害。但当时那个阶段都是某种程度的乱纪元,大家都在找答案。

但我想说的是,当这个行业是一个颠覆式创新的时候,不太可能出现武侠小说里那种突然路边出来一个扫地僧把所有人秒掉的情况。这个行业非常注重研发底蕴。乱纪元中的集大成者、那个 iPhone Moment,很可能不是发生在产业链的腰部。

Q:国内很多厂商已经做到千元档了,噪音产品也越来越多。你们怎么维护自己的用户心智?跟供应链整合的公司有什么本质不同?

A:如果我们不断强调原创,但实际上卖不过供应链整合的公司,那可能就说明原创的那些东西没有差异化。我相信我们的产品是有差异化的,但难的事情都要花时间。

XREAL 从 2022 年开始做 Display 眼镜成功之后,我一直在想我们的品牌到底定位在哪。我们希望做中高端产品,品牌心智需要时间去沉淀。而时间对创业公司来讲是最大的敌人,我们必须耐住性子。

Insta360 的 JK 有句话:品牌是消费者在信息不充分的时候对你的信任。

我们特别珍惜这种信任。你可能需要几代产品去建立它,但只要一代不好的东西就会摧毁它。所以在这个过程中,我们不再是只追求高速增长,而是追求高质量增长。

这么多年我们在做的就是保证我们引领行业体验的变化:芯片、大视角光机、实时 2D 转 3D。我相信这些会在消费者心中慢慢沉淀。自然会有人用营销走捷径,试图模拟一个「我和你差不多」的印象,但我相信时间会证明一切。

Q:今年 AI 行业基本一天一变,作为硬件创业者会焦虑吗?

A:这个逻辑跟炒股一样。如果你始终在市场里,每天看波动,很容易被短期波动影响判断和心情。如果你看长线,拉开一点,可能会更清楚。

核心是考验你的长期战略定力。当年在 DeepSeek 一鸣惊人之前,中国大家听到的都是 Kimi、豆包。DeepSeek 没有选择在那个时代去跟另外几家打广告,而是安安静静做自己的东西,直到有一天海外发现它把英伟达的股价都撼动了。我们可能也觉得更适合这么做。

我们之前的基础让我们有一定的余裕可以去等。今天有很多公司不得不发眼镜、不得不做 PPT 眼镜,是因为他们需要活到下一个阶段——就跟当年造车一样,大家还是在 PPT 造眼镜。而我们今天能往后退一点,再长远地想一点,我觉得是好的。


Q:Google 在 CES 做了很多宣发,但没有落地产品。你们会担心平台节奏太慢吗?你们的产品会跟 Google 产生竞争吗?

A:其实 Google 的 CES 活动是小范围闭门邀请制的,请了很多人去听,包括我们在他们的会议室里待了小半天,见不同的 partner。我不怕他慢,我怕他快。因为平台要有节奏,不是光平台出来就行,还要有关键的内容和生态。我们对现状非常满意。

而且我觉得今天国内做 AI 也有点急。大家好像在抢,觉得晚发半年就错过了。但 AI 这一波下一代交互范式的定义,我认为不是个抢跑的逻辑,是一个万里长跑,跑对方向远比抢跑更重要。

Google 会像当年做 Android一样。我相信到某个节点他会有自己的 Pixel,但他一定会先去做平台。这是我们很确定的战略。所以短期不担心竞争,他可能是我们最好的合作伙伴——他擅长的我们做不了,我们擅长的又碰巧是他们最需要的。

Q:眼镜大概率会跟手机和新能源汽车一样,经历一个从上半场到下半场的过程。你觉得现在走到哪了?

A:眼镜大概率会跟手机和新能源汽车一样:头部终端持续做研发,突然有突破,在产品上快速迭代,制定行业规则。然后产业链下游把成本降下来,把能力赋能给更多终端厂商。中国大部分厂商熟悉的是后半场——在别人已经定义好的东西上做小迭代、微创新与大规模制造。但今天眼镜这个赛道还没走到下半场。

我最不希望看到的是这个行业大家用供应链整合和营销去打一场上半场的战斗。

因为上半场还是要做技术创新、做技术迭代。我个人觉得今天任何一款产品都没达到当年 iPhone 1 的那种惊艳感。而那个 iPhone Moment 大概率不会从一个四流企业、只做供应链整合的公司里出来。

今天眼镜火归火,中国的眼镜厂商还没有一个产品单品销售过百万。全球也只有 Meta,但 Meta 是靠补贴的,这个行业真正的拐点,是在不补贴的方式下来评估的。


来自 XREAL 用户的手绘海报

Q:你们的最终商业模式还是卖硬件吗?

A:当然不是。今天模型厂商也没有想明白商业模式。你其实想问的是,当一个新的终端、一个新的交互范式引领的新终端出来的时候,价值链的分发会是什么样子?

我相信我们一定会有位置。而且因为端侧越来越离你近,硬件或者入口这侧的属性会越来越强。未来你可能不是买硬件,而是每个月愿意付多少订阅费让这个助理服务你。

如果这个助理跟了你三年,它参加了你几乎所有的会,不只是录下数据,而是像参会一样形成了自己的判断和抽象的长期记忆,那你就离不开了。

Q:数据到底是谁的?这在未来的价值链里意味着什么?

A:这个行业一直会有一个想法,就是数据到底是谁的?

今天三星把数据直接给了 Google,用你的数据做广告变现。但数据所有权本来是用户的。而且长期记忆会跟 AI 解耦——就像 CPU 和 Memory 可以解耦一样。

当你的规模化设备多了,你选择把数据给谁,这件事就变成你有一定的主动权。

Q:当 Android XR 或多模态 AI 成熟的时候,所有大厂商都会进来,给创业公司留下的时间是不是不多了?

A:你能理解吧。就像当年跟 Android一起造手机一样,所有硬件厂商都会进来。你从这个牌桌到了另一个牌桌,每个人的筹码都变了。给创业公司留下的时间可能不多了,所以保持差异化和迭代速度非常重要。

大家都说想做苹果,但苹果最厉害的是解决了三个问题:硬件制造、系统开发、以及整套交互范式怎么把软硬件串起来。

但很多人可能只是联想,甚至可能是甲骨文。不同层面有不同分工,挣不同的收入。只要我能保证在这个生态里有一席之地就可以,但现在谈具体位置还太早了。