苹果发布会前,深度梳理Apple Intelligence全景图(组图)

6Park 科技 1 week, 3 days

在今年6月的WWDC24(苹果全球开发者大会)上,全世界第一次听到“Apple Intelligence”这个名词,苹果用人工智能(AI)的谐音梗,定义了自己的Apple AI。而此前,苹果公司在讨论其机器学习的相关功能时,会避免使用“AI”这一术语。

时至今日,在最新的苹果秋季发布会邀请函中,虽无“AI”,却无不透露着“AI”的各种气息。



图注:左为苹果2024秋季新品发布会邀请函、右为WWDC24邀请函

比如,邀请函的主题是“高光时刻”,主配色、苹果Logo周围的彩色光晕,和WWDC24邀请函的主配色非常一致。



图注:Siri的新图标、唤醒Siri之后的iPhone显示效果


以及Siri的颜色也在发生变化,可以看到,它的新logo以及唤醒Siri之后的配色,和旧siri完全不一样了。



图注:2023苹果秋季发布会、WWDC23的邀请函、旧Siri logo,配色方案可以看到比较明显的区别


我甚至让某AI产品帮我分析了一下秋季发布会的邀请函到底有哪些AI相关的元素,它告诉我:

图形设计方面:logo 由线条围绕着苹果的经典轮廓,动态感与 AI 的智能交互模拟,这种动态的图形设计可能是在模拟 AI 技术所带来的流畅的智能交互体验;

色调:邀请函 logo 采用了霓虹色调,如蓝色、紫色、橙色和粉色等,丰富色彩的组合与 AI的 生成艺术很相似;这些色彩本身可能与苹果产品中 AI 相关功能的特点或应用场景存在关联;

视觉关联:邀请函与 Siri 的视觉关联可能暗示着 AI 技术在苹果产品中的核心地位,以及 Siri 在未来可能会得到进一步的升级和优化,与其他 AI 功能更好地融合,为用户提供更智能、便捷的服务;

从闭口不提AI,到连名字都要玩“AI”的谐音梗,甚至邀请函的配色都要与“AI”一致。显然,这些设计并非巧合,苹果在暗示Apple Intelligence在今年的秋季发布上依旧会是重头戏。

那么,Apple Intelligence到底强在哪里?在这篇文章中,我们将和你详细聊聊以下这些问题:

① 前情提要:根据现有信息,Apple Intelligence全景图是什么样子?

② 进度盘点:从6月到8月,Apple Intelligence的进展如何?

③ 猜一猜:我们即将能看到怎么样的Apple Intelligence?

④ 深度思考:有了“AI”的苹果,未来的生态将如何演进?



前情提要:完全私密和安全

WWDC24上,库克的这段讲话很重要:

“我们很高兴地推出苹果创新的新篇章。Apple Intelligence将改变用户使用我们产品的方式——以及我们的产品能为用户做什么,我们独特的方法结合了生成性AI和用户的需求,提供真正有用的智能。它能够以完全私密和安全的方式访问那些信息,帮助用户做对他们最重要的事情。这是只有苹果才能提供的AI,我们迫不及待地想让用户体验它能做什么。”

这段话有三个重点(注意标蓝的关键词):

1、结合生成式AI和用户的需求,提供有用的智能

2、有独特的方法,这是只有苹果才能提供的AI

3、完全私密和安全的方式

想要做到这些,就要解决所有端侧AI都面临的四个核心问题:

第一,有用:完美贴合用户的需求,而非制造需求,同时还要考虑如何交互

第二,安全:模型需要本地化运行

第三,流畅:本地硬件无法处理的问题,用云端更大的模型来配合

第四,安全和完全私密:一旦使用云端模型,手机上的大量个人信息就有泄露风险

显然,反复被提到的安全和私密是苹果想要为用户提供任何服务的最大前提。

可以说在苹果之前,还没有厂商提出十分完整的解决方案。

那苹果是如何考虑的?让我们一起看看Apple Intelligence全景图,也许可以一窥苹果在AI方面的整体逻辑。



图注:Apple Intelligence全景图,腾讯科技翻译


个人智能系统层承上启下,连接了最上面用户熟悉的应用层和苹果自研芯片层。

个人智能系统层可以说是Apple Intelligence最为核心的结构,我们可以把它看做几个部分。

第一部分是AFM-on-device(Apple Fondation Model端侧模型)。这是一个30亿参数的模型,是端侧AI最重要的部分。因为隐私安全的高要求,在本地运行端侧模型优先级最高,只有它做不了的事,才能被发送到云端。

但端侧模型有一个不可能三角:性能、参数量和内存及功耗占用,这也是各家厂商最头疼的问题。



性能优异,就要参数量大;而参数量大,就意味着内存占用大,功耗也会大;功耗过大又可能会影响性能。所以这三者应该如何平衡呢?

苹果的方案如下:

① 低比特palettization:这个技术让模型变轻,就像把高清照片压缩,不占太多手机空间。

② LoRA适配器:这些小工具能让模型根据需要快速学习新技能,类似乐高积木,拼出各种形状。

③ Talaria工具:这个工具帮助监控和调节模型的能耗,确保它不会消耗太多电量。

④ 分组查询注意力:让模型能快速聚焦重要信息,就像用标签快速找到图书一样。

⑤ 共享词汇表:通过共享词汇,减少了内存占用,就像用一本字典供所有人查单词,省地方。

简单说来,这些优化技术让AFM-on-device在保持聪明的同时,也做到了省电和快速响应。

LoRA适配器(Low-Rank Adaptation adapter)是其中最大的亮点,这是一种用于优化机器学习模型,尤其是大型语言模型和生成式模型的技术工具,就像是给基础模型加上了专门“总结信息”或“回复邮件”的小工具,让模型能够更好地完成这些特定的任务。

这样就可以做到,用30亿的参数,达到和其它主流模型70亿以上规模模型相当的表现(苹果官方给到的评测结果)。

Talaria 工具则与其他技术(如分组查询注意力、共享输入输出词汇表、低比特量化、混合配置策略、激活量化和嵌入量化等)结合,苹果的模型在 iPhone 15 Pro 上能够达到约 0.6 毫秒的延迟,以及每秒 30 个 token 的生成速率,并且在满足性能需求的同时,还能降低手机电量和内存压力。

但即便如此,据苹果官方介绍,运行Apple Intelligence也还是需要最低iPhone 15 Pro配置的机型。并且,根据腾讯科技了解,需要在至少8G的内存下才可以支持运行Apple Intelligence。

所以在现阶段,30亿参数的端侧模型的能力就是iPhone、Mac本地AI大脑能解决的问题的上限。

因此,复杂的计算依然需要送到云端,通过更大参数量的模型去处理。

这就是Apple Intelligence的第二个重要组成部分,云端模型(AFM Server)。

这里需要补充说明一句,编排层的作用是负责判断用户需求是依靠端侧解决还是要上传云端,类似于一个指挥官。苹果在这里没有进行任何人工干预,完全依靠算法自行判断,用户无法决定自己的数据是不是仅放在端侧。

云端模型的具体参数量苹果并没有透露,与端侧模型是更大模型蒸馏而来不同,它是从零开始训练的。同时,并且使用了一些和端侧模型共通的先进的训练方法。

这个云端模型最重要的特点就是实现库克在提到的“完全私密和安全”,它是通过私有云计算PCC(Private Cloud Compute)提供防护。

具体是如何做到如此隐秘的呢?这里面有很多专业的技术,我们先简单来复现一下整个过程:

① 用户发起请求:比如你用手机问Siri:“我应该几点去接孩子放学,还能赶得上公司会议?”

② 安全封装:你的手机立刻把这个请求加密成一个“秘密包裹”,这个包裹只有PCC能解密。

③ 秘密发送:这个“秘密包裹”通过一条安全的秘密通道发送到PCC。这个通道就像一个有密码锁的隧道,只有知道密码的人才能通过。

④ PCC解密并处理:PCC接收到包裹后,用自己的超级大脑(强大的AI模型)来理解你的请求,并找出答案。在这个过程中,PCC会用各种技术来确保你的数据不会被泄露或滥用。

⑤ 数据用完即删:PCC找到答案后,会立即删除所有临时保存的你的数据,就像用水擦掉黑板上的字一样,不留任何痕迹。

⑥ 返回结果:然后,PCC把答案重新加密,通过安全通道送回你的手机。你解锁手机,就可以得到结论了。

简而言之,PCC为你加密了你的需求,在一个秘密通道中传给AI处理,处理完之后就删掉了。那PCC究竟用了哪些技术来确保用户的数据不会被泄露或滥用?

用一个形象但不完全严谨的比喻来理解的话:PCC就像一个设计特别的保险库,即使你能进到保险库里面,也很难找到特定的贵重物品放在哪,因为它们被随机地存放在不同的地方,这就是所谓的“目标扩散”技术。

此外,保险库的门和锁都非常坚固,只有经过验证的员工(也就是PCC的节点)才能打开,而且每次开门都需要用到特别的钥匙(加密技术),这些钥匙是一次性的,用完就失效,这样就算有人偷了钥匙,也打不开门。

最重要的是,即使你能进到保险库里面,你的贵重物品在被拿出来看过之后,很快就会被放回原位并且锁起来,不会留下任何痕迹,这样就算有人想找到它们以前的位置也做不到。

而这套层层保障安全的方案,也只有苹果目前有条件做到。

这就不得不提到Apple Intelligence的第三个重要部分,自研芯片层。这些保障安全的Server中,用的都是苹果自研的芯片M2 Ultra。

这些芯片提供了强大的加密功能,能够执行复杂的加密算法,确保数据在传输和处理过程中的安全性。并集成了多种硬件安全功能,比如安全飞地(Secure Enclave),它是一个隔离的硬件区域,专门用于安全地处理加密密钥和敏感操作,确保即使在服务器层面上也能保护用户数据。

此外,这些芯片还支持安全启动技术,这确保了服务器只能运行经过苹果签名的软件,从而防止恶意软件在系统启动时加载。

无论是iPhone的A系列芯片,还是Mac的M系列芯片,他们都完全是苹果自研的。这就意味着这些芯片一出生就与苹果体系浑然天成,在性能、功耗、安全等方面完美支持Apple Intelligence,这是其它的厂商完全没有的优势。

而这三个特点,构成了整个苹果智能的全部核心:本地运行的端侧模型及一系列有特定作用的基础模型、通过私有云计算服务提供的云端模型,以及强大的自研芯片层。

讲到这里大家可能会问,OpenAI在哪里?之前不是有传闻说,Apple Intelligence的基础模型用的是OpenAI的吗?

苹果没有公布太多与OpenAI的合作细节,从目前展示的效果来看,ChatGPT并不是通过独立APP的形式预装在系统里的,苹果只是给了OpenAI一个应用程序接口,将ChatGPT集成了在系统中,就像苹果和谷歌搜索的合作方式类似,OpenAI在其中并不会获得更高的权限。

在这个过程中,用户有权利主动选择是否需要使用OpenAI的服务,而在数据交给OpenAI之后,苹果就不会对后续的数据安全进行负责。

而且,OpenAI也不会是唯一合作方,据外媒报道,苹果也在和谷歌讨论大模型相关的合作。所以,OpenAI应该就是Apple Intelligence生态里面的合作伙伴之一。



图注:苹果官方对于GPT嵌入iPhone的示意图



进度盘点:从6月到8月,

Apple Intelligence的进展如何?

有了这样的底座支撑,用户就可以尽情体验产品功能了。

我们先来回顾一下 6月的WWDC24上公布的关于Apple Intelligence的具体功能,可以分为以下几类:

① 写作工具(writing tools)可以帮你校对、按照风格重写内容、总结文本内容等;

② 图像生成(image playground)根据提示词,生成有趣好玩的图像

③ 表情包生成(Genmoji)生成有趣的个性化表情包

④ 更加高级的Siri,交互更自然、更个性化、与系统结合更深入。

就在刚刚过去的八月,北美地区的开发者已经开始使用符合条件的苹果硬件设备,体验起Apple Intelligence的部分功能了。

现有的功能比WWDC24公布的时候,切分更细,但是整体基本还是文本辅助(写作、总结、邮件回复等等)、图像生成(照片处理、Genmoji)、电话录音及整理等等,以下是腾讯科技根据公开信息不完全统计的功能列表:



我们可以看到,进度最快的是文本处理相关的功能。

在多模态处理方面,目前看来纯端侧的部分上线,比如照片搜索、通话录音等已上线;图片生成功能还没上线。而多模态的、需要调动云端能力的功能,看起来都还没有准备好。

简单的集成入系统的功能,比如Focus Modes(专注模式)、优先重要通知等功能,应该均为纯端侧处理,已经上线。Siri的UI新特效等简单功能已经推出。

但是,万众期待的与系统深度融合的Siri升级——可通过语音指令在不同App之间流转,以及第三方的OpenAI 大模型GPT的集成,都还没有上线。按照苹果官方网站的说法,在未来的一年内,将会完成其它语言(非英语)、软件平台能力等内容的更新。

如果按照进度条来看,距离WWDC24上苹果许下的诺言,估计只完成了30%左右。

但用户想要使用,可是有很严格的前提条件:使用的设备必须是iPhone15 Pro、iPhone 15 Pro Max的后续机型,或者是M1芯片以后的iPad和Mac。而且,Siri和设备的语言需要设定为英语(美国)。



图注:苹果官网公布的可以体验苹果智能的硬件及系统条件



今年的秋季新品发布会,

什么最值得期待?


Apple Intelligence的雏形已经形成,但距离所有的苹果用户都能使用还有很长时间。

如果你的产品符合苹果所说的硬件、语言、地区的各项条件,那在秋季你就可以和Apple Intelligence初次见面。当然,可能并不是9月的新品发布会,据外媒报道,应该是在10月份。

除了Apple Intelligence,这次秋季新品发布会我们还可以期待一下iPhone 16上搭载的A18芯片。

根据目前曝光的消息,苹果会在A18芯片上使用和M4一样的台积电的N3E工艺,相比去年A17 Pro上使用的N3B工艺,N3E在提升能效方面有着更大的优势。

N3E工艺是什么?

它相当于手机芯片做了一次内部升级,虽然房子(基本单元)大小没变,但是道路(电路)和设施(晶体管)被重新设计,让整个区域(芯片)运行得更高效。这就好比让城市交通更顺畅,居民用电更省。因此用上这种工艺的A18芯片,能让用户感受到手机反应更快、电池用得更久,同时处理多个任务也更流畅。

据传,A18这颗SoC的NPU会大幅的升级,整体的算力要比M4的38TOPS还要高。

这意味着即将到来的iPhone16的NPU算力,已经可以比肩目前苹果最好的桌面系统了。为了应对Apple Intelligence的内存门槛,iPhone 16也会首次将机身运行内存提升到8GB。

从内存到功耗到算力,看起来都是为了Apple Intelligence而设计。



去年苹果推出的A17 Pro的NPU算力有35 TOPS,A18只会更高

显然,从今年的9月份开始,苹果未来推出的所有硬件产品都会主动拥抱Apple Intelligence。

不仅限于iPhone 、Mac和iPad,未来甚至包括Apple Watch、HomePod、Vision Pro这样的产品,可能都会成为苹果AI战略的一部分。

在WWDC24上,苹果的高级副总裁Craig演示了一段fast and relevant的苹果AI的使用场景:临时收到了会议时间更改通知,问Siri是否还能赶上原来要参加的孩子的活动。

他继续和Siri对话,手机应用就在邮件、日历、地图等多个App之间顺滑横跳。最终,他没有动一根手指,手机给到了一个合理的建议。

这可能是未来AI端侧设备的理想态:仅需一个指令,它就能自动调出需要的App,完成想要的任务。

在这个演示场景中,我们看到,Siri调用的App都是Apple官方的App,就是说,它调动了“自家人”合作做了一件事。在这种情况下,系统、架构、接口,一切都不是难题,还不涉及到任何的利益分配等问题。

再幻想地夸张一点,也许未来Siri无需指令词,它将时刻在后台等待对话,甚至能在人们交流时插话,就像一个真正的朋友一样。



Apple Intelligence

能继续成为生态王者吗?

苹果用阻力最小的方式,演示了未来理想化的AI手机交互方式。但如果不是自家的App,还能随意调动它应用内的数据吗?

在Apple Intelligence的官方介绍页面上有这样一句话,“如果你使用标准的UI框架、API、开发套件,就能很轻松地让你开发的App也拥有这些AI功能。”





甚至开发者在WWDC24的workshop中可以看到,三四行代码就可以把AI功能接入自己的App。

这里有两个信息,欢迎第三方应用加入AI,以及苹果将准备好所有的套件、工具,让开发者用最容易的方式使用Apple Intelligence,这确实是味道不错的“开胃菜”。

但如果要接入Apple Intelligence,App们必须交出“数据”,成为苹果生态中小小的一员。这件事情真的这么简单吗?

对于苹果来说,文章最开头的那些技术性突破反而是最简单的问题,而关于生态的难关才是横在苹果面前的大山。

如果手机的交互真如Craig演示那样,苹果就成了拥有唯一入口的“王”,Siri则成为了王身边唯一“位高权重”的人,负责决策“王”究竟想让哪个App接见用户,是不是只想接见“自家人”?

那样的话,苹果就成为了各种超级App的天。

谁来决定利益分配?超级App们曾经建立的商业模式,会甘心被AI一夜清零吗?这些问题还等待着我们去思考。

写在最后

Siri承载了乔布斯的浪漫梦想,Siri 公司的创始人之一 Dag Kittlaus 在描述自己与乔布斯的接触时,曾表示他和乔布斯在家里“聊了 3 个小时”。乔布斯对人工智能的未来满怀憧憬,他让 Siri 的初创成员相信:“Siri 最终会在宇宙中留下自己的痕迹”。



图注:Siri 公司的创始人之一 Dag Kittlaus

然而,Siri发布的第二天,乔布斯就去世了,留下了这个AI梦想,和“彷徨多年”的Siri。

今天,库克用Apple Intelligence重新将Siri放到了聚光灯下,但是,梦想也许不太一样了。

今天的苹果充满了现实主义色彩——保持技术领先、有效防守、让股价保持不承压状态,等到AI时代的超级应用长出自己的样子,再考虑是否出手。

然而,当所有人都在期待着AI手机和AIPC的时候,也许还有更令人惊喜的AI原生的硬件产品,彻底改写故事。

 

相关新闻