苹果开发出新款AI:可“看懂”屏幕内容并语音回复(图)

6Park 科技 2 weeks, 1 day



苹果公司最新研发的人工智能系统ReALM(Reference Resolution As Language Modeling)近日成功问世。该系统拥有卓越的解析能力,能准确理解屏幕上的模糊内容,并深入感知对话背景,从而提供更为自然流畅的语音助手交互体验。

ReALM系统通过应用大语言模型技术,将复杂视觉元素识别任务巧妙转化为纯语言处理问题。这一创新转换使得ReALM在性能上实现了质的飞跃。

值得一提的是,ReALM还具备重新构建屏幕内容的能力。通过对信息和布局进行深入分析,系统可以生成精准的文本表示,这对于捕捉关键信息至关重要。

研究人员进一步测试了将ReALM与优化过的专门针对内容指向优化的语言模型相结合的方法,在执行相关任务时发现,无论大小模型还是大型模型都超越了业界领先的GPT-4。这令研究团队非常兴奋。

然而,在人工智能领域苹果一直扮演跟随者的角色。但随着行业格局发生深刻变革,苹果正在积极迎战挑战,并努力在人工智能领域占据一席之地。

另外,备受关注的全球开发者大会将于6月召开。届时,苹果预计将推出一系列创新成果,包括全新的大语言模型框架、名为“Apple GPT”的聊天机器人以及生态系统中的其他AI功能。

 

相关新闻