OpenAI发布AI智能体,能像人类一样自主操控浏览器(图)

大鱼新闻 科技 6 hours, 19 minutes



1月24日消息,OpenAI在北京时间凌晨举行直播活动,发布了市场期待已久的AI智能体Operator(意为操作员),能够代理用户执行基于网页的操作,像人类一样点击、滚动和输入文字,完成诸如购买杂货、预订餐厅以及提交费用报告等任务。

这标志着OpenAI正式进军日益激烈的AI智能体赛道。在此之前,包括微软、Salesforce和Workday等商业软件公司纷纷推出了各自的智能体。谷歌和人工智能初创公司Anthropic近期也推出了类似的智能体工具,它们与OpenAI的Operator相似,能够浏览网页并与菜单和按钮进行交互。

目前,OpenAI的“Operator”智能体以“研究预览”(research preview)的形式向美国的ChatGPT Pro用户开放。这一阶段表明该产品仍处于发展初期,可能存在局限性,在演进过程中可能会出现错误。ChatGPT Pro的订阅费用为每月200美元,该服务专为需要高级AI功能的专业用户设计,提供无限制访问包括GPT-4o和o1在内的高级模型。

OpenAI表示,计划将Operator功能逐步推广到ChatGPT的Plus、Team和Enterprise用户。在直播活动中,OpenAI首席执行官山姆·奥特曼(Sam Altman)提到,Operator功能将很快在其他国家推出,但欧洲地区可能需要更长时间。

OpenAI首席运营官布拉德·莱特卡普(Brad Lightcap)表示,Operator能够在家庭和工作中节省时间,尤其是在自动化常见任务方面存在“巨大潜力”。

不过,为了确保该技术的平稳发展,公司决定先向其最活跃的用户群体开放,这些用户“更愿意认识到该产品仍处于研究预览阶段。”他指出:“Operator从根本上改变了人们与计算机的交互方式。这是一个艰巨的技术挑战,其价值取决于它的实用性。”

此外,OpenAI正在与包括Instacart、Uber、eBay、Priceline、OpenTable和Etsy在内的科技公司合作,以便让用户在Operator主页上更便捷地访问这些公司的网页。莱特卡普强调,这些公司与OpenAI在Operator合作中并无财务关系。

与竞争对手相比,OpenAI的关键差异之一在于产品的用户覆盖范围。ChatGPT每周拥有3亿活跃用户。

此外,OpenAI去年秋季表示其拥有100万付费商业客户。如此庞大的用户基础为AI智能体技术提供了巨大的市场机会,使其能够触及到海量用户。相比之下,OpenAI的一些竞争对手在用户覆盖方面的能力相对有限。截至目前,OpenAI未对外公布其Pro计划的具体付费用户数量。

使用新模型CUA



Operator背后的驱动力是OpenAI的新模型“计算机使用智能体”(Computer-Using Agent,简称CUA)。

该模型融合了GPT-4o的视觉能力与通过强化学习实现的高级推理能力。CUA经过训练,能够像人类一样与图形用户界面(GUI)交互,包括屏幕上的按钮、菜单和文本框。这种能力使其能够灵活地执行数字任务,无需依赖特定操作系统或网页的API。

CUA的开发基于多年在多模态理解和推理领域的基础研究。它结合了高级的图形用户界面感知能力与结构化的问题解决能力,能够将任务分解为多步骤计划,并在遇到挑战时自我调整和纠正。

这一能力标志着人工智能发展的新阶段,使模型能够使用人类日常依赖的工具,并为一系列新应用打开了大门。

尽管CUA仍处于早期阶段且存在局限性,但它已经在多个基准测试中取得了新的最高水平:在OSWorld的完整计算机使用任务中成功率为38.1%,在WebArena中为58.1%,在WebVoyager的网页任务中为87%。

这些结果表明,CUA能够在多样化的环境中使用单一通用动作空间(a single general action space)进行操作。

CUA的工作原理



CUA通过处理原始像素数据来理解屏幕上的动态,并借助虚拟鼠标和键盘完成操作。它能够导航多步骤任务、处理错误并适应意外变化,从而在各种数字环境中执行任务,例如填写表单和浏览网站,无需依赖特定的API。

在用户指令的引导下,CUA通过一个迭代循环来整合感知、推理和行动:

感知:计算机的屏幕截图被纳入模型的上下文中,为模型提供计算机当前状态的视觉快照。

推理:CUA通过思维链来推导下一步操作,综合考虑当前和过去的屏幕截图及已执行的动作。这种“内心独白”(inner monologue)机制通过评估观察结果、跟踪中间步骤和动态调整,提升了任务执行的效率。

行动:CUA执行点击、滚动或输入等操作,直至任务完成或需要用户干预。尽管它能自动处理大多数步骤,但在涉及敏感操作(如输入登录信息或响应验证码)时,会寻求用户确认。

局限性与风险

尽管AI智能体潜力巨大,但其易用性仍面临挑战。已发布的各款智能体均承诺通过为用户执行任务来节省时间和提高效率,但大多数人尚未在日常生活中广泛使用此类工具。

例如,苹果于去年秋季在其iPhone操作系统中推出了人工智能助手Apple Intelligence,但目前该工具尚未广泛应用于日常事务。即使是企业,大多数AI智能体也仅处于测试阶段或以有限的方式使用,以避免暴露公司机密数据或引发网络安全风险。

莱特卡普表示,OpenAI可能会为企业客户增加特定的控制措施或安全护栏,但目前公司仍专注于首批用户。他指出,OpenAI已经开发了隐私、安全和控制功能,以确保智能体不会偏离其编程设定,最重要的是,保持用户对人工智能的控制权。

OpenAI指出,Operator可能面临的风险或滥用情况包括:恶意网站试图欺骗用户、用户试图欺骗代理,以及“提示注入”(prompt injections)攻击,后者可能导致用户将敏感信息或资金发送到恶意网站。

为应对这些风险,Operator推出一项名为“接管模式”(takeover mode)的功能,要求用户手动输入支付详情或登录信息。此外,Operator在执行高风险任务(如发送邮件)之前会征求用户批准,并且不会处理涉及银行交易或决定求职申请的任务。

同时,Operator不会使用用户之前与ChatGPT共享的数据来执行操作。莱特卡普表示,尽管目前存在局限性,但OpenAI在经过“充分准备和谨慎评估”后,认为Operator已具备有限发布的条件。

 

相关新闻