浏览器操作可行的 Operator 已由 OpenAI 公开,美国 ChatGPT Pro 需要付费才能使用

chatGPT网址2025-01-2734

chatgpt 欢迎访问chatgpt中文教程网,学习chatgpt相关知识,以下是正文内容:

  • 浏览器操作可行的 Operator 已由 OpenAI 公开

    推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

  • 美国 ChatGPT Pro 需要付费才能使用(日本目前还是)

  • API 预计在数周内公开

  • 基准性能很高,但 WebVoyager 在浏览器使用方面还不够

  • 出于安全考虑,政策或限制很严格,所以要确认一下

早上起来、哇!觉得很有趣!于是简要地总结了以下内容,但既然如此,也许写得更详细一些会更好。不过,正如 tl;dr 所写的那样,在国内还无法使用,米国的宠物也无法使用所以请不要惊讶,只是简单地提及功能、可能性和限制。

相关资源列表如下。我会逐一进行总结。

一部基于LLM生成的文章。在进行了事实核查后进行记载,但如果有所遗漏如哈尔西涅的忽视等,欢迎您提出指正。另外,虽然有点多余,但个人来说,不喜欢不明确标注为LLM生成和LLM生成的文章,所以如果有人投稿生成文章,请务必进行充分的查证。建议查证的工作量占 80%左右。因为这对自己的血肉和体力都是有益的。

介绍操作员

https://openai.com/index/introducing-Operator

这是原始文章。LLM 下面的内容是对摘要进行了一部分修改。

  • Operator 是一个通过操作 Web 浏览器执行任务的 AI 代理,其研究预览版已针对美国 Pro 用户发布

  • 基于 CUA 这一新模型,结合 GPT-4o 的视觉功能以及通过强化学习获得的高级推理能力,使 GUI 可操作

  • 查看网页截图,通过模拟鼠标和键盘操作进行“对话”,无需 API 集成即可在网页上执行操作

  • 自动化重复的浏览器任务(表单输入、在线订购、创建梗图),节省用户时间,为商业提供新的机会

  • 为确保安全部署,最初将向有限用户提供服务,根据反馈进行改进,未来目标是将其集成到 ChatGPT 并扩大目标用户群体

  • 用户可以随时接管远程浏览器的控制,设计时考虑了在登录或输入支付信息时、解决 CAPTCHA 时,代理将控制权委托给用户

  • 在任务执行前请求用户确认、拒绝高风险任务等,已实施安全措施,数据隐私管理也变得容易

  • 针对恶意网站攻击的防御,已导入 Prompt Injection 检测、可疑行为监控和威胁检测管道

  • 通过 API 公开 CUA 模型,计划让开发者能够构建自己的计算机利用代理,并正在推进功能强化以应对更复杂的流程

  • DoorDash、Instacart、OpenTable 等企业合作,应对现实需求,与 Stockton 市合作,使公共服务更容易获得等,期待广泛的应用

简单来说,Operator 利用 GPT-4o 的 Vision 等功能,可以实现截图理解、键盘操作、鼠标操作等功能。通过 API,开发者似乎可以将其集成到自己的产品或服务中。观察合作企业,它们正努力让 Operator 在各个用例中发挥作用,因此 Operator 是否会一家独大还有待观察,但今年这类浏览器代理似乎会逐渐普及。

操作员系统卡

https://openai.com/index/operator-system-card/

一部重复,但同样对LLM的摘要进行了修改,如下所示。

  • 操作员是结合了 GPT-4o 的视觉识别能力和强化学习的高级推理的计算机使用代理(CUA)模型的研究预览版

  • 通过 GUI 识别电脑屏幕,操作用户日常使用的工具和界面,可能支持广泛的任务

  • 在用户的指示和监督下,可以使用浏览器执行日常任务,如订购食品、预订和购买门票等

  • 针对提示注入或模型误操作、执行有害任务等风险,我们已实施多层次的安全措施

  • 模型通过结合监督学习和强化学习进行训练,学习电脑屏幕的识别和 UI 元素的精确点击,并提高推理、错误纠正和应对意外情况的能力

  • 风险评估中,分析用户目标和模型执行的行动,确定高风险任务和行动,并开发安全措施

  • 外部红队测试中,已识别出如 Jailbreak 等漏洞,并实施了额外的安全措施

  • 模型自主性评估中,测试了资源获取能力,由于视觉输入和光标输出的限制,发现在代码编辑或终端任务中存在困难

  • 安全措施包括拒绝有害任务、在重要操作前显示确认界面、以及引入用于检测和减轻潜在威胁的监控系统

  • 为了减轻模型误操作的风险,在购买或发送邮件等操作前要求用户确认,并已引入针对 Prompt Injection 的监控系统

由于自由度高的行为被允许,开发者方面可能会出现不可预测的行为。有关 Prompt Injection 或 Jailbreak 的讨论有所提及,但这并非唯一,浏览过程中的输入自由度相当高,各种网站发布者可能会故意或无意中在 Operator 对策中嵌入提示,或者包含可能改变行为的字符串。从这些安全性检查中可以看出,投入了相当多的资源。尤其是能够进行支付或对现实人类采取行动,因此这类服务需要包括 Red-teaming 在内的充分对策。

此处有兴趣的读者请参考 3.2 红队和 3.3 前沿风险评估(尤其是 CBRN 方面)。并非限制功能,而是为了尽可能减少恶意用户使用此类工具造成的损害。

计算机使用代理

https://openai.com/index/computer-using-agent

之前以 CUA 这个名字出现的 Computer-Using Agent 的解说文章也已经发布。一如既往,摘要和修改如下。

  • 操作员是网络上执行任务的代理,其核心技术是结合了 GPT-4o 的视觉能力和强化学习的高级推理的计算机使用代理(CUA)

  • CUA 可以像人类一样操作 GUI,无需使用操作系统或网络特有的 API,即可执行数字任务,解析屏幕上的像素数据,并通过虚拟鼠标和键盘进行操作

  • CUA 基于多模态理解和推理,可以将复杂任务分解为多个步骤,处理错误,并适应意外变化,因此可以实现表单输入或网站导航等功能

  • CUA 在计算机使用和浏览器使用两项基准测试中都确立了 SOTA,在 OSWorld 中达到 38.1%、在 WebArena 中达到 58.1%、在 WebVoyager 中达到 87% 的成功率

  • 将 CUA 的安全性作为首要任务,针对误用、模型错误和前沿风险这三大主要风险,实施拒绝、封锁列表、审查和离线检测等多层次的安全措施

  • 针对模型错误,引入用户确认、任务限制和监视模式,强化对意外操作和网站上的恶意攻击的防御

  • Operator 已作为研究预览提供给美国的一些 Pro 用户,我们将根据反馈持续改进安全措施和功能

  • CUA 通过感知、推理、行动的反复循环运作,解析屏幕截图以推断下一步,并根据用户指示执行操作

  • CUA 可以适应各种数字环境,不依赖专用 API,能够操作为人类设计的工具,因此可以应对许多 AI 模型无法处理的数字用例

  • API 通过,CUA 开发者可利用,计划存在,社区发现新用途案例期待,基于早期预览反馈,功能与安全性提升

本页面专注于 CUA,涉及基准测试和具体机制。借鉴机制图,以虚拟机屏幕为起点,向 CUA 提供截图和指令,生成动作,并将其应用于虚拟机,执行一个简单的流程。

具体测试过的任务包括语法问答、退款、拼图游戏、许可证更新、新客户开发、讲座视频下载、PDF 合并、图片压缩、价格计算、图片导出等。感觉比预期的更通用,所以很期待。

使用符合我们政策的操作员

https://openai.com/policies/using-operator-in-line-with-our-policies

运营商的单体使用条款也已准备就绪。一如既往,为摘要。

  • 操作员必须同意 OpenAI 的使用条款、服务条款和利用政策

  • 运营商的使用需年满 18 岁,欺诈、垃圾邮件、误导性行为是被禁止的

  • 未经许可冒充个人或组织的行为、隐瞒 AI 技术作用的行径、虚假信息的传播是被禁止的

  • 制作或使用违反法律的内容、侵犯隐私或知识产权、针对未成年人的违法行为是被禁止的

  • 禁止传播助长儿童性剥削的内容、欺凌、骚扰、诽谤、歧视、煽动暴力的行为

  • 安全、权利、健康等方面受影响的高风险领域的决策使用受到限制

  • 股票交易和投资交易的自动化、在政治活动或游说活动中的使用也受到限制

  • 服务中的速率限制、其他限制、安全措施规避行为是不被允许的

  • 这些政策是为了确保人工智能技术的安全且负责任的使用而设立的

  • 所有用户都必须遵守伦理标准、法律要求以及 OpenAI 的使用政策

从安全角度考虑可能很自然,但感觉使用上有很多限制。尽管 ChatGPT 的年龄限制是 13 岁以上,但 Operator 的年龄限制被提高到 18 岁以上。此外,对于股票交易、投资、名誉损害、歧视等不推荐的行为也广泛明确地被禁止。在使用时,请务必充分确认此页面,同时注意不要被垢 BAN 等(包括无意中)滥用。

  • OpenAI 发布首个 AI 代理「Operator」,可自主执行用户任务

  • 操作员可以在云端的网页浏览器上操作,自动完成网站上的任务,例如在 OpenTable 上预订餐厅或在 Instacart 上购物等

  • 操作员使用基于 GPT-4o 的新模型“CUA”,解析屏幕像素信息,模仿鼠标和键盘操作来操作网站

  • 无需使用 API,仅通过网站截图即可操作,这使得即使没有 API 的网站也能使用

  • 操作员在任务执行过程中向用户请求确认,以防止误操作和意外行为,实施安全措施

  • 用户可随时暂停操作,并可自行继续操作;为保护隐私,用户操作期间,Operator 不会监视屏幕

  • 运营商在 OS World 基准测试中达到 38.1%,在 Web Arena 基准测试中达到 58.1%的分数,尽管尚未达到人类的表现,但已超过现有的 AI 代理。

  • 运营商目前已开始向美国部分 Pro 用户提供服务,预计在未来数个月内也将扩展至 Plus 用户,API 预计在数周内公开

  • Operator 仍处于初步研究预览阶段,可能会出现错误,但计划进行持续改进和功能扩展

  • 操作员可以并行执行多个任务,因此用户可以同时委派多项工作

使用 Operator 向网站添加自定义指令,可个性化用户体验

  • 从账户设置中选择网站标签,为特定网站设置指令

  • 以 Priceline 为例,添加“全额退款”和“含早餐”的优先指示

  • 设定的指示是模型每次都会参考,用户无需重复指示

  • Priceline 上搜索 10 月 1 日至 7 日的纽约酒店

  • 床尺寸未指定,根据设定的模型优先级进行搜索

  • 操作员将自动执行搜索,确认详情后,请求用户确认

  • 用户确认后,可以自行进行检出或向模型请求检出

  • 模型在点击按钮之前,要求用户进行最终确认

  • 通过此功能,用户可以省去每次重复设置的时间,更有效地制定旅行计划

  • OpenAI 的 Operator 是通过浏览器辅助用户完成任务的研究预览版代理

  • 运营商未针对像 Instacart 这样的特定网站进行优化,而是使用与人类相同的浏览器界面

  • 操作员可以在网站上自动执行从食谱搜索到将食材添加到购物车的所有任务

  • 操作员不是通过 API 或编程接口,而是像人类一样通过键盘输入或鼠标操作来控制浏览器

  • 操作员的动作可以在屏幕上直观地确认,并可以追踪基于文本基础的思考链和计划执行过程

  • 任务执行中如有不明之处,操作员将通过请求用户确认以获得更准确的结果

  • 登录或购买等需要高保密性的操作时,Operator 将控制权委托给用户,以确保安全性

  • 操作员是设计为用户可以双重检查操作内容,重视透明度和可靠性

  • 操作员可以直接使用人类平时使用的浏览器界面,因此即使不是程序员也能容易理解

  • 操作员具有自动化复杂任务并减轻用户负担的潜力



GPT4代充值

本文链接:https://gptwangzhi.top/chatgpt/1784.html

Operator

相关文章

网友评论