Apresentamos o Agente do ChatGPT: a União Entre Investigação e Ação

Press Release: Agora, o ChatGPT pensa e age, escolhendo proativamente habilidades agênticas em uma caixa de ferramentas para realizar tarefas usando um computador próprio.

Agora, o ChatGPT pode trabalhar para você usando um computador próprio. De quebra, também pode realizar tarefas complexas do início ao fim.

Você já pode solicitar ao ChatGPT que realize ações como "consulte minha agenda e me informe sobre as próximas reuniões com clientes com base nas notícias recentes", "planeje e compre ingredientes para um jantar de comida japonesa para quatro" ou "analise três concorrentes para criar uma apresentação". O ChatGPT então navegará em sites, filtrará resultados, solicitará que você faça login com segurança quando necessário, executará código, realizará análises e até mesmo fornecerá apresentações e planilhas editáveis que fazem um resumo com as principais descobertas. 

A base desse novo recurso é um sistema agêntico unificado, que reúne três pontos fortes vindos dos avanços anteriores: a capacidade do Operator de interagir com sites, a habilidade da investigação em sintetizar informações e a inteligência e fluência conversacional do ChatGPT.

O ChatGPT executa essas tarefas usando seu próprio computador virtual, integrando reflexão e ação para lidar com fluxos de trabalho complexos do início ao fim — seguindo sempre as instruções que você definiu.

E sabe o que é mais importante? Você fica sempre no controle. O ChatGPT solicita permissão antes de realizar ações significativas. Isso significa que, a qualquer momento, você pode interromper o processamento, assumir o controle do navegador ou interromper tarefas.

A partir de hoje, os usuários do Pro, Plus e Team podem ativar a qualquer momento os novos recursos agênticos do ChatGPT diretamente no menu suspenso de ferramentas. Basta selecionar a opção "modo agente" em qualquer conversa. 

O agente do ChatGPT já é uma ferramenta avançada para lidar com tarefas complexas, mas o lançamento de hoje é apenas o começo. Continuaremos realizando melhorias significativas de forma iterativa e regular, aumentando sua capacidade e utilidade para grupos cada vez maiores de pessoas ao longo do tempo.

Uma evolução natural do Operator e da investigação

Antes, o Operator e a investigação já apresentavam alguns pontos fortes exclusivos: o Operator podia rolar, clicar e digitar na web. Já a investigação se destacava na análise e no resumo de informações. No entanto, eles funcionavam melhor em situações diferentes: o Operator não era capaz de se aprofundar em análises ou criar relatórios detalhados, e a investigação não conseguia interagir com sites para refinar resultados e tampouco acessar conteúdo que exigisse autenticação do usuário. Na verdade, percebemos que muitas consultas que os usuários tentavam realizar no Operator eram mais adequadas para a investigação. Por isso, reunimos o melhor das duas ferramentas em um único recurso.

Com a integração desses pontos fortes complementares no ChatGPT e a introdução de ferramentas adicionais, liberamos recursos totalmente novos dentro do modelo. Agora, ele pode interagir ativamente com sites e consegue clicar, filtrar e obter resultados mais precisos e eficientes. Você também pode mudar naturalmente de uma conversa simples para uma solicitação de ações dentro do mesmo chat. 

Um agente que trabalha para você, com você 

Incluímos um pacote de ferramentas no ChatGPT: um navegador visual que interage com a web por meio de uma interface gráfica de usuário, bem como um navegador baseado em texto para consultas na web com reflexões mais simples, um terminal e acesso direto à API. Além disso, o agente pode utilizar os conectores do ChatGPT(abre em uma nova janela) para vincular aplicativos como Gmail e GitHub, permitindo que o ChatGPT encontre informações relevantes para os prompts e use-as na hora de gerar respostas. Você também pode assumir o controle do navegador e entrar em qualquer site para que o agente realize investigações e tarefas com maior profundidade e abrangência. Uma vez que consegue usar esses diferentes meios para acessar e interagir com informações da web, o ChatGPT consegue escolher o caminho ideal para realizar tarefas com mais eficiência. Por exemplo: ele pode coletar informações de um calendário usando uma API, refletir sobre grandes quantidades de texto com eficiência usando o navegador baseado em texto e pode até interagir visualmente com sites projetados para humanos. 

Tudo isso é feito usando o próprio computador virtual do agente, que preserva o contexto necessário para a tarefa mesmo durante a utilização de várias ferramentas. O modelo pode abrir uma página usando o navegador de texto ou o navegador visual, carregar um arquivo da web, manipulá-lo executando um comando no terminal e, por fim, visualizar o resultado no navegador visual. O modelo adapta a abordagem para executar tarefas com rapidez, precisão e eficiência.

O agente do ChatGPT foi projetado para fluxos de trabalho iterativos e colaborativos, e por isso oferece muito mais interação e flexibilidade do que os modelos anteriores. Você pode interromper o trabalho do ChatGPT quando quiser para esclarecer suas instruções, ou então quando quiser orientá-lo de modo a obter os resultados desejados ou alterar por completo a tarefa. Ele retomará o trabalho de onde parou, usando as novas informações sem perder o progresso anterior. Da mesma forma, quando necessário, o próprio ChatGPT pode solicitar proativamente que você informe mais detalhes para garantir que a tarefa permaneça alinhada aos objetivos. Se uma tarefa demorar mais do que o previsto ou parecer travada, você pode pausá-la, solicitar um sumário do que já foi feito ou interrompê-la totalmente e ficar apenas com os resultados parciais. Se o seu celular tiver o aplicativo do ChatGPT, ele enviará uma notificação quando concluir a tarefa.

Maior utilidade no mundo real 

Esses recursos agênticos unificados aprimoram consideravelmente a utilidade do ChatGPT em contextos profissionais e do dia a dia. No trabalho, você pode automatizar tarefas repetitivas, por exemplo: converter capturas de tela ou painéis de controle em apresentações com elementos vetoriais editáveis, reorganizar reuniões, planejar e reservar eventos externos e atualizar planilhas com novos dados financeiros, mantendo a mesma formatação. Na vida pessoal, ele facilita o planejamento e a reserva de roteiros de viagem, a definição e a reserva de restaurantes ou mesmo a localização de especialistas e o agendamento de consultas. 

Os recursos sofisticados do modelo apresentam desempenho incomparável (SOTA) nas avaliações que medem a navegação na web e a capacidade de conclusão de tarefas reais. 

Na Humanity's Last Exam(abre em uma nova janela)*, uma avaliação que testa a IA em uma ampla gama de assuntos com perguntas de nível especializado, o modelo que alimenta o agente do ChatGPT alcançou um novo SOTA de pass@1 com 41,6. Como o agente planeja dinamicamente e escolhe suas próprias ferramentas, ele pode realizar a mesma tarefa de maneiras diferentes e com execuções distintas. Quando ampliamos a escala desse recurso com uma estratégia de lançamento paralelo simples, executando até oito tentativas ao mesmo tempo e escolhendo aquela que relatou a maior confiança, a pontuação HLE do agente aumenta para 44,4.


O FrontierMath**, o benchmark de matemática mais difícil de todos, apresenta problemas novos e inéditos que matemáticos especializados costumam levar horas ou até dias para resolver. Com o uso de ferramentas, como por exemplo o acesso a um terminal para execução de código, o agente do ChatGPT alcança precisão de 27,4% — superando, e muito, os modelos anteriores.

Também avaliamos o modelo usando benchmarks projetados com base em tarefas reais complexas. Em um benchmark interno projetado para avaliar o desempenho do modelo em tarefas complexas de trabalho com conhecimento economicamente valioso, os resultados do agente do ChatGPT igualam ou superam os de humanos (em aproximadamente metade dos casos, com tarefas de duração variada) e são significativamente superiores aos do o3 e o4-mini. Os resultados do modelo são avaliados por especialistas com base em referências humanas de alta qualidade, criadas pelos melhores desempenhos em cada campo. Essas tarefas, obtidas com especialistas de diversas ocupações e setores, refletem trabalhos profissionais reais — como, por exemplo, preparar uma análise competitiva de provedores de atendimento de urgência sob demanda, definir cronogramas de amortização detalhados e identificar poços de água viáveis para uma nova instalação de hidrogênio ambientalmente responsável.  

No DSBench(abre em uma nova janela), projetado para avaliar agentes de acordo com tarefas de ciência de dados que abrangem análise e modelagem, o agente do ChatGPT supera o desempenho humano com uma margem notavelmente significativa.

No SpreadsheetBench, que avalia a capacidade de modelos para editar planilhas derivadas de cenários reais, o agente do ChatGPT supera os modelos existentes com uma margem considerável. Quando equipado com a capacidade de editar planilhas diretamente, o agente do ChatGPT alcança uma pontuação ainda mais alta: 45,5%, em comparação com 20,0% do Copilot no Excel.

Em um benchmark interno que mede a capacidade do modelo de assumir tarefas de modelagem de um analista de investimentos bancários do primeiro ao terceiro ano — como, por exemplo, montar um modelo financeiro de três demonstrativos para uma empresa da Fortune 500 com formatação e citações adequadas, ou criar um modelo de compra alavancada para uma empresa de capital fechado — o modelo utilizado pelo agente do ChatGPT supera significativamente a investigação e o o3. Cada tarefa é pontuada com base em centenas de critérios relacionados à correção e ao uso de fórmulas. 

Também avaliamos o agente do ChatGPT no BrowseComp, um benchmark que publicamos no início deste ano e que consegue medir a capacidade de localização de informações difíceis de encontrar na web por parte dos agentes de navegação. O modelo estabeleceu um novo SOTA de 68,9. É uma marca que fica 17,4 pontos percentuais acima da pontuação da investigação. 

Por fim, no WebArena(abre em uma nova janela), um benchmark projetado para avaliar o desempenho de agentes de navegação na web no que diz respeito à conclusão de tarefas reais, o modelo melhora em relação ao CUA (o modelo utilizado pelo Operator) baseado em o3. 

Como usar

A qualquer momento, você pode ativar os novos recursos agênticos do ChatGPT diretamente no menu suspenso de ferramentas. Basta selecionar a opção "modo agente" em qualquer conversa. Basta descrever a tarefa desejada — conduzir uma investigação, criar uma apresentação ou enviar despesas, por exemplo. Conforme a tarefa é realizada, uma narração na tela mostra exatamente o que o ChatGPT está fazendo. Sempre que necessário, você pode interromper e assumir o controle do navegador para garantir que as tarefas permaneçam alinhadas aos objetivos.

Os seus conectores podem ser acessados pelo agente do ChatGPT, permitindo que ele se integre aos seus fluxos de trabalho e acesse informações relevantes e acionáveis. Uma vez autenticados, esses conectores permitem que o ChatGPT acesse informações e realize ações, como resumir a caixa de entrada ou encontrar horários em que você está disponível para uma reunião. No entanto, para realizar essas ações, você precisará assumir o controle do navegador e fazer login. 

Além disso, é possível agendar tarefas concluídas para repetição automática. Isso é muito útil caso você queira gerar um relatório semanal de métricas toda segunda-feira de manhã, por exemplo.

Novos recursos, novos riscos 

Este lançamento marca a primeira vez que os usuários podem pedir ao ChatGPT para realizar ações na web. Esse avanço introduz novos riscos, principalmente porque o agente do ChatGPT pode trabalhar diretamente com os dados acessados por meio de conectores ou em sites aos quais você o conectou usando o modo de controle. Fortalecemos os controles de pré-visualização de investigação do Operator, que já eram robustos, e adicionamos proteções para desafios — como o tratamento de informações confidenciais reais na web, o maior alcance do usuário e o acesso (limitado) do terminal à rede. Essas mitigações reduzem substancialmente o risco, mas as ferramentas mais sofisticadas e o alcance mais amplo do usuário do agente ChatGPT significam que o perfil de risco geral aumentou. 

Enfatizamos fortemente a proteção do agente do ChatGPT contra manipulação adversarial por meio da engenharia de prompts, que representa um risco para os sistemas agênticos em geral, e preparamos mitigações adequadas mais abrangentes. A engenharia de prompts consiste em tentativas de manipulação de comportamento por terceiros usando instruções maliciosas que o agente do ChatGPT pode encontrar na web ao realizar uma tarefa. Por exemplo, um prompt malicioso oculto em uma página da web (como em elementos ou metadados invisíveis) pode induzir o agente a realizar ações não intencionais, como compartilhar dados privados de um conector com o invasor ou executar uma ação prejudicial em um site no qual o usuário entrou. Como o agente do ChatGPT pode realizar ações diretas, os ataques bem-sucedidos podem ter maior impacto e representar riscos mais altos. 

Treinamos e testamos o agente na identificação e resistência à engenharia de prompts, além do monitoramento para detectar e responder rapidamente a ataques desse tipo. A exigência da confirmação explícita do usuário antes de ações impactantes reduz ainda mais o risco de possíveis danos. Além disso, quando necessário, os usuários podem pausar ou assumir o controle das tarefas. Os usuários devem ponderar as vantagens e desvantagens ao escolher as informações passadas para o agente e tomar medidas para minimizar a exposição a esses riscos, como desativar os conectores não utilizados por uma tarefa. 

Também implementamos mitigações contra erros do modelo, principalmente porque esse modelo agora pode realizar tarefas com consequências reais: 

  • Confirmação explícita do usuário: o ChatGPT é treinado para solicitar sua permissão explícita antes de realizar ações com consequências reais, como fazer uma compra.
  • Supervisão ativa ("Modo observação"): algumas tarefas críticas, como enviar e-mails, exigem supervisão ativa.
  • Mitigação proativa de riscos: o ChatGPT é treinado para recusar ativamente tarefas de alto risco, como transferências bancárias.

Por fim, criamos controles adicionais para limitar os dados que o modelo pode acessar: 

  • Controles de privacidade: com um único clique nas configurações do ChatGPT, você pode excluir todos os dados de navegação e encerrar imediatamente as sessões ativas nos sites acessados. Caso contrário, os cookies persistem de acordo com as políticas de cookies de cada site acessado, o que aumenta a eficiência de visitas repetidas.
  • Modo de controle do navegador seguro: quando você interage com a web usando o navegador do ChatGPT (com o "modo controle"), suas entradas permanecem privadas. O ChatGPT não coleta nem armazena dados inseridos por você durante essas sessões (por exemplo, senhas) porque o modelo não precisa desses dados. E isso, afinal, aumenta a segurança.

O mais forte stack de segurança contra riscos biológicos 

Considerando a expansão dos recursos do modelo, decidimos tratar o agente do ChatGPT como tendo altas capacidades biológicas e químicas segundo o nosso Framework de prontidão, ativando assim as proteções adequadas. Não temos evidências definitivas de que o modelo possa ajudar de forma significativa alguém com pouca experiência a causar danos biológicos graves — nosso limite para definir alta capacidade —, mas optamos por adotar uma abordagem preventiva e implementar agora as proteções necessárias. Portanto, esse modelo tem o stack de segurança mais abrangente até o momento, com proteções avançadas de biologia: modelagem de ameaças abrangente, treinamento de recusa de uso duplo, classificadores e monitores de reflexão sempre ativos e, por fim, pipelines claros de fiscalização. 

Além de nosso trabalho para aumentar a segurança do agente do ChatGPT, sabemos que a biossegurança em camadas funciona melhor quando as proteções abrangem mais que apenas um laboratório individual. Por isso, colaboramos com todo o ecossistema para fortalecer as defesas. Trabalhamos desde o primeiro dia com especialistas externos em biossegurança, institutos de segurança e investigadores acadêmicos para moldar nosso modelo de ameaças, avaliações e políticas. Revisores treinados em biologia validaram nossos dados de avaliação. Além disso, equipes de testes ofensivos especializadas nesse domínio testaram as proteções em cenários realistas. No início deste mês, realizamos um workshop de defesa biológica com especialistas governamentais e acadêmicos, laboratórios nacionais e ONGs para acelerar a colaboração e promover a investigação de defesas biológicas baseadas em IA. Continuaremos a criar parcerias globais para ficar à frente da evolução dos riscos. 

Leia mais sobre nossa abordagem de segurança robusta do modelo agêntico unificado no cartão do sistema. Além disso, estamos lançando um Programa de Bug Bounty para identificar e corrigir riscos reais.

Disponibilidade

O agente do ChatGPT começa a ser oferecido hoje para usuários Pro, Plus e Team. Os usuários Pro receberão o acesso até o final do dia, e os usuários Plus e Team, nos próximos dias. Os usuários Enterprise e Education receberão o acesso nas próximas semanas. Os usuários Pro recebem 400 mensagens por mês. Outros usuários pagos recebem 40 mensagens mensais, com uso adicional disponível por meio de opções flexíveis baseadas em crédito.

Continuamos trabalhando para oferecer esse acesso no Espaço Econômico Europeu e na Suíça. 

Após um período funcional de mais algumas semanas, o site de pré-visualização da investigação do Operator será desativado. A investigação faz parte dos recursos do agente do ChatGPT. Você também a opção de acessar o recurso de investigação original — que pode demorar mais, só que fornece por padrão respostas mais detalhadas e aprofundadas. Basta selecionar "investigação" no menu suspenso do compositor de mensagens.

Limitações e próximos passos 

O agente do ChatGPT ainda está dando seus primeiros passos. Isso significa que, embora ele consiga assumir diversas tarefas complexas, ainda assim pode cometer erros. 

Percebemos um potencial significativo na criação de apresentações, mas a funcionalidade ainda está na versão beta. A formatação e o refinamento dos resultados podem parecer rudimentares, principalmente se você estiver montando um documento do zero. Concentramos os recursos iniciais do modelo na geração de artefatos que organizam as informações em um fluxo e formato adequados para apresentações. Com a otimização de estrutura e flexibilidade, elementos como texto, gráficos, imagens e formas podem ser editados nativamente com facilidade após a exportação. Também há discrepâncias ocasionais entre os slides no visualizador e o arquivo PowerPoint exportado. Estamos trabalhando para reduzir esse tipo de evento. Além disso, embora seja possível carregar uma planilha para edição ou uso como modelo no ChatGPT, esse recurso ainda não está disponível para apresentações. Já estamos treinando a próxima iteração da criação de apresentações do ChatGPT para produzir resultados mais refinados e sofisticados, com recursos mais amplos e melhor formatação.

No geral, esperamos melhorias contínuas na eficiência, profundidade e versatilidade do agente do ChatGPT ao longo do tempo, incluindo interações mais bem integradas. Continuaremos a ajustar a quantidade de supervisão exigida do usuário para aumentar a utilidade e garantir a segurança durante o uso.

Mais informações aqui.