O OpenAI lançou o agente ChatGPT, que atualiza seu modelo de inteligência artificial (AI) que o equipou com um computador virtual e um kit de ferramentas integrado.
Essas novas ferramentas permitem que o agente execute tarefas complexas e multifásicas que a repetição anterior do ChatGPT não conseguiu controlar seu computador e concluir as tarefas para você.
Esta versão mais poderosa, que ainda depende da entrada e supervisão humana, Mark Zuckerberg anunciou que os pesquisadores de meta haviam mostrado seu próprio modelo de IA. Sinais de auto -melhoramento independente. A versão mais recente do barco de bate -papo de Openi de Open -pen foi iniciada antes do lançamento do Open o GPT -5.
Com o agente do ChatGPT, os usuários agora podem pedir para analisar o Modelo de Idioma Maior (LLM) apenas para analisar ou coletar dados, mas para trabalhar nesses dados, disseram os representantes abertamente em um Declaração?
Por exemplo, você pode comandar o agente para avaliar seu calendário e informar os próximos eventos e lembretes ou estudar o corpus dos dados e resumir como um resumo ou deck de slide do urso. O LLM tradicional pode encontrar e fornecer receitas para o café da manhã de estilo japonês, enquanto os agentes do ChatGPT podem planejar e comprar completamente o mesmo café da manhã para os hóspedes em um número específico de convidados.
No entanto, o novo modelo, apesar de ser extremamente capaz, ainda enfrenta muitas limitações. Como todos os modelos de IA, sua lógica local é fraca, por isso luta com tarefas como o planejamento de maneiras físicas. Ele também não tem a capacidade de processar informações sem a verdadeira memória, recorrência confiável ou referência imediatamente à interação anterior além do contexto.
No entanto, o agente do ChatGPT mostra uma melhoria significativa no abordamento aberto do aberto. Atual O último exame da humanidadeUm benchmark de IA que avalia o modelo do modelo para responder a questões de nível de especialista em muitos assuntos, dobrou a porcentagem de precisão (41,6%) em relação ao O3 O3 sem ferramentas equipadas (20,3%).
Relacionado: O modelo de IA ‘Smart’ de Opanie foi convidado a fechar – e eles recusaram
Ele tem um desempenho muito melhor do que outras ferramentas de abertura, bem como uma versão própria, que não possui ferramentas como navegador e computador virtual. No benchmark de matemática mais difícil do mundo, os modelos anteriores ultrapassaram o Frontemath, o agente do ChatGPT e suas ferramentas.
O agente foi vinculado a três pilares extraídos dos produtos de abertura anteriores. Um pé é um ‘operador’, que é um agente que usará seu próprio navegador virtual para apagar o encanamento da web para os usuários. Segundo, ‘pesquisa profunda’, criada para combinação e síntese por grandes dados. A última parte do quebra -cabeça são as versões anteriores do ChatGPT, que tiveram um desempenho excelentemente em embrulho e apresentação de conversação.
“Em suma, pode ser autonomamente navegando na web, gera o código, criando arquivos e tudo sob a supervisão humana disse”. Café NercoProfessor da Universidade Estadual de Morgan e Diretor de Engenharia de Dados e Analista de Profecia (DEPA) Laboratório de Pesquisa.
No entanto, o novo agente ainda não era autônomo, Nyarko foi rápido em enfatizar. “A ilusão, a interface do usuário pode causar erros devido à fragilidade ou explicações erradas. Como salvaguardas internas, solicitações de permissão e interrupções, não o suficiente para eliminar completamente o risco, mas não o suficiente.”
O risco de mover ai
Está aberto Confessou o perigo O novo agente e seu aumento da autonomia. Representantes da empresa mencionaram que o agente do ChatGPT possui “altas capacidades orgânicas e químicas”, alegando que possivelmente lhes permitem ajudar a produzir armas químicas ou biológicas.
Os especialistas em biosecuri do agente de IA são chamados de “maneiras de aumentar a capacidade” em comparação com os recursos atuais, como o Chem Lab e os livros didáticos. A IA pode remover inúmeros recursos e sintetizar imediatamente os dados, mesclar conhecimento em assuntos científicos, fornecer problemas repetitivos como guias especializados, navegar nos sites dos fornecedores, preencher o formulário de pedido e ignorar o exame de verificação básica.
Com seu computador virtual, o agente pode interagir autonomamente com arquivos, sites e ferramentas on -line, o que lhes permite prejudicar mais potencial se abusar. Para uma oportunidade de violação de dados ou manipulação de dados, bem como para comportamentos errados, como fraude financeira, estendida ao evento de um Ataque de injeção instantânea Ou sequestro.
Segundo Neron, esses riscos são adicionais ao modelo tradicional de IA e ao LLM introduzido.
Ele disse: “Há uma ansiedade generalizada para os agentes de IA, como como os agentes autônomos podem estender erros, viés nos dados públicos, complicar a estrutura de responsabilidade e aumentar a dependência mental”, afirmou.
Respondendo a novas ameaças decorrentes de mais modelos de agentes, os engenheiros abertos também fortaleceram muitos guardas de segurança, disseram os representantes da empresa.
Isso inclui modelagem ameaçadora, treinamento de recusa dupla-YU-os modelos são ensinados a rejeitar solicitações prejudiciais em torno dos dados que podem ser focados nos programas e especialistas e especialistas com limites de limpeza de bi-timing enfraquecidos, atacando o sistema de ponta vermelha. No entanto, a Avaliação de gerenciamento de riscos A Safai foi organizada em julho de 2025, um Nanafa concentrado em segurança, chamado políticas de gerenciamento de risco da Open, fracas, 33% do potencial 100%. Open também marcou na nota C Índice de Segurança da AI Compilado pelo futuro do principal Instituto de Vida da Firma de Segurança da IA.