Existem muitas maneiras de testar a inteligência de um Inteligência artificial -O difícil para a fluidez de conversação, a compreensão da leitura ou mente que dobra Física. Mas alguns dos testes que provavelmente tentarão AIS são aqueles que as pessoas acham isso relativamente leve, até divertido. Embora a IA seja cada vez mais caracterizada por tarefas que requerem altos níveis de experiência humana, isso não significa que eles estejam próximos de alcançar a inteligência geral artificial ou a AGI. Agi Exige que a IA seja capaz de obter uma quantidade muito pequena de informações e usá -las para generalizar e se adaptar a muitas novas situações. Essa habilidade, que é a base do aprendizado humano, continua sendo um desafio para o AIS.
Um teste projetado para avaliar a possibilidade de generalizar a IA é o corpus de abstração e julgamento, ou esmalte: uma coleção de pequenos quebra -cabeças com redes coloridas que exigem um decisor para concluir uma regra oculta e depois aplicá -lo a uma nova grade. Desenvolvido pelo pesquisador de IA François Folet em 2019, tornou -se a base da ARC Awards Foundation, um programa sem fins lucrativos realizado pelo teste – agora um benchmark no setor usado por todos os principais modelos da IA. A organização também desenvolve novos testes e usa rotineiramente dois (ARC-AGI-1 e seu ARC-agi-2 mais problemático). Nesta semana, a fundação lança o Arc-Agi-3, que é especialmente projetado para testar os agentes da IA, baseia-se no que os faz jogar videogames.
Scientific American Ele falou sobre o presidente da Fundação ARC, o pesquisador e empresário da IA Greg Kamrad para entender como esses testes avaliam a AIS, que nos diz sobre o potencial da AGI e por que eles são frequentemente causados por modelos de aprendizado profundo, embora muitas pessoas tendam a encontrá -las relativamente. Os links para experimentar os testes estão no final do artigo.
(A seguir, uma transcrição editada da entrevista.)
Que definição de inteligência é medida pelo ARC-AGI-1?
Nossa definição de inteligência é sua capacidade de aprender coisas novas. Já sabemos que a IA pode ganhar xadrez. Sabemos que eles podem ganhar. Mas esses modelos não podem ser generalizados para novos domínios; Eles não podem ir e aprender inglês. Então, o que fez de François Sholet uma referência chamada Arc-Agi-Here ensina mini habilidade na pergunta e depois pede que você mostre essa mini habilidade. Basicamente, ensinamos algo e pedimos que você repita a habilidade que você acabou de aprender. Portanto, o teste mede a capacidade do modelo de aprender em um domínio estreito. Mas nossa afirmação é que não mede a AGI porque ainda está na faixa de domínio (na qual o aprendizado se aplica apenas a uma área limitada). Ele mede que a IA pode generalizar, mas não afirmamos que isso é AGI.
Como você define AGI aqui?
Há duas maneiras que vejo. O primeiro está mais tecnologicamente à frente, o que é “o sistema artificial pode corresponder à eficiência do aprendizado humano?” Agora, o que eu acho que depois que as pessoas nascem, elas aprendem muito com seus dados de treinamento. Na verdade eles realmente não ter Dados de treinamento, exceto por várias prioridades evolutivas. Então, aprendemos a falar inglês, aprender a dirigir um carro e aprender a andar de bicicleta – todas essas coisas fora de nossos dados de treinamento. É chamado de generalização. Quando você pode fazer as coisas do que você treinou agora, definimos isso como inteligência. Agora, uma definição alternativa de AGI que usamos é quando não podemos mais apresentar problemas que as pessoas podem fazer e a IA não pode – é quando temos AGI. É uma definição de incomodar. O lado de Flip também é verdadeiro, o que é o tempo que o prêmio ou a humanidade ainda pode encontrar problemas que as pessoas podem fazer, mas a IA não pode, então não temos AGI. Um dos principais fatores sobre a referência de François Sholet … é o que estamos testando as pessoas nelas, e a pessoa comum pode executar essas tarefas e esses problemas, mas a IA ainda tem um momento realmente difícil. A razão pela qual é tão interessante é que algumas AIs avançadas, como o GROC, podem passar em um exame de pós -graduação ou fazer todas essas coisas malucas, mas é uma inteligência cravada. Ainda não há poder para a generalização humana. E é isso que mostra essa referência.
Como seus benchmarks diferem dos usados por outras organizações?
Uma das coisas que nos distingue é que exigimos que nossa referência seja resolvida pelos seres humanos. É contrário a outros benchmarks, onde eles causam problemas com o Dr. Plus-Plus. Eles não precisam me dizer que a IA é mais inteligente do que eu – eu já sei que o O3 Open pode fazer muitas coisas melhor do que eu, mas não há poder para o homem generalizar. É isso que medimos, então precisamos testar as pessoas. De fato, testamos 400 pessoas no Arc-Agi-2. Nós os colocamos em uma sala, demos -lhes computadores, fizemos triagem demográfica e depois damos o teste. A pessoa média marcou 66 % do ARC-Agi-2. No entanto, coletivamente, as respostas agregadas de cinco a 10 pessoas conterão as respostas corretas para todas as perguntas do ARC2.
O que torna este teste de IA difícil e relativamente fácil para as pessoas?
Há duas coisas. As pessoas são incrivelmente amostradas com seu aprendizado, o que significa que podem considerar um problema e talvez um ou dois exemplos, podem coletar mini habilidade ou transformação e podem fazê-lo. O algoritmo que funciona na cabeça do homem é as ordens de tamanho melhor e mais eficientes do que o que vemos com a IA agora.
Qual é a diferença entre Arc-Agi-1 e Arc-Agi-2?
Então, Ark-Agi-1, François Folet, fez isso sozinho. Essas eram cerca de 1.000 tarefas. Foi em 2019. Ele basicamente fez a versão mínima sustentável para medir a generalização e mantinha cinco anos porque o aprendizado profundo não poderia tocá -lo. Não se aproximando. Em seguida, os modelos de raciocínio que foram lançados em 2024, pelo OpenII, começaram a avançar que mostraram uma mudança no nível do passo no que a IA pode fazer. Então, quando fomos ao Arc-Agi-2, fomos um pouco mais longe da toca do coelho em termos do que as pessoas podem fazer e a IA não pode. É preciso um pouco mais de planejamento para cada tarefa. Portanto, em vez de se estabelecer em cinco segundos, as pessoas podem fazê -lo em um minuto ou dois. Existem regras mais complicadas, e as redes são maiores, então você precisa ser mais preciso com sua resposta, mas esse é o mesmo conceito, mais ou menos … agora começamos a visão geral do desenvolvedor AGA-AGI-3, e essa é uma saída completa deste formato. O novo formato será realmente interativo. Então, pense nisso como uma referência para os agentes.
Como os agentes de teste ARC-Agi-3 serão comparados aos testes anteriores?
Se você pensa na vida cotidiana, é raro ter uma decisão sem cidadania. Quando digo sem cidadania, só penso em uma pergunta e resposta. Agora, todos os parâmetros de referência são mais ou menos benchmarks sem cidadania. Se você definir um modelo de idioma, ele fornecerá uma resposta única. Há muitos que você não pode testar com uma referência de cidadania. Você não pode testar o planejamento. Você não pode testar pesquisas. Você não pode testar a intuição para o seu ambiente ou os objetivos que o acompanham. Então, fabricamos 100 romances de videogames que usaremos para testar as pessoas para garantir que as pessoas possam fazê -las, porque é a base para a nossa referência. E então sentiremos falta do AIS nesses videogames e veremos se eles podem entender esse ambiente que nunca viram antes. Até o momento, com nossos testes internos, não tivemos IA para poder ganhar nem um nível em um dos jogos.
Você pode descrever videogames aqui?
Cada “ambiente” ou videogame é um quebra -cabeça bilimensional e baseado em pixels. Esses jogos são estruturados como níveis diferentes, cada um projetado para aprender a mini habilidade específica do jogador (humano ou IA). Para concluir com êxito o nível, o jogador deve demonstrar domínio dessa habilidade, realizando as seqüências planejadas de atividades.
Como os videogames usados para testar a AGI são diferentes de maneiras pelas quais os videogames foram usados para testar os sistemas de IA?
Os videogames têm sido usados há muito tempo como benchmarks na pesquisa de IA, com os jogos da Atari sendo um exemplo popular. Mas a referência tradicional para videogame enfrenta várias restrições. Os jogos populares têm dados de treinamento amplamente disponíveis, não têm desempenho padronizado para avaliação de desempenho e permitem métodos de força brutal que incluem bilhões de simulações. Além disso, os desenvolvedores que constroem agentes para você geralmente têm um conhecimento prévio desses jogos – incorporando inadvertidamente suas próprias informações sobre as soluções.
Tentar Arc-agi-1Assim, Arc-agi-2 E Arc-agi-3.
Este artigo foi publicado pela primeira vez em Scientific American. © Cientificamerican.com. Todos os direitos são reservados. Siga -o Tikotis e InstagramAssim, X E Facebook.