Início Notícias A mídia bloqueia o acesso ao Internet Archive para evitar ‘vazamento de...

Notícias

A mídia bloqueia o acesso ao Internet Archive para evitar ‘vazamento de site’ destinado ao treinamento de IA

Por

Janeiro 31, 2026

De acordo com informações fornecidas pelo Nieman Lab e uma análise com dados do jornalista Ben Welsh, até o final de dezembro, 241 portais de notícias em nove países haviam bloqueado pelo menos um dos robôs rastreadores do Internet Archive. O estudo destacou que boa parte desses portais pertence ao grupo editorial USA Today. Este cenário representa a resposta de muitos meios de comunicação ao utilizarem o seu conteúdo para treinar sistemas de inteligência artificial sem o seu consentimento.

O Nieman Lab informou que muitas organizações de mídia, incluindo jornais como The Guardian e The New York Times, bem como editores como o USA Today, tomaram medidas para restringir o acesso do Internet Archive aos seus domínios. Essas empresas colocaram códigos no arquivo robots.txt para restringir o acesso aos bots archive.org_bot e ia_archiver-web.archive.org, que visam evitar que o conteúdo de seus portais seja coletado e utilizado, sem autorização, no processo de aperfeiçoamento de modelos artificiais.

A mídia Nieman Lab explicou detalhadamente que esta decisão surge da crescente preocupação da mídia, que percebeu que algoritmos e empresas de tecnologia estão acessando a biblioteca digital Internet Archive com o objetivo de acessar, através da prática de web scraping, materiais informativos que às vezes são protegidos por assinatura ou pagamento. A plataforma Internet Archive, conhecida pelo seu arquivo histórico Wayback Machine, recupera periodicamente páginas web e arquiva-as para consulta pública, incluindo artigos jornalísticos de diversas fontes.

Conforme publicado pelo Nieman Lab, o modelo de inteligência artificial usa robôs rastreadores para pesquisar e interpretar conteúdo de texto compartilhado publicamente na Internet. Essas práticas, estruturadas em torno de web scraping, permitiram que os desenvolvedores de IA obtivessem textos, tanto atuais quanto arquivados, para alimentar seus algoritmos de treinamento. A mídia, após verificar que parte de seu material acaba como dados para inteligência artificial sem consentimento prévio, optou por reforçar a segurança de seu conteúdo digital.

Alguns círculos editoriais iniciaram ações legais depois que se descobriu que uma empresa de inteligência artificial estava alimentando seus sistemas com informações obtidas da mídia noticiosa. O New York Times, por exemplo, abriu um processo contra OpenAI, Microsoft e Perplexity, por uso não autorizado de seus livros. Por sua vez, o Wall Street Journal e o New York Post entraram com uma ação legal contra a Perplexity por uma situação semelhante, de acordo com o Nieman Lab.

A mídia também destacou que, dada a profundidade do web scraping e o papel do Internet Archive no armazenamento em massa de informação digital, as ações da mídia procuram limitar o uso indiscriminado de conteúdo jornalístico por desenvolvedores de tecnologia. A Wayback Machine, como arquivo histórico, garante a preservação dos materiais digitais e a sua disponibilidade universal, o que a torna um recurso atrativo para empresas focadas no desenvolvimento de modelos de linguagem e inteligência artificial.

Nieman Lab enfatizou que o mais importante é que a possibilidade de coleta automática pode superar a intenção do Internet Archive como um projeto sem fins lucrativos, abrindo o debate sobre os direitos de propriedade intelectual e protegendo os interesses dos criadores e editores de conteúdo. O mecanismo de exclusão implementado no robots.txt representa uma forma tecnológica de impedir o acesso indiscriminado de crawlers, embora o seu sucesso dependa do cumprimento, por parte dos ‘bots’, das regras do ficheiro.

A análise concluiu que o maior número de restrições aos seguidores do Internet Archive veio do portal do conglomerado USA Today. No entanto, a lista inclui jornais importantes de vários países e indica uma tendência da indústria jornalística de tomar medidas tecnológicas e legais para impedir o uso não autorizado do seu trabalho no mundo da inteligência artificial.

Link da fonte

A mídia bloqueia o acesso ao Internet Archive para evitar ‘vazamento de site’ destinado ao treinamento de IA

Últimas notícias

O cantor country Tyler Farr cancelou seu show devido a um...

Ele tem 11 anos, treina desde os quatro e quer se...

O aniversário de 250 anos do UFC Freedom de Trump é...

“Como a destruição das Linhas de Nazca ou a destruição do...

Centenas de banhistas resgatados em OC; situações mais perigosas por vir

Tribunal de San Pedro Sula emite 33 sentenças em 2026 por...

As ações sobem globalmente, os preços do petróleo caem depois que...

Bélgica x Egito AO VIVO 0-1: jogo minuto a minuto do...

Spike Lee deveria dar um anel de campeonato? Sim, essas celebridades

Lafaurie atacou Gustavo Petro por suspender as operações contra os opositores...

Detetives da saúde estão atentos a ameaças de doenças durante a...

Um bombardeiro B-52 da Força Aérea cai em um local de...

Categorias