Início Notícias A mídia bloqueia o acesso ao Internet Archive para evitar ‘vazamento de...

A mídia bloqueia o acesso ao Internet Archive para evitar ‘vazamento de site’ destinado ao treinamento de IA

23
0

De acordo com informações fornecidas pelo Nieman Lab e uma análise com dados do jornalista Ben Welsh, até o final de dezembro, 241 portais de notícias em nove países haviam bloqueado pelo menos um dos robôs rastreadores do Internet Archive. O estudo destacou que boa parte desses portais pertence ao grupo editorial USA Today. Este cenário representa a resposta de muitos meios de comunicação ao utilizarem o seu conteúdo para treinar sistemas de inteligência artificial sem o seu consentimento.

O Nieman Lab informou que muitas organizações de mídia, incluindo jornais como The Guardian e The New York Times, bem como editores como o USA Today, tomaram medidas para restringir o acesso do Internet Archive aos seus domínios. Essas empresas colocaram códigos no arquivo robots.txt para restringir o acesso aos bots archive.org_bot e ia_archiver-web.archive.org, que visam evitar que o conteúdo de seus portais seja coletado e utilizado, sem autorização, no processo de aperfeiçoamento de modelos artificiais.

A mídia Nieman Lab explicou detalhadamente que esta decisão surge da crescente preocupação da mídia, que percebeu que algoritmos e empresas de tecnologia estão acessando a biblioteca digital Internet Archive com o objetivo de acessar, através da prática de web scraping, materiais informativos que às vezes são protegidos por assinatura ou pagamento. A plataforma Internet Archive, conhecida pelo seu arquivo histórico Wayback Machine, recupera periodicamente páginas web e arquiva-as para consulta pública, incluindo artigos jornalísticos de diversas fontes.

Conforme publicado pelo Nieman Lab, o modelo de inteligência artificial usa robôs rastreadores para pesquisar e interpretar conteúdo de texto compartilhado publicamente na Internet. Essas práticas, estruturadas em torno de web scraping, permitiram que os desenvolvedores de IA obtivessem textos, tanto atuais quanto arquivados, para alimentar seus algoritmos de treinamento. A mídia, após verificar que parte de seu material acaba como dados para inteligência artificial sem consentimento prévio, optou por reforçar a segurança de seu conteúdo digital.

Alguns círculos editoriais iniciaram ações legais depois que se descobriu que uma empresa de inteligência artificial estava alimentando seus sistemas com informações obtidas da mídia noticiosa. O New York Times, por exemplo, abriu um processo contra OpenAI, Microsoft e Perplexity, por uso não autorizado de seus livros. Por sua vez, o Wall Street Journal e o New York Post entraram com uma ação legal contra a Perplexity por uma situação semelhante, de acordo com o Nieman Lab.

A mídia também destacou que, dada a profundidade do web scraping e o papel do Internet Archive no armazenamento em massa de informação digital, as ações da mídia procuram limitar o uso indiscriminado de conteúdo jornalístico por desenvolvedores de tecnologia. A Wayback Machine, como arquivo histórico, garante a preservação dos materiais digitais e a sua disponibilidade universal, o que a torna um recurso atrativo para empresas focadas no desenvolvimento de modelos de linguagem e inteligência artificial.

Nieman Lab enfatizou que o mais importante é que a possibilidade de coleta automática pode superar a intenção do Internet Archive como um projeto sem fins lucrativos, abrindo o debate sobre os direitos de propriedade intelectual e protegendo os interesses dos criadores e editores de conteúdo. O mecanismo de exclusão implementado no robots.txt representa uma forma tecnológica de impedir o acesso indiscriminado de crawlers, embora o seu sucesso dependa do cumprimento, por parte dos ‘bots’, das regras do ficheiro.

A análise concluiu que o maior número de restrições aos seguidores do Internet Archive veio do portal do conglomerado USA Today. No entanto, a lista inclui jornais importantes de vários países e indica uma tendência da indústria jornalística de tomar medidas tecnológicas e legais para impedir o uso não autorizado do seu trabalho no mundo da inteligência artificial.



Link da fonte