OpenAI, a regra de ignorar humana que impede que bots copiem conteúdo da web

As duas maiores startups de IA do mundo estão ignorando os pedidos dos editores de mídia para parar de extrair seu conteúdo da web em busca de dados de treinamento de amostra grátis, descobriu o Business Insider.

Descobriu-se que OpenAI e Anthropic ignoram ou contornam uma regra estática da web chamada robots.txt, que impede a exclusão automática de sites.

A TollBit, uma startup que visa intermediar acordos de licenciamento pagos entre editores e empresas de IA, descobriu que muitas empresas de IA estavam se comportando dessa maneira e informou alguns dos principais editores em uma carta na sexta-feira, que foi A Reuters relatou isso anteriormente. A carta não incluía os nomes de nenhuma das empresas de inteligência artificial acusadas de contornar a regra.

OpenAI e Anthropic declararam publicamente que respeitam o arquivo robots.txt e bloqueiam seus próprios rastreadores da web, como GTBot e ClaudeBot.

No entanto, de acordo com as conclusões da TollBit, tais bloqueios não estão sendo respeitados, como alegado. As empresas de IA, incluindo OpenAI e Anthropic, optam por simplesmente “ignorar” o arquivo robots.txt para recuperar ou extrair todo o conteúdo de um determinado site ou página.

Uma porta-voz da OpenAI se recusou a comentar além da diretriz do BI para uma empresa Postagem no blog A partir de maio, a empresa afirma que leva em consideração as permissões do rastreador da web “sempre que treinamos um novo modelo”. Um porta-voz da Antrópico não respondeu aos e-mails solicitando comentários.

Robots.txt é um trecho de código usado desde o final da década de 1990 como uma forma de os sites informarem aos rastreadores de robôs que não desejam que seus dados sejam excluídos e coletados. Foi amplamente aceito como uma das regras de apoio não oficiais da Web.

READ Ações sul-coreanas se preparam para quedas semanais, liderando quedas

Com o advento da IA generativa, as startups e as empresas de tecnologia estão correndo para construir os modelos de IA mais poderosos. O ingrediente principal são dados de alta qualidade. A sede por tais dados de treinamento minou o robots.txt e as convenções informais que apoiam o uso deste código.

OpenAI está por trás do popular chatbot ChatGPT. O maior investidor da empresa é a Microsoft. A Anthropic está por trás de outro chatbot relativamente popular, Claude. Seu maior investidor é a Amazon.

Ambos os chatbots fornecem respostas às perguntas dos usuários em tom humano. Tais respostas só são possíveis porque os modelos de IA nos quais são construídas incluem grandes quantidades de texto escrito e dados extraídos da web, a maioria dos quais está protegida por direitos autorais ou é propriedade de seus criadores.

Várias empresas de tecnologia argumentaram no ano passado perante o Escritório de Direitos Autorais dos EUA que nada na web deveria ser considerado sujeito a direitos autorais quando se trata de dados de treinamento de IA.

A OpenAI tem alguns acordos com editores para acessar conteúdo, incluindo Axel Springer, dono do BI. O US Copyright Office deverá atualizar suas orientações sobre inteligência artificial e direitos autorais ainda este ano.

Você é um funcionário de tecnologia ou alguém que tem conselhos ou ideias para compartilhar? Conecte-se com Callie Hayes em khais@businessinsider.com Ou em um aplicativo de mensagens seguroSinal Em +1-949-280-0267. Comunique-se usando um dispositivo que não seja de trabalho.

Izer

Leave a Comment Cancel Reply