Como big tech minera dados da internet para desenvolver modelos de inteligência artificial

Para treinar grandes modelos de inteligência artificial, empresas de tecnologia soltam pela internet robôs chamados de crawlers (rastreadores, em português), que a vasculham e reviram, a fim de extrair e categorizar dados disponíveis em sites.

Em alguns contextos, a prática pode ser considerada violação de direitos autorais.

Buscadores como o Google e o Bing, por exemplo, usam esses robôs, também chamados de spider (aranha), desde os primórdios da internet, para listar o que há disponível online. A tecnologia ainda é usada em serviços de comparação de preços, como Buscapé e Submarino. Essas soluções baixam apenas metadados —informações descritivas de um site, como horário e data de publicação.

Os rastreadores usados para desenvolver modelos de IA, por sua vez, raspam todo o conteúdo da página para condicionar o sistema a gerar os melhores textos, imagens e vídeos para cada resposta, diz Lucas Lago, pesquisador do Instituto Aaron Swartz.

O próprio Swartz que dá nome ao instituto, cofundador da rede social Reddit, foi um ciberativista processado pelo governo americano por usar um rastreador nos sistemas do MIT (Instituto de Tecnologia de Massachusetts) com o objetivo de baixar mais de 4 milhões de artigos acadêmicos —ele cometeu suicídio a semanas do julgamento, em janeiro de 2013.

"Para a gente do Instituto Aaron Swartz é especialmente incômodo ver empresas bilionárias sendo criadas com acesso clandestino a dados, quando o Aaron foi perseguido por ter feito algo similar com o objetivo de garantir um acesso mais democrático ao conhecimento", diz Lago.

A prática por parte de startups que visam lucro reacendeu a discussão sobre sua legalidade, uma vez que o material sintético gerado por IAs generativas, às vezes, tem trechos idênticos aos originais.

Saiba mais sobre a mineração de dados

COMO FUNCIONA?

O primeiro passo da raspagem de dados é enviar um sinal para o servidor de internet para receber o código por trás do site —esse algoritmo informa o que há de metadados, texto, imagem, vídeo, tabelas ou links em uma página da internet.

Todo rastreador parte de uma lista inicial de links, de acordo com Lago. Os que miram toda a internet são feitos para pular de link em link que encontram na sequência original de páginas. Uns buscam, especificamente, tabelas, outros textos, assim por diante.

De acordo com relatório de 2012, o Google raspava mais de 20 bilhões de sites a cada dia. Hoje, o processo está tão automatizado que a própria plataforma diz não ter uma estimativa precisa de quantos páginas são visitadas por seus rastreadores.

Para aumentar a eficiência do processo, eles listam as páginas pelas quais passaram, com o objetivo de não baixar a mesma informação várias vezes. Assim, categorizam os arquivos salvos.

Tudo que é baixado fica guardado em uma base de dados, que serve para alimentar buscadores ou desenvolver inteligência artificial.

Um guia do New York Times em formato de newsletter para você entender como funciona a IA

QUAIS SÃO OS BOTS DAS PRINCIPAIS EMPRESAS?

O Google, por exemplo, usa rotineiramente nove rastreadores: um para smartphones, um para computadores, um para imagens, um para notícias, um para vídeos, um para produtos, um para permitir a busca avançada, outro com funções diversas e um último para treinar modelos de inteligência artificial como o Gemini, o ChatGPT do Google.

Esse último bot, chamado de extended, foi lançado pelo Google em setembro, mais de seis meses depois depois da primeira plataforma de IA do Google, o Bard (depois transformado em Gemini). O gigante das buscas diz que tirar um site da lista de buscas desse bot não retira o endereço das buscas, já que elas são organizadas por outros rastreadores.

A OpenAI tem um mecanismo parecido para alimentar as redes neurais (códigos computacionais feitos para simular o comportamento de um neurônio) que dão vida ao ChatGPT, o GPTBot.

A Meta, que tenta impedir a raspagem dos conteúdos nos sites das próprias redes sociais (Facebook, Instagram e Threads), até para pesquisadores e jornalistas, também tem rastreadores que vasculham a web, e não dá informações sobre seus métodos.

O que você está lendo é [Como big tech minera dados da internet para desenvolver modelos de inteligência artificial].Se você quiser saber mais detalhes, leia outros artigos deste site.

Wonderful comments

    Login You can publish only after logging in...