Imagens de abuso de crianças encontradas no maior dataset de imagens de IA, diz estudo

22/12/202396

Um enorme ✅dataset (conjunto de dados) de imagens e legendas online, conhecido como LAION-5B, foi retirado do ar pelos seus criadores depois de um estudo de Stanford ter revelado que continha mais de 3200 imagens de abuso sexual de crianças.

Criança

O ✅dataset foi amplamente utilizado para treinar sistemas de IA capazes de gerar imagens realistas e explícitas de crianças, o que representa uma séria ameaça à sua segurança e privacidade.

Estudo do Stanford Internet Observatory

O ✅Stanford Internet Observatory (SIO), um grupo de investigação que monitoriza as ameaças online, descobriu que o LAION-5B 💥️tinha mais de 3200 imagens de suspeitas de abuso de crianças, das quais cerca de 1000 foram confirmadas por agências externas.

O SIO colaborou com o ✅Canadian Centre for Child Protection e outras organizações anti-abuso para identificar e comunicar as imagens ilegais às autoridades.

LAION-5B tem imagens ilícitas

O relatório do SIO, publicado ontem, também confirmou os rumores que circulavam na Internet desde 2022 💥️de que o LAION-5B tinha conteúdos ilícitos.

A inclusão de material de abuso infantil nos dados de treino do modelo de IA ensina ferramentas para associar crianças em atividades sexuais ilícitas e usa imagens conhecidas de abuso infantil para gerar conteúdo novo e potencialmente realista de abuso infantil.

Disse David Thiel, principal investigador do SIO.

Outro relatório do SIO, em colaboração com a organização sem fins lucrativos de segurança infantil online Thorn, destaca o rápido progresso na aprendizagem automática generativa. Este progresso permite a geração de imagens realistas que, infelizmente, 💥️contribuem para a exploração sexual de crianças através da utilização de modelos ✅open-source de geração de imagens de IA.

A investigação de Thiel foi motivada pela sua descoberta anterior, em junho, de que os geradores de imagens de IA estavam a ser utilizados para criar e distribuir milhares de imagens falsas, mas realistas, de abuso de crianças na dark web. Thiel quis descobrir como é que estes modelos de IA, como o ✅Stable Diffusion, um popular gerador de imagens através de texto, 💥️foram treinados para produzir conteúdos tão perturbadores.

Descobriu que estes modelos foram treinados diretamente no LAION-5B, um ✅dataset público de milhares de milhões de imagens retiradas de várias fontes, incluindo sites de redes sociais como o Reddit, X, WordPress e Blogspot, bem como sites pornográficos como o XHamster e o XVideos. O ✅dataset foi criado pela LAION, uma organização sem fins lucrativos sediada na Alemanha 💥️que tem como objetivo promover a investigação em IA.

Dados pessoais

Dataset em espera para supervisão

A LAION, a "Rede Aberta de Inteligência Artificial em Grande Escala", sem fins lucrativos, disse que tem uma política de tolerância zero para conteúdos ilegais. Por uma questão de precaução, retirou os datasets LAION 💥️para garantir a sua segurança antes de os voltar a publicar.

De acordo com o relatório de Thiel, as versões posteriores do ✅Stable Diffusion, 2.0 e 2.1, filtraram parte ou a maior parte do conteúdo inseguro, dificultando a geração de conteúdo explícito. No entanto,💥️ também perderam popularidade entre os utilizadores.

A Stability AI, a startup britânica de IA que está por detrás do desenvolvimento e da adoção generalizada do ✅Stable Diffusion, sublinhou a dedicação da empresa à prevenção da utilização indevida da IA. O porta-voz afirmou que 💥️a empresa proíbe estritamente a utilização dos seus modelos de imagem para atividades ilegais.

Este relatório concentra-se no ✅dataset LAION-5B como um todo. Os modelos de IA de estabilidade foram treinados num subconjunto filtrado desse conjunto de dados. Além disso, ajustámos estes modelos para mitigar os comportamentos residuais.

Disse o porta-voz.

💥️Leia também:

Google vai limitar as questões eleitorais a que a IA pode responder

O que você está lendo é [Imagens de abuso de crianças encontradas no maior dataset de imagens de IA, diz estudo].Se você quiser saber mais detalhes, leia outros artigos deste site.

Estudo do Stanford Internet Observatory

LAION-5B tem imagens ilícitas

Dataset em espera para supervisão

Related articles

Wonderful comments