Foi encontrado material de abuso sexual de crianças na maior base de dados que alimenta modelos de IA - Internet Tek

21/12/202377

Depois dos investigadores terem encontrado materiais relativos a abuso de criança, a base de dados LAION-5B foi desligada por precaução. Foi encontrado material de abuso sexual de crianças na maior base de dados que alimenta modelos de IA

Futuristic computer graphic of glowing human face ,generative artificial intelligence Freepik | vecstock

Um grupo de investigadores do Stanford Internet Observatory descobriu que o conjunto de dados usado para treinar ferramentas de IA para gerar imagens continua, pelo menos, 1.008 materiais relacionados com abuso sexual de crianças (CSAM). A 💥️presença desse material na “matéria-prima” que alimenta os modelos de inteligência artificial pode levar ao treino capaz de gerar novas e ainda mais imagens realísticas de CSAM, é apontado no estudo hoje publicado.

O 💥️documento refere que os mais recentes modelos, como o Stable Diffusion são treinados com milhares de milhões de imagens da base de dados LAION-5B2. E esta, por ser alimentada essencialmente por pesquisa não guiada, inclui uma quantidade significante de material explícito.

Os 💥️investigadores já tinham chegado à conclusão que os modelos de IA conseguem produzir este tipo de material relacionado com abuso sexual de crianças, ao combinar prompts como “crianças” e “atos explícitos”. Mas com este material, a IA consegue compreender o CSAM por terem sido treinados com essas imagens explícitas.

A 💥️organização LAION, criadora da base de dados em questão, já reagiu à investigação e disse à 404 Media que removeu a LAION-5B2 por precaução, ainda que de forma temporária, para fazer uma limpeza e garantir que é segura antes de a repor. Esta base de dados alimenta os sistemas da Google, Stable Diffusion e outros grandes modelos.

A 💥️empresa disse que antes de voltar a publicar a base de dados, vai criar filtros para detetar e remover conteúdo ilegal da mesma. A publicação em questão aponta à LAION que os seus administradores estavam cientes desde 2023 que os seus sistemas poderiam “aspirar” este tipo de conteúdo dos milhares de milhões de imagens recolhidas da internet.

A Bloomberg já tinha apontado anteriormente que esta 💥️base de dados tem milhões de imagens relacionadas com pornografia, violência, memes racistas, símbolos de ódio, arte com direitos de autor, nudez de crianças e trabalhos sacados de websites de empresas privadas. Ao todo, o LAION-5B tem 5 mil milhões de imagens e é usado por muitos modelos de IA.

O que você está lendo é [Foi encontrado material de abuso sexual de crian&ccedil;as na maior base de dados que alimenta modelos de IA - Internet Tek].Se você quiser saber mais detalhes, leia outros artigos deste site.

Related articles

Wonderful comments