Microsoft exclui banco de dados de reconhecimento facial gigante, mas não está inacessível

A Microsoft excluiu inesperadamente um gigantesco banco de dados de reconhecimento facial contendo fotos de rostos de pessoas da internet, mas os rastros dos dados permanecem online.

Se você já fez o upload de fotos de si mesmo na Internet sob uma licença Creative Commons – que permite a reutilização sob certas condições – elas podem já ter sido usadas para treinar programas de IA para reconhecer rostos humanos.

A Microsoft lançou o MS-Celeb-1M, um conjunto de dados de aproximadamente 10 milhões de fotos de 100.000 pessoas coletadas da internet em 2016. O banco de dados foi projetado para conter fotos de celebridades, mas como apontou o pesquisador Adam Harvey, de Berlim, com seu projeto Megapixels, a definição de “celebridade” era bastante ampla. O banco de dados também continha fotos de “jornalistas, artistas, músicos, ativistas, políticos, escritores e acadêmicos”, escreveu Harvey.

A página da web da MS-Celeb-1M está atualmente offline, mas antes que o banco de dados fosse discretamente puxado, era usado amplamente para treinar programas de reconhecimento facial. Entidades que fizeram uso de imagens no banco de dados, de acordo com Harvey, incluem empresas de tecnologia chinesas como SenseTime e Megvii, que têm sido ligadas ao uso de reconhecimento facial pelo Estado chinês para rastrear e oprimir minorias étnicas.

Em uma declaração ao Financial Times, a Microsoft disse que o banco de dados foi retirado simplesmente “porque o desafio da pesquisa acabou”. Mesmo assim, é duvidoso que a vida do banco de dados do MS-Celeb-1M também tenha acabado.

Como muitos bancos de dados de reconhecimento facial compartilhados entre pesquisadores, como o banco de dados do Yahoo de quase 100 milhões de fotos do Flickr (que tem sido usado por pesquisadores da Ai na IBM e outros), o MS-Celeb-1M encerrou suas tarefas.

Mesmo que a Microsoft tenha baixado, versões limpas do banco de dados estão disponíveis para download no GitHub, por exemplo. Ferramentas para trabalhar com o banco de dados, como listas de rotulagem que podem revelar os nomes dos assuntos das fotos, também permanecem facilmente acessíveis.

“Apesar do recente encerramento do site msceleb.org, o conjunto de dados ainda existe em vários repositórios no GitHub, os discos rígidos de inúmeros pesquisadores, e provavelmente continuará a ser usado em projetos de pesquisa em todo o mundo”, escreveu Harvey em Megapixels. Um desafio de reconhecimento facial este ano no Imperial College London planeja usar uma variante do banco de dados MS-Celeb-1M, e oferece links para download.

De acordo com Harvey, “está bastante claro que a Microsoft perdeu o controle de seu conjunto de dados do MS Celeb e dados biométricos de quase 100.000 indivíduos”.

Fonte: Vice

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.