El "secretito sucio" del reconocimiento facial: millones de fotos de Internet extraídas sin consentimiento
Por Olivia Solon
Los rostros de las personas se están utilizando sin su permiso para alimentar una tecnología que podría utilizarse para vigilarlas, afirman expertos legales.
El reconocimiento facial permite iniciar sesión en el iPhone, rastrear a los delincuentes entre la multitud e identificar a los clientes leales en las tiendas. La tecnología, que es imperfecta pero mejora rápidamente, se basa en algoritmos que aprenden a reconocer los rostros humanos y los cientos de aspectos en los que cada uno es único.
Para hacerlo bien, los algoritmos deben recibir cientos de miles de imágenes de una gran variedad de rostros. Cada vez más, esas fotos proceden de Internet, donde se recopilan millones de ellas sin que lo sepan las personas que las publicaron, se clasifican por edad, género, tono de piel y docenas de otras métricas y se comparten con investigadores de universidades y empresas.

A medida que los algoritmos se vuelven más avanzados (es decir, que son más capaces de identificar a mujeres y personas de color, una tarea con la que históricamente han tenido dificultades), los expertos legales y los defensores de los derechos civiles están haciendo sonar la alarma sobre el uso que hacen los investigadores de fotos de personas comunes. Los rostros de estas personas se están utilizando sin su consentimiento, con el fin de impulsar una tecnología que podría eventualmente usarse para vigilarlas.
Esto es una preocupación particular para las minorías que podrían ser objeto de perfiles y ataques, dicen los expertos y defensores. "Este es el pequeño secreto sucio de los conjuntos de entrenamiento de IA. Los investigadores a menudo simplemente toman cualquier imagen que esté disponible en la red", dijo el profesor de la Facultad de Derecho de la Universidad de Nueva York Jason Schultz.
La última empresa en entrar en este territorio fue IBM, que en enero publicó una colección de casi un millón de fotos que se tomaron del sitio de alojamiento de fotos Flickr y se codificaron para describir la apariencia de los sujetos. IBM promocionó la colección a los investigadores como un paso progresivo hacia la reducción del sesgo en el reconocimiento facial.
Pero algunos de los fotógrafos cuyas imágenes fueron incluidas en el conjunto de datos de IBM se sorprendieron y desconcertaron cuando NBC News les dijo que sus fotografías habían sido anotadas con detalles que incluían la geometría facial y el tono de la piel y que podrían usarse para desarrollar algoritmos de reconocimiento facial. NBC News obtuvo el conjunto de datos de IBM de una fuente después de que la compañía se negara a compartirlo, diciendo que solo podía ser utilizado por grupos de investigación académicos o corporativos.
"Ninguna de las personas que fotografié tenía idea de que sus imágenes estaban siendo utilizadas de esta manera", dijo Greg Peverill-Conti, un ejecutivo de relaciones públicas con sede en Boston que tiene más de 700 fotos en la colección de IBM, conocida como "conjunto de datos de entrenamiento". "Parece un poco sospechoso que IBM pueda usar estas imágenes sin decirle nada a nadie", dijo.
John Smith, quien supervisa la investigación de IA en IBM, dijo que la compañía estaba comprometida con "proteger la privacidad de las personas y trabajará con cualquiera que solicite que se elimine una URL del conjunto de datos".
A pesar de las garantías de IBM de que los usuarios de Flickr pueden optar por no formar parte de la base de datos, NBC News descubrió que es casi imposible conseguir que se eliminen las fotos. IBM exige a los fotógrafos que envíen por correo electrónico los enlaces a las fotos que quieren eliminar, pero la empresa no ha compartido públicamente la lista de usuarios de Flickr y las fotos incluidas en el conjunto de datos, por lo que no hay una manera sencilla de averiguar qué fotos están incluidas.
IBM afirma que su conjunto de datos está diseñado para ayudar a los investigadores académicos a hacer que la tecnología de reconocimiento facial sea más justa. La empresa no es la única que utiliza fotos disponibles públicamente en Internet de esta manera. Docenas de otras organizaciones de investigación han recopilado fotos para entrenar sistemas de reconocimiento facial, y muchas de las colecciones más grandes y recientes han sido extraídas de la web.
Para ver si sus fotos de Flickr forman parte del conjunto de datos, introduzca su nombre de usuario en una herramienta que NBC News creó basándose en el conjunto de datos de IBM.
Cómo ha evolucionado el reconocimiento facial
En los primeros tiempos de la creación de herramientas de reconocimiento facial, los investigadores pagaban a personas para que acudieran a sus laboratorios, firmaran formularios de consentimiento y se tomaran fotografías en diferentes poses y condiciones de iluminación. Como esto era costoso y requería mucho tiempo, los primeros conjuntos de datos se limitaban a unos pocos cientos de sujetos.
Con el auge de la web durante la década de 2000, los investigadores de repente tuvieron acceso a millones de fotografías de personas.
Los académicos suelen apelar a la naturaleza no comercial de su trabajo para eludir cuestiones de derechos de autor. Flickr se convirtió en un recurso atractivo para los investigadores de reconocimiento facial porque muchos usuarios publicaron sus imágenes bajo licencias "Creative Commons", lo que significa que otros pueden reutilizar sus imágenes sin pagar derechos de licencia. Algunas de estas licencias permiten el uso comercial.
Para crear su conjunto de datos Diversity in Faces, IBM dice que se basó en una colección de 100 millones de imágenes publicadas con licencias Creative Commons que el propietario de Flickr, Yahoo, publicó en lotes para que los investigadores las descargaran en 2014. IBM redujo ese conjunto de datos a alrededor de 1 millón de fotos de rostros, utilizando codificación automatizada y estimaciones humanas, con casi 200 valores para detalles como medidas de rasgos faciales, pose, tono de piel y edad y género estimados, según el conjunto de datos obtenido por NBC News.
Se trata de un caso de estudio único en un mar de conjuntos de datos extraídos de la web. Según Google Scholar, se han escrito cientos de artículos académicos sobre la base de estas enormes colecciones de fotos (que tienen nombres como MegaFace, CelebFaces y Faces in the Wild) que han contribuido a grandes avances en la precisión de las herramientas de reconocimiento y análisis facial. Fue difícil encontrar académicos que hablaran públicamente sobre los orígenes de sus conjuntos de datos de entrenamiento; muchos han avanzado en su investigación utilizando colecciones de imágenes extraídas de la web sin licencia explícita ni consentimiento informado.
Cómo utiliza IBM la base de datos de rostros
IBM publicó su colección de imágenes anotadas a otros investigadores para que se pueda utilizar para desarrollar sistemas de reconocimiento facial "más justos". Eso significa que los sistemas pueden identificar con mayor precisión a personas de todas las razas, edades y géneros.
"Para que los sistemas de reconocimiento facial funcionen como se desea y los resultados sean cada vez más precisos, los datos de entrenamiento deben ser diversos y ofrecer una amplia cobertura", dijo John Smith de IBM en una publicación de blog que anunciaba la publicación de los datos.
El conjunto de datos no vincula las fotos de los rostros de las personas con sus nombres, lo que significa que cualquier sistema entrenado para usar las fotos no sería capaz de identificar a las personas nombradas. Pero los defensores de las libertades civiles y los investigadores de la ética tecnológica todavía han cuestionado los motivos de IBM, que tiene un historial de venta de herramientas de vigilancia que han sido criticadas por infringir las libertades civiles.
Por ejemplo, a raíz de los ataques del 11 de septiembre, la empresa vendió tecnología al departamento de policía de la ciudad de Nueva York que le permitió buscar en las transmisiones de CCTV a personas con tonos de piel o color de cabello particulares. IBM también ha lanzado un producto de "análisis de video inteligente" que utiliza la vigilancia con cámaras corporales para detectar personas por etiquetas de "etnia", como asiático, negro o blanco.
IBM dijo en un correo electrónico que los sistemas "no son inherentemente discriminatorios", pero agregó: "Creemos que tanto los desarrolladores de estos sistemas como las organizaciones que los implementan tienen la responsabilidad de trabajar activamente para mitigar los sesgos. Es la única forma de garantizar que los sistemas de IA se ganen la confianza de sus usuarios y del público. IBM acepta plenamente esta responsabilidad y no participaría en trabajos que impliquen la elaboración de perfiles raciales".
Hoy, la empresa vende un sistema llamado IBM Watson Visual Recognition, que según IBM puede estimar la edad y el género de las personas representadas en imágenes y, con los datos de entrenamiento adecuados, puede ser utilizado por los clientes para identificar a personas específicas a partir de fotos o videos.
NBC News le preguntó a IBM qué datos de entrenamiento utilizó IBM Watson para sus capacidades comerciales de reconocimiento facial, señalando una publicación del blog de la empresa que afirmaba que Watson es "transparente sobre quién entrena nuestros sistemas de IA, qué datos se utilizaron para entrenar esos sistemas". La empresa respondió que utiliza "datos adquiridos de varias fuentes" para entrenar sus modelos de IA, pero no divulga estos datos públicamente para "proteger nuestros conocimientos y propiedad intelectual".
IBM dijo, tanto en declaraciones públicas como directamente a NBC News, que el conjunto de datos Diversity in Faces es puramente para investigación académica y no se utilizará para mejorar las herramientas comerciales de reconocimiento facial de la empresa. Esto parece entrar en conflicto con la afirmación que hizo la empresa en enero en materiales promocionales de que la publicación del conjunto de datos es una respuesta directa a la investigación de Joy Buolamwini del MIT que demostró que la tecnología de reconocimiento facial comercial de IBM era mucho peor para identificar con precisión a las mujeres de piel más oscura que a los hombres de piel más clara.
Cuando se le preguntó sobre este conflicto, y en particular sobre cómo el conjunto de datos Diversity in Faces podría tener un impacto en el mundo real en la reducción del sesgo si IBM no lo usa en productos comerciales de reconocimiento facial, Smith dijo en un correo electrónico que "los aprendizajes científicos sobre la diversidad facial harán avanzar nuestra comprensión y nos permitirán crear sistemas más justos y precisos en la práctica".
"Reconocemos que el sesgo social no es necesariamente algo que podamos abordar por completo con la ciencia, pero nuestro objetivo es abordar el sesgo matemático y algorítmico", dijo Smith.
Los expertos señalan que la distinción entre las ramas de investigación y las operaciones comerciales de corporaciones como IBM y Facebook es difusa. En última instancia, IBM es propietaria de cualquier propiedad intelectual desarrollada por su unidad de investigación.
Incluso cuando los algoritmos son desarrollados por investigadores académicos utilizando conjuntos de datos no comerciales, esos algoritmos suelen ser utilizados posteriormente por empresas, dijo Brian Brackeen, ex director ejecutivo de la empresa de reconocimiento facial Kairos.
Como analogía, dijo, "piense en ello como el lavado de dinero del reconocimiento facial. Se está blanqueando la propiedad intelectual y los derechos de privacidad de los rostros".
Fuente: NBC News
0 Comments:
Publicar un comentario
Gracias por dejar un comentario en Segu-Info.
Gracias por comentar!