Anonimato, Desidentificación y la Precisión de los Datos

En el ámbito del análisis de datos, uno de los mecanismos para preservar la privacidad es la anonimización o desidentificación de los datos. La idea intuitiva es que se puede preservar la privacidad de las personas cuyos datos se utilizan si se eliminan las informaciones que permiten identificarlas. En la práctica, no existe un método único ampliamente utilizado para anonimizar datos. Diferentes regulaciones especifican requisitos para considerar un conjunto de datos como desidentificado, y conocer qué regulación rige su trabajo y cuáles son los requisitos para la desidentificación es fundamental para cumplir con las leyes correspondientes.

Estos temas se tratan con mayor detalle en nuestro curso, pero aquí hay una breve introducción a los diferentes tipos de anonimización/desidentificación al observar tres regulaciones diferentes.

Información de Directorio, Datos de Salud y HIPAA

Un intento temprano de proteger la privacidad de los sujetos de investigación se encuentra en la Ley de Portabilidad y Responsabilidad del Seguro Médico (HIPAA, por sus siglas en inglés). Esa regulación establece que un conjunto de datos se considerará anonimizado si se ha eliminado la información de directorio sobre cada uno de los sujetos. La información de directorio incluye datos como el nombre, número de seguro social o dirección. Hay alrededor de 40 campos que se consideran información de directorio; si elimina esos campos de su conjunto de datos, se puede compartir sin infringir la regulación de privacidad.

Sin embargo, eliminar la información de directorio no protegerá la privacidad de las personas en el conjunto de datos. Esto se demostró en 1997 cuando Latanya Sweeney reidentificó registros médicos que habían sido desidentificados de acuerdo con la regulación de privacidad de HIPAA, incluido el registro del entonces gobernador de Massachusetts.

El trabajo de Sweeney condujo a la noción de un cuasi-identificador, que es información sobre usted (por ejemplo, género o fecha de nacimiento) que no puede identificarlo directamente por sí sola, pero que puede combinarse y encontrarse en otro conjunto de datos. Surge un problema cuando este segundo conjunto de datos (por ejemplo, bases de datos de registro de votantes) contiene parte de su información de directorio. Al vincular cuasi-identificadores entre conjuntos de datos, un adversario puede reidentificar un registro en un conjunto de datos «desidentificado» y descubrir cualquier información personal (por ejemplo, tratamientos médicos) que se suponía debía mantenerse anónima.

K-Anonimato, Datos Educativos y FERPA

Esta noción de cuasi-identificador se utilizó en la Ley de Derechos Educativos y Privacidad Familiar (FERPA, por sus siglas en inglés), una regulación diferente relacionada con compartir datos educativos en los Estados Unidos. FERPA especifica que los datos se desidentificarán si, para cualquier conjunto de cuasi-identificadores que tenga una entidad en el conjunto de datos, hay al menos otras cuatro personas en el conjunto de datos con el mismo conjunto de cuasi-identificadores.

Esta idea de ocultarse en una multitud es la base del k-anonimato (en este caso, con k=5). La idea es que si un conjunto de datos es k-anónimo, un adversario que intente la reidentificación podría reducir su información a uno de k posibles registros, pero no podrá determinar cuál es el suyo.

El k-anonimato preserva mucho más la privacidad que simplemente eliminar la información de directorio, por lo que FERPA mejora la noción de privacidad de HIPAA. Sin embargo, el k-anonimato no es una panacea. Por ejemplo, considere qué sucede cuando el proveedor del conjunto de datos elige pobremente el conjunto de cuasi-identificadores. Para recrear el ataque de vinculación de conjuntos de datos, un adversario simplemente necesita identificar un campo en el conjunto de datos que no se consideró un cuasi-identificador, pero que aparece en otro conjunto de datos. Dado que es difícil imaginar qué datos aparecen en otros conjuntos de datos, las garantías de privacidad ofrecidas por el k-anonimato son frágiles.

Incluso cuando un proveedor de datos elige bien el conjunto de cuasi-identificadores, hacer que un conjunto de datos sea k-anónimo puede cambiar sus propiedades estadísticas, lo que puede llevar a conclusiones que no están respaldadas por los datos originales. Los motivos de esto son sutiles, pero el resultado final es que los proveedores de datos se enfrentan a un dilema serio: privilegiar el anonimato de las personas o la precisión de los análisis estadísticos.

Privacidad Diferencial, GDPR y el Censo de EE. UU.

La Unión Europea ha adoptado un enfoque diferente para la protección de la privacidad en el Reglamento General de Protección de Datos (GDPR, por sus siglas en inglés). En lugar de especificar cómo se debe desidentificar un conjunto de datos, la regulación requiere que los conjuntos de datos desidentificados sean aquellos en los que las personas «no puedan ser reidentificadas por ningún medio razonablemente probable». Esta caracterización no dice cómo debe realizarse la desidentificación, sino qué tan sólida debe ser la protección de privacidad resultante.

La Oficina del Censo de EE. UU. tiene un requisito similar sobre los datos que recopila. Esto los ha llevado a adoptar la técnica de privacidad diferencial como su mecanismo de protección de privacidad. Este es un enfoque muy diferente en comparación con las técnicas anteriores. Ha desaparecido el objetivo de distribuir un conjunto de datos desidentificado al que cualquiera puede acceder. En cambio, la privacidad diferencial mantiene el conjunto de datos en un lugar seguro y proporciona un método para que los investigadores hagan preguntas sobre el conjunto de datos. Con este punto de control centralizado, el proveedor de datos puede: (1) restringir los tipos de consultas permitidas; (2) agregar ruido estadístico a las consultas que responde; y (3) rastrear la cantidad total de información divulgada en todas las consultas. Realizados correctamente, estos tres mecanismos juntos pueden garantizar matemáticamente que las personas en el conjunto de datos no puedan ser reidentificadas.

Aunque las garantías matemáticas de la privacidad diferencial son reconfortantes, la implementación de sistemas que utilizan estas técnicas ha demostrado ser sorprendentemente difícil. Además, al igual que el k-anonimato, la privacidad diferencial introduce variaciones estadísticas en los datos que pueden alterar los resultados de un análisis de datos. El dilema entre cuánto privilegiar la privacidad personal sobre la generación de nuevo conocimiento sigue siendo una cuestión abierta.

Si nada más, los diferentes enfoques en estas regulaciones muestran que la idea de anonimato puede ser seductora como mecanismo para garantizar la privacidad, pero es una idea sutil y difícil de poner en práctica. Conocer qué noción de anonimato exige la regulación es necesario para el cumplimiento, pero puede no ser suficiente para las obligaciones éticas que tiene como responsable de datos. Pensar críticamente sobre sus datos y los mecanismos que utiliza para proteger la identidad de los sujetos de datos siempre es necesario si desea más que solo el cumplimiento.

El contenido se proporciona únicamente con fines informativos y no constituye asesoramiento legal.

Anonimato, Desidentificación y la Precisión de los Datos