¿Te preocupa la privacidad de los datos para tu proyecto de IA?

Descubre como anonimizar tus datos al enviarlos a un LLM

oct 24, 2024

Cazador Digital: El Ladrón de Datos al Acecho

Una pregunta que me hacen recurrentemente es como se puede proteger los datos, especialmente los de carácter personal, cuando se envían a cualquier LLM, OpenAI por ejemplo. Es decir, como evitar que a) OpenAI pueda hacer uso de ellos aunque digan que no lo hacen y/o b) Evitar cualquier filtración de datos por el camino, mediante un ataque a las APIs de comunicación.

Actualmente, existen varias tecnologías y enfoques para anonimizar datos antes de enviarlos a un LLM para asegurar la privacidad de la información sensible. Estas técnicas permiten proteger datos personales o confidenciales, sin comprometer la funcionalidad de tu aplicación. A continuación, te explico algunas de las más comunes:

1. Técnicas de Desidentificación

Enmascaramiento de datos (Data Masking): Se reemplazan datos sensibles con valores ficticios o irrelevantes. Por ejemplo, los nombres de personas o números de identificación pueden ser reemplazados por caracteres aleatorios.
- Herramientas: IBM Guardium, Oracle Data Masking and Subsetting.
Tokenización: Los datos sensibles se reemplazan por un token que actúa como sustituto. Estos tokens pueden ser revertidos al valor original solo con acceso a una clave de descifrado segura.
- Herramientas: Cloudflare, Vormetric Data Security.
Anonimización completa: Los datos sensibles se eliminan o se transforman completamente de manera irreversible para garantizar que no puedan asociarse a personas individuales.
- Ejemplos: Remover completamente los nombres, direcciones o cualquier dato personal identificable (PII).

2. Ofuscación de Datos

Generalización: Los datos se transforman en rangos o categorías. Por ejemplo, en lugar de enviar una edad exacta (33), se envía un rango de edad (30-35).
- Herramientas: ARX Tool, Python Data Anonymization Library.
Supresión de Atributos: Se eliminan atributos que no son necesarios para la tarea del modelo pero que contienen información sensible.

3. Técnicas de Privacidad Diferencial (Differential Privacy)

Privacidad diferencial: Se agrega ruido aleatorio a los datos antes de enviarlos al modelo, de modo que las consultas no puedan revelar información sobre individuos específicos. Esta técnica asegura que las respuestas dadas por el LLM sean útiles a nivel agregado pero sin exponer datos individuales.
- Herramientas: Implementaciones en TensorFlow Privacy, PySyft (de OpenMined), y en SmartNoise (Microsoft).
Federated Learning: Los datos se mantienen localmente y solo se comparten los parámetros de los modelos entrenados con datos locales, en lugar de los datos en sí. Esto evita la exposición directa de datos.
- Herramientas: PySyft, Google TensorFlow Federated.

4. Cifrado de Datos (Data Encryption)

Cifrado Homomórfico: Permite realizar operaciones sobre datos cifrados, devolviendo resultados cifrados que pueden ser descifrados sin revelar la información sensible durante el procesamiento.
- Herramientas: Microsoft SEAL, IBM Homomorphic Encryption.
Cifrado de extremo a extremo: Los datos se cifran antes de ser enviados al LLM, y solo se descifran cuando se recibe la respuesta, garantizando que los datos sensibles no sean expuestos durante el procesamiento.
- Herramientas: Virtru, ProtonMail (aunque más orientadas a comunicaciones seguras).

5. Perturbación de Datos (Data Perturbation)

Ruido Laplaciano o Gaussiano: Similar a la privacidad diferencial, se introduce un ruido controlado en los datos, lo que hace que sea más difícil identificar a individuos, pero mantiene el valor agregado para el análisis.
- Implementaciones: SmartNoise, PySyft.

6. Filtrado o Preprocesamiento de Datos Sensibles

Detección de PII (Personally Identifiable Information): Se utilizan herramientas de preprocesamiento para identificar y eliminar o transformar datos sensibles antes de que estos lleguen al LLM. Estas herramientas suelen basarse en técnicas de procesamiento de lenguaje natural (NLP).
- Herramientas: spaCy (con módulos de detección de PII), AWS Comprehend, Azure Text Analytics.

7. Synthetic Data (Datos Sintéticos)

Generar datos sintéticos que mantienen las propiedades estadísticas de los datos reales pero no contienen información personal identificable. Esta técnica es útil para entrenar modelos sin exponer datos sensibles reales.
- Herramientas: MOSTLY AI, Hazy, Syntho.

Estas tecnologías permiten mejorar la privacidad de los datos cuando se interactúa con modelos de lenguaje como LLMs, ya que evitan la exposición directa de datos sensibles durante el procesamiento.

Si necesitas ayuda con alguna de estas tecnologías, no dudes en consultarme!

Calma Disruptiva

Discusión sobre este post