tipos sustitución ofuscar ofuscación enmascaramiento ejemplo datos sql data-scrubbing

sql - sustitución - Anonimizar los datos de los clientes para desarrollo o prueba



sustitución de enmascaramiento de datos (3)

Necesito tomar datos de producción con información real del cliente (nombres, dirección, números de teléfono, etc.) y moverlo a un entorno de desarrollo, pero me gustaría eliminar cualquier apariencia de información real del cliente.

Algunas de las respuestas a esta pregunta pueden ayudarme a generar NUEVOS datos de prueba, pero ¿cómo puedo reemplazar esas columnas en mis datos de producción, pero mantener las otras columnas relevantes?

Digamos que tenía una mesa con 10000 nombres falsos. ¿Debería hacer una combinación cruzada con una actualización de SQL? O haz algo como

UPDATE table SET lastname = (SELECT TOP 1 name FROM samplenames ORDER By NEWID())



Esto es más fácil de lo que parece si comprende la base de datos. Una cosa que es necesaria es comprender los lugares donde la información personal no está normalizada. Por ejemplo, el archivo maestro del cliente tendrá un nombre y una dirección, pero el archivo del pedido también tendrá un nombre y una dirección que podrían ser diferentes.

Mi proceso básico:

  1. ID los datos (es decir, las columnas) y las tablas que contienen esas columnas.
  2. Identifique las tablas "maestras" para esas columnas, y también las instancias no normalizadas de esas columnas.
  3. Ajusta los archivos maestros. En lugar de tratar de aleatorizarlos (o hacerlos falsos), conéctelos a la clave del archivo. Para el cliente 123, establezca el nombre en name123, la dirección en 123 123rd St, 123town, CA, EE. UU., Teléfono 1231231231. ¡Esto tiene la ventaja añadida de hacer que la depuración sea muy fácil!
  4. Cambie las instancias no normales actualizando desde el archivo maestro o haciendo el mismo tipo de despersonalización

No se ve bonito, pero funciona.


La anonimización de datos puede ser complicada y si no se realiza correctamente puede ocasionar problemas, como lo que le sucedió a AOL cuando lanzó los datos de búsqueda hace un tiempo . Intenté crear datos de prueba desde cero a toda costa antes de intentar convertir los datos existentes de los clientes. Las cosas pueden llevarlo a descubrir a quién pertenecían los datos usando cosas como el análisis del comportamiento y otros puntos de datos que podría no considerar sensibles. Preferiría estar a salvo que arrepentirme.