Ciencia de datos ágil: procesamiento de datos en modo ágil
En este capítulo, nos centraremos en la diferencia entre datos estructurados, semiestructurados y no estructurados.
Datos estructurados
Los datos estructurados se refieren a los datos almacenados en formato SQL en una tabla con filas y columnas. Incluye una clave relacional, que se asigna a campos prediseñados. Los datos estructurados se utilizan a mayor escala.
Los datos estructurados representan solo del 5 al 10 por ciento de todos los datos informáticos.
Datos semiestructurados
Los datos semiestructurados incluyen datos que no residen en una base de datos relacional. Incluyen algunas de las propiedades organizativas que facilitan su análisis. Incluye el mismo proceso para almacenarlos en una base de datos relacional. Los ejemplos de base de datos semiestructurada son archivos CSV, documentos XML y JSON. Las bases de datos NoSQL se consideran semiestructuradas.
Datos no estructurados
Los datos no estructurados representan el 80 por ciento de los datos. A menudo incluye texto y contenido multimedia. Los mejores ejemplos de datos no estructurados incluyen archivos de audio, presentaciones y páginas web. Los ejemplos de datos no estructurados generados por máquinas son imágenes de satélite, datos científicos, fotografías y video, datos de radar y sonar.
La estructura piramidal anterior se centra específicamente en la cantidad de datos y la proporción en la que se encuentran dispersos.
Los datos cuasi estructurados aparecen como tipos entre datos no estructurados y semiestructurados. En este tutorial, nos centraremos en datos semiestructurados, que son beneficiosos para la investigación en ciencia de datos y metodología ágil.
Los datos semiestructurados no tienen un modelo de datos formal, pero tienen un patrón y una estructura aparentes y autodescriptivos que se desarrollan mediante su análisis.