ssrs - ssis etl
¿Puede alguien explicar explotaciones de datos, SSIS, BI, ETL y otras tecnologías relacionadas? (4)
Estuve hablando con un compañero de trabajo ayer sobre una situación en la que usó SSIS (o algo así) para hacer algo realmente genial con un paquete de SSIS donde aprobó en un nombre como "Dr. Reginald Williams, PhD". y en base a un esquema de ponderación, el sistema fue lo suficientemente inteligente como para descubrir cómo convertirlo en token y almacenarlo en la base de datos como "Saludo - Nombre - Apellido - Sufijo". Tiró algunas palabras de moda como BI, y SSIS, ETL y Data mining. Realmente quería más información, pero ni siquiera sabía por dónde empezar a preguntar.
Soy desarrollador de .Net y conocedor de C #, Vb.Net, WPF, etc., pero no tengo idea de qué son estas tecnologías, cómo agregarlas a mi conjunto de habilidades y si es algo que Realmente debería centrarme en. Cualquiera y todas las direcciones serían útiles.
Lo que hizo su compañero de trabajo podría describirse mejor como "análisis inteligente" de una cuerda. Eso podría hacerse en muchos niveles de sofisticación, por ejemplo, usando modelos estadísticos para darle la posibilidad de que "Dr." es un saludo y no un nombre. O podría simplemente usar una lista de búsqueda simple de saludos comunes, en cuyo caso se trata de un código de procedimiento regular, nada más.
SSIS es la abreviatura de SQL Server Integration Services. Básicamente es DTS en esteroides; algunas personas lo aman, y algunas personas lo odian. Sería complicado usar eso solo para hacer el tipo de cosas de las que estás hablando; es principalmente solo para tomar datos de varias fuentes y combinarlos, transformarlos y cargarlos en otro lugar. Puede hacer algunas cosas ingeniosas, muchas de las cuales tienden a ser minería de datos, pero en última instancia es una herramienta de producción para abarrotar datos en una dirección u otra. No es particularmente respetado en la comunidad de minería de datos.
Data Mining es una disciplina académica completa, enfocada en el uso de cierta cantidad (típicamente grande) de datos para predecir respuestas futuras o para comprender mejor los patrones en los datos existentes. Definitivamente es un área excelente para entrar, pero no es algo que simplemente pueda retomar sin un estudio intensivo de matemática y algoritmos. Un buen libro sobre el tema es este .
"Business Intelligence" es realmente más una palabra de moda que una tecnología específica, y puede significar diferentes cosas para diferentes personas. En la base, la idea sugiere hacer menos tonterías con los datos comerciales, y generalmente se refiere al análisis de tendencias a lo largo del tiempo, a menudo utilizando OLAP. También puede incluir la extracción de datos o algoritmos de inteligencia artificial, pero como no existe una definición rigurosa, cualquier persona que quiera venderle algo le dirá que ofrece "Inteligencia comercial" y espera que no profundice más.
SSIS == SQL Server Integration Services y es una herramienta de Extraer Transformar y Cargar (ETL), es una implementación muy superior de lo que era Data Transformation Services o DTS en SQL7, era de SQL2K. Es una gran herramienta para expresar procesos de flujo de trabajo en donde los datos se mueven del punto A al punto B (yc y d, etc.) y se someten a cambios a través de ese proceso, como consolidación a un diseño desnormalizado o limpieza de datos.
BI o Business Intelligence es un apodo para toda una categoría en el mundo de la tecnología y es un gran lugar para estar ahora. Las habilidades de BI son muy valiosas y difíciles de obtener, una de las razones por las que este es el caso es que es difícil recrear un verdadero caso de BI en un laboratorio, por lo que la enseñanza casi siempre se hace en una situación del mundo real.
Desde un alto nivel, los proyectos de BI usualmente involucran un punto final de reporte. Muchas veces como desarrolladores estamos acostumbrados a escribir informes transaccionales, como los detalles de un pedido, pero BI puede acceder a informes muy amplios que cubren las tendencias de ventas de productos durante décadas y manejan cientos de millones de registros. La forma en que diseñamos bases de datos para aplicaciones no es ideal para este tipo de informes, por lo que se inventaron otras herramientas y tecnologías que se utilizan en el espacio de BI. Estas son cosas como cubos que a menudo oyes llamados cubos OLAP. Los cubos OLAP generalmente se originan en un depósito de datos que no es más que otra base de datos, pero los almacenes típicos contienen datos que provienen de más de uno, y a menudo de docenas de otras bases de datos de aplicaciones. Su aplicación de inventario, aplicación de compras, aplicación de recursos humanos y un montón de otras contienen bits de datos que crean una imagen completa del negocio. Un arquitecto de BI utilizará algo así como SSIS para extraer los datos de todos estos sistemas, darle masajes. y almacenarlo en el almacén de datos que está diseñado con un tipo diferente de diseño mejor para la presentación de informes. Una vez que esté en el almacén, utilizará los servicios de análisis para crear cubos sobre esos datos y algo así como Reporting Services para mostrarle informes sobre esos datos.
Editar: lo siento, se olvidó de Data Mining, es otro término no específico que describe y concepto o un proceso y no tanto una herramienta. En un ejemplo simple, es un enfoque metódico para identificar patrones en los datos. En el pasado, un buen análisis de negocios buscaría tendencias en las tendencias, pero con las bases de datos modernas se habla de conjuntos de datos demasiado grandes para analizarlos manualmente: la minería de datos le permite instruir a la computadora para analizar esos datos e identificar patrones que le interesan. .
Espero que ayude
SSIS es SQL Server Integration Services y es útil para hacer ETL (Extraer, Transformar y Cargar) que son el front-end de muchas soluciones de data warehousing / business intelligence que integran datos en modelos dimensionales fáciles de usar. SSIS también es útil para proyectos más pequeños como una forma conveniente de cargar datos heredados o datos de otros repositorios o archivos.
La extracción de datos generalmente implica utilizar los datos de las fuentes integradas para inferir información que no sería obvia a partir de datos transaccionales (a través de la integración de múltiples fuentes que dan más "dimensiones" a los datos).
El BI es un gran tema, por lo que puede no ser algo en lo que enfocarse a menos que desee entrar en ese campo, pero SSIS puede ser útil en proyectos más pequeños y vale la pena conocerlo en cualquier caso.
La razón de todos estos términos "nuevos" es en realidad el aumento rápido (exponencial) de los datos en el mundo. BI (Wikipage) está fuertemente relacionado con el término "Data Warehouse" (es la entidad central dentro de los procesos de BI), así como también con el término "Data Mining".
Más sobre ETLs. Solo agregaría que SSIS es un producto de Microsoft, pero hay docenas de otras herramientas de ETL, las más conocidas son: Informatica, Pentaho, Infosphere Information Server de IBM, Oracle Data Integrator y Talend, etc. Los ETL también suelen estar escritos por cualquier lenguaje de programación (los teníamos en Python e incluso en Golang).