son - importancia de la ciencia de datos
Habilidades esenciales de un CientÃfico de Datos (11)
Creo que es importante tener el comando de una base de datos comercial o dos. En el mundo de las finanzas en el que consulto, a menudo veo DB / 2 y Oracle en grandes cantidades y SQL Server en los servidores distribuidos. Esto básicamente significa poder leer y escribir código SQL. Debe poder obtener datos del almacenamiento y en su herramienta analítica.
En términos de herramientas analíticas, creo que R es cada vez más importante. También creo que es muy ventajoso saber cómo usar al menos otro paquete de estadísticas también. Eso podría ser SAS o SPSS ... realmente depende de la compañía o cliente para el que está trabajando y de lo que espera.
Finalmente, puede tener una comprensión increíble de todos estos paquetes y aún así no ser muy valioso. Es extremadamente importante tener una buena cantidad de experiencia en un campo específico y ser capaz de comunicar a los usuarios y gerentes relevantes cuáles son los problemas que rodean su análisis, así como sus hallazgos.
¿Cuáles son las habilidades relevantes en el arsenal de un Data Scientist? Con las nuevas tecnologías entrando todos los días, ¿cómo elegir y elegir lo esencial?
Algunas ideas relacionadas con esta discusión:
- Conociendo SQL y el uso de una base de datos como MySQL, PostgreSQL fue excelente hasta la llegada de NoSql y las bases de datos no relacionales. MongoDB, CouchDB, etc. se están volviendo populares para trabajar con datos de escala web.
- Conocer una herramienta de estadísticas como R es suficiente para el análisis, pero para crear aplicaciones, uno puede necesitar agregar Java, Python y otros a la lista.
- Los datos ahora vienen en forma de texto, urls, multimedia para nombrar algunos, y existen diferentes paradigmas asociados con su manipulación.
- ¿Qué hay de la informática en clúster, la informática paralela, la nube, Amazon EC2, Hadoop?
- La regresión de OLS ahora tiene redes neuronales artificiales, bosques aleatorios y otros algos de aprendizaje de máquinas / data mining. para la compañia
¿Pensamientos?
El álgebra de matrices es mi mejor elección
En dataist la pregunta se aborda de manera general con un bonito diagrama de Venn:
Estudie Álgebra lineal en MIT Abra el curso 18.06 y sustituya su estudio por el libro "Introducción al álgebra lineal". Linear Algebra es uno de los conjuntos de habilidades esenciales en análisis de datos además de las habilidades mencionadas anteriormente.
Hay varios temas de informática que son útiles para los científicos de datos, muchos de ellos han sido mencionados: computación distribuida, sistemas operativos y bases de datos.
El análisis de los algoritmos , es decir, la comprensión de los requisitos de tiempo y espacio de un cálculo, es el tema más importante de ciencias de la computación para los científicos de datos. Es útil para implementar un código eficiente, desde métodos estadísticos de aprendizaje hasta la recopilación de datos; y determinar sus necesidades computacionales, como la cantidad de RAM o la cantidad de nodos Hadoop.
JD lo golpeó en la cabeza: Cuentacuentos. Aunque olvidó la OTRA historia importante: la historia de por qué usaste <inserte la técnica de fantasía aquí>. Ser capaz de responder a esa pregunta es, con mucho, la habilidad más importante que puede desarrollar.
El resto son solo martillos. No me malinterpreten, cosas como R es genial. R es una bolsa entera de martillos, pero lo importante es saber cómo usar los martillos y otras cosas para hacer algo útil.
Los JD son geniales, y para profundizar más en estas ideas, lea la excelente publicación de Michael Driscoll, The Three Sexy Skills of Data Geeks :
- Habilidad n. ° 1 : Estadísticas (Estudiar)
- Habilidad # 2 : Data Munging (Sufrimiento)
- Habilidad n. ° 3 : visualización (narración de cuentos)
Paciencia: tanto para obtener resultados de manera razonable como para poder regresar y cambiarlos por lo que ''realmente'' se requiere.
Para citar de la introducción a la tesis de doctorado de Hadley :
Primero, obtienes los datos en una forma con la que puedes trabajar ... Segundo, trazas los datos para tener una idea de lo que está pasando ... Tercero, iteras entre gráficos y modelos para construir un resumen cuantitativo sucinto de los datos ... Finalmente, miras hacia atrás a lo que has hecho y contemplas las herramientas que necesitas para mejorar en el futuro
El paso 1 casi seguro involucra el corte de datos, y puede involucrar el acceso a la base de datos o raspado de la web. Conocer personas que crean datos también es útil. (Estoy presentando eso en ''redes'').
El paso 2 significa habilidades de visualización / trazado.
El paso 3 significa estadísticas o habilidades de modelado. Dado que se trata de una categoría estúpidamente amplia, la capacidad de delegar a un modelador también es una habilidad útil.
El paso final se trata principalmente de habilidades blandas como introspección y habilidades de tipo gerencial.
Las habilidades de software también se mencionaron en la pregunta, y estoy de acuerdo en que son muy útiles. Software Carpentry tiene una buena lista de todas las habilidades básicas de software que debe tener.
Solo para agregar algunas ideas para que otros expongan sobre:
En un nivel ridículamente alto de abstracción, todos los datos de trabajo implican los siguientes pasos:
- Recopilación de datos
- Almacenamiento / recuperación de datos
- Manipulación de datos / Síntesis / Modelado
- Informes de resultados
- Narración de cuentos
Como mínimo, un científico de datos debe tener al menos algunas habilidades en cada una de estas áreas. Pero dependiendo de la especialidad uno puede pasar mucho más tiempo en un rango limitado.
- La habilidad de colaborar
La gran ciencia, en casi cualquier disciplina, rara vez es realizada por individuos en estos días.