H2O - Introducción

¿Alguna vez le han pedido que desarrolle un modelo de aprendizaje automático en una base de datos enorme? Normalmente, el cliente le proporcionará la base de datos y le pedirá que haga ciertas predicciones, como quiénes serán los compradores potenciales; si puede haber una detección temprana de casos fraudulentos, etc. Para responder a estas preguntas, su tarea sería desarrollar un algoritmo de aprendizaje automático que dé respuesta a la consulta del cliente. Desarrollar un algoritmo de aprendizaje automático desde cero no es una tarea fácil y por qué debería hacerlo cuando hay varias bibliotecas de aprendizaje automático listas para usar disponibles en el mercado.

En estos días, preferiría utilizar estas bibliotecas, aplicar un algoritmo bien probado de estas bibliotecas y observar su rendimiento. Si el rendimiento no estuviera dentro de los límites aceptables, intentaría ajustar el algoritmo actual o probar uno completamente diferente.

Del mismo modo, puede probar varios algoritmos en el mismo conjunto de datos y luego elegir el mejor que satisfaga los requisitos del cliente. Aquí es donde H2O viene a su rescate. Es un marco de aprendizaje automático de código abierto con implementaciones totalmente probadas de varios algoritmos ML ampliamente aceptados. Solo tiene que tomar el algoritmo de su enorme repositorio y aplicarlo a su conjunto de datos. Contiene los algoritmos estadísticos y ML más utilizados.

Para mencionar algunos aquí, incluye máquinas impulsadas por gradientes (GBM), modelo lineal generalizado (GLM), aprendizaje profundo y muchos más. No solo que también es compatible con la funcionalidad AutoML que clasificará el rendimiento de diferentes algoritmos en su conjunto de datos, reduciendo así sus esfuerzos para encontrar el modelo con mejor rendimiento. H2O es utilizado en todo el mundo por más de 18000 organizaciones y se conecta bien con R y Python para facilitar el desarrollo. Es una plataforma en memoria que proporciona un rendimiento excelente.

En este tutorial, primero aprenderá a instalar H2O en su máquina con las opciones Python y R. Entenderemos cómo usar esto en la línea de comandos para que comprenda su funcionamiento en línea. Si es un amante de Python, puede usar Jupyter o cualquier otro IDE de su elección para desarrollar aplicaciones H2O. Si prefiere R, puede usar RStudio para el desarrollo.

En este tutorial, consideraremos un ejemplo para comprender cómo trabajar con H2O. También aprenderemos cómo cambiar el algoritmo en el código de su programa y comparar su rendimiento con el anterior. El H2O también proporciona una herramienta basada en web para probar los diferentes algoritmos en su conjunto de datos. Esto se llama Flujo.

El tutorial le presentará el uso de Flow. Además, analizaremos el uso de AutoML que identificará el algoritmo de mejor rendimiento en su conjunto de datos. ¿No estás emocionado de aprender H2O? ¡Sigue leyendo!