scribe flume

scribe - flume vs kafka vs otros



(1)

Mediawiki (Wikipedia) revisó esto y publicó un buen artículo sobre cómo llegaron a su elección (Kafka) contra Scribe, Flume y otros.

http://www.mediawiki.org/wiki/Analytics/Kraken/Request_Logging

nuevo enlace:
https://wikitech.wikimedia.org/wiki/Analytics/Kraken/Logging_Solutions_Recommendation

Resumen para la posteridad:

"Nuestra recomendación es Apache Kafka, un sistema de mensajes distribuidos de publicación y publicación diseñado para el rendimiento. Evaluamos alrededor de una docena [1] de los mejores sistemas extraídos de los dominios de la recopilación de registros distribuidos, el procesamiento CEP / stream y el tiempo real. Sistemas de mensajería. Si bien estos sistemas ofrecen características sorprendentemente similares, difieren sustancialmente en la implementación, y cada uno está especializado en un perfil de trabajo particular (una discusión técnica más completa está disponible como un apéndice).

"Kafka se destaca porque está especializada en el rendimiento y distribuida explícitamente en todos los niveles de su arquitectura. Curiosamente, también está lo suficientemente preocupada por la conservación de recursos [2] para ofrecer compensaciones sensatas que relajen las garantías a cambio de resultados, algo que puede no afectar". Facebook o Google como una característica importante en los sistemas que diseñan. Las restricciones generan creatividad.

"Además, Kafka tiene varias ventajas de especial interés para los lectores de Operaciones. Aunque está escrito en Scala, se entrega con una biblioteca de productores de C ++ nativa que se puede incrustar en un módulo para nuestros servidores de caché, evitando la necesidad de ejecutar la JVM en En segundo lugar, los productores pueden configurarse para solicitudes por lotes para optimizar el tráfico de red, pero no crean un registro local persistente que requiera un mantenimiento adicional. El uso de memoria y E / S de Kafka se deja al sistema operativo en lugar de a la JVM [3 ].

"Kafka fue escrito por LinkedIn y ahora es un proyecto de Apache. En producción en LinkedIn, aproximadamente ocho mil productores son manejados por ocho servidores Kafka por centro de datos. Estos grupos consolidan sus flujos en un solo centro de datos analítico, que Kafka soporta de forma directa a través de un Configuración de duplicación simple.

"Estas características son muy adecuadas para nuestros casos de uso previstos; incluso las que no pretendemos utilizar, como la fragmentación y el enrutamiento por categorías de" temas ", son interesantes y pueden resultar útiles en el futuro a medida que ampliemos nuestros objetivos.

"El resto de este documento se sumerge en estos temas con mayor detalle ..."

Es posible que esta pregunta se haya formulado anteriormente, pero creo que es bueno considerarlo hoy, ya que estas tecnologías han madurado. Estamos buscando usar uno de flume, kafka, scribe u otros para almacenar la información de los perfiles de facebook y twitter en hbase para hacer análisis más adelante. Estamos considerando flume para el propósito, pero no he trabajado con otras tecnologías para tomar una decisión informada. ¡Cualquiera que pueda arrojar algo de luz será genial! Muchas gracias.