xml - recibir - rss google
Cómo funciona el gran lector RSS(netvibes, Google reader...) (1)
Hay muchas técnicas diferentes ... la "peor" es la que usted describe. (encuesta basada en el tiempo).
Lo primero que debe considerar es que es posible que no todos realicen el análisis en el lado del servidor. Por ejemplo, sé que Netvibes estaba realizando el análisis en el lado del cliente (pero almacenó el contenido en el servidor), por lo que les ahorró muchos recursos. De esta manera, sondearían las fuentes solo cuando los usuarios les preguntaban, por lo que no es necesario que ejecuten algún tipo de bucle de tiempo.
El sondeo basado en el tiempo sigue siendo, desafortunadamente, la solución más frecuente . Existen muchas técnicas para determinar cuándo es el mejor momento para hacer una encuesta. Según la frecuencia de las actualizaciones anteriores, según la cantidad de usuarios que suscribieron ... etc. Los servidores de ping XML-RPC anteriores también pueden ser utilizados por estos tipos.
La técnica más eficiente es usar PubSubHubbub , que es un protocolo abierto utilizado por Google Reader, Netvibes y algunos otros miles de aplicaciones (como Digg.com, Twitterfeed, Friendfeed ...). Es un protocolo abierto que le permite al editor de feeds enviar directamente el contenido del feed a las aplicaciones suscritas. Es muy eficiente, pero requiere que el editor lo implemente. Por casualidad, todas las grandes plataformas de blogs (Tumblr, Posterous, Wordpress, Blogger, SixApart ... etc) lo han implementado. Otras aplicaciones de publicación de feeds (como feedburner, Gowalla, ...) también lo implementaron. Si publicas feeds, te animo a unirte a esta multitud, y si planeas consumir algunos, por favor, implementa también el lado del suscriptor.
La última solución es usar una aplicación de terceros para hacer esta recopilación de datos (utilizando todas las técnicas anteriores) y hacer un ping cuando estas fuentes realmente tengan nuevo contenido. Creé una: Superfeedr y creo que hacemos un buen trabajo con esto. También normalizamos el contenido y hacemos algunas otras cosas para ayudarlo a consumir datos de alimentación de la forma más sencilla y económica (el sondeo puede ser muy caro). Además, utilizamos exactamente el mismo protocolo PubSubHubbub para enviar contenido de cualquier fuente, lo que hace que nuestros usuarios puedan utilizar nuestro servicio de forma muy sencilla, además de suscribirse a los centros disponibles.
Además, debo agregar que pude responder rápidamente a tu pregunta, porque uso una aplicación que me envía el contenido del feed a las preguntas etiquetadas como RSS :)
Me pregunto cómo funcionan las aplicaciones web como Google Reader, Blogline, techronati y qué técnicas siguen para analizar millones de feeds RSS utilizando el trabajo cron a la vez.