ingreso campaña rss

rss - campaña - mailchimp blogger



¿Cómo puedo obtener todos los elementos antiguos en una fuente RSS? (7)

Además de lo que dijo David Dean, los feeds de RSS / Atom solo contendrán lo que el editor del feed ha publicado en ese momento y alguien debería recopilar activamente esta información para tener información histórica. Básicamente Google Reader estaba haciendo esto de forma gratuita y cuando interactuabas con él, podías recuperar esta información almacenada de los servidores de la base de datos de Google.

Ahora que han retirado el servicio, que yo sepa, usted tiene dos opciones. Usted debe comenzar a recopilar esta información de sus feeds de interés y almacenar los datos usando XML o algo así, o puede pagar por estos datos de una de las compañías que venden este tipo de información de feeds archivados.

Espero que esta información ayude a alguien.

Seán

He estado experimentando con la escritura de mi propio lector de RSS. Puedo manejar el bit "analizar XML". A lo que me refiero es a "¿Cómo obtengo publicaciones antiguas?"

La mayoría de los canales RSS solo muestran los 10-25 elementos más recientes en su archivo XML. ¿Cómo obtengo TODOS los artículos en un feed, y no solo los más recientes?

La única solución que pude encontrar fue usar la API "no oficial" de Google Reader, que sería algo así como

http://www.google.com/reader/atom/feed/http://fskrealityguide.blogspot.com/feeds/posts/default?n=1000

No quiero que mi aplicación dependa de Google Reader.

¿Hay alguna forma mejor? Noté que en Blogger, puedo hacer "? Start-index = 1 & max-results = 1000", y en WordPress puedo hacer "? Paged = 5". ¿Hay alguna forma general de obtener un feed RSS para que me brinde todo, y no solo los artículos más recientes?


Como las otras respuestas aquí mencionadas, un feed puede no proporcionar datos de archivo, pero los artículos históricos pueden estar disponibles de otra fuente.

Wayback Machine de Archive.org tiene una API para acceder al contenido histórico, incluidos los canales RSS (si sus bots lo han descargado). Backfeed la Backfeed herramienta web que usa esta API para regenerar un feed que contiene elementos históricos concatenados. Si desea discutir la implementación en detalle, póngase en contacto.


En mi experiencia con RSS, el feed se compila por los últimos X elementos donde X es una variable. Ciertos Feeds pueden tener la lista completa, pero para el ancho de banda, la mayoría de los lugares probablemente limiten solo los últimos artículos.

La posible respuesta para el lector de Google que tiene la información anterior es que la almacena de lado para los usuarios más adelante.


Los estándares RSS / Atom no tienen formas de consultar artículos RSS más antiguos.

También estoy trabajando en un lector RSS y decidí crear mi propio servicio de archivo RSS ( https://app.pub.center ). Es gratis usar la API REST. Cobramos dinero por notificaciones automáticas.

El servicio de encuestas diarias es un catálogo de fuentes RSS y guarda en caché los artículos. Luego, puede obtener estos artículos en orden cronológico. Por ejemplo:

Página 1 de The Atlantic https://pub.center/feed/02702624d8a4c825dde21af94e9169773454e0c3/articles?limit=10&page=1

Página 2 de The Atlantic https://pub.center/feed/02702624d8a4c825dde21af94e9169773454e0c3/articles?limit=10&page=2


Los feeds RSS / Atom no permiten recuperar información histórica. Depende del editor del feed proporcionarlo si lo desean, como en los ejemplos de blogger o wordpress que proporcionó anteriormente.

La única razón por la que Google Reader tiene más información es porque la recuerda desde el momento en que apareció por primera vez.

Hay algo de información sobre algo así como una extensión del protocolo ATOM , pero no sé si realmente se implementa en cualquier lugar.


Otra solución potencial que podría no haber estado disponible cuando se formuló originalmente la pregunta y no debería requerir ningún servicio específico.

  1. Busque la URL de la fuente RSS que desea y use waybackpack para obtener las URL archivadas para esa fuente.
  2. Use FeedReader o una biblioteca similar para desplegar la fuente RSS archivada.
  3. Tome las URL de cada fuente y retírelas como desee. Si vas atrás en el tiempo, es posible que haya algunos enlaces muertos.

Todas las respuestas anteriores dependían más o menos de los servicios existentes para seguir teniendo una copia de ese feed o del motor de alimentación para poder proporcionar elementos más antiguos de forma dinámica.

Sin embargo, hay otra forma, teóricamente proactiva y más bien teórica, de hacerlo: deja que tu lector use un proxy de almacenamiento en caché que entienda semánticamente feeds RSS y / o Atom y los almacene en una base por artículo hasta tantos elementos como configures.

Si el lector de feeds no realiza encuestas regularmente, el proxy podría obtener feeds conocidos por tiempo para que no se pierda un elemento en feeds altamente volátiles como el de User Friendly, que tiene solo un elemento y cambia todos los días (o al menos solía hacerlo). Por lo tanto, si el feedreadere.g. Se bloqueó o perdió la conexión de red mientras estuvo ausente durante unos días, es posible que pierda elementos en la memoria caché del lector de datos. Tener el proxy para buscar esos feeds regularmente (p. Ej. Desde un centro de datos en su casa o en un servidor en lugar de una computadora portátil) le permite ejecutar el lector de datos fácilmente solo y sin perder los elementos que se publicaron después de que su lector de feeds la última vez, pero se volvió a girar antes de que los recuperes la próxima vez.

Llamo a ese concepto un proxy de alimentación semántica y he implementado una implementación de prueba de concepto llamada sfp . Aunque no es mucho más que una prueba de concepto y no lo he desarrollado aún más. (Así que me alegran las pistas sobre proyectos con ideas o propósitos similares. :-)