tool scraping online descargar crawler araƱa web-crawler

web crawler - scraping - Obtenga una lista de URL de un sitio



web crawler tool (8)

Aquí hay una lista de generadores de sitemaps (de los cuales obviamente puede obtener la lista de URLs de un sitio): http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators

Generadores de sitemaps web

Los siguientes son enlaces a herramientas que generan o mantienen archivos en el formato XML Sitemaps, un estándar abierto definido en sitemaps.org y soportado por los motores de búsqueda como Ask, Google, Microsoft Live Search y Yahoo !. Los archivos del mapa del sitio generalmente contienen una colección de URL en un sitio web junto con algunos metadatos para estas URL. Las siguientes herramientas generalmente generan un mapa del sitio XML "web-type" y archivos de listas URL (algunos también pueden admitir otros formatos).

Tenga en cuenta: Google no ha probado ni verificado las funciones o la seguridad del software de terceros que se incluye en este sitio. Dirija cualquier pregunta sobre el software al autor del software. ¡Esperamos que disfrute de estas herramientas!

Programas del lado del servidor

  • Enarion phpSitemapsNG (PHP)
  • Generador de sitemaps de Google (Linux / Windows, 32/64 bits, código abierto)
  • Outil en PHP (francés, PHP)
  • Perl Sitemap Generator (Perl)
  • Python Sitemap Generator (Python)
  • Sitemaps simples (PHP)
  • SiteMap XML Dynamic Sitemap Generator (PHP) $
  • Generador de sitemaps para OS / 2 (script REXX)
  • XML Sitemap Generator (PHP) $

CMS y otros complementos:

  • ASP.NET - Sitemaps.Net
  • DotClear (español)
  • DotClear (2)
  • Drupal
  • Plantillas de comercio electrónico (PHP) $
  • Plantillas de comercio electrónico (PHP o ASP) $
  • LifeType
  • MediaWiki Sitemap generator
  • mnoGoSearch
  • Comercio de SO
  • phpWebSite
  • Plone
  • RapidWeaver
  • Textpattern
  • vBulletin
  • Wikka Wiki (PHP)
  • WordPress

Herramientas descargables

  • GSiteCrawler (Windows)
  • GWebCrawler y Sitemap Creator (Windows)
  • G-Mapper (Windows)
  • Inspyder Sitemap Creator (Windows) $
  • IntelliMapper (Windows) $
  • Microsys A1 Sitemap Generator (Windows) $
  • Rage Google Sitemap Automator $ (OS-X)
  • Screaming Frog SEO Spider y Sitemap Generator (Windows / Mac) $
  • Mapa del sitio Pro (Windows) $
  • Mapa del sitio Writer (Windows) $
  • Sitemap Generator por DevIntelligence (Windows)
  • Sorrowmans Sitemap Tools (Windows)
  • TheSiteMapper (Windows) $
  • Vigos Gsitemap (Windows)
  • Visual SEO Studio (Windows)
  • WebDesignPros Sitemap Generator (aplicación Java Webstart)
  • Weblight (Windows / Mac) $
  • WonderWebWare Sitemap Generator (Windows)

Generadores / Servicios en línea

  • AuditMyPc.com Sitemap Generator
  • AutoMapIt
  • Autositemap $
  • Enarion phpSitemapsNG
  • Generador de Sitemap gratuito
  • Neuroticweb.com Sitemap Generator
  • ROR Sitemap Generator
  • Generador de sitemaps de ScriptSocket
  • SeoUtility Sitemap Generator (italiano)
  • Mapa del sitioDoc
  • Sitemapspal
  • Mapa del sitioEnviar
  • Smart-IT-Consulting Google Sitemaps XML Validator
  • XML Sitemap Generator
  • XML-Sitemaps Generator

CMS con generadores de Sitemap integrados

  • Concrete5

Generadores de sitemaps de Google News Los siguientes complementos permiten a los editores actualizar los archivos de Google Sitemap, una variante del protocolo de sitemaps.org que describimos en nuestro Centro de ayuda. Además de las propiedades normales de los archivos de Sitemap, Google News Sitemaps permite a los editores describir los tipos de contenido que publican, junto con la especificación de niveles de acceso para artículos individuales. Se puede encontrar más información sobre Google Noticias en nuestro Centro de Ayuda y Foros de Ayuda.

  • Complemento de WordPress Google News

Fragmentos de código / bibliotecas

  • Script ASP
  • Script de Emacs Lisp
  • Biblioteca de Java
  • Guion Perl
  • Clase PHP
  • Script generador de PHP

Si cree que una herramienta se debe agregar o eliminar por un motivo legítimo, deje un comentario en el Foro de ayuda para webmasters.

Estoy implementando un sitio de reemplazo para un cliente, pero no quieren que todas sus páginas antiguas terminen en 404. Mantener la antigua estructura de URL no fue posible porque era horrible.

Así que estoy escribiendo un controlador 404 que debe buscar una página antigua solicitada y hacer un redireccionamiento permanente a la página nueva. El problema es que necesito una lista de todas las URL de página antiguas.

Podría hacerlo manualmente, pero me interesaría si hay alguna aplicación que me proporcione una lista de URL relativas (por ejemplo: / página / ruta, no http: /.../ página / ruta) que acaba de proporcionar el hogar. página. Como una araña pero a la que no le importa el contenido más que para encontrar páginas más profundas.


Buscaría en cualquier número de herramientas de generación de mapas de sitio en línea. Personalmente, he usado http://www.auditmypc.com/xml-sitemap.asp (basado en Java) en el pasado, pero si haces una búsqueda en Google de "sitemap Builder", estoy seguro de que encontrarás muchas opciones diferentes.


Entonces, en un mundo ideal, tendrías una especificación para todas las páginas de tu sitio. También tendría una infraestructura de prueba que podría llegar a todas sus páginas para probarlas.

Presumiblemente no estás en un mundo ideal. ¿Por qué no hacer esto ...?

  1. Cree una asignación entre las antiguas URL bien conocidas y las nuevas. Redirigir cuando vea una URL antigua. Posiblemente consideraría presentar un mensaje de "esta página se ha movido, su nueva URL es XXX, se te redireccionará en breve".

  2. Si no tiene una asignación, presente un mensaje "lo siento, esta página se ha movido. Aquí hay un enlace a la página de inicio" y redícínelos si lo desea.

  3. Registre todas las redirecciones, especialmente las que no tienen asignación. Con el tiempo, agregue asignaciones para las páginas que son importantes.


Escriba una araña que lea en cada html desde el disco y muestre cada atributo "href" de un elemento "a" (se puede hacer con un analizador). Tenga en cuenta qué enlaces pertenecen a una página determinada (esta es una tarea común para una estructura de datos de MultiMap). Después de esto, puede generar un archivo de asignación que actúa como entrada para el controlador 404.


Lo mejor que he encontrado es http://www.auditmypc.com/xml-sitemap.asp que usa Java, y no tiene límite en páginas, e incluso le permite exportar resultados como una lista de URL sin formato.

También utiliza sesiones, por lo que si está utilizando un CMS, asegúrese de cerrar la sesión antes de ejecutar el rastreo.



No quise responder a mi propia pregunta, pero solo pensé en ejecutar un generador de sitemap. El primero que encontré http://www.xml-sitemaps.com tiene un buen resultado de texto. Perfecto para mis necesidades


hacer wget -r www.oldsite.com

Entonces simplemente find www.oldsite.com revelará todas las URL, creo.

¡Alternativamente, solo sirve esa página personalizada no encontrada en cada solicitud 404! Es decir, si alguien usara el enlace incorrecto, obtendría que la página le dijera que no se encontró la página y que haga algunas sugerencias sobre el contenido del sitio.