vinculo vincular una poner paginas pagina otra nueva links hipervinculos enlaces enlace ejemplos con como directory web-crawler

directory - una - vincular paginas web



Cómo encontrar todos los enlaces/páginas en un sitio web (5)

O puede usar Google para mostrar todas las páginas que ha indexado para este dominio. Ejemplo: site:www.bbc.co.uk

¿Es posible encontrar todas las páginas y enlaces en CUALQUIER sitio web dado? Me gustaría ingresar una URL y producir un árbol de directorios con todos los enlaces de ese sitio.

Miré HTTrack pero eso descarga todo el sitio y simplemente necesito el árbol de directorios.


Si esta es una pregunta de programación, le sugiero que escriba su propia expresión regular para analizar todos los contenidos recuperados. Las etiquetas de destino son IMG y A para HTML estándar. Para JAVA,

final String openingTags = "(<a [^>]*href=[''/"]?|<img[^> ]* src=[''/"]?)";

esto junto con las clases Pattern y Matcher deberían detectar el comienzo de las etiquetas. Agregue la etiqueta LINK si también desea CSS.

Sin embargo, no es tan fácil como habrás pensado inicialmente. Muchas páginas web no están bien formadas. Extraer todos los enlaces programáticamente que el ser humano puede "reconocer" es realmente difícil si necesita tener en cuenta todas las expresiones irregulares.

¡Buena suerte!


Si tiene la consola de desarrollador (JavaScript) en su navegador, puede escribir este código en:

urls = document.querySelectorAll(''a''); for (url in urls) console.log(urls[url].href);

Acortado:

n=$$(''a'');for(u in n)console.log(n[u].href)


Verifique linkchecker rastreará el sitio (mientras obedece el robots.txt ) y generará un informe. A partir de ahí, puede crear una secuencia de comandos de una solución para crear el árbol de directorios.


function getalllinks($url){ $links = array(); if ($fp = fopen($url, ''r'')) { $content = ''''; while ($line = fread($fp, 1024)) { $content .= $line; } } $textLen = strlen($content); if ( $textLen > 10){ $startPos = 0; $valid = true; while ($valid){ $spos = strpos($content,''<a '',$startPos); if ($spos < $startPos) $valid = false; $spos = strpos($content,''href'',$spos); $spos = strpos($content,''"'',$spos)+1; $epos = strpos($content,''"'',$spos); $startPos = $epos; $link = substr($content,$spos,$epos-$spos); if (strpos($link,''http://'') !== false) $links[] = $link; } } return $links; } try this code....