tutorial - ¿Cuál es una forma simple de extraer la lista de URL en una página web usando Python?

tutorial django (3)

Quiero crear un rastreador web simple para divertirme. Necesito el rastreador web para obtener una lista de todos los enlaces en una página. ¿Tiene la biblioteca de Python alguna función incorporada que haría esto más fácil? Gracias cualquier conocimiento apreciado.

Esto es realmente muy simple con BeautifulSoup .

from BeautifulSoup import BeautifulSoup [element[''href''] for element in BeautifulSoup(document_contents).findAll(''a'', href=True)] # [u''http://example.com/'', u''/example'', ...]

Una última cosa: puede usar urlparse.urljoin para hacer que todas las URL sean absolutas. Si necesita el texto del enlace, puede usar algo como element.contents[0] .

Y así es como puedes atarlo todo:

import urllib2 import urlparse from BeautifulSoup import BeautifulSoup def get_all_link_targets(url): return [urlparse.urljoin(url, tag[''href'']) for tag in BeautifulSoup(urllib2.urlopen(url)).findAll(''a'', href=True)]

Hay un artículo sobre el uso de HTMLParser para obtener las URL de las etiquetas <a> en una página web.

El código es este:

de HTMLParser import HTMLParser de urllib2 import urlopen

class Spider(HTMLParser): def __init__(self, url): HTMLParser.__init__(self) req = urlopen(url) self.feed(req.read()) def handle_starttag(self, tag, attrs): if tag == ''a'' and attrs: print "Found link => %s" % attrs[0][1] Spider(''http://www.python.org'')

Si ejecutara ese script, obtendría resultados como este:

Puede usar regex para distinguir entre URL absolutas y relativas.

Solución hecha usando libxml.

import urllib import libxml2 parse_opts = libxml2.HTML_PARSE_RECOVER + / libxml2.HTML_PARSE_NOERROR + / libxml2.HTML_PARSE_NOWARNING doc = libxml2.htmlReadDoc(urllib.urlopen(url).read(), '''', None, parse_opts) print [ i.getContent() for i in doc.xpathNewContext().xpathEval("//a/@href") ]