ejemplos - Descargar una imagen a través de urllib y python
django (15)
Así que estoy tratando de hacer un script de Python que descargue webcomics y los ponga en una carpeta en mi escritorio. He encontrado algunos programas similares aquí que hacen algo similar, pero nada como lo que necesito. El que encontré más parecido está aquí ( http://bytes.com/topic/python/answers/850927-problem-using-urllib-download-images ). Intenté usar este código:
>>> import urllib
>>> image = urllib.URLopener()
>>> image.retrieve("http://www.gunnerkrigg.com//comics/00000001.jpg","00000001.jpg")
(''00000001.jpg'', <httplib.HTTPMessage instance at 0x1457a80>)
Luego busqué en mi computadora un archivo "00000001.jpg", pero todo lo que encontré fue la imagen almacenada en caché. Ni siquiera estoy seguro de que haya guardado el archivo en mi computadora. Una vez que entiendo cómo descargar el archivo, creo que sé cómo manejar el resto. Esencialmente solo use un bucle for y divida la cadena en ''00000000''. ''Jpg'' e incremente el ''00000000'' hasta el número más grande, que de alguna manera tendría que determinar. ¿Alguna recomendación sobre la mejor manera de hacer esto o cómo descargar el archivo correctamente?
¡Gracias!
EDITAR 15/06/10
Aquí está el script completado, guarda los archivos en cualquier directorio que elija. Por alguna extraña razón, los archivos no se estaban descargando y simplemente lo hicieron. Cualquier sugerencia sobre cómo limpiarlo sería muy apreciada. Actualmente estoy averiguando cómo averiguar cuántos comics existen en el sitio para poder obtener el último, en lugar de que el programa se cierre después de que se produzcan un cierto número de excepciones.
import urllib
import os
comicCounter=len(os.listdir(''/file''))+1 # reads the number of files in the folder to start downloading at the next comic
errorCount=0
def download_comic(url,comicName):
"""
download a comic in the form of
url = http://www.example.com
comicName = ''00000000.jpg''
"""
image=urllib.URLopener()
image.retrieve(url,comicName) # download comicName at URL
while comicCounter <= 1000: # not the most elegant solution
os.chdir(''/file'') # set where files download to
try:
if comicCounter < 10: # needed to break into 10^n segments because comic names are a set of zeros followed by a number
comicNumber=str(''0000000''+str(comicCounter)) # string containing the eight digit comic number
comicName=str(comicNumber+".jpg") # string containing the file name
url=str("http://www.gunnerkrigg.com//comics/"+comicName) # creates the URL for the comic
comicCounter+=1 # increments the comic counter to go to the next comic, must be before the download in case the download raises an exception
download_comic(url,comicName) # uses the function defined above to download the comic
print url
if 10 <= comicCounter < 100:
comicNumber=str(''000000''+str(comicCounter))
comicName=str(comicNumber+".jpg")
url=str("http://www.gunnerkrigg.com//comics/"+comicName)
comicCounter+=1
download_comic(url,comicName)
print url
if 100 <= comicCounter < 1000:
comicNumber=str(''00000''+str(comicCounter))
comicName=str(comicNumber+".jpg")
url=str("http://www.gunnerkrigg.com//comics/"+comicName)
comicCounter+=1
download_comic(url,comicName)
print url
else: # quit the program if any number outside this range shows up
quit
except IOError: # urllib raises an IOError for a 404 error, when the comic doesn''t exist
errorCount+=1 # add one to the error count
if errorCount>3: # if more than three errors occur during downloading, quit the program
break
else:
print str("comic"+ '' '' + str(comicCounter) + '' '' + "does not exist") # otherwise say that the certain comic number doesn''t exist
print "all comics are up to date" # prints if all comics are downloaded
¿Qué tal esto?
import urllib, os
def from_url( url, filename = None ):
''''''Store the url content to filename''''''
if not filename:
filename = os.path.basename( os.path.realpath(url) )
req = urllib.request.Request( url )
try:
response = urllib.request.urlopen( req )
except urllib.error.URLError as e:
if hasattr( e, ''reason'' ):
print( ''Fail in reaching the server -> '', e.reason )
return False
elif hasattr( e, ''code'' ):
print( ''The server couldn/'t fulfill the request -> '', e.code )
return False
else:
with open( filename, ''wb'' ) as fo:
fo.write( response.read() )
print( ''Url saved as %s'' % filename )
return True
##
def main():
test_url = ''http://cdn.sstatic.net//img/favicon.ico''
from_url( test_url )
if __name__ == ''__main__'':
main()
Además de sugerirle que lea los documentos de retrieve()
cuidado ( http://docs.python.org/library/urllib.html#urllib.URLopener.retrieve ), le sugiero que llame a read()
sobre el contenido de la respuesta. y luego guárdelo en un archivo de su elección en lugar de dejarlo en el archivo temporal que crea.
Encontré esta answer y la edito de manera más confiable
def download_photo(self, img_url, filename):
try:
image_on_web = urllib.urlopen(img_url)
if image_on_web.headers.maintype == ''image'':
buf = image_on_web.read()
path = os.getcwd() + DOWNLOADED_IMAGE_PATH
file_path = "%s%s" % (path, filename)
downloaded_image = file(file_path, "wb")
downloaded_image.write(buf)
downloaded_image.close()
image_on_web.close()
else:
return False
except:
return False
return True
De esto nunca obtienes ningún otro recurso o excepción durante la descarga.
Es más fácil simplemente usar .read()
para leer la respuesta parcial o completa, y luego escribirla en un archivo que haya abierto en una buena ubicación conocida.
Esto funcionó para mí usando Python 3.
Obtiene una lista de URL del archivo csv y comienza a descargarlas en una carpeta. En caso de que el contenido o la imagen no exista, toma esa excepción y continúa haciendo su magia.
import urllib.request
import csv
import os
errorCount=0
file_list = "/Users/$USER/Desktop/YOUR-FILE-TO-DOWNLOAD-IMAGES/image_{0}.jpg"
# CSV file must separate by commas
# urls.csv is set to your current working directory make sure your cd into or add the corresponding path
with open (''urls.csv'') as images:
images = csv.reader(images)
img_count = 1
print("Please Wait.. it will take some time")
for image in images:
try:
urllib.request.urlretrieve(image[0],
file_list.format(img_count))
img_count += 1
except IOError:
errorCount+=1
# Stop in case you reach 100 errors downloading images
if errorCount>100:
break
else:
print ("File does not exist")
print ("Done!")
Para Python 3 necesitarás import urllib.request
:
import urllib.request
urllib.request.urlretrieve(url, filename)
para más información mira el docs.python.org/3.0/library/…
Quizás necesites ''User-Agent'':
import urllib2
opener = urllib2.build_opener()
opener.addheaders = [(''User-Agent'', ''Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.137 Safari/537.36'')]
response = opener.open(''http://google.com'')
htmlData = response.read()
f = open(''file.txt'',''w'')
f.write(htmlData )
f.close()
Si necesita soporte de proxy, puede hacer esto:
if needProxy == False:
returnCode, urlReturnResponse = urllib.urlretrieve( myUrl, fullJpegPathAndName )
else:
proxy_support = urllib2.ProxyHandler({"https":myHttpProxyAddress})
opener = urllib2.build_opener(proxy_support)
urllib2.install_opener(opener)
urlReader = urllib2.urlopen( myUrl ).read()
with open( fullJpegPathAndName, "w" ) as f:
f.write( urlReader )
Si sabe que los archivos están ubicados en el mismo directorio dir
del sitio site
y tienen el siguiente formato: nombre_de_archivo_01.jpg, ..., nombre_de_archivo_10.jpg, descargue todos ellos:
import requests
for x in range(1, 10):
str1 = ''filename_%2.2d.jpg'' % (x)
str2 = ''http://site/dir/filename_%2.2d.jpg'' % (x)
f = open(str1, ''wb'')
f.write(requests.get(str2).content)
f.close()
Solo para el registro, usando las solicitudes de la biblioteca.
import requests
f = open(''00000001.jpg'',''wb'')
f.write(requests.get(''http://www.gunnerkrigg.com//comics/00000001.jpg'').content)
f.close()
Aunque debería verificar el error requests.get ().
Todos los códigos anteriores no permiten conservar el nombre original de la imagen, que en ocasiones se requiere. Esto ayudará a guardar las imágenes en su disco local, conservando el nombre original de la imagen
IMAGE = URL.rsplit(''/'',1)[1]
urllib.urlretrieve(URL, IMAGE)
Prueba esto para más detalles.
Una solución más simple puede ser (python 3):
import urllib.request
import os
os.chdir("D://comic") #your path
i=1;
s="00000000"
while i<1000:
try:
urllib.request.urlretrieve("http://www.gunnerkrigg.com//comics/"+ s[:8-len(str(i))]+ str(i)+".jpg",str(i)+".jpg")
except:
print("not possible" + str(i))
i+=1;
Usando urllib.urlretrieve :
import urllib
urllib.urlretrieve("http://www.gunnerkrigg.com//comics/00000001.jpg", "00000001.jpg")
Versión de Python 3 de la respuesta de @ DiGMi:
from urllib import request
f = open(''00000001.jpg'', ''wb'')
f.write(request.urlopen("http://www.gunnerkrigg.com/comics/00000001.jpg").read())
f.close()
import urllib
f = open(''00000001.jpg'',''wb'')
f.write(urllib.urlopen(''http://www.gunnerkrigg.com//comics/00000001.jpg'').read())
f.close()