¿Cómo descargar los resultados de búsqueda en google scholar usando r?
google-scholar (5)
Me gustaría extraer los primeros 100 resultados (digamos) de una búsqueda de Google Scholar usando R. ¿Alguien sabe cómo hacerlo?
Para ser precisos, solo necesito el nombre del artículo, los autores y el recuento de citas.
¿Sería esto legal?
Definitivamente, puede recuperar el contenido HTML de la página usando RCurl y analizarlos usando RXML como lo sugiere Btibert3. El único problema que podría enfrentar es que Google no le permitirá hacer consultas de forma "robótica". Después de unas 200 consultas en Google en un corto período de tiempo, ya no devolverá resultados. Tal vez sea diferente con Google Scholar, pero lo dudo ...
Hay algunos raspadores de Python y Perl por ahí que podrías adaptar, enlazados en http://bmb-common.blogspot.com/2011/02/does-google-scholar-suck-or-am-i-just.html
No puedo hablar sobre la legalidad de su tarea, pero hay algunas maneras en que puede hacerlo. Si bien no soy fuerte en XPath, podría ser la mejor manera. Creo que puede usar el paquete XML para recuperar el contenido de la página y usar XPath para extraer los datos de los elementos que necesita.
Por ejemplo, uso Chrome para un navegador, y cuando inspeccioné la página con las Herramientas del desarrollador, parece que hay una estructura en la página, con los datos "ocultos" dentro de varias etiquetas que, en caso de poder explotar, se pueden usar fácilmente. XPath.
Echa un vistazo a este link para ver un ejemplo de uso de XPath.
HTH y buena suerte
Por favor considere el post actualizado de biobucket:
http://thebiobucket.blogspot.com/2011/11/r-function-google-scholar-webscraper.html
Una solución fue publicada recientemente aquí:
http://thebiobucket.blogspot.com/2011/11/visually-examine-google-scholar-search.html