wiki - content - meta name keywords
¿Cómo obtener los datos de Infobox de Wikipedia? (8)
Si tengo la url a una página, ¿cómo obtendría la información de Infobox a la derecha usando los servicios web de MediaWiki?
¿Qué hay de usar el modo de edición? Puede comenzar con la TextArea correcta (la mayor parte del Tiempo contiene id="wpTextBox1"
) y analizar el contenido de esa TextArea ... La URL que usé para averiguarlo fue (Nota: sección = 0):
https://de.wikipedia.org/w/index.php?title=Pelephone&action=edit§ion=0
Saludos
Cada página de Wikipedia está asociada a un elemento de Wikidata, y todos estos elementos incluyen la mayoría de los parámetros de las plantillas Infobox de la página de Wikipedia. Por lo tanto, solo necesita acceder a los datos asociados a su página de Wikipedia desde la API de Wikidata .
Un ejemplo de cómo obtener los datos para la página de Donald Trump de Wikipedia de un artículo de Wikidata :
https://www.wikidata.org/w/api.php?action=wbgetentities&sites=enwiki&props=claims&titles=Donald Trump
La respuesta incluirá: fecha y lugar de nacimiento, imagen, religión, madre, padre, hijos, estatura, firma, sitio web oficial, etc ..., toda la información principal sobre Donald Trump incluida en el Infobox de Wikipedia.
En nuestro proyecto utilizamos consultas para obtener datos de wiktionary de la siguiente manera:
http://query.yahooapis.com/v1/public/yql?q=select%20*%20from%20html%20where%20url%3D%22http%3A%2F%2Fen.wiktionary.org%2Fwiki%2Flife%22%20and%20xpath%3D''%2F%2Fdiv%5B%40id%3D%22bodyContent%22%5D''&format=xml&diagnostics=false&env=store%3A%2F%2Fdatatables.org%2Falltableswithkeys&callback=recwiki
No tengo una comprensión completa de ello, pero funciona. El resultado de salida se puede filtrar usando jquery o algo más.
No hay una manera trivial de hacer eso. Puede intentar obtener el contenido de la página usando action=raw
, es decir, http://en.wikipedia.org/w/index.php?action=raw&title=Douglas_Jardine
Luego busque el inicio del cuadro de información buscando {{Infobox
. Luego encuentre el final encontrando la coincidencia }}
, teniendo en cuenta que el mismo infobox también puede contener los pares {{
- }}
y {{{
- }}}
.
Si solo desea analizar el cuadro de información o desea obtener algunos datos digeridos, consulte el proyecto DBPedia: http://dbpedia.org
Escanea los infoboxes en WP para crear una base de datos RDF de Wikipedia: https://github.com/dbpedia/extraction-framework/
Tal vez un poco tarde, pero quería lo mismo y no veía ninguna solución fácil aquí, pero (como Bryan señala) resulta que no es demasiado difícil usar la API de Mediawiki con esta biblioteca:
Uso:
>>> import wptools
>>> so = wptools.page('''').get_parse()
>>> so.infobox
{''alexa'': ''{{DecreasePositive}}'',
''author'': ''[[Joel Spolsky]] and [[Jeff Atwood]]'',
''caption'': ''Screenshot of as of February 2015'',
''commercial'': ''Yes'',
''content_license'': ''[[Creative Commons license|CC-BY-SA]] 3.0'',
''current status'': ''Online'',
''landscape'': ''yes'',
''language'': ''English'',
''launch date'': ''{{start date and age|2008|9|15}}'',
''logo'': '' logo.svg'',
''name'': '''',
''owner'': ''Stack Exchange, Inc.'',
''programming_language'': ''[[C Sharp (programming language)|C#]]'',
''registration'': ''Optional; Uses [[OpenID]]'',
''revenue'': '''',
''screenshot'': '' homepage.png'',
''slogan'': '''',
''type'': ''[[:Category:Knowledge markets|Knowledge markets]]'',
''url'': ''{{URL|https://.com}}''}
Tomxu, de lo que estás hablando es de una plantilla, que es una simple página que puedes incluir en otra página. Para el infobox, debes comenzar por mirar Template:Infobox . Esto le da instrucciones detalladas.
También puede presionar editar (o ver el código) y copiar los contenidos a su propia wiki. Tenga en cuenta que las plantillas tienden a estar en una jerarquía, por lo que es posible que necesite copiar otras plantillas que utiliza Infobox (si desea usarlas). Cada plantilla puede identificarse con {{}}, por ejemplo, la plantilla de Infobox se verá así: {{Infobox}}.
Mencioné una jerarquía: en realidad encontrarás varias plantillas que usan Template: Infobox. Para encontrarlos, simplemente escriba esto en el campo de búsqueda de Wikipedia: Plantilla: Infobox y luego encontrará varios ejemplos, por ejemplo, Plantilla: escritor de Infobox
Actualización: si te refieres a Navboxes, entonces ve esta información .
Usando MediaWiki, puede ver el cuadro de información a la derecha de una página de Wikipedia usando este enlace a continuación. Como puede ver, el formato está en JSON (se puede cambiar) y al cambiar la palabra "hidrógeno" al título específico que desea, aparecerá una página con un cuadro de información.
https://en.wikipedia.org/w/api.php?action=parse&page=Template:Infobox%20hydrogen&format=json