que - mashups caracteristicas

¿Cómo obtienen los datos de los mashups de craigslist? (8)

Una alternativa al raspado (y el bloqueo), el uso de marcos o la búsqueda de Google es utilizar un intermediario de datos o un servicio de intercambio de datos .

3taps es un servicio beta que proporciona una API de desarrollador para muchos servicios, incluida Craigslist. Su equipo también construyó Craiggers para demostrar un caso de uso de esta API. El fundador, Greg Kidd, me dijo que 3taps recolecta datos de Craigslist de fuentes que no son de Craigslist, donde ya está indexado y almacenado en caché, de modo que no ejerza presión sobre Craigslist. También se incluyen otras fuentes de datos de 3taps, pero estas estadísticas no aclaran si actualmente son compatibles. Su objetivo es democratizar el intercambio de datos .

80legs es un servicio de rastreo que proporciona una opción menos en tiempo real pero potencialmente más completa. Su servicio de estilo de volcado de datos incluye paquetes de rastreo para cientos de sitios como Amazon, Facebook y Zillow (no creo en Craigslist actualmente). Su esfuerzo más reciente Datafiniti proporciona un motor de búsqueda sobre este tipo de datos.

Estoy haciendo un trabajo de investigación en los agregadores de contenido, y tengo curiosidad de cómo algunos de los agregadores de craigslist actuales obtienen datos en sus mashups.

Por ejemplo, www.housingmaps.com y el ahora cerrado www.chicagocrime.org

Si hay una URL que se puede usar como referencia, ¡sería perfecto!

Estoy adivinando raspado de pantalla

No creo que haya una API Craigslist todavía ... y no creo que lanzarán una ...

así que el único camino a seguir es raspar datos ... podrías usar la biblioteca cURL y jalar la expresión regular para raspar los datos que deseas de una página

si ve un enlace ... acceda a la página ... raspe la nueva página obtenga los datos y muéstrelos o guárdelos

y así..

Para AdRavage.com utilizo una combinación de RSS de Magpie (para extraer los datos devueltos de las búsquedas) y una clase de eliminación de pantalla personalizada para completar correctamente la información de ciudad / categoría utilizada al crear búsquedas.

Por ejemplo, para extraer las categorías que podrías:

//scrape category data $h = new http(); $h->dir = "../cache/"; $url = "http://craigslist.org/"; if (!$h->fetch($url, 300)) { echo "<h2>There is a problem with the http request!</h2>"; exit(); } //we need to get all category abbreviations (data looks like: <option value="ccc">community) preg_match_all ("/<option value=/"(.*)/">([^`]*?)/n/", $h->body, $categoryTemp); $catNames = $categoryTemp[''2'']; //return the array of abreviations if(sizeof($catNames) > 0) return $catNames; else return $emptyArray = array();

Mientras continúo investigando esta área, encontré un sitio impresionante que hace, en parte, lo que me interesa:

Crazedlist

Utiliza el HTTPReferer del navegador del cliente, que es interesante pero no ideal. El autor del sitio también afirma haber marcado con realismo CL, que entiendo. También da un claro ejemplo de necesidad comercial, que son similares a mis necesidades, y por qué estoy interesado en este tema.

Acabo de hacer uno:

http://cdn.javascriptmvc.com/videos/jobs/craigslist.js

Eso produce:

http://cdn.javascriptmvc.com/videos/jobs/craigslist.html

Debe ser ejecutado en rinoceronte.

La opción alternativa sería usar tubos YQL o Yahoo para reunir los resultados.

Craiglook y HousingMaps los están usando para recopilar resultados

He realizado una gran cantidad de agregación de datos de sitios como eBay, Craigslist y Zillow. Cada fuente requiere un método diferente para agregar los datos.

Para Craigslist, obtuve la información mediante fuentes RSS. Solo quería datos específicos en categorías específicas en ciudades específicas, y las fuentes RSS funcionaron bien para mí. Si intenta obtener todos los datos y usa en exceso los canales RSS, es probable que Craigslist lo bloquee. Además, no podrá obtener todos los datos de los feeds de Craigslist, porque los feeds muestran la mayoría de los datos, pero no todos. Si su confiabilidad no necesita ser del 100%, entonces RSS es la forma más fácil de hacerlo.

El problema con cualquier solución de craigslist es que bloquean automáticamente cualquier dirección IP que acceda a ellos demasiado, lo que generalmente significa más de unos cientos de veces al día. Entonces, tan pronto como tu herramienta tenga algún tipo de popularidad, se cerrará.

Es por eso que los únicos sitios de búsqueda craigslist que han durado ya sea usan marcos (como searchtempest.com y crazedlist.org) o google (como allofcraigs.com).

Lo que 3taps hace es recopilar la lista de craigslist de fuentes de terceros ''en la naturaleza'' - cosas como las cachés de Google y Bing, por ejemplo.

Editar: esta respuesta ya no está actualizada. La mayoría de los motores de búsqueda clasificados que incluyen resultados de craigslist ahora usan Google Custom Search o soluciones similares de Yahoo o Bing. SearchTempest usa ambos. Allofcraigs ahora es adhuntr y usa Google. Crazedlist ha cerrado.