sistemas seguimiento qué puede propiedad insertar how google datos como codigo google-analytics data-warehouse etl

seguimiento - ¿Cómo extraer datos de Google Analytics y construir un almacén de datos(webhouse) a partir de él?



id de propiedad de google analytics (6)

Tengo datos de transmisión de clics, como la URL de referencia, las páginas principales de destino, las principales páginas de salida y las métricas, como las visitas a la página, el número de visitas y los rebotes, todo en Google Analytics. Aún no hay una base de datos donde pueda almacenarse toda esta información. Estoy obligado a construir un data warehouse desde cero (que a mi entender se conoce como web-house) a partir de estos datos. Por lo tanto, necesito extraer datos de Google Analytics y cargarlos en un almacén diariamente de forma automatizada. Mis preguntas son:

1) ¿Es posible? Cada día aumentan los datos (algunos en términos de métricas o medidas tales como visitas y algunos en términos de nuevos sitios de referencia), ¿cómo se llevaría a cabo el proceso de carga del almacén?

2) ¿Qué herramienta de ETL me ayudaría a lograr esto? Pentaho, creo que tiene una forma de extraer datos de Google Analytics, ¿alguien lo usó? ¿Cómo va ese proceso? Cualquier referencia, enlaces serían apreciados además de las respuestas.


Como dijo Shiva, siempre puedes extraer los datos de GA a través de las API de Google y almacenarlos tú mismo. Sin embargo, si está buscando una herramienta de almacenamiento rentable, pruebe Analytics Canvas @ http://www.analyticscanvas.com/

También puede consultar la galería de aplicaciones de Google para herramientas relacionadas con Google Analytics: http://www.google.com/analytics/apps/


Como siempre, conocer la estructura de los datos de transacción subyacentes, los componentes atómicos utilizados para construir un DW, es el primer y más grande paso.

En esencia, hay dos opciones, basadas en cómo recuperar los datos. Uno de estos, ya mencionado en una respuesta anterior a esta pregunta, es acceder a sus datos GA a través de la GA API. Esto es bastante similar a la forma en que los datos aparecen en el Informe GA, en lugar de los datos transaccionales. La ventaja de usar esto como su fuente de datos es que su "ETL" es muy simple, solo analizar los datos del contenedor XML es todo lo que se necesita.

La segunda opción implica tomar los datos mucho más cerca de la fuente.

Nada complicado, aún así, algunas líneas de fondo son quizás útiles aquí.

  • GA Web Dashboard se crea analizando / filtrando un registro de transacciones GA (el contenedor que contiene los datos GA que corresponden a un perfil en una cuenta).

  • Cada línea en este registro representa una sola transacción y se entrega al servidor GA en forma de una solicitud HTTP del cliente.

  • Anexa a esa Solicitud (que es nominalmente para un GIF de píxel único ) hay una sola cadena que contiene todos los datos devueltos de esa llamada de función _TrackPageview más los datos de las cookies DOM, GA del cliente establecidas para este cliente y los contenidos de la Barra de ubicación del navegador ( http: // www .... ).

  • Aunque esta solicitud es del cliente, es invocada por el script GA (que reside en el cliente) inmediatamente después de la ejecución de la función principal de recopilación de datos de GA (_PublicPageview).

Entonces, trabajar directamente con esta información de transacción es probablemente la forma más natural de construir un Almacén de Datos; otra ventaja es que evita la sobrecarga adicional de una API intermedia).

Las líneas individuales del registro de GA normalmente no están disponibles para los usuarios de GA. Aún así, es simple obtenerlos. Estos dos pasos deberían ser suficientes:

  1. modifique el código de seguimiento de GA en cada página de su Sitio para que envíe una copia de cada Solicitud de GIF (una línea en el archivo de registro de GA) a su propio servidor, específicamente, inmediatamente antes de la llamada a _trackPageview (), agregue esta línea:

    pageTracker._setLocalRemoteServerMode();

  2. A continuación, simplemente coloque una imagen gif de un solo píxel en la raíz de su documento y llámelo "__utm.gif" .

Así que ahora el registro de actividad del servidor contendrá estas líneas de transmisión individuales, creadas nuevamente a partir de una cadena adjunta a una Solicitud HTTP para el píxel de seguimiento de GA, así como de otros datos en la Solicitud (por ejemplo, la cadena del Agente de usuario). Esta cadena anterior es solo una concatenación de pares clave-valor, cada clave comienza con las letras "utm" (probablemente para "rastreador de urching"). No todos los parámetros utm aparecen en cada Solicitud GIF, varios de ellos, por ejemplo, se usan solo para transacciones de comercio electrónico; depende de la transacción.

Aquí hay una solicitud GIF real (la identificación de la cuenta se ha desinfectado, de lo contrario está intacta):

http://www.google-analytics.com/__utm.gif?utmwv=1&utmn=1669045322&utmcs=UTF-8&utmsr=1280x800&utmsc=24-bit&utmul=en-us&utmje=1&utmfl=10.0%20r45&utmcn=1&utmdt=Position%20Listings%20% 7C% 20Linden% 20Lab & utmhn = lindenlab.hrmdirect.com & utmr = http: //lindenlab.com/employment&utmp=/employment/openings.php? Sort = da && utmac = UA-XXXXXX-X & utmcc = __ utma% 3D87045125.1669045322.1274256051.1274256051.1274256051.1% 3B % 2B__utmb% 3D87045125% 3B% 2B__utmc% 3D87045125% 3B% 2B__utmz% 3D87045125.1274256051.1.1.utmccn% 3D (referencia)% 7Cutmcsr% 3Dlindenlab.com% 7Cutccct% 3D% 2Femployment% 7Cutmcmd% 3Dreferral% 3B% 2B

Como puede ver, esta cadena se compone de un conjunto de pares clave-valor, cada uno separado por un "&". Solo dos pasos triviales: (i) dividir esta cadena en el signo &; y (ii) el reemplazo de cada parámetro de gif (clave) con una breve frase descriptiva, hace que esto sea mucho más fácil de leer:

gatc_version 1

GIF_req_unique_id 1669045322

language_encoding UTF-8

screen_resolution 1280x800

screen_color_depth 24-bit

browser_language en-us

java_enabled 1

flash_version 10.0% 20r45

campaign_session_new 1

page_title Posición% 20Listings% 20% 7C% 20Linden% 20Lab

host_name lindenlab.hrmdirect.com

referral_url http://lindenlab.com/employment

page_request /employment/openings.php?sort=da

account_string UA-XXXXXX-X

cookies __utma% 3D87045125.1669045322.1274256051.1274256051.1274256051.1% 3B% 2B__utmb% 3D87045125% 3B% 2B__utmc% 3D87045125% 3B% 2B__utmc% 3D87045125.1274256051.1.1.utmccn% 3D (referencia)% 7Cutmcsr% 3Dlindenlab.com% 7Cutccct% 3D% 2Femployment% 7Cutmcmd% 3Dreferral% 3B% 2B

Las cookies también son fáciles de analizar (ver la descripción concisa de Google aquí ): por ejemplo,

  • __utma es la cookie de visitante único,

  • __utmb, __utmc son cookies de sesión, y

  • __utmz es el tipo de referencia.

Las cookies de GA almacenan la mayoría de los datos que registran cada interacción de un usuario (por ejemplo, hacer clic en un enlace de descarga etiquetado, hacer clic en un enlace a otra página en el Sitio, visitarlo al día siguiente, etc.). Entonces, por ejemplo, la cookie __utma se compone de un grupo de enteros, cada grupo separado por un "."; el último grupo es el recuento de visitas para ese usuario (un "1" en este caso).


Hay dos reglas importantes sobre la carga de datos en data-warehouse

  1. Carga inicial
  2. Carga incremental de datos

Cuando diseña usando GA api, necesita cargar los datos históricos iniciales para un cierto rango de fechas. Esto tiene sus propias complicaciones ya que puede encontrarse con problemas de segmentación, pérdida de datos, etc. Necesita manejar la paginación, etc.

Una vez que se completa la carga de datos inicial, la ejecuta en modo incremental, donde solo obtiene datos nuevos. Estos datos se anexan a las mismas tablas de depósito de datos y no causan duplicados con fechas superpuestas.

Además de esto, GA cambia su API con frecuencia, por lo que debe estar al tanto de esto también.

Teniendo en cuenta lo anterior, lanzamos un almacén de datos completamente empaquetado con conectores de datos de Google Analytics y Salesforce. Puede consultar los detalles y obtener ideas sobre cómo desea configurar su propio datawarehouse http://www.infocaptor.com/google-analytics-datawarehouse

El mínimo que necesitaría para diseñar es algún tipo de daemon de fondo que se ejecute todos los días o con cierta frecuencia. Necesitará tablas de trabajo para supervisar el éxito y el fracaso de los extractos para que pueda reanudarse desde donde se produjo el error.

Algunas de las otras consideraciones 1. ¿Qué sucede si ejecuta el extracto para el mismo rango de datos? 2. ¿Qué sucede si un trabajo falla en determinadas fechas?

Es importante establecer las claves principales para las tablas de objetivos de DW. En MySQL, el uso de la instrucción de inserción con cláusula duplicada garantizará que no se creen registros duplicados en caso de volver a cargar los datos.

Otra cosa para diseñar es tu capa de transición. Extrae los datos de GA y los descarga en una Etapa. De esta forma, si se carga un error en Target, simplemente puede volver a cargar desde la etapa. De esta forma, no está cargando los límites de su API de GA y también ahorrará ancho de banda.

Puede ver nuestro diseño completo en esta ubicación http://www.infocaptor.com/help/social_analytics___datawarehouse.htm

Todo lo mejor con tu esfuerzo de DW.



Puede extraer los datos de GA (Google Analytics) en cualquier momento a través de su API y crear su propio almacén de datos (DW). Antes de comenzar, es posible que desee sentarse con el usuario comercial y obtener una comprensión clara de los requisitos del negocio. En el entorno de DW, es extremadamente importante tener unos objetivos definidos y una comprensión clara de los requisitos de los usuarios de negocios debido al hecho de que mantendrá un historial de las transacciones que duran mucho tiempo y se utilizan con frecuencia.

Suponiendo que el usuario comercial define KPI (Key Performance Indicators), métricas, dimensiones, granularidad necesarias para que pueda continuar, puede verificar las diferentes dimensiones y métricas que están disponibles a través de GA API en code.google.com/apis/analytics/docs/. Entonces solo se trata de hacer la llamada API correcta y obtener lo que necesita. La actividad de DW implica limpieza, extracción, transformación y carga de datos (ETL) o ELT junto con un resumen de los hechos a lo largo de diferentes dimensiones. Como los datos son mucho más limpios de lo que uno encontraría en sistemas dispares (desde registros web, proveedores externos, Excel o archivos, etc.), simplemente puede cargar los datos a través de cualquier herramienta ETL (por ejemplo, Talend, Pentaho, SSIS, etc. ) o mediante la aplicación que elijas (Perl, Java, Ruby, C #, etc.).

Para la carga diaria, debe diseñar un proceso de carga incremental durante el tiempo de tráfico de usuario bajo (cargas nocturnas), extraer solo los datos recientes, borrar los duplicados, limpiar los datos no conformes, manejar filas erróneas, etc.

He proporcionado una aplicación GA API de ejemplo en http://www.hiregion.com/2009/10/google-analytics-data-retriever-api-sem_25.html y le proporcionará información básica para comenzar.


Puede usar la API de exportación de datos de Google o un servicio como el que hemos creado específicamente para su necesidad: www.analyticspros.com/products/analytics-data-warehouse.html.

Mejor,

-Caleb Whitmore www.analyticspros.com / www.analyticsformarketers.com