EN PROGRESO

Big data en Google Cloud

Tutorial de implementación de una arquitectura de adquisición, procesamiento, almacenamiento y análisis de datos en Google Cloud.

El sistema simulará una arquitectura de adquisición y análisis de datos de un conteo de entrada y salida de personas de locales comerciales.

Crear proyecto en Google Cloud

Si no tienes una cuenta de Google (o GMail), puedes crear una aquí. Si dispones de una, puedes pasar al siguiente paso.
Accede a la consola de Google Cloud Platform: https://console.cloud.google.com/
Crea un nuevo proyecto y recuerda el ID de proyecto indicado:

Activar billing

Activa una cuenta de gasto para tu proyecto: https://console.cloud.google.com/billing. Ejecutar este tutorial no debe costar más de 1 €. Un nuevo usuario dispone de una prueba gratuita de $300.

Activa las APIs

En el menú, selecciona "APIs & Services > Library" y activa las siguientes APIs si no lo están:

Google Compute Engine APIs
Google Cloud Pub/Sub API
Google Cloud Storage
Google Dataflow API
BigQuery API

Abrir Cloud Shell

Haz click en el icono de Cloud Shell en el menú superior:

Configurar Cloud SDK

Comprueba tu cuenta y autenticación:

gcloud auth list

Comprueba la configuración:

gcloud config list

Establece una zona y region por defecto:

gcloud config set compute/region europe-west1
gcloud config set compute/zone europe-west1-b

Clonar repositorio

En tu terminal de Cloud Shell, clona este repositorio y accede al mismo:

git clone https://github.com/GDG-Almeria/big-data-en-google-cloud
cd big-data-en-google-cloud

Crea una cuenta de servicio

En el menú "APIs & Services > Credentials", pulsa "Create credential", "Service account key", "New service account". Dale un nombre, rol de "project > owner", selecciona de tipo "JSON" y pulsa crear.
Se descargará un archivo de tipo JSON en tu navegador.
Abre el editor de texto de Cloud Shell.
Crea un nuevo archivo de nombre credentials.json en la carpeta actual (dentro del repositorio), copia en él el contenido del archivo descargado y guárdalo.
Crea la variable de entorno GOOGLE_APPLICATION_CREDENTIALS con el valor del path al archivo credentials.json, p. ej.:

export GOOGLE_APPLICATION_CREDENTIALS="/home/info/big-data-en-google-cloud/credentials.json"

Puedes usar el comando pwd para determinar el path del directorio actual.

Crea un tema de Cloud Pub/Sub

gcloud pubsub topics create fuente-datos

Crea una suscripción de Cloud Pub/Sub

gcloud pubsub subscriptions create suscripcion-datos --topic fuente-datos

Comprueba la publicación y recepción de mensajes

gcloud pubsub topics publish fuente-datos --message "hola mundo!"
gcloud pubsub subscriptions pull --auto-ack suscripcion-datos

Crea un dataset en BigQuery

Crea un dataset con las siguientes características:
Crea una tabla con las siguientes características:

Crea el trabajo en Cloud Dataflow

Descripción

Crea una VM como fuente de datos

Crea una VM desde la consola (https://cloud.google.com/compute/docs/instances/create-start-instance#publicimage) con la siguiente configuración:
- Nombre: cualquiera
- Región: europe-west1
- Zona: europe-west1-b
- Tipo de máquina: n1-standard-1 (1 vCPU, 3.75 GB de memoria)
- Disco de inicio: Debian GNU/Linux 9 (strech) de 10 GB (por defecto)
- Firewall: permitir tráfico HTTP y HTTPS
Crea la instancia y comprueba que está activa.
Conéctate a dicha instancia a través del botón "SSH" de la consola.
Clona el repositorio en la instancia:

git clone https://github.com/GDG-Almeria/big-data-en-google-cloud
cd big-data-en-google-cloud

Crea un nuevo archivo de nombre credentials.json en la carpeta actual (dentro del repositorio), copia el contenido del archivo descargado y guárdalo.

nano credentials.json

Crea la variable de entorno GOOGLE_APPLICATION_CREDENTIALS con el valor del path al archivo credentials.json, p. ej.:

export GOOGLE_APPLICATION_CREDENTIALS="/home/info/big-data-en-google-cloud/credentials.json"

Instala la librería para Python de Google Cloud:

pip3 install --user google-cloud-pubsub

Comienza la publicación de datos

Ejecuta el script de Python:

python3 data_publish.py TU_ID_PROYECTO_GCP fuente-datos

Comprueba la recepción de mensajes:

gcloud pubsub subscriptions pull --auto-ack suscripcion-datos

Ejecuta el trabajo de Cloud Dataflow

Descripción

Comprueba el trabajo de Cloud Dataflow

Descripción

Comprueba el dataset en BigQuery

Descripción

Analiza los datos con Cloud Datalab

Descripción

Desactiva los servicios utilizados

Borra los recursos y servicios utilizados para detener la continuación de los gastos asociados.

Elimina la VM desde el menú "Compute Engine".
Elimina el trabajo de Dataflow desde el menú "Dataflow".
Elimina el tema y suscripción desde el menú "Pub/Sub".
Elimina el dataset desde el menú "BigQuery" (opcional).
Elimina los bucket creados desde el menú "Storage".

gcloud pubsub subscriptions delete my-sub
gcloud pubsub topics delete my-topic

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

EN PROGRESO

Big data en Google Cloud

Crear proyecto en Google Cloud

Activar billing

Activa las APIs

Abrir Cloud Shell

Configurar Cloud SDK

Clonar repositorio

Crea una cuenta de servicio

Crea un tema de Cloud Pub/Sub

Crea una suscripción de Cloud Pub/Sub

Comprueba la publicación y recepción de mensajes

Crea un dataset en BigQuery

Crea el trabajo en Cloud Dataflow

Crea una VM como fuente de datos

Comienza la publicación de datos

Ejecuta el trabajo de Cloud Dataflow

Comprueba el trabajo de Cloud Dataflow

Comprueba el dataset en BigQuery

Analiza los datos con Cloud Datalab

Desactiva los servicios utilizados

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

EN PROGRESO

Big data en Google Cloud

Crear proyecto en Google Cloud

Activar billing

Activa las APIs

Abrir Cloud Shell

Configurar Cloud SDK

Clonar repositorio

Crea una cuenta de servicio

Crea un tema de Cloud Pub/Sub

Crea una suscripción de Cloud Pub/Sub

Comprueba la publicación y recepción de mensajes

Crea un dataset en BigQuery

Crea el trabajo en Cloud Dataflow

Crea una VM como fuente de datos

Comienza la publicación de datos

Ejecuta el trabajo de Cloud Dataflow

Comprueba el trabajo de Cloud Dataflow

Comprueba el dataset en BigQuery

Analiza los datos con Cloud Datalab

Desactiva los servicios utilizados

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages