Cette page a été traduite par l'API Cloud Translation.

Premiers pas avec Spanner Data Boost et BigQuery

1. Introduction

Dans cet atelier de programmation, vous allez apprendre à utiliser Spanner Data Boost pour interroger des données Spanner de BigQuery à l'aide de requêtes fédérées sans ETL, sans affecter la base de données Spanner.

Spanner Data Boost est un service sans serveur entièrement géré qui fournit des ressources de calcul indépendantes pour les charges de travail Spanner compatibles. Data Boost vous permet d'exécuter des requêtes d'analyse et des exportations de données avec un impact quasi nul sur les charges de travail existantes sur l'instance Spanner provisionnée, à l'aide d'un modèle d'utilisation à la demande et sans serveur.

Lorsqu'il est associé à des connexions externes BigQuery, Data Boost vous permet d'interroger facilement des données depuis Spanner vers votre plate-forme d'analyse de données, sans transfert de données ETL complexe.

Prérequis

Connaissances de base de la console Google Cloud
Compétences de base en interface de ligne de commande et en shell Google

Points abordés

Déployer une instance Spanner
Charger des données pour créer une base de données Spanner
Accéder aux données Spanner depuis BigQuery sans Data Boost
Accéder aux données Spanner depuis BigQuery avec Data Boost

Prérequis

Un compte Google Cloud et un projet Google Cloud
Un navigateur Web tel que Chrome

2. Préparation

Configuration de l'environnement d'auto-formation

Connectez-vous à la console Google Cloud, puis créez un projet ou réutilisez un projet existant. Si vous n'avez pas encore de compte Gmail ou Google Workspace, vous devez en créer un.

Le nom du projet est le nom à afficher pour les participants au projet. Il s'agit d'une chaîne de caractères non utilisée par les API Google. Vous pourrez toujours le modifier.
L'ID du projet est unique parmi tous les projets Google Cloud et non modifiable une fois défini. La console Cloud génère automatiquement une chaîne unique (en général, vous n'y accordez d'importance particulière). Dans la plupart des ateliers de programmation, vous devrez indiquer l'ID de votre projet (généralement identifié par PROJECT_ID). Si l'ID généré ne vous convient pas, vous pouvez en générer un autre de manière aléatoire. Vous pouvez également en spécifier un et voir s'il est disponible. Après cette étape, l'ID n'est plus modifiable et restera donc le même pour toute la durée du projet.
Pour information, il existe une troisième valeur (le numéro de projet) que certaines API utilisent. Pour en savoir plus sur ces trois valeurs, consultez la documentation.

Vous devez ensuite activer la facturation dans la console Cloud pour utiliser les ressources/API Cloud. L'exécution de cet atelier de programmation est très peu coûteuse, voire sans frais. Pour désactiver les ressources et éviter ainsi que des frais ne vous soient facturés après ce tutoriel, vous pouvez supprimer le projet ou les ressources que vous avez créées. Les nouveaux utilisateurs de Google Cloud peuvent participer au programme d'essai sans frais pour bénéficier d'un crédit de 300 $.

Démarrer Cloud Shell

Bien que Google Cloud puisse être utilisé à distance depuis votre ordinateur portable, nous allons nous servir de Google Cloud Shell pour cet atelier de programmation, un environnement de ligne de commande exécuté dans le cloud.

Dans la console Google Cloud, cliquez sur l'icône Cloud Shell dans la barre d'outils supérieure :

Le provisionnement et la connexion à l'environnement prennent quelques instants seulement. Une fois l'opération terminée, le résultat devrait ressembler à ceci :

Cette machine virtuelle contient tous les outils de développement nécessaires. Elle comprend un répertoire d'accueil persistant de 5 Go et s'exécute sur Google Cloud, ce qui améliore nettement les performances du réseau et l'authentification. Vous pouvez effectuer toutes les tâches de cet atelier de programmation dans un navigateur. Vous n'avez rien à installer.

3. Créer une instance et une base de données Spanner

Activer l'API Spanner

Dans Cloud Shell, assurez-vous que l'ID de votre projet est configuré :

gcloud config set project [YOUR-PROJECT-ID]
PROJECT_ID=$(gcloud config get-value project)

Configurez votre région par défaut sur us-central1. N'hésitez pas à la remplacer par une autre région compatible avec les configurations régionales Spanner.

gcloud config set compute/region us-central1

Activez l'API Spanner:

gcloud services enable spanner.googleapis.com

Créer l'instance Spanner

Au cours de cette étape, nous avons configuré notre instance Spanner pour cet atelier de programmation. Pour ce faire, ouvrez Cloud Shell et exécutez la commande suivante:

export SPANNER_INSTANCE_ID=codelab-demo
export SPANNER_REGION=regional-us-central1
gcloud spanner instances create $SPANNER_INSTANCE_ID \
--config=$SPANNER_REGION \
--description="Spanner Codelab instance" \
--nodes=1

Résultat de la commande :

$ gcloud spanner instances create $SPANNER_INSTANCE_ID \
--config=$SPANNER_REGION \
--description="Spanner Codelab instance" \
--nodes=1
Creating instance...done.

Créer la base de données

Une fois votre instance en cours d'exécution, vous pouvez créer la base de données. Spanner permet d'utiliser plusieurs bases de données sur une même instance.

C'est dans la base de données que vous définissez votre schéma. Vous pouvez également contrôler qui a accès à la base de données, mettre en place un chiffrement personnalisé, configurer l'optimiseur et définir la durée de conservation.

Pour créer la base de données, utilisez à nouveau l'outil de ligne de commande gcloud:

export SPANNER_DATABASE=codelab-db
gcloud spanner databases create $SPANNER_DATABASE \
 --instance=$SPANNER_INSTANCE_ID

Résultat de la commande :

$ gcloud spanner databases create $SPANNER_DATABASE \
 --instance=$SPANNER_INSTANCE_ID
Creating database...done.

4. Charger les données

Avant de pouvoir utiliser Data Boost, vous devez avoir des données dans la base de données. Pour ce faire, vous allez créer un bucket Cloud Storage, y importer une importation Avro, puis lancer un job d'importation Dataflow pour charger les données Avro dans Spanner.