Wprowadzenie do Spanner Data Boost i BigQuery

Informacje o tym ćwiczeniu (w Codelabs)

67 minut

Ostatnia aktualizacja: 9 maja 2024

Autorzy: Derek Downey

Ta strona została przetłumaczona przez Cloud Translation API.

1. Wprowadzenie

Z tego ćwiczenia w Codelabs dowiesz się, jak używać funkcji Spanner Data Boost do wysyłania zapytań dotyczących danych Spannera z BigQuery przy użyciu zapytań sfederowanych bez ETL i bez wpływu na bazę danych Spanner.

Spanner Data Boost to w pełni zarządzana, bezserwerowa usługa, która zapewnia niezależne zasoby obliczeniowe dla obsługiwanych zbiorów zadań Spannera. Funkcja Data Boost umożliwia wykonywanie zapytań analitycznych i eksportów danych z niemal zerowym wpływem na istniejące zadania w udostępnionej instancji Spannera z użyciem bezserwerowego modelu wykorzystania na żądanie.

W połączeniu z zewnętrznymi połączeniami BigQuery funkcja Data Boost umożliwia łatwe wysyłanie zapytań dotyczących danych z usługi Spanner do platformy analizy danych bez skomplikowanego przenoszenia danych ETL.

Wymagania wstępne

Podstawowa znajomość Google Cloud i konsoli
podstawowe umiejętności w zakresie interfejsu wiersza poleceń i Google Shell,

Czego się nauczysz

Jak wdrożyć instancję usługi Spanner
Jak wczytać dane w celu utworzenia bazy danych Spannera
Jak uzyskać dostęp do danych Spannera z BigQuery bez funkcji Data Boost
Jak uzyskać dostęp do danych Spannera z BigQuery przy użyciu funkcji Data Boost

Czego potrzebujesz

konto Google Cloud i projekt Google Cloud;
przeglądarki, np. Chrome;

2. Konfiguracja i wymagania

Samodzielne konfigurowanie środowiska

Zaloguj się w konsoli Google Cloud i utwórz nowy projekt lub wykorzystaj już istniejący. Jeśli nie masz jeszcze konta Gmail ani Google Workspace, musisz je utworzyć.

Nazwa projektu jest wyświetlaną nazwą uczestników tego projektu. To ciąg znaków, który nie jest używany przez interfejsy API Google. W każdej chwili możesz ją zaktualizować.
Identyfikator projektu jest unikalny we wszystkich projektach Google Cloud i nie można go zmienić (po jego ustawieniu nie można go zmienić). Cloud Console automatycznie wygeneruje unikalny ciąg znaków. zwykle nieważne, co ona jest. W większości ćwiczeń w Codelabs musisz podać swój identyfikator projektu (zwykle identyfikowany jako PROJECT_ID). Jeśli nie podoba Ci się wygenerowany identyfikator, możesz wygenerować kolejny losowy. Możesz też spróbować własnych sił i sprawdzić, czy jest dostępna. Po wykonaniu tej czynności nie można jej już zmienić. Pozostanie ona przez cały czas trwania projektu.
Jest jeszcze trzecia wartość, numer projektu, z którego korzystają niektóre interfejsy API. Więcej informacji o wszystkich 3 wartościach znajdziesz w dokumentacji.

Następnie musisz włączyć płatności w Cloud Console, aby korzystać z zasobów Cloud/interfejsów API. Ukończenie tego ćwiczenia z programowania nic nie kosztuje. Aby wyłączyć zasoby w celu uniknięcia naliczania opłat po zakończeniu tego samouczka, możesz usunąć utworzone zasoby lub projekt. Nowi użytkownicy Google Cloud mogą skorzystać z programu bezpłatnego okresu próbnego o wartości 300 USD.

Uruchamianie Cloud Shell

Google Cloud można obsługiwać zdalnie z laptopa, ale w ramach tego ćwiczenia z programowania wykorzystasz Google Cloud Shell – środowisko wiersza poleceń działające w chmurze.

W konsoli Google Cloud kliknij ikonę Cloud Shell na górnym pasku narzędzi:

Uzyskanie dostępu do środowiska i połączenie się z nim powinno zająć tylko kilka chwil. Po zakończeniu powinno pojawić się coś takiego:

Ta maszyna wirtualna ma wszystkie potrzebne narzędzia dla programistów. Zawiera stały katalog domowy o pojemności 5 GB i działa w Google Cloud, znacząco zwiększając wydajność sieci i uwierzytelnianie. Wszystkie zadania w ramach tego ćwiczenia z programowania można wykonywać w przeglądarce. Nie musisz niczego instalować.

3. Tworzenie instancji i bazy danych Spanner

Włączanie interfejsu Spanner API

W Cloud Shell sprawdź, czy identyfikator projektu jest skonfigurowany:

gcloud config set project [YOUR-PROJECT-ID]
PROJECT_ID=$(gcloud config get-value project)

Ustaw us-central1 jako region domyślny. Możesz go zmienić na inny region obsługiwany przez konfiguracje regionalne usługi Spanner.

gcloud config set compute/region us-central1

Włącz interfejs Spanner API:

gcloud services enable spanner.googleapis.com

Tworzenie instancji usługi Spanner

W tym kroku skonfigurowaliśmy instancję Spannera na potrzeby ćwiczeń w Codelabs. W tym celu otwórz Cloud Shell i uruchom to polecenie:

export SPANNER_INSTANCE_ID=codelab-demo
export SPANNER_REGION=regional-us-central1
gcloud spanner instances create $SPANNER_INSTANCE_ID \
--config=$SPANNER_REGION \
--description="Spanner Codelab instance" \
--nodes=1

Dane wyjściowe polecenia:

$ gcloud spanner instances create $SPANNER_INSTANCE_ID \
--config=$SPANNER_REGION \
--description="Spanner Codelab instance" \
--nodes=1
Creating instance...done.

Tworzenie bazy danych

Gdy instancja zacznie działać, możesz utworzyć bazę danych. Spanner umożliwia korzystanie z wielu baz danych w jednej instancji.

Baza danych to miejsce, w którym definiujesz schemat. Możesz też kontrolować, kto ma dostęp do bazy danych, skonfigurować szyfrowanie niestandardowe, skonfigurować optymalizatora i ustawić okres przechowywania.

Aby utworzyć bazę danych, ponownie użyj narzędzia wiersza poleceń gcloud:

export SPANNER_DATABASE=codelab-db
gcloud spanner databases create $SPANNER_DATABASE \
 --instance=$SPANNER_INSTANCE_ID

Dane wyjściowe polecenia:

$ gcloud spanner databases create $SPANNER_DATABASE \
 --instance=$SPANNER_INSTANCE_ID
Creating database...done.

4. Wczytaj dane

Zanim będzie można użyć funkcji Data Boost, musisz mieć w bazie danych trochę danych. W tym celu utworzysz zasobnik Cloud Storage, prześlesz do niego import avro i uruchomisz zadanie importu Dataflow, które wczyta dane Avro do usługi Spanner.