Przygotowywanie danych za pomocą agentów AI w BigQuery (laboratorium programistyczne)

Przygotowywanie danych za pomocą agentów AI w BigQuery (laboratorium programistyczne)

Informacje o tym ćwiczeniu (w Codelabs)

subjectOstatnia aktualizacja: kwi 9, 2025
account_circleAutorzy: Tim Bezold

1. Wprowadzenie

Wyobraź sobie, że możesz szybciej i skuteczniej przygotowywać dane do analizy bez konieczności bycia ekspertem w zakresie kodowania. Dzięki BigQuery Data Preparation możesz to zrobić. Ta zaawansowana funkcja upraszcza pozyskiwanie, przekształcanie i oczyszczanie danych, oddając przygotowanie danych w ręce wszystkich specjalistów ds. danych w Twojej organizacji.

Chcesz poznać tajemnice ukryte w danych o produktach?

  • podstawowa znajomość konsoli Google Cloud;
  • podstawowa znajomość języka SQL,
  • Jak przygotowanie danych w BigQuery może oczyścić i przekształcić dane nieprzetworzone w przydatne statystyki biznesowe. Przykład z branży mody i urody.
  • Jak uruchomić i zaplanować przygotowanie danych oczyszczonych

Czego potrzebujesz

  • Konto Google Cloud i projekt Google Cloud
  • przeglądarka internetowa, np. Chrome;

2. Podstawowa konfiguracja i wymagania

Konfiguracja środowiska w samodzielnym tempie

  1. Zaloguj się w konsoli Google Cloud i utwórz nowy projekt lub użyj istniejącego. Jeśli nie masz jeszcze konta Gmail ani Google Workspace, musisz je utworzyć.

fbef9caa1602edd0.png

a99b7ace416376c4.png

5e3ff691252acf41.png

  • Nazwa projektu to wyświetlana nazwa uczestników tego projektu. Jest to ciąg znaków, którego nie używają interfejsy API Google. Zawsze możesz ją zaktualizować.
  • Identyfikator projektu jest niepowtarzalny we wszystkich projektach Google Cloud i nie można go zmienić (po ustawieniu). Konsola Cloud automatycznie generuje unikalny ciąg znaków. Zwykle nie ma znaczenia, jaki to ciąg. W większości laboratoriów z kodem musisz podać identyfikator projektu (zwykle oznaczony jako PROJECT_ID). Jeśli nie podoba Ci się wygenerowany identyfikator, możesz wygenerować inny losowy. Możesz też spróbować użyć własnego adresu e-mail, aby sprawdzić, czy jest on dostępny. Po wykonaniu tego kroku nie można go zmienić. Pozostanie on na stałe w ramach projektu.
  • Informacyjnie: istnieje jeszcze 3 wartość, numer projektu, której używają niektóre interfejsy API. Więcej informacji o wszystkich 3 wartościach znajdziesz w dokumentacji.
  1. Następnie musisz włączyć rozliczenia w konsoli Cloud, aby korzystać z zasobów i interfejsów API Cloud. Przejście przez ten samouczek nie będzie wiązać się z wysokimi kosztami, a być może nawet nie będzie trzeba nic płacić. Aby wyłączyć zasoby i uniknąć obciążenia opłatami po zakończeniu samouczka, możesz usunąć utworzone zasoby lub usunąć projekt. Nowi użytkownicy Google Cloud mogą skorzystać z bezpłatnego okresu próbnego, w którym mają do dyspozycji środki w wysokości 300 USD.

3. Zanim zaczniesz

Włącz interfejs API

Aby korzystać z Gemini w BigQuery, musisz włączyć interfejs Gemini for Google Cloud API. Zwykle wykonuje go administrator usługi lub właściciel projektu, który ma uprawnienia serviceusage.services.enable.

  1. Aby włączyć interfejs Gemini for Google Cloud API, otwórz stronę Gemini for Google Cloud w Google Cloud Marketplace. Otwórz Gemini w Google Cloud
  2. W selektorze projektów wybierz projekt.
  3. Kliknij Włącz. Strona się aktualizuje i wyświetla stan Włączony. Gemini in BigQuery jest teraz dostępny w wybranym projekcie Google Cloud dla wszystkich użytkowników, którzy mają wymagane uprawnienia IAM.

Konfigurowanie ról i uprawnień na potrzeby przygotowywania danych

  1. Na stronie Administracja i uprawnienia kliknij Uprawnienia.

4477412d79f29e0b.png

  1. Wybierz użytkownika i kliknij ikonę ołówka, aby „zmienić osobę główną”.

5eb558e04ad12362.png

Aby korzystać z BigQuery Data Preparation, musisz mieć te role i uprawnienia:

4. Znajdowanie i subskrybowanie listy „bq data preparation demo” w BigQuery Analytics Hub

W tym samouczku użyjemy zbioru danych bq data preparation demo. Jest to połączony zbiór danych w BigQuery Analytics Hub, z którego będziemy odczytywać dane.

Przygotowanie danych nigdy nie zapisuje danych w źródle. Poprosimy Cię o zdefiniowanie tabeli docelowej, w której mają być zapisywane dane. Tabela, z którą będziemy pracować w ramach tego ćwiczenia, ma tylko 1000 wierszy, aby koszty były jak najmniejsze, ale przygotowanie danych działa w BigQuery i będzie się skalować.

Aby znaleźć połączony zbiór danych i się do niego zasubskrybować:

  1. Uzyskaj dostęp do Analytics Hub: w konsoli Google Cloud otwórz BigQuery.
  2. W menu nawigacyjnym BigQuery w sekcji „Zarządzanie” kliknij „Analytics Hub”.

6ddfac4dd863ca7b.png

  1. Wyszukaj informacje: w interfejsie Analytics Hub kliknij Wyszukaj informacje.
  2. Wpisz bq data preparation demo na pasku wyszukiwania i naciśnij Enter.

7e0cb82b80174cdc.png

  1. Subskrypcja informacji o firmie: wybierz informacje o firmie bq data preparation demo z wyników wyszukiwania.
  2. Na stronie z informacjami o ofercie kliknij przycisk Subskrybuj.
  3. Sprawdź okna dialogowe z potwierdzeniem i w razie potrzeby zaktualizuj projekt lub zbiór danych. Domyślne wartości powinny być prawidłowe.

2ef0ac1e3557f2f9.png

  1. Uzyskaj dostęp do zbioru danych w BigQuery: po wykupieniu subskrypcji zbiory danych w karcie zostaną połączone z Twoim projektem BigQuery.

Wróć do BigQuery Studio.

5. Przeglądanie danych i uruchamianie przygotowania danych

  1. Znajdź zbiór danych i tabelę: w panelu Eksplorator wybierz projekt, a potem znajdź zbiór danych, który był uwzględniony w wykazie bq data preparation demo. Wybierz tabelę stg_product.
  2. Otwórz w Preparowaniu danych: kliknij 3 pionowe kropki obok nazwy tabeli i wybierz Open in Data Preparation.

Otworzy się tabela w interfejsie Data Preparation, w której możesz rozpocząć przekształcanie danych.

76ace3d4b5cfc2d0.png

Jak widać na podglądzie danych poniżej, mamy kilka problemów z danymi, które chcemy rozwiązać:

  • Kolumna „Cena” zawiera zarówno kwotę, jak i walutę, co utrudnia analizę.
  • W kolumnie „Produkt” jest podawana nazwa produktu i kategoria (oddzielone znakiem kreski pionowej |).

f4d93aa59a56447a.png

Gemini od razu analizuje Twoje dane i podpowiada kilka przekształceń. W tym przykładzie widzimy liczbę rekomendacji. W kolejnych krokach zastosujemy te, których potrzebujemy.

fd4d14e4fa3c31c1.png

6. Obsługa kolumny z ceną

Przyjrzyjmy się kolumnie Cena. Jak już wiemy, zawiera ona zarówno walutę, jak i kwotę. Naszym celem jest rozdzielenie tych danych na 2 kolumny: „Waluta” i „Kwota”.

Gemini znalazł kilka rekomendacji dotyczących kolumny Cena.

  1. Znajdź rekomendację, która brzmi podobnie do tej:

Opis: „To wyrażenie usuwa z wybranego pola znak „USD”

REGEXP_REPLACE(Price,` `r'^USD\s',` `r'')
  1. Wybierz Podgląd.

c9327cfbd32247d6.png

  1. Kliknij Zastosuj.

Następnie w kolumnie Cena przekształcimy typ danych z Ciąg znaków na Liczbowy.

  1. Znajdź rekomendację, która brzmi podobnie do tej:

Opis: „Konwertuje kolumnę Cena z typu string na float64”

SAFE_CAST(Price AS float64)
  1. Kliknij Zastosuj.

W liście kroków powinny teraz być widoczne 3 zastosowane kroki.

d3359af47dce0c15.png

7. Obsługa kolumny z produktem

Kolumna Product zawiera nazwę produktu i kategorię rozdzielone znakiem pionowym (|).

Możemy znów użyć języka naturalnego, ale najpierw przyjrzyjmy się innej przydatnej funkcji Gemini.

Popraw nazwę produktu

  1. Wybierz część kategorii w pliku danych o produkcie, która zawiera znak |, i usuń ją.

5171d598a8cb3a75.png

Gemini inteligentnie rozpozna ten wzorzec i zaproponuje zastosowanie do całej kolumny odpowiedniej transformacji.

  1. Kliknij „Edytuj”.

b36cac918b4f30e9.png

Gemini ma świetną rekomendację: usuwa wszystko po znaku „|”, skutecznie izolując nazwę produktu.

Tym razem nie chcemy jednak zastąpić oryginalnych danych.

  1. W menu kolumny docelowej kliknij „Utwórz nową kolumnę”.
  2. Jako nazwę wpisz ProductName.

bda19e0e5e536ccd.png

  1. Wyświetl podgląd zmian, aby sprawdzić, czy wszystko wygląda dobrze.
  2. Zastosuj przekształcenie.

Wyodrębnianie kategorii produktów

Korzystając z języka naturalnego, polecimy Gemini wyodrębnić słowo po pionowej kresce (|) w kolumnie Produkt. Ta wyodrębniona wartość zostanie zastąpiona w istniejącej kolumnie o nazwie Product.

  1. Aby dodać nowy krok przekształcenia, kliknij Add Step.

77944047e698494c.png

  1. W menu kliknij Transformation.
  2. W polu prompta w języku naturalnym wpisz „wyodrębnij słowo po znaku pionowym (|) w kolumnie Produkt”, a potem naciśnij klawisz Return, aby wygenerować kod SQL.

82efc2447a3210bd.png

  1. W kolumnie Docelowa kolumna pozostaw wartość „Produkt”.
  2. Kliknij Zastosuj.

Transformacja powinna dać takie wyniki.

d741c66d9e0e8e00.png

8. Łączenie danych w celu ich wzbogacenia

Często warto wzbogacać dane informacjami z innych źródeł. W naszym przykładzie złączamy dane produktów z rozszerzonymi atrybutami produktów stg_extended_product z tabeli zewnętrznej. Ta tabela zawiera informacje takie jak marka i data wprowadzenia.

  1. Kliknij Add Step.
  2. Zaznacz Join
  3. Przejdź do tabeli stg_extended_product.

dca14451c3fbc7f0.png

Gemini in BigQuery automatycznie wybrał klucz złączenia productid i sklasyfikował lewą i prawą stronę, ponieważ nazwa klucza jest identyczna.

Uwaga: sprawdź, czy pole opisu zawiera tekst „Join by productid”. Jeśli zawiera dodatkowe klucze łączenia, zastąp pole opisu na „Join by productid” i kliknij przycisk wygeneruj w polu opisu, aby ponownie wygenerować wyrażenie złączenia z tym warunkiem: L.

productid

= R.

productid. 4d6dbfea28772f34.png

  1. Opcjonalnie kliknij Podgląd, aby wyświetlić podgląd wyników.
  2. Kliknij Apply.

Usuwanie atrybutów rozszerzonych

Mimo że złączenie się udało, dane rozszerzonych atrybutów wymagają oczyszczenia. Kolumna LaunchDate ma niespójne formaty dat, a kolumna Brand zawiera brakujące wartości.

Najpierw zajmiemy się kolumną LaunchDate.

f9b570d7c2d3a98d.png

Przed utworzeniem jakichkolwiek przekształceń zapoznaj się z zaleceniami Gemini.

  1. Kliknij nazwę kolumny LaunchDate. Powinny pojawić się rekomendacje podobne do tych na obrazku poniżej.

62b6e6027a46ba75.png

  1. Jeśli zobaczysz rekomendację z tym kodem SQL, zaaplikuj ją i pomiń kolejne kroki.
COALESCE(SAFE.PARSE_DATE('%Y-%m-%d',
LaunchDate),SAFE.PARSE_DATE('%Y/%m/%d', LaunchDate))
  1. Jeśli nie widzisz rekomendacji pasującej do zapytania SQL powyżej, kliknij Add Step.
  2. Kliknij Transformation.
  3. W polu SQL wpisz:
COALESCE(SAFE.PARSE_DATE('%Y-%m-%d',
LaunchDate),SAFE.PARSE_DATE('%Y/%m/%d', LaunchDate))
  1. Ustaw wartość Target Columns na LaunchDate.
  2. Kliknij Apply.

Kolumna LaunchDate ma teraz spójny format daty.

ccf34aa05754a834.png

9. Dodawanie tabeli docelowej

Nasz zbiór danych jest już oczyszczony i gotowy do załadowania do tabeli wymiarów w naszym magazynie danych.

  1. Kliknij ADD STEP.
  2. Kliknij Destination.
  3. Wypełnij wymagane parametry: Zbiór danych: bq_data_preparation_demo Tabela: DimProduct
  4. Kliknij Save.

79fdc3666a3a21b9.png

Teraz zajmujemy się kartami „Dane” i „Schemat”. Oprócz tego narzędzie BigQuery Data Preparation udostępnia widok „Grafik”, który wizualizuje kolejność kroków przekształcenia w Twoim strumieniu danych.

95e64d8152228f7b.png

10. Bonus A: obsługa kolumny Manufacturer i tworzenie tabeli błędów

Zidentyfikowaliśmy też puste wartości w kolumnie Manufacturer. Chcemy wdrożyć w przypadku tych rekordów sprawdzanie jakości danych i przenieść je do tabeli błędów w celu dalszej weryfikacji.

Tworzenie tabeli błędów

  1. Obok tytułu stg_product data preparation kliknij przycisk More.
  2. W sekcji Setting kliknij Error Table.
  3. Zaznacz pole Enable error table i skonfiguruj ustawienia w ten sposób:
  • Zbiór danych: wybierz bq_data_preparation_demo
  • Tabela: wpisz err_dataprep
  • W sekcji Define duration for keeping errors wybierz 30 days (default).
  1. Kliknij Save.

adb5722f05c1b205.png

Konfigurowanie weryfikacji w kolumnie Producent

  1. Wybierz kolumnę Producent.
  2. Gemini prawdopodobnie zidentyfikuje odpowiednie przekształcenie. Znajdź rekomendację, która zachowuje tylko wiersze, w których pole Manufacturer nie jest puste. Będzie ona zawierać zapytanie SQL podobne do tego:
Manufacturer IS NOT NULL

2.Aby sprawdzić rekomendację, kliknij przycisk „Edytuj”.

4749b551a03d8193.png

  1. Zaznacz opcję „Wiersze, których weryfikacja się nie udała, trafiają do tabeli błędów”, jeśli nie jest zaznaczona.
  2. Kliknij Apply.

W dowolnym momencie możesz sprawdzić, zmodyfikować lub usunąć zastosowane przekształcenia, klikając przycisk „Zastosowano kroki”.

15df6caacbdd6a69.png

Usuń zbędącą kolumnę ProductID_1

Kolumnę ProductID_1, która zawiera zduplikowany identyfikator ProductID z naszej połączonej tabeli, można teraz usunąć.

  1. Otwórz kartę Schema.
  2. Kliknij 3 kropki obok kolumny ProductID_1.
  3. Kliknij Drop.

Możemy teraz uruchomić zadanie przygotowania danych i sprawdzać cały potok. Gdy uzyskamy zadowalające wyniki, możemy zaplanować automatyczne wykonywanie zadania.

  1. Zapisz swoje przygotowania, zanim przełączysz się z widoku przygotowania danych. Obok tytułu stg_product data preparation powinien wyświetlać się przycisk Save. Kliknij przycisk, aby zapisać.

11. Czyszczenie środowiska

  • Usuń stg_product data preparation
  • Usuń zbiór danych bq data preparation demo

12. Gratulacje

Gratulujemy ukończenia ćwiczenia.

Omówione zagadnienia

  • Konfiguracja przygotowania danych
  • Otwieranie tabel i przechodzenie do przygotowania danych
  • Dzielenie kolumn z danymi opisowymi i liczbowymi
  • Ujednolicenie formatów dat
  • Uruchamianie przygotowania danych