Ćwiczenie z programowania dotyczące nawigacji po interfejsie BigQuery i eksploracji danych

1. Wprowadzenie

BigQuery to bezserwerowa, skalowalna i ekonomiczna hurtownia danych. Wystarczy, że przeniesiesz swoje dane do BigQuery, a my zajmiemy się ciężką pracą, a Ty możesz skupić się na prowadzeniu firmy. Możesz kontrolować opcje dostępu zarówno do projektu, jak i do danych w zależności od wymagań Twojej firmy (takich jak potrzeba umożliwienia innym przeglądania danych lub wysyłania w związku z nimi zapytań).

W tym module poznasz możliwości analityczne BigQuery. Dowiesz się, jak zaimportować zbiór danych z zasobnika Google Cloud Storage i poznać interfejs BigQuery, korzystając ze zbioru danych bankowości detalicznej. W tym module dowiesz się też, jak odkryć najważniejsze funkcje BigQuery, które znacznie ułatwiają codzienną analizę danych, na przykład eksportowanie wyników zapytań do arkusza kalkulacyjnego, wyświetlanie i uruchamianie zapytań z historii zapytań, sprawdzanie skuteczności zapytań oraz tworzenie widoków tabel do użytku przez inne zespoły i działy.

Czego się nauczysz

Z tego modułu nauczysz się, jak:

  • Wczytywanie nowych danych do BigQuery
  • Zapoznaj się z interfejsem BigQuery
  • Uruchamianie zapytań w BigQuery
  • Wyświetlanie skuteczności zapytań
  • Tworzenie widoków w BigQuery
  • Bezpieczne udostępnianie zbiorów danych innym osobom

2. Wprowadzenie: interfejs użytkownika BigQuery

Z tej sekcji dowiesz się, jak poruszać się po interfejsie BigQuery, wyświetlać dostępne zbiory danych i uruchamiać proste zapytanie.

Wczytuję interfejs BQ

  1. Wpisz „BigQuery” u góry konsoli Google Cloud Platform.
  2. Z listy opcji wybierz BigQuery. Pamiętaj, by wybrać opcję z logo BigQuery – lupą.

Wyświetlanie zbiorów danych i uruchamianie zapytań

ee95ce13969ee1ad.png

  1. W panelu po lewej stronie w sekcji Zasób kliknij swój projekt BigQuery.
  2. Kliknij bq_demo, aby wyświetlić tabele w tym zbiorze danych
  3. W polu Wpisz, aby wyszukać, wpisz „karta”. aby wyświetlić listę tabel i zbiorów danych zawierających ciąg „card” w ich imieniu.
  4. Wybierz „card_transactions” tabela na liście wyników wyszukiwania

beb6ff6ca2930125.png

  1. Aby wyświetlić metadane tej tabeli, kliknij kartę Szczegóły w panelu card_transactions.
  2. Kliknij kartę Podgląd, aby wyświetlić podgląd tabeli.

[Konkurencja]: Integracja z usługą Google Data Catalog oznacza, że metadanymi BigQuery można zarządzać razem z innymi źródłami danych, takimi jak jeziora danych czy operacyjne źródła danych. Ten przykład pokazuje, że Google Cloud to nie tylko relacyjna hurtownia danych, ale cała platforma do analizy danych.

  1. Kliknij ikonę lupy, aby wysłać zapytanie do parametru „card_transactions” tabeli. Edytor zapytań BigQuery wypełni się automatycznie wygenerowanym tekstem.
  2. Wpisz poniższy kod, aby pokazać nam różnych sprzedawców z tabeli Card_Transaction
SELECT distinct (merchant) FROM bq_demo.card_transactions LIMIT 1000
  1. Kliknij przycisk Uruchom, aby uruchomić zapytanie.

35113542e7ec6fa6.png

3. Tworzenie zbiorów danych i udostępnianie widoków

Udostępnianie danych i zarządzanie nimi ma kluczowe znaczenie – można to robić intuicyjnie w interfejsie BQ. W tej sekcji dowiesz się, jak utworzyć nowy zbiór danych, wypełnić go widokiem i go udostępnić.

Wyświetlanie historii zapytań

  1. Kliknij „Historia zapytań”. w lewym panelu konsoli GCP.
  2. Kliknij Odśwież w panelu Historia zapytań
  3. Kliknij obraz lub strzałkę pobierania po prawej stronie zapytania, aby wyświetlić jego wyniki.

6e3232ed96f647b8.png

Tworzenie nowego zbioru danych

  1. Wybierz [nazwa Twojego projektu] w okienku zasobów interfejsu BigQuery.
  2. Wybierz „Utwórz nowy zbiór danych” z panelu informacji o projekcie,
  3. W przypadku identyfikatora zbioru danych:

bq_demo_shared

  1. Wszystkie pozostałe pola pozostaw domyślne
  2. Kliknij „Utwórz zbiór danych”

b433eba38f55124f.png dd774aca416e7fbc.png

Tworzenie widoków

[Informacje o konkurencji]: BigQuery jest w pełni zgodny ze standardem ANSI SQL i obsługuje zarówno proste, jak i złożone złączenia z wieloma tabelami, a także zaawansowane funkcje analityczne. Nieustannie ulepszyliśmy obsługę popularnych typów danych i funkcji SQL używanych w tradycyjnych hurtowniach danych, aby ułatwić proces migracji.

  1. Wybierz „Utwórz nowe zapytanie” u góry panelu edytora zapytań.
  2. Wstaw ten kod w edytorze zapytań
WITH revenue_by_month AS (
SELECT
    card.type AS card_type,
    FORMAT_DATE('%Y-%m', trans_date) as revenue_date,
    SUM(amount) as revenue
FROM bq_demo.card_transactions
JOIN bq_demo.card ON card_transactions.cc_number = card.card_number
WHERE trans_date  DATE_ADD(CURRENT_DATE, INTERVAL -1 YEAR)
GROUP BY card_type, revenue_date
)
SELECT
    card_type,
    revenue_date,
    revenue as monthly_rev,
    revenue -  LAG(revenue) OVER (ORDER BY card_type, revenue_date ASC) as rev_change
FROM revenue_by_month
ORDER BY card_type, revenue_date ASC;
  1. Kliknij „Zapisz widok”.
  2. Wybierz bieżący projekt dla nazwy projektu
  3. Wybierz nowo utworzony zbiór danych:

bq_demo_shared

  1. W przypadku nazwy tabeli:

rev_change_by_card_type

  1. Kliknij Zapisz.

4b111056b544c27d.png

Udostępnianie widoków i zbiorów danych

  1. Wybierz „bq_demo_shared” w lewym panelu zasobów w interfejsie BigQuery.
  2. Kliknij „Udostępnij zbiór danych” z panelu informacji o zbiorze danych
  3. Wpisz adres e-mail
  4. Wybierz „Wyświetlający dane BigQuery” z menu Rola
  5. Kliknij „Dodaj”
  6. Kliknij Gotowe

1c04b6b5ebc191dc.png

Przeglądanie danych w Arkuszach

[Konkurencja]: Kolejną zaletą BigQuery w porównaniu z konkurencją jest mechanizm BI. Korzystając z mechanizmu analityki biznesowej, możesz sprawić, że zapytania podsumowania typu BI będą zwracane w czasie krótszym niż jedna sekunda przez mechanizm buforowania w pamięci. Ta funkcja jest obecnie obsługiwana przez Studio danych Google, ale wkrótce zostanie udostępniona, aby przyspieszyć wykonywanie wszystkich zapytań w BigQuery.

Na przykład:

W przypadku paneli i wizualizacji danych Snowflake korzysta z zewnętrznych narzędzi BI, a GCP oferuje szereg zintegrowanych narzędzi BI, takich jak połączone arkusze, Studio danych i Looker.

  1. Zaznacz pole „rev_change_by_card_type”. w panelu zasobów po lewej stronie w interfejsie BigQuery.
  2. Kliknij lupę, aby wysłać zapytanie do widoku 255be22b0eaf339.png
  3. Typ:

WYBIERZ *

Z: bq_demo_shared.rev_change_by_card_type

  1. Kliknij Uruchom.
  2. Kliknij przycisk „Eksportuj”, Ikona w panelu wyników
  3. Wybierz „Przeglądaj dane w Arkuszach”

9617b522025fd337.png

  1. Kliknij „Rozpocznij analizę”
  2. Wybierz „Tabela przestawna”
  3. Wybierz „Nowy arkusz”.
  4. Kliknąć przycisk „Utwórz”.
  5. Dodaj parametr „revenue_date” w sekcji Wiersz w edytorze tabeli przestawnej po prawej stronie okna Arkuszy
  6. Dodaj „card_type” w sekcji Kolumna w edytorze tabeli przestawnej
  7. Dodaj „monthly_rev” w sekcji Kolumna w edytorze tabeli przestawnej
  8. Kliknij przycisk Zastosuj

48e67c2e04965796.png

  1. Przejdź do górnego robbin interfejsu Arkuszy i wybierz Wstaw wykres

4. Konfiguracja: integracja danych

W tej sekcji dowiesz się, jak utworzyć nową tabelę i wykonać funkcję JOIN w jednym z wielu publicznych zbiorów danych dostępnych w Google Cloud.

[Konkurencja]:

BigQuery obsługuje udostępniane zbiory danych od lat. Klienci w dowolnym projekcie mogą wysyłać zapytania zarówno do publicznych zbiorów danych, jak i zbiorów danych w innych projektach, które zostały im udostępnione.

BigQuery może obsługiwać jeziora danych w GCS przy użyciu tabel zewnętrznych. Oprócz wczytywania zbiorczego BigQuery umożliwia przesyłanie strumieniowe danych do bazy danych z szybkością przekraczającą setki MB na sekundę. Snowflake nie obsługuje strumieniowania danych.

Importowanie danych do nowej tabeli

  1. W panelu zasobów wybierz zbiór danych bq_demo
  2. W panelu informacji o zbiorze danych wybierz „Utwórz tabelę”
  3. Wybierz Google Cloud Storage jako źródło
  4. W polu tekstowym ścieżki pliku:

gs://retail-banking-looker/district

  1. Wybierz format pliku CSV
  2. Wpisz „rejon” dla nazwy tabeli
  3. Zaznacz pole wyboru schematu automatycznego wykrywania
  4. Kliknij Utwórz tabelę.

Wysyłanie zapytań do publicznego zbioru danych

  1. W edytorze zapytań wpisz to zapytanie:
SELECT
    CAST(geo_id as STRING) AS zip_code,
    total_pop,
    median_age,
    households,
    income_per_capita,
    housing_units,
    vacant_housing_units_for_sale,
    ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
    ROUND(SAFE_DIVIDE(bachelors_degree_or_higher_25_64, pop_25_64),4) AS rate_bachelors_degree_or_higher_25_64
  FROM
    `bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`;
  1. Kliknij Uruchom.
  2. Zobacz wyniki

dff40709db70d75.png

  1. Teraz połączymy te dane publiczne z innym zapytaniem. Wpisz w edytorze zapytań ten kod SQL:
WITH customer_counts AS (
    select regexp_extract(address, "[0-9][0-9][0-9][0-9][0-9]") as zip_code, 
    count(*) as num_clients
    FROM bq_demo.client
    GROUP BY zip_code
    )
SELECT 
    CAST(geo_id as STRING) AS zip_code,
    total_pop,
    median_age,
    households,
    income_per_capita,
    ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
    num_clients
FROM
    `bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`
JOIN customer_counts on zip_code = geo_id
ORDER BY num_clients DESC
  1. Kliknij Uruchom.
  2. Zobacz wyniki

b853ad571e7a3038.png

5. Zarządzanie zasobami

Praca z przedziałami i rezerwacjami

BQ oferuje wiele modeli cenowych dostosowanych do Twoich potrzeb. Większość dużych klientów wykorzystuje przede wszystkim stałą stawkę, aby uzyskać przewidywalne ceny i zarezerwowaną pojemność. BQ oferuje przedziały elastyczne, które pozwalają na eksploatację przekraczającą ten poziom bazowy, co pozwala zwiększać pojemność na bieżąco, a następnie automatycznie zmniejszać rozmiar bez wpływu na wykonywane zapytania. BQ ma również model skanowania bajtów, dzięki któremu możesz płacić tylko za uruchamiane zapytania.

[Informacje o konkurencji: niektórzy konkurenci pracują wyłącznie nad modelem o stałej wydajności, w którym klienci muszą przydzielić wirtualny magazyn do każdego zadania w organizacji. Oprócz niedrogiego modelu na podstawie zapytania, który ułatwia rozpoczęcie pracy z BigQuery, obsługujemy też model cenowy stałych opłat za pojemność, w którym pojemność bezczynna może być współdzielona przez zbiór zadań.]

  1. Otwórz kartę Rezerwacje.

964f4ab78d35d067.png

  1. Kliknij „Kup przedziały”.

c8cb5ee61bbea814.png

  1. Wybierz „Flex” jako czas trwania.
  2. Wybierz 500 przedziałów.
  3. Potwierdź zakup.

d615f5908dffc1ee.png

  1. Kliknij Wyświetl zobowiązania na przedziały.
  2. Kliknij „Utwórz rezerwację”
  3. Użytkownik „demo” jako nazwę rezerwacji
  4. Wybierz Stany Zjednoczone jako lokalizację
  5. Wpisz 500 dla przedziałów (wszystkie dostępne)
  6. Kliknij Przypisania
  7. Wybierz bieżący projekt dla projektu organizacji
  8. Wybierz opcję „demonstracja”. dla identyfikatora rezerwacji
  9. Kliknij Utwórz”.