1. Wprowadzenie
BigQuery to bezserwerowa, skalowalna i ekonomiczna hurtownia danych. Wystarczy, że przeniesiesz swoje dane do BigQuery, a my zajmiemy się ciężką pracą, a Ty możesz skupić się na prowadzeniu firmy. Możesz kontrolować opcje dostępu zarówno do projektu, jak i do danych w zależności od wymagań Twojej firmy (takich jak potrzeba umożliwienia innym przeglądania danych lub wysyłania w związku z nimi zapytań).
W tym module poznasz możliwości analityczne BigQuery. Dowiesz się, jak zaimportować zbiór danych z zasobnika Google Cloud Storage i poznać interfejs BigQuery, korzystając ze zbioru danych bankowości detalicznej. W tym module dowiesz się też, jak odkryć najważniejsze funkcje BigQuery, które znacznie ułatwiają codzienną analizę danych, na przykład eksportowanie wyników zapytań do arkusza kalkulacyjnego, wyświetlanie i uruchamianie zapytań z historii zapytań, sprawdzanie skuteczności zapytań oraz tworzenie widoków tabel do użytku przez inne zespoły i działy.
Czego się nauczysz
Z tego modułu nauczysz się, jak:
- Wczytywanie nowych danych do BigQuery
- Zapoznaj się z interfejsem BigQuery
- Uruchamianie zapytań w BigQuery
- Wyświetlanie skuteczności zapytań
- Tworzenie widoków w BigQuery
- Bezpieczne udostępnianie zbiorów danych innym osobom
2. Wprowadzenie: interfejs użytkownika BigQuery
Z tej sekcji dowiesz się, jak poruszać się po interfejsie BigQuery, wyświetlać dostępne zbiory danych i uruchamiać proste zapytanie.
Wczytuję interfejs BQ
- Wpisz „BigQuery” u góry konsoli Google Cloud Platform.
- Z listy opcji wybierz BigQuery. Pamiętaj, by wybrać opcję z logo BigQuery – lupą.
Wyświetlanie zbiorów danych i uruchamianie zapytań
- W panelu po lewej stronie w sekcji Zasób kliknij swój projekt BigQuery.
- Kliknij
bq_demo
, aby wyświetlić tabele w tym zbiorze danych - W polu Wpisz, aby wyszukać, wpisz „karta”. aby wyświetlić listę tabel i zbiorów danych zawierających ciąg „card” w ich imieniu.
- Wybierz „card_transactions” tabela na liście wyników wyszukiwania
- Aby wyświetlić metadane tej tabeli, kliknij kartę Szczegóły w panelu
card_transactions
. - Kliknij kartę Podgląd, aby wyświetlić podgląd tabeli.
[Konkurencja]: Integracja z usługą Google Data Catalog oznacza, że metadanymi BigQuery można zarządzać razem z innymi źródłami danych, takimi jak jeziora danych czy operacyjne źródła danych. Ten przykład pokazuje, że Google Cloud to nie tylko relacyjna hurtownia danych, ale cała platforma do analizy danych.
- Kliknij ikonę lupy, aby wysłać zapytanie do parametru „card_transactions” tabeli. Edytor zapytań BigQuery wypełni się automatycznie wygenerowanym tekstem.
- Wpisz poniższy kod, aby pokazać nam różnych sprzedawców z tabeli Card_Transaction
SELECT distinct (merchant) FROM bq_demo.card_transactions LIMIT 1000
- Kliknij przycisk Uruchom, aby uruchomić zapytanie.
3. Tworzenie zbiorów danych i udostępnianie widoków
Udostępnianie danych i zarządzanie nimi ma kluczowe znaczenie – można to robić intuicyjnie w interfejsie BQ. W tej sekcji dowiesz się, jak utworzyć nowy zbiór danych, wypełnić go widokiem i go udostępnić.
Wyświetlanie historii zapytań
- Kliknij „Historia zapytań”. w lewym panelu konsoli GCP.
- Kliknij Odśwież w panelu Historia zapytań
- Kliknij obraz lub strzałkę pobierania po prawej stronie zapytania, aby wyświetlić jego wyniki.
Tworzenie nowego zbioru danych
- Wybierz [nazwa Twojego projektu] w okienku zasobów interfejsu BigQuery.
- Wybierz „Utwórz nowy zbiór danych” z panelu informacji o projekcie,
- W przypadku identyfikatora zbioru danych:
bq_demo_shared
- Wszystkie pozostałe pola pozostaw domyślne
- Kliknij „Utwórz zbiór danych”
Tworzenie widoków
[Informacje o konkurencji]: BigQuery jest w pełni zgodny ze standardem ANSI SQL i obsługuje zarówno proste, jak i złożone złączenia z wieloma tabelami, a także zaawansowane funkcje analityczne. Nieustannie ulepszyliśmy obsługę popularnych typów danych i funkcji SQL używanych w tradycyjnych hurtowniach danych, aby ułatwić proces migracji.
- Wybierz „Utwórz nowe zapytanie” u góry panelu edytora zapytań.
- Wstaw ten kod w edytorze zapytań
WITH revenue_by_month AS (
SELECT
card.type AS card_type,
FORMAT_DATE('%Y-%m', trans_date) as revenue_date,
SUM(amount) as revenue
FROM bq_demo.card_transactions
JOIN bq_demo.card ON card_transactions.cc_number = card.card_number
WHERE trans_date DATE_ADD(CURRENT_DATE, INTERVAL -1 YEAR)
GROUP BY card_type, revenue_date
)
SELECT
card_type,
revenue_date,
revenue as monthly_rev,
revenue - LAG(revenue) OVER (ORDER BY card_type, revenue_date ASC) as rev_change
FROM revenue_by_month
ORDER BY card_type, revenue_date ASC;
- Kliknij „Zapisz widok”.
- Wybierz bieżący projekt dla nazwy projektu
- Wybierz nowo utworzony zbiór danych:
bq_demo_shared
- W przypadku nazwy tabeli:
rev_change_by_card_type
- Kliknij Zapisz.
Udostępnianie widoków i zbiorów danych
- Wybierz „bq_demo_shared” w lewym panelu zasobów w interfejsie BigQuery.
- Kliknij „Udostępnij zbiór danych” z panelu informacji o zbiorze danych
- Wpisz adres e-mail
- Wybierz „Wyświetlający dane BigQuery” z menu Rola
- Kliknij „Dodaj”
- Kliknij Gotowe
Przeglądanie danych w Arkuszach
[Konkurencja]: Kolejną zaletą BigQuery w porównaniu z konkurencją jest mechanizm BI. Korzystając z mechanizmu analityki biznesowej, możesz sprawić, że zapytania podsumowania typu BI będą zwracane w czasie krótszym niż jedna sekunda przez mechanizm buforowania w pamięci. Ta funkcja jest obecnie obsługiwana przez Studio danych Google, ale wkrótce zostanie udostępniona, aby przyspieszyć wykonywanie wszystkich zapytań w BigQuery.
Na przykład:
W przypadku paneli i wizualizacji danych Snowflake korzysta z zewnętrznych narzędzi BI, a GCP oferuje szereg zintegrowanych narzędzi BI, takich jak połączone arkusze, Studio danych i Looker.
- Zaznacz pole „rev_change_by_card_type”. w panelu zasobów po lewej stronie w interfejsie BigQuery.
- Kliknij lupę, aby wysłać zapytanie do widoku
- Typ:
WYBIERZ *
Z: bq_demo_shared.rev_change_by_card_type
- Kliknij Uruchom.
- Kliknij przycisk „Eksportuj”, Ikona w panelu wyników
- Wybierz „Przeglądaj dane w Arkuszach”
- Kliknij „Rozpocznij analizę”
- Wybierz „Tabela przestawna”
- Wybierz „Nowy arkusz”.
- Kliknąć przycisk „Utwórz”.
- Dodaj parametr „revenue_date” w sekcji Wiersz w edytorze tabeli przestawnej po prawej stronie okna Arkuszy
- Dodaj „card_type” w sekcji Kolumna w edytorze tabeli przestawnej
- Dodaj „monthly_rev” w sekcji Kolumna w edytorze tabeli przestawnej
- Kliknij przycisk Zastosuj
- Przejdź do górnego robbin interfejsu Arkuszy i wybierz Wstaw wykres
4. Konfiguracja: integracja danych
W tej sekcji dowiesz się, jak utworzyć nową tabelę i wykonać funkcję JOIN w jednym z wielu publicznych zbiorów danych dostępnych w Google Cloud.
[Konkurencja]:
BigQuery obsługuje udostępniane zbiory danych od lat. Klienci w dowolnym projekcie mogą wysyłać zapytania zarówno do publicznych zbiorów danych, jak i zbiorów danych w innych projektach, które zostały im udostępnione.
BigQuery może obsługiwać jeziora danych w GCS przy użyciu tabel zewnętrznych. Oprócz wczytywania zbiorczego BigQuery umożliwia przesyłanie strumieniowe danych do bazy danych z szybkością przekraczającą setki MB na sekundę. Snowflake nie obsługuje strumieniowania danych.
Importowanie danych do nowej tabeli
- W panelu zasobów wybierz zbiór danych bq_demo
- W panelu informacji o zbiorze danych wybierz „Utwórz tabelę”
- Wybierz Google Cloud Storage jako źródło
- W polu tekstowym ścieżki pliku:
gs://retail-banking-looker/district
- Wybierz format pliku CSV
- Wpisz „rejon” dla nazwy tabeli
- Zaznacz pole wyboru schematu automatycznego wykrywania
- Kliknij Utwórz tabelę.
Wysyłanie zapytań do publicznego zbioru danych
- W edytorze zapytań wpisz to zapytanie:
SELECT
CAST(geo_id as STRING) AS zip_code,
total_pop,
median_age,
households,
income_per_capita,
housing_units,
vacant_housing_units_for_sale,
ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
ROUND(SAFE_DIVIDE(bachelors_degree_or_higher_25_64, pop_25_64),4) AS rate_bachelors_degree_or_higher_25_64
FROM
`bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`;
- Kliknij Uruchom.
- Zobacz wyniki
- Teraz połączymy te dane publiczne z innym zapytaniem. Wpisz w edytorze zapytań ten kod SQL:
WITH customer_counts AS (
select regexp_extract(address, "[0-9][0-9][0-9][0-9][0-9]") as zip_code,
count(*) as num_clients
FROM bq_demo.client
GROUP BY zip_code
)
SELECT
CAST(geo_id as STRING) AS zip_code,
total_pop,
median_age,
households,
income_per_capita,
ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
num_clients
FROM
`bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`
JOIN customer_counts on zip_code = geo_id
ORDER BY num_clients DESC
- Kliknij Uruchom.
- Zobacz wyniki
5. Zarządzanie zasobami
Praca z przedziałami i rezerwacjami
BQ oferuje wiele modeli cenowych dostosowanych do Twoich potrzeb. Większość dużych klientów wykorzystuje przede wszystkim stałą stawkę, aby uzyskać przewidywalne ceny i zarezerwowaną pojemność. BQ oferuje przedziały elastyczne, które pozwalają na eksploatację przekraczającą ten poziom bazowy, co pozwala zwiększać pojemność na bieżąco, a następnie automatycznie zmniejszać rozmiar bez wpływu na wykonywane zapytania. BQ ma również model skanowania bajtów, dzięki któremu możesz płacić tylko za uruchamiane zapytania.
[Informacje o konkurencji: niektórzy konkurenci pracują wyłącznie nad modelem o stałej wydajności, w którym klienci muszą przydzielić wirtualny magazyn do każdego zadania w organizacji. Oprócz niedrogiego modelu na podstawie zapytania, który ułatwia rozpoczęcie pracy z BigQuery, obsługujemy też model cenowy stałych opłat za pojemność, w którym pojemność bezczynna może być współdzielona przez zbiór zadań.]
- Otwórz kartę Rezerwacje.
- Kliknij „Kup przedziały”.
- Wybierz „Flex” jako czas trwania.
- Wybierz 500 przedziałów.
- Potwierdź zakup.
- Kliknij Wyświetl zobowiązania na przedziały.
- Kliknij „Utwórz rezerwację”
- Użytkownik „demo” jako nazwę rezerwacji
- Wybierz Stany Zjednoczone jako lokalizację
- Wpisz 500 dla przedziałów (wszystkie dostępne)
- Kliknij Przypisania
- Wybierz bieżący projekt dla projektu organizacji
- Wybierz opcję „demonstracja”. dla identyfikatora rezerwacji
- Kliknij Utwórz”.