1. Einführung
BigQuery ist ein serverloses, hoch skalierbares und kostengünstiges Data Warehouse. Verschieben Sie einfach Ihre Daten zu BigQuery und überlassen Sie uns den Rest, damit Sie sich auf das konzentrieren können, was wirklich wichtig ist: Ihr Unternehmen. Sie können den Zugriff auf das Projekt und auf Ihre Daten entsprechend Ihren Unternehmensanforderungen steuern und anderen Personen das Aufrufen oder Abfragen Ihrer Daten ermöglichen.
In diesem Lab lernen Sie die analytischen Möglichkeiten von BigQuery kennen. Sie erfahren, wie Sie ein Dataset aus einem Google Cloud Storage-Bucket importieren und sich mit der BigQuery-UI durch die Arbeit mit einem Retail-Banking-Dataset vertraut machen. Außerdem erfahren Sie, wie Sie in diesem Lab die wichtigsten Funktionen in BigQuery kennenlernen, die Ihre tägliche Analyse vereinfachen. Dazu gehören das Exportieren von Abfrageergebnissen in eine Tabelle, das Aufrufen und Ausführen von Abfragen aus dem Abfrageverlauf, das Anzeigen der Abfrageleistung sowie das Erstellen von Tabellenansichten zur Verwendung durch andere Teams und Abteilungen.
Lerninhalte
Aufgaben in diesem Lab:
- Neue Daten in BigQuery laden
- Sich mit der BigQuery-UI vertraut machen
- Abfragen in BigQuery ausführen
- Abfrageleistung ansehen
- Ansichten in BigQuery erstellen
- Datasets sicher für andere freigeben
2. Einführung: Die BigQuery-UI
In diesem Abschnitt erfahren Sie, wie Sie in der BigQuery-Benutzeroberfläche navigieren, verfügbare Datasets anzeigen und eine einfache Abfrage ausführen.
BQ-UI wird geladen
- Geben Sie „BigQuery“ ein im oberen Bereich der Google Cloud Platform Console.
- Wählen Sie BigQuery aus der Optionsliste aus. Achten Sie darauf, die Option mit dem BigQuery-Logo, der Lupe, auszuwählen.
Datasets ansehen und Abfragen ausführen
- Klicken Sie im linken Bereich im Abschnitt „Ressource“ auf Ihr BigQuery-Projekt.
- Klicken Sie auf
bq_demo
, um die Tabellen in diesem Dataset aufzurufen. - Geben Sie in das Suchfeld „Karte“ ein. um eine Liste der Tabellen und Datasets anzuzeigen, die „Karte“ enthalten in ihrem Namen.
- Wählen Sie „card_transactions“ aus. Tabelle aus der Liste der Suchergebnisse
- Klicken Sie im Bereich
card_transactions
auf den Tab „Details“, um die Metadaten für diese Tabelle aufzurufen. - Klicken Sie auf den Tab „Vorschau“, um eine Vorschau der Tabelle zu sehen.
[Competition Talking Point]: Durch die Einbindung in den Google Data Catalog können BigQuery-Metadaten zusammen mit anderen Datenquellen wie Data Lakes oder operativen Datenquellen verwaltet werden. Dieses Beispiel zeigt, dass Google Cloud nicht nur ein relationales Data Warehouse ist, sondern eine ganze analytische Datenplattform.
- Klicken Sie auf das Lupensymbol, um „card_transactions“ abzufragen. . Im BigQuery-Abfrageeditor wird ein automatisch generierter Text eingefügt.
- Geben Sie den Code unten ein, um anzugeben, welche Händler aus der Tabelle „Card_Transactions“ unterschieden werden sollen
SELECT distinct (merchant) FROM bq_demo.card_transactions LIMIT 1000
- Klicken Sie auf die Schaltfläche Run (Ausführen), um die Abfrage auszuführen.
3. Datasets erstellen und Ansichten freigeben
Die gemeinsame Nutzung von Daten und Governance ist entscheidend. Dies kann intuitiv über die BigQuery-Benutzeroberfläche erfolgen. In diesem Abschnitt erfahren Sie, wie Sie ein neues Dataset erstellen, mit einer Ansicht füllen und dieses Dataset freigeben.
Abfrageverlauf anzeigen
- Klicken Sie auf "Abfrageverlauf". im linken Bereich der GCP Console
- Klicken Sie im Bereich „Abfrageverlauf“ auf „Aktualisieren“
- Klicken Sie ganz rechts in der Abfrage auf das Downloadbild bzw. den Downloadpfeil, um die Ergebnisse der Abfrage anzuzeigen.
Neues Dataset erstellen
- Wählen Sie im Ressourcenbereich der BigQuery-UI [Ihr Projektname] aus.
- Wählen Sie „Neues Dataset erstellen“ aus. über den Bereich mit den Projektinformationen
- Für Dataset-ID:
bq_demo_shared
- Behalten Sie bei allen anderen Feldern die Standardwerte bei.
- Klicken Sie auf „Dataset erstellen“.
Ansichten erstellen
[Wettbewerbsgespräch]: BigQuery ist vollständig ANSI SQL-konform und unterstützt sowohl einfache als auch komplexe Joins aus mehreren Tabellen und umfangreiche Analysefunktionen. Wir haben kontinuierlich eine verbesserte Unterstützung für gängige SQL-Datentypen und -Funktionen veröffentlicht, die in traditionellen Data Warehouses verwendet werden, um den Migrationsprozess zu vereinfachen.
- Wählen Sie „Neue Abfrage erstellen“ aus. oben im Bereich „Abfrageeditor“.
- Fügen Sie den folgenden Code in den Abfrageeditor ein
WITH revenue_by_month AS (
SELECT
card.type AS card_type,
FORMAT_DATE('%Y-%m', trans_date) as revenue_date,
SUM(amount) as revenue
FROM bq_demo.card_transactions
JOIN bq_demo.card ON card_transactions.cc_number = card.card_number
WHERE trans_date DATE_ADD(CURRENT_DATE, INTERVAL -1 YEAR)
GROUP BY card_type, revenue_date
)
SELECT
card_type,
revenue_date,
revenue as monthly_rev,
revenue - LAG(revenue) OVER (ORDER BY card_type, revenue_date ASC) as rev_change
FROM revenue_by_month
ORDER BY card_type, revenue_date ASC;
- Klicken Sie auf "Ansicht speichern".
- Wählen Sie Ihr aktuelles Projekt als Projektnamen aus
- Wählen Sie das neu erstellte Dataset aus:
bq_demo_shared
- Für Tabellennamen:
rev_change_by_card_type
- Klicken Sie auf „Speichern“.
Ansichten und Datasets freigeben
- Wählen Sie die Option "bq_demo_shared" aus. Dataset aus dem linken Ressourcenbereich der BigQuery-UI.
- Klicken Sie auf „Dataset freigeben“. im Dataset-Informationsbereich
- E-Mail-Adresse eingeben
- Wählen Sie „BigQuery-Datenbetrachter“ aus. im Drop-down-Menü „Rolle“ aus.
- Klicken Sie auf „Hinzufügen“
- Klicken Sie auf Fertig .
Daten in Google Tabellen ansehen
[Wettbewerbsgespräch]: Ein weiterer Vorteil von BigQuery im Vergleich zu Mitbewerbern ist die BI Engine. Mit BI Engine können zusammenfassende Abfragen vom BI-Typ über eine In-Memory-Caching-Engine in weniger als einer Sekunde zurückgegeben werden. Diese Funktion wird derzeit von Google Data Studio unterstützt, bald wird sie aber verfügbar sein, um alle Abfragen in BigQuery zu beschleunigen.
Beispiel:
Snowflake nutzt BI-Tools von Drittanbietern für Dashboards und Datenvisualisierung, während die GCP eine Reihe integrierter BI-Tools bietet, darunter verbundene Tabellenblätter, Data Studio und Looker.
- Wählen Sie „rev_change_by_card_type“ aus. im linken Ressourcenbereich der BigQuery-UI.
- Klicken Sie auf die Lupe, um die Ansicht abzufragen.
- Typ:
SELECT *
VON bq_demo_shared.rev_change_by_card_type
- Klicken Sie auf „Ausführen“.
- Klicken Sie auf die Schaltfläche „Exportieren“. Symbol im Ergebnisbereich
- Wählen Sie „Daten in Google Tabellen analysieren“ aus.
- Klicken Sie auf „Analyse starten“.
- Wählen Sie "Pivot-Tabelle" aus.
- Wählen Sie „Neues Tabellenblatt“ aus.
- Klicken Sie auf "Erstellen".
- Fügen Sie „revenue_date“ hinzu. im Bereich „Row“ (Zeile) des Editors für Pivot-Tabellen rechts im Tabellenfenster
- „card_type“ hinzufügen im Editor für Pivot-Tabellen im Abschnitt „Spalte“
- Fügen Sie „monthly_rev“ hinzu. im Editor für Pivot-Tabellen im Abschnitt „Spalte“
- Klickt auf "Übernehmen".
- Navigieren Sie zur obersten Robbin der Google Tabellen-Benutzeroberfläche und wählen Sie "Diagramm einfügen" aus.
4. Einrichtung: Datenintegration
In diesem Abschnitt erfahren Sie, wie Sie eine neue Tabelle erstellen und JOINS für eines der vielen öffentlichen Datasets in Google Cloud ausführen.
[Gesprächspunkt zur Wettbewerbssituation]:
BigQuery unterstützt freigegebene Datasets seit Jahren. Kunden in einem beliebigen Projekt können sowohl öffentliche Datasets als auch Datasets in anderen Projekten abfragen, die für sie freigegeben wurden.
BigQuery kann mithilfe externer Tabellen Data Lakes in GCS unterstützen. Zusätzlich zum Laden im Bulk unterstützt BigQuery die Möglichkeit, Daten mit Raten von bis zu mehreren Hundert MB pro Sekunde in die Datenbank zu streamen. Snowflake unterstützt keine Streaming-Daten.
Daten in eine neue Tabelle importieren
- Wählen Sie im Ressourcenbereich das Dataset bq_demo aus.
- Wählen Sie im Dataset-Informationsbereich die Option "Tabelle erstellen" aus.
- Google Cloud Storage als Quelle auswählen
- Gehen Sie im Textfeld „Dateipfad“ so vor:
gs://retail-banking-looker/district
- CSV als Dateiformat auswählen
- Geben Sie „Bezirk“ ein für Tabellenname
- Klicken Sie das Kästchen für „Schema automatisch erkennen“ an.
- Klicken Sie auf Tabelle erstellen .
Öffentliches Dataset abfragen
- Geben Sie im Abfrageeditor die folgende Abfrage ein:
SELECT
CAST(geo_id as STRING) AS zip_code,
total_pop,
median_age,
households,
income_per_capita,
housing_units,
vacant_housing_units_for_sale,
ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
ROUND(SAFE_DIVIDE(bachelors_degree_or_higher_25_64, pop_25_64),4) AS rate_bachelors_degree_or_higher_25_64
FROM
`bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`;
- Klicken Sie auf „Ausführen“.
- Ergebnisse ansehen
- Jetzt kombinieren wir diese öffentlichen Daten mit einer anderen Abfrage. Geben Sie den folgenden SQL-Code in den Abfrageeditor ein:
WITH customer_counts AS (
select regexp_extract(address, "[0-9][0-9][0-9][0-9][0-9]") as zip_code,
count(*) as num_clients
FROM bq_demo.client
GROUP BY zip_code
)
SELECT
CAST(geo_id as STRING) AS zip_code,
total_pop,
median_age,
households,
income_per_capita,
ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
num_clients
FROM
`bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`
JOIN customer_counts on zip_code = geo_id
ORDER BY num_clients DESC
- Klicken Sie auf „Ausführen“.
- Ergebnisse ansehen
5. Kapazitätsverwaltung
Mit Slots und Reservierungen arbeiten
BQ bietet mehrere Preismodelle, die Ihren Anforderungen entsprechen. Die meisten Großkunden nutzen hauptsächlich den Pauschalpreis für vorhersehbare Preise mit reservierter Kapazität. Wenn das Bursting über diese Basiskapazität hinausgeht, bietet BQ Flex-Slots, mit denen Sie spontan um zusätzliche Kapazität erweitern und dann automatisch verkleinern können, ohne dass sich dies auf laufende Abfragen auswirkt. BQ hat auch ein Byte-Scan-Modell, mit dem Sie nur für die Abfragen bezahlen, die Sie ausführen.
[Gesprächspunkt der Konkurrenz: Einige Mitbewerber arbeiten ausschließlich mit einem Modell mit fester Kapazität, bei dem Kunden jeder Arbeitslast in ihrem Unternehmen ein virtuelles Warehouse zuweisen müssen. Zusätzlich zu einem kostengünstigen Modell pro Abfrage, das den Einstieg in BigQuery erleichtert, unterstützen wir ein Preismodell mit Pauschalpreis, bei dem inaktive Kapazität auf eine Reihe von Arbeitslasten aufgeteilt werden kann.]
- Rufen Sie den Tab „Reservierungen“ auf.
- Klicken Sie auf „Slots erwerben“.
- Wählen Sie „Flex“ aus. als Dauer angeben.
- Wählen Sie 500 Slots aus.
- Bestätigen Sie den Kauf.
- Klicken Sie auf Slot-Zusicherungen anzeigen.
- Klicken Sie auf "Reservierung erstellen".
- Nutzer „Demo“ als Reservierungsname
- USA als Standort auswählen
- Typ 500 für Slots (alle verfügbar)
- Klicken Sie auf „Zuweisungen“.
- Aktuelles Projekt für Organisationsprojekt auswählen
- Wähle „Demo“ aus. für Reservierungs-ID
- Klicken Sie auf Erstellen.“