Codelab sull'esplorazione dei dati e sulla navigazione nella UI di BigQuery

1. Introduzione

BigQuery è un data warehouse serverless, a scalabilità elevata ed economico. Non devi far altro che spostare i tuoi dati in BigQuery: ci occuperemo noi del lavoro duro e tu potrai concentrarti su ciò che conta davvero: gestire la tua attività. Puoi controllare l'accesso sia al progetto sia ai tuoi dati in base alle tue esigenze aziendali, ad esempio per offrire agli altri la possibilità di visualizzare i tuoi dati o eseguire query.

In questo lab scoprirai le possibilità analitiche di BigQuery. Imparerai a importare un set di dati da un bucket Google Cloud Storage e acquisire familiarità con la UI di BigQuery utilizzando un set di dati di Retail banking. Inoltre, questo lab ti insegnerà a scoprire le funzionalità chiave di BigQuery che semplificano l'analisi quotidiana, come l'esportazione dei risultati delle query in un foglio di lavoro, la visualizzazione ed esecuzione di query dalla cronologia delle query, la visualizzazione delle prestazioni delle query e la creazione di visualizzazioni tabelle utilizzabili da altri team e reparti.

Cosa imparerai a fare

In questo lab imparerai a:

  • Caricare nuovi dati in BigQuery
  • Acquisire familiarità con la UI di BigQuery
  • Esecuzione di query in BigQuery
  • Visualizza prestazioni query
  • Creazione di viste in BigQuery
  • Condividi set di dati con gli altri in modo sicuro

2. Introduzione: Comprendere la UI di BigQuery

In questa sezione imparerai a esplorare la UI di BigQuery, visualizzare i set di dati disponibili ed eseguire una semplice query.

Caricamento dell'interfaccia utente BQ in corso...

  1. Digita in "BigQuery" nella parte superiore della console di Google Cloud Platform.
  2. Seleziona BigQuery dall'elenco di opzioni. Assicurati di selezionare l'opzione con il logo BigQuery, ovvero la lente d'ingrandimento.

Visualizzazione di set di dati ed esecuzione di query

ee95ce13969ee1ad.png

  1. Nel riquadro a sinistra della sezione Risorsa, fai clic sul tuo progetto BigQuery.
  2. Fai clic su bq_demo per visualizzare le tabelle nel set di dati
  3. Nella casella di ricerca, digita "scheda". per vedere un elenco di tabelle e set di dati che contengono "card" nel loro nome.
  4. Seleziona "card_transactions" tabella dall'elenco dei risultati di ricerca

beb6ff6ca2930125.png

  1. Fai clic sulla scheda Dettagli nel riquadro card_transactions per visualizzare i metadati per questa tabella.
  2. Fai clic sulla scheda Anteprima per visualizzare un'anteprima della tabella

[Spunti di discussione competitivi]: l'integrazione con Google Data Catalog fa sì che i metadati BigQuery possano essere gestiti insieme ad altre origini dati, come i data lake o le origini dati operative. Questo è un esempio che mostra che Google Cloud non è solo un data warehouse relazionale, è un'intera piattaforma di dati analitici.

  1. Fai clic sull'icona della lente di ingrandimento per eseguire una query su "card_transactions" . Nell'editor query di BigQuery verrà inserito un testo generato automaticamente.
  2. Inserisci il codice di seguito per mostrare commercianti distinti dalla tabella Card_Transactions
SELECT distinct (merchant) FROM bq_demo.card_transactions LIMIT 1000
  1. Fai clic sul pulsante Esegui per eseguire la query.

35113542e7ec6fa6.png

3. Creazione di set di dati e condivisione di viste

La condivisione dei dati e della governance è fondamentale e può essere eseguita in modo intuitivo nell'interfaccia utente BQ. In questa sezione imparerai a creare un nuovo set di dati, popolarlo con una vista e condividerlo.

Visualizzazione della cronologia delle query

  1. Fai clic su "Cronologia delle query". nel riquadro sinistro della console Google Cloud
  2. Fai clic su Aggiorna nel riquadro Cronologia delle query.
  3. Fai clic sull'immagine/freccia di download all'estrema destra della query per visualizzare i risultati.

6e3232ed96f647b8.png

Creazione di un nuovo set di dati

  1. Seleziona [nome del progetto] nel riquadro delle risorse della UI di BigQuery.
  2. Seleziona "Crea nuovo set di dati" dal riquadro delle informazioni del progetto
  3. Per l'ID set di dati:

bq_demo_shared

  1. Lascia invariati gli altri campi predefiniti
  2. Fai clic su "Crea set di dati"

b433eba38f55124f.png dd774aca416e7fbc.png

Creazione di visualizzazioni

[Spunti di discussione competitivi]: BigQuery è completamente conforme ad ANSI SQL e supporta join multitabella semplici e complessi e funzioni analitiche avanzate. Abbiamo continuamente rilasciato un supporto migliorato per le funzioni e i tipi di dati SQL più comuni utilizzati nei data warehouse tradizionali per semplificare il processo di migrazione.

  1. Seleziona "Crea nuova query" nella parte superiore del riquadro Editor di query.
  2. Inserisci il seguente codice nell'editor di query
WITH revenue_by_month AS (
SELECT
    card.type AS card_type,
    FORMAT_DATE('%Y-%m', trans_date) as revenue_date,
    SUM(amount) as revenue
FROM bq_demo.card_transactions
JOIN bq_demo.card ON card_transactions.cc_number = card.card_number
WHERE trans_date  DATE_ADD(CURRENT_DATE, INTERVAL -1 YEAR)
GROUP BY card_type, revenue_date
)
SELECT
    card_type,
    revenue_date,
    revenue as monthly_rev,
    revenue -  LAG(revenue) OVER (ORDER BY card_type, revenue_date ASC) as rev_change
FROM revenue_by_month
ORDER BY card_type, revenue_date ASC;
  1. Fai clic su "Salva visualizzazione"
  2. Seleziona il tuo progetto attuale per Nome progetto
  3. Seleziona il set di dati appena creato:

bq_demo_shared

  1. Per il nome della tabella:

rev_change_by_card_type

  1. Fai clic su Salva.

4b111056b544c27d.png

Condividere viste e set di dati

  1. Seleziona "bq_demo_shared" dal riquadro delle risorse a sinistra della UI di BigQuery.
  2. Fai clic su "Condividi set di dati" Nel riquadro delle informazioni del set di dati
  3. Inserisci un indirizzo email
  4. Seleziona "Visualizzatore dati BigQuery". dal menu a discesa Ruolo
  5. Fai clic su "Aggiungi"
  6. Fai clic su Fine.

1c04b6b5ebc191dc.png

Esplora i dati in Fogli

[Spunti di discussione sulla concorrenza]: Un altro vantaggio di BigQuery rispetto alla concorrenza è BI Engine. BI Engine può essere utilizzato per fare in modo che le query di riepilogo di tipo BI restituiscano meno di un secondo tramite il motore di memorizzazione nella cache in memoria. Questa funzionalità è attualmente supportata da Google Data Studio, ma sarà presto disponibile per accelerare tutte le query in BigQuery.

Ad esempio:

Snowflake si affida a strumenti BI di terze parti per dashboard e visualizzazione dei dati, mentre Google Cloud offre una gamma di strumenti BI integrati, tra cui Fogli connessi, Data Studio e Looker.

  1. Seleziona "rev_change_by_card_type" dal riquadro delle risorse a sinistra nella UI di BigQuery.
  2. Fai clic sulla lente d'ingrandimento per eseguire una query sulla vista 255be22b0eaf339.png
  3. Tipo:

SELECT *

FROM bq_demo_shared.rev_change_by_card_type

  1. Fai clic su Esegui
  2. Fai clic sul pulsante "Esporta" Icona dal riquadro dei risultati
  3. Seleziona "Esplora i dati con Fogli".

9617b522025fd337.png

  1. Fai clic su "Inizia analisi"
  2. Seleziona "Tabella pivot".
  3. Seleziona "Nuovo foglio"
  4. Fai clic su "Crea"
  5. Aggiungi "revenue_date" nella sezione Riga dell'editor della tabella pivot a destra della finestra di Fogli
  6. Aggiungi "card_type" nella sezione Colonne dell'editor della tabella pivot
  7. Aggiungi "monthly_rev" nella sezione Colonne dell'editor della tabella pivot
  8. Fai clic su Applica

48e67c2e04965796.png

  1. Vai all'interfaccia utente di Fogli e seleziona Inserisci grafico

4. Configurazione: integrazione dei dati

In questa sezione imparerai a creare una nuova tabella ed eseguire un JOIN su uno dei molti set di dati pubblici disponibili da Google Cloud.

[Spunti di discussione sulla concorrenza]:

BigQuery supporta set di dati condivisi da anni. I clienti di qualsiasi progetto possono eseguire query sia su set di dati pubblici sia su set di dati di altri progetti che sono stati condivisi con loro.

BigQuery può supportare i data lake in GCS tramite l'uso di tabelle esterne. Oltre al caricamento in blocco, BigQuery supporta la possibilità di trasmettere flussi di dati nel database a velocità superiori a centinaia di MB al secondo. Snowflake non supporta i flussi di dati.

Importazione di dati in una nuova tabella

  1. Nel riquadro delle risorse, seleziona il set di dati bq_demo
  2. Nel riquadro delle informazioni del set di dati, seleziona "Create Table" (Crea tabella).
  3. Seleziona Google Cloud Storage per l'origine
  4. Nella casella di testo del percorso del file:

gs://retail-banking-looker/district

  1. Seleziona CSV per il formato file
  2. Inserisci "distretto" per nome tabella
  3. Seleziona la casella di controllo per lo schema di Rilevamento automatico
  4. Fai clic su Crea tabella

Esecuzione di query su set di dati pubblico

  1. Nell'editor di query, inserisci la seguente query:
SELECT
    CAST(geo_id as STRING) AS zip_code,
    total_pop,
    median_age,
    households,
    income_per_capita,
    housing_units,
    vacant_housing_units_for_sale,
    ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
    ROUND(SAFE_DIVIDE(bachelors_degree_or_higher_25_64, pop_25_64),4) AS rate_bachelors_degree_or_higher_25_64
  FROM
    `bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`;
  1. Fai clic su Esegui
  2. Visualizza i risultati

dff40709db70d75.png

  1. Ora combineremo questi dati pubblici con un'altra query. Inserisci il seguente codice SQL nell'editor di query:
WITH customer_counts AS (
    select regexp_extract(address, "[0-9][0-9][0-9][0-9][0-9]") as zip_code, 
    count(*) as num_clients
    FROM bq_demo.client
    GROUP BY zip_code
    )
SELECT 
    CAST(geo_id as STRING) AS zip_code,
    total_pop,
    median_age,
    households,
    income_per_capita,
    ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
    num_clients
FROM
    `bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`
JOIN customer_counts on zip_code = geo_id
ORDER BY num_clients DESC
  1. Fai clic su Esegui
  2. Visualizza i risultati

b853ad571e7a3038.png

5. Gestione della capacità

Utilizzo di slot e prenotazioni

BQ offre diversi modelli di determinazione del prezzo per soddisfare le tue esigenze. La maggior parte dei grandi clienti utilizza principalmente il modello a costo fisso per prezzi prevedibili con capacità prenotata. Per il bursting oltre questa capacità di base, BQ offre slot flessibili che consentono di passare a capacità aggiuntiva all'istante e quindi di ridursi automaticamente senza alcun impatto sull'esecuzione delle query. BQ ha anche un modello di scansione dei byte che ti consente di pagare solo per le query eseguite.

[Spunti di discussione sulla concorrenza: alcuni concorrenti lavorano esclusivamente su un modello a capacità fissa in cui i clienti devono allocare un warehouse virtuale per ogni carico di lavoro dell'organizzazione. Oltre a un modello a basso costo per query che semplifica l'utilizzo di BigQuery, supportiamo un modello di prezzi della capacità a costo fisso in cui la capacità inattiva può essere condivisa tra un insieme di carichi di lavoro.]

  1. Vai alla scheda Prenotazioni.

964f4ab78d35d067.png

  1. Fai clic su "Acquista slot".

c8cb5ee61bbea814.png

  1. Seleziona "Flex" come durata.
  2. Seleziona 500 slot.
  3. Conferma l'acquisto.

d615f5908dffc1ee.png

  1. Fai clic su Visualizza impegni slot.
  2. Fai clic su "Crea prenotazione"
  3. "demo" dell'utente come nome prenotazione
  4. Seleziona Stati Uniti come località
  5. Digita 500 per gli slot (tutti disponibili)
  6. Fai clic su Assegnazioni.
  7. Scegli il progetto attuale per il progetto dell'organizzazione
  8. Seleziona "demo" per ID prenotazione
  9. Fai clic su Crea".