1. Introduzione
BigQuery è un data warehouse serverless, a scalabilità elevata ed economico. Non devi far altro che spostare i tuoi dati in BigQuery: ci occuperemo noi del lavoro duro e tu potrai concentrarti su ciò che conta davvero: gestire la tua attività. Puoi controllare l'accesso sia al progetto sia ai tuoi dati in base alle tue esigenze aziendali, ad esempio per offrire agli altri la possibilità di visualizzare i tuoi dati o eseguire query.
In questo lab scoprirai le possibilità analitiche di BigQuery. Imparerai a importare un set di dati da un bucket Google Cloud Storage e acquisire familiarità con la UI di BigQuery utilizzando un set di dati di Retail banking. Inoltre, questo lab ti insegnerà a scoprire le funzionalità chiave di BigQuery che semplificano l'analisi quotidiana, come l'esportazione dei risultati delle query in un foglio di lavoro, la visualizzazione ed esecuzione di query dalla cronologia delle query, la visualizzazione delle prestazioni delle query e la creazione di visualizzazioni tabelle utilizzabili da altri team e reparti.
Cosa imparerai a fare
In questo lab imparerai a:
- Caricare nuovi dati in BigQuery
- Acquisire familiarità con la UI di BigQuery
- Esecuzione di query in BigQuery
- Visualizza prestazioni query
- Creazione di viste in BigQuery
- Condividi set di dati con gli altri in modo sicuro
2. Introduzione: Comprendere la UI di BigQuery
In questa sezione imparerai a esplorare la UI di BigQuery, visualizzare i set di dati disponibili ed eseguire una semplice query.
Caricamento dell'interfaccia utente BQ in corso...
- Digita in "BigQuery" nella parte superiore della console di Google Cloud Platform.
- Seleziona BigQuery dall'elenco di opzioni. Assicurati di selezionare l'opzione con il logo BigQuery, ovvero la lente d'ingrandimento.
Visualizzazione di set di dati ed esecuzione di query
- Nel riquadro a sinistra della sezione Risorsa, fai clic sul tuo progetto BigQuery.
- Fai clic su
bq_demo
per visualizzare le tabelle nel set di dati - Nella casella di ricerca, digita "scheda". per vedere un elenco di tabelle e set di dati che contengono "card" nel loro nome.
- Seleziona "card_transactions" tabella dall'elenco dei risultati di ricerca
- Fai clic sulla scheda Dettagli nel riquadro
card_transactions
per visualizzare i metadati per questa tabella. - Fai clic sulla scheda Anteprima per visualizzare un'anteprima della tabella
[Spunti di discussione competitivi]: l'integrazione con Google Data Catalog fa sì che i metadati BigQuery possano essere gestiti insieme ad altre origini dati, come i data lake o le origini dati operative. Questo è un esempio che mostra che Google Cloud non è solo un data warehouse relazionale, è un'intera piattaforma di dati analitici.
- Fai clic sull'icona della lente di ingrandimento per eseguire una query su "card_transactions" . Nell'editor query di BigQuery verrà inserito un testo generato automaticamente.
- Inserisci il codice di seguito per mostrare commercianti distinti dalla tabella Card_Transactions
SELECT distinct (merchant) FROM bq_demo.card_transactions LIMIT 1000
- Fai clic sul pulsante Esegui per eseguire la query.
3. Creazione di set di dati e condivisione di viste
La condivisione dei dati e della governance è fondamentale e può essere eseguita in modo intuitivo nell'interfaccia utente BQ. In questa sezione imparerai a creare un nuovo set di dati, popolarlo con una vista e condividerlo.
Visualizzazione della cronologia delle query
- Fai clic su "Cronologia delle query". nel riquadro sinistro della console Google Cloud
- Fai clic su Aggiorna nel riquadro Cronologia delle query.
- Fai clic sull'immagine/freccia di download all'estrema destra della query per visualizzare i risultati.
Creazione di un nuovo set di dati
- Seleziona [nome del progetto] nel riquadro delle risorse della UI di BigQuery.
- Seleziona "Crea nuovo set di dati" dal riquadro delle informazioni del progetto
- Per l'ID set di dati:
bq_demo_shared
- Lascia invariati gli altri campi predefiniti
- Fai clic su "Crea set di dati"
Creazione di visualizzazioni
[Spunti di discussione competitivi]: BigQuery è completamente conforme ad ANSI SQL e supporta join multitabella semplici e complessi e funzioni analitiche avanzate. Abbiamo continuamente rilasciato un supporto migliorato per le funzioni e i tipi di dati SQL più comuni utilizzati nei data warehouse tradizionali per semplificare il processo di migrazione.
- Seleziona "Crea nuova query" nella parte superiore del riquadro Editor di query.
- Inserisci il seguente codice nell'editor di query
WITH revenue_by_month AS (
SELECT
card.type AS card_type,
FORMAT_DATE('%Y-%m', trans_date) as revenue_date,
SUM(amount) as revenue
FROM bq_demo.card_transactions
JOIN bq_demo.card ON card_transactions.cc_number = card.card_number
WHERE trans_date DATE_ADD(CURRENT_DATE, INTERVAL -1 YEAR)
GROUP BY card_type, revenue_date
)
SELECT
card_type,
revenue_date,
revenue as monthly_rev,
revenue - LAG(revenue) OVER (ORDER BY card_type, revenue_date ASC) as rev_change
FROM revenue_by_month
ORDER BY card_type, revenue_date ASC;
- Fai clic su "Salva visualizzazione"
- Seleziona il tuo progetto attuale per Nome progetto
- Seleziona il set di dati appena creato:
bq_demo_shared
- Per il nome della tabella:
rev_change_by_card_type
- Fai clic su Salva.
Condividere viste e set di dati
- Seleziona "bq_demo_shared" dal riquadro delle risorse a sinistra della UI di BigQuery.
- Fai clic su "Condividi set di dati" Nel riquadro delle informazioni del set di dati
- Inserisci un indirizzo email
- Seleziona "Visualizzatore dati BigQuery". dal menu a discesa Ruolo
- Fai clic su "Aggiungi"
- Fai clic su Fine.
Esplora i dati in Fogli
[Spunti di discussione sulla concorrenza]: Un altro vantaggio di BigQuery rispetto alla concorrenza è BI Engine. BI Engine può essere utilizzato per fare in modo che le query di riepilogo di tipo BI restituiscano meno di un secondo tramite il motore di memorizzazione nella cache in memoria. Questa funzionalità è attualmente supportata da Google Data Studio, ma sarà presto disponibile per accelerare tutte le query in BigQuery.
Ad esempio:
Snowflake si affida a strumenti BI di terze parti per dashboard e visualizzazione dei dati, mentre Google Cloud offre una gamma di strumenti BI integrati, tra cui Fogli connessi, Data Studio e Looker.
- Seleziona "rev_change_by_card_type" dal riquadro delle risorse a sinistra nella UI di BigQuery.
- Fai clic sulla lente d'ingrandimento per eseguire una query sulla vista
- Tipo:
SELECT *
FROM bq_demo_shared.rev_change_by_card_type
- Fai clic su Esegui
- Fai clic sul pulsante "Esporta" Icona dal riquadro dei risultati
- Seleziona "Esplora i dati con Fogli".
- Fai clic su "Inizia analisi"
- Seleziona "Tabella pivot".
- Seleziona "Nuovo foglio"
- Fai clic su "Crea"
- Aggiungi "revenue_date" nella sezione Riga dell'editor della tabella pivot a destra della finestra di Fogli
- Aggiungi "card_type" nella sezione Colonne dell'editor della tabella pivot
- Aggiungi "monthly_rev" nella sezione Colonne dell'editor della tabella pivot
- Fai clic su Applica
- Vai all'interfaccia utente di Fogli e seleziona Inserisci grafico
4. Configurazione: integrazione dei dati
In questa sezione imparerai a creare una nuova tabella ed eseguire un JOIN su uno dei molti set di dati pubblici disponibili da Google Cloud.
[Spunti di discussione sulla concorrenza]:
BigQuery supporta set di dati condivisi da anni. I clienti di qualsiasi progetto possono eseguire query sia su set di dati pubblici sia su set di dati di altri progetti che sono stati condivisi con loro.
BigQuery può supportare i data lake in GCS tramite l'uso di tabelle esterne. Oltre al caricamento in blocco, BigQuery supporta la possibilità di trasmettere flussi di dati nel database a velocità superiori a centinaia di MB al secondo. Snowflake non supporta i flussi di dati.
Importazione di dati in una nuova tabella
- Nel riquadro delle risorse, seleziona il set di dati bq_demo
- Nel riquadro delle informazioni del set di dati, seleziona "Create Table" (Crea tabella).
- Seleziona Google Cloud Storage per l'origine
- Nella casella di testo del percorso del file:
gs://retail-banking-looker/district
- Seleziona CSV per il formato file
- Inserisci "distretto" per nome tabella
- Seleziona la casella di controllo per lo schema di Rilevamento automatico
- Fai clic su Crea tabella
Esecuzione di query su set di dati pubblico
- Nell'editor di query, inserisci la seguente query:
SELECT
CAST(geo_id as STRING) AS zip_code,
total_pop,
median_age,
households,
income_per_capita,
housing_units,
vacant_housing_units_for_sale,
ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
ROUND(SAFE_DIVIDE(bachelors_degree_or_higher_25_64, pop_25_64),4) AS rate_bachelors_degree_or_higher_25_64
FROM
`bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`;
- Fai clic su Esegui
- Visualizza i risultati
- Ora combineremo questi dati pubblici con un'altra query. Inserisci il seguente codice SQL nell'editor di query:
WITH customer_counts AS (
select regexp_extract(address, "[0-9][0-9][0-9][0-9][0-9]") as zip_code,
count(*) as num_clients
FROM bq_demo.client
GROUP BY zip_code
)
SELECT
CAST(geo_id as STRING) AS zip_code,
total_pop,
median_age,
households,
income_per_capita,
ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
num_clients
FROM
`bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`
JOIN customer_counts on zip_code = geo_id
ORDER BY num_clients DESC
- Fai clic su Esegui
- Visualizza i risultati
5. Gestione della capacità
Utilizzo di slot e prenotazioni
BQ offre diversi modelli di determinazione del prezzo per soddisfare le tue esigenze. La maggior parte dei grandi clienti utilizza principalmente il modello a costo fisso per prezzi prevedibili con capacità prenotata. Per il bursting oltre questa capacità di base, BQ offre slot flessibili che consentono di passare a capacità aggiuntiva all'istante e quindi di ridursi automaticamente senza alcun impatto sull'esecuzione delle query. BQ ha anche un modello di scansione dei byte che ti consente di pagare solo per le query eseguite.
[Spunti di discussione sulla concorrenza: alcuni concorrenti lavorano esclusivamente su un modello a capacità fissa in cui i clienti devono allocare un warehouse virtuale per ogni carico di lavoro dell'organizzazione. Oltre a un modello a basso costo per query che semplifica l'utilizzo di BigQuery, supportiamo un modello di prezzi della capacità a costo fisso in cui la capacità inattiva può essere condivisa tra un insieme di carichi di lavoro.]
- Vai alla scheda Prenotazioni.
- Fai clic su "Acquista slot".
- Seleziona "Flex" come durata.
- Seleziona 500 slot.
- Conferma l'acquisto.
- Fai clic su Visualizza impegni slot.
- Fai clic su "Crea prenotazione"
- "demo" dell'utente come nome prenotazione
- Seleziona Stati Uniti come località
- Digita 500 per gli slot (tutti disponibili)
- Fai clic su Assegnazioni.
- Scegli il progetto attuale per il progetto dell'organizzazione
- Seleziona "demo" per ID prenotazione
- Fai clic su Crea".