Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Lab 1: Inserisci e gestisci i dati logistici

1. Introduzione

In questo lab, assumerai il ruolo di responsabile delle indagini sui dati per un'azienda di logistica globale. Un container di carico di alto valore contenente preziose statuette da collezione di Android è scomparso. Per trovare la sua ultima posizione nota e tracciare il suo percorso, devi aggregare manifesti di spedizione frammentati di partner logistici regionali e file di log del transponder non strutturati. Per farlo, configurerai un moderno Google Cloud Open Data Lakehouse.

Contenitore Android

In questo lab proverai a:

Configura l'estensione Google Cloud Data Agent Kit in Cloud Shell Editor.
Crea un bucket Cloud Storage e fornisci un catalogo REST Apache Iceberg Lakehouse e un spazio dei nomi.
Mappa una tabella esterna BigLake ai manifesti JSON non elaborati dei partner in Cloud Storage per scoprire l'indizio della partenza della nave.
Carica ed elabora i log di testo non strutturati del transponder utilizzando Managed Service for Apache Spark serverless. Esegui normalizzazioni regex ed estrazione dinamica di indizi per scegliere come target la destinazione del payload perso.
Scrivi le metriche dei log analizzati come tabella Apache Iceberg tramite il catalogo REST.
Chatta con un agente AI sui tuoi dati Apache Iceberg utilizzando l'analisi conversazionale per scoprire indizi nascosti sulla spedizione smarrita.
Sfrutta gli approfondimenti automatici sui dati con Knowledge Catalog per generare metadati sui tuoi dati.
Stabilisci misure di protezione per l'importazione creando una tassonomia di sicurezza e utilizzando Knowledge Catalog per applicare un controllo dell'accesso granulare tramite il mascheramento degli ID custode sensibili.

Che cosa ti serve

Un browser web come Chrome.
Un progetto Google Cloud con la fatturazione abilitata.
Familiarità con le query SQL di base e i comandi del terminale.

Costo e durata previsti

Tempo di completamento: circa 45 minuti.
Costo stimato: inferiore a 5$.

2. Prima di iniziare

Crea o seleziona un progetto Google Cloud

Nella console Google Cloud, seleziona o crea un progetto Google Cloud.
Verifica che la fatturazione sia attivata per il tuo progetto Cloud. Scopri come verificare che la fatturazione sia abilitata per un progetto.

Configura l'ambiente

Eseguirai la maggior parte dei comandi dal terminale integrato nell'editor di Cloud Shell, un ambiente di sviluppo basato sul cloud precaricato con strumenti per sviluppatori e Google Cloud SDK standard.

Apri l'editor di Cloud Shell in una nuova scheda.

Esegui questo comando nel terminale per clonare il repository:

cd ~/
git clone --filter=blob:none --no-checkout https://github.com/GoogleCloudPlatform/devrel-demos.git
cd ~/devrel-demos
git sparse-checkout init --cone
git sparse-checkout set data-analytics/data-cloud-roadshow/lab1
git checkout main
cd data-analytics/data-cloud-roadshow/lab1

Imposta l'ID progetto. Puoi anche Ctrl+Shift+V su Windows/Linux o Cmd+V su macOS per incollare questo comando nel terminale:
```
export PROJECT_ID="<YOUR_PROJECT_ID>"
```
Ora configuralo nel tuo ambiente.
```
gcloud config set project $PROJECT_ID
```

Seleziona una regione.

export REGION="<YOUR_REGION>" # Replace with the region you chose, such as "us-central1"

Abilita le API richieste.

gcloud services enable \
  bigquery.googleapis.com \
  biglake.googleapis.com \
  storage.googleapis.com \
  dataplex.googleapis.com \
  datacatalog.googleapis.com \
  dataproc.googleapis.com \
  aiplatform.googleapis.com \
  cloudresourcemanager.googleapis.com \
  serviceusage.googleapis.com \
  cloudaicompanion.googleapis.com \
  geminidataanalytics.googleapis.com

Installa estensione

Ora configurerai l'estensione Google Data Agent Kit, uno strumento per interagire con gli strumenti per i dati di Google Cloud direttamente nel tuo IDE.

Nella barra delle attività a sinistra dell'editor, fai clic sull'icona Estensioni (o premi Ctrl+Shift+X su Windows/Linux o Cmd+X su macOS).
Nella casella di ricerca delle estensioni, digita: Google Cloud Data Agent Kit
Seleziona l'estensione ufficiale dai risultati e fai clic su Installa. Se richiesto, seleziona "Sì, mi fido degli autori".

Installa Data Agent Kit

Una volta installato correttamente, dovresti vedere l'icona del Google Cloud Data Agent Kit nella barra delle attività. Fai clic su di essa.

Estensione nella barra laterale

Fai clic su Accedi al cloud.

Accedi al cloud

Fai clic su Configura server MCP.

Configurare i server MCP

Seleziona BigQuery, Knowledge Catalog, Apache Spark e AlloyDB. Utilizzerai AlloyDB nel lab 2. Poi fai clic su Inizia.

Seleziona i server MCP

Fai clic sul selettore ID progetto nella barra di stato in basso e scegli il tuo progetto Google Cloud attivo.
Nel Data Agent Kit, fai clic su SETTINGS, poi su Settings e nella scheda Common seleziona l'ID progetto e la regione in cui eseguire il lab, ad esempio us-central1.

Impostazioni estensione

Fai clic su Impostazioni BigQuery e sostituisci Regione con la regione selezionata in precedenza. Fai clic su Salva.

Impostazioni BigQuery

Ora puoi utilizzare il Data Agent Kit!

Esegui lo script di configurazione dell'ambiente

Nel terminale, esegui lo script di configurazione per creare le risorse di background necessarie per questo lab e configurare le autorizzazioni IAM:

chmod +x setup_lab1.sh
./setup_lab1.sh
source .env

Dovresti visualizzare una serie di passaggi di output che mostrano le risorse di cui viene eseguito il provisioning. Li tratteremo nel corso del lab.

Quando viene visualizzato un messaggio di completamento, puoi procedere:

====================================================
Environment Setup Complete!
====================================================

Ora, iniziamo la nostra ricerca.

3. Importare i manifesti di spedizione dei partner

I dati del manifesto di spedizione delle navi partner vengono archiviati nel bucket in formato JSON Lines (JSONL) standard: gs://${PROJECT_ID}-lost-cargo-lake/shipping_manifests/manifests.jsonl.

Prima di eseguire analisi approfondite, creerai una tabella BigLake controllata per questi dati non strutturati. In questo modo, puoi esplorare immediatamente i dati logistici dei partner utilizzando SQL standard senza costi di importazione duplicati.

Apri lo spazio di lavoro nell'editor ed esegui la query.

Crea tabella esterna

In Cloud Shell Editor, fai clic sull'icona dell'estensione Google Cloud Data Agent Kit nel riquadro laterale.
Vai a BigQuery e seleziona + Nuova query.
Copia la seguente query nella finestra della query.

SET @@location = "<YOUR_REGION>"; --Update to your resource region, such as "us-central1". Make sure it is in quotes.

EXECUTE IMMEDIATE ("""
CREATE OR REPLACE EXTERNAL TABLE `lost_cargo_dataset.shipping_manifests`
(
  shipment_id STRING,
  timestamp TIMESTAMP,
  last_ping_lat FLOAT64,
  last_ping_long FLOAT64,
  seal_integrity_status INT64,
  custodian_id STRING OPTIONS(description='Masked identification token for official cargo custodian personnel.')
)
WITH CONNECTION `""" || @@location || """.conn`
OPTIONS (
  format = 'NEWLINE_DELIMITED_JSON',
  uris = ['gs://""" || @@project_id || """-lost-cargo-lake/shipping_manifests/*.jsonl']
)
""");

Fai clic su Esegui.
Per verificare che la tabella sia stata creata, vedrai un messaggio di conferma nel riquadro Risultati query, che si apre automaticamente in basso.

Esegui una query sulla tabella esterna per isolare i transponder compromessi

Identifichiamo i transponder compromessi individuando gli errori quando seal_integrity_status è stato impostato su 0. Copia ed esegui la seguente query nella finestra di query aperta in precedenza:

SELECT shipment_id, last_ping_lat, last_ping_long, custodian_id
FROM `lost_cargo_dataset.shipping_manifests`
WHERE seal_integrity_status = 0;

Nel riquadro Risultati query, dovresti vedere un output simile a questo:

shipment_id	last_ping_lat	last_ping_long	custodian_id
MV-CAT-001	51.5074	-0,1278	usr_999_shadow

4. Elaborare i log non strutturati con Managed Service for Apache Spark

Hai trovato la posizione iniziale dai manifest strutturati, ma il transponder smarrito è completamente spento. L'ultimo ping del transponder ha lasciato un messaggio criptico e non strutturato all'interno di un file di log di testo non elaborato nel percorso GCS gs://${BUCKET_NAME}/raw_logs/maritime_logs.txt.

Per elaborare e mappare questo log di testo, estrarre i timestamp, camuffare le identità e individuare il percorso a valle del carico, invierai un job Apache Spark (PySpark) serverless a Managed Service for Apache Spark.

Managed Service for Apache Spark ti consente di eseguire workload Spark senza eseguire il provisioning o gestire un cluster. Il servizio gestisce le risorse di calcolo sottostanti, eseguendo la scalabilità automatica in modo dinamico, e paghi solo per la durata dell'esecuzione.

Lo script:

Inserisci il testo non strutturato e tra parentesi del transponder non elaborato.
Applica filtri di estrazione delle espressioni regolari PySpark SQL per separare i timestamp, i metadati del custode e i contenuti non elaborati.
Dividi i log disordinati in record puliti a livello di frase.
Estrai le coordinate del target della destinazione dinamica in cui è terminato il percorso del carico utile smarrito.
Connetti e riscrivi il dataframe dei log elaborati nel tuo catalogo REST Apache Iceberg di Lakehouse come nuova tabella di analisi visibile direttamente in BigQuery.

Correggi lo script di analisi PySpark

Sono stati segnalati pirati Python in mare che causano ogni tipo di problema.

Esegui il comando seguente per aprire il file process_maritime_logs nell'editor di Cloud Shell.

cd ~/devrel-demos/data-analytics/data-cloud-roadshow/lab1
cloudshell open ./process_maritime_logs.py

Dedica un po' di tempo a leggere il codice e a capire cosa fa.
Assicurati che non ci sia nulla di sospetto nel codice. Se devi eliminare qualcosa, assicurati di salvare il file utilizzando Ctrl + S (Windows/Linux) o Cmd + S (Mac).

Invia il job Spark serverless

Invia il job utilizzando l'SDK gcloud. La configurazione configura automaticamente il job PySpark per accedere al catalogo Lakehouse.

Esegui questo comando nel terminale dell'editor integrato.

cd ~/devrel-demos/data-analytics/data-cloud-roadshow/lab1
source .env

gcloud dataproc batches submit pyspark process_maritime_logs.py \
    --project=${PROJECT_ID} \
    --region=${REGION} \
    --version=2.3 \
    --deps-bucket=${BUCKET_NAME} \
    --properties="\
spark.sql.defaultCatalog=cargo_catalog,\
spark.sql.catalog.${CATALOG_NAME}=org.apache.iceberg.spark.SparkCatalog,\
spark.sql.catalog.${CATALOG_NAME}.type=rest,\
spark.sql.catalog.${CATALOG_NAME}.uri=https://biglake.googleapis.com/iceberg/v1/restcatalog,\
spark.sql.catalog.${CATALOG_NAME}.warehouse=gs://${BUCKET_NAME},\
spark.sql.catalog.${CATALOG_NAME}.header.x-goog-user-project=${PROJECT_ID},\
spark.sql.catalog.${CATALOG_NAME}.rest.auth.type=org.apache.iceberg.gcp.auth.GoogleAuthManager,\
spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions,\
spark.sql.catalog.${CATALOG_NAME}.gcs.oauth2.refresh-credentials-endpoint=https://oauth2.googleapis.com/token, \
spark.sql.catalog.${CATALOG_NAME}.header.X-Iceberg-Access-Delegation=vended-credentials" \
-- ${BUCKET_NAME}

Attendi qualche minuto affinché l'ambiente serverless venga avviato, carica lo script ed esegui la logica di elaborazione.

Quando vedi un output simile al seguente, la tabella elaborata viene salvata nel catalogo Lakehouse come tabella gestita Apache Iceberg.

Batch [1fae0b4b42c045a084dd67917bd0c332] finished.
metadata:
  '@type': type.googleapis.com/google.cloud.dataproc.v1.BatchOperationMetadata
  batch: projects/<YOUR_PROJECT>/locations/us-central1/batches/1fae0b4b42c045a084dd67917bd0c332
  batchUuid: 611b4465-fdac-4974-bc47-5f10adaf2a08
  createTime: '2026-06-11T21:35:01.868157Z'
  description: Batch
  labels:
    goog-dataproc-batch-id: 1fae0b4b42c045a084dd67917bd0c332
    goog-dataproc-batch-uuid: 611b4465-fdac-4974-bc47-5f10adaf2a08
    goog-dataproc-drz-resource-uuid: batch-611b4465-fdac-4974-bc47-5f10adaf2a08
    goog-dataproc-location: us-central1
  operationType: BATCH
name: projects/<YOUR_PROJECT/regions/us-central1/operations/7e2044db-dd97-3270-b368-4dc4ba417574

Visualizzare l'anteprima dei log elaborati

Nell'editor di query dell'estensione Data Agent Kit, copia la seguente query per visualizzare l'anteprima dei dati:

SET @@location = "<YOUR_REGION>"; -- e.g. "us-central1"

EXECUTE IMMEDIATE FORMAT("""
select log_timestamp, custodian_id, sentence from 
`%s.%s-lost-cargo-lake.lost_cargo_namespace.processed_maritime_logs`
limit 5
""", @@project_id, @@project_id);

Esegui query sulla tabella lakehouse

Ciò dimostra che è possibile accedere correttamente alla tabella Iceberg registrata nel catalogo da BigQuery.

Estrai l'indizio sulla destinazione

Ora che abbiamo i log elaborati, cerchiamo quelli che includono una destinazione target. Da qui, possiamo cercare nei log una menzione della nostra città di origine.

Nell'editor di query, esegui la seguente query, sostituendo <YOUR_REGION> con la tua regione e <ORIGIN_CITY> con la città di origine che hai scoperto in precedenza.

SET @@location = "<YOUR_REGION>"; --e.g. "us-central1"

DECLARE origin_city STRING;

SET origin_city = "<ORIGIN_CITY>"; --e.g. "Boston". (It's not Boston)

EXECUTE IMMEDIATE FORMAT(r"""
SELECT
  log_timestamp AS event_time,
  custodian_id,
  REGEXP_EXTRACT(raw_message, r'Destination:\s*([^.]+)') AS destination_target
FROM
  `%s.%s-lost-cargo-lake.lost_cargo_namespace.processed_maritime_logs`
WHERE
  -- STRPOS is highly optimized in BigQuery for a simple .contains() substring check
  STRPOS(sentence, '%s') > 0;
""", @@project_id, @@project_id, origin_city);

Chattare con i tuoi dati nella console BigQuery utilizzando l'analisi conversazionale

Anziché scrivere query SQL complesse per esplorare i dati, puoi utilizzare l'analisi conversazionale per interagire con le tabelle utilizzando il linguaggio naturale.

Vai alla console BigQuery.
Nel riquadro Explorer a sinistra, espandi il progetto e il set di dati -lost-cargo-lake.lost_cargo_namespace, quindi fai clic sulla tabella processed_maritime_logs per aprire la scheda dei dettagli.
Accanto a Query, fai clic su Chat.

Vai a Chat

Nel riquadro della chat, digita la seguente domanda e premi Invio sulla tastiera per inviarla: Based on this table, what color is the shipping container MV-CAT-001?

Finestra della chat

Analisi conversazionale (basata su Gemini) analizzerà i dati della tabella attiva e risponderà con il colore.

5. Visualizzare il catalogo Lakehouse centralizzato

Per integrare i motori di elaborazione open source (come Apache Spark) in modo sicuro e senza interruzioni con i motori di dati aziendali (come BigQuery), lo script di configurazione ha configurato un catalogo REST Iceberg di Lakehouse.

Il catalogo REST di Apache Iceberg funge da "unica fonte attendibile" serverless per i metadati delle tabelle, gestendo dinamicamente gli schemi e le tabelle di partizionamento durante l'archiviazione dei file di dati Parquet fisici in Cloud Storage.

Esaminiamo questo catalogo direttamente nella console Google Cloud:

Apri la console Lakehouse.
Nella scheda Cataloghi, individua e fai clic sul catalogo REST Iceberg attivo: -lost-cargo-lake.

Catalogo Lakehouse

Nella visualizzazione dei dettagli del catalogo, in Spazi dei nomi dovresti vedere lost_cargo_namespace. Cliccaci sopra.

Spazio dei nomi lakehouse

La nuova tabella Apache Iceberg, generata da PySpark, è stata registrata automaticamente in questo spazio dei nomi del metastore ed è diventata immediatamente interrogabile in BigQuery.

Tabella lakehouse

6. Generare insight sulla tabella dei manifesti di spedizione

Torniamo indietro e analizziamo la tabella shipping_manifests per comprenderne la struttura e i contenuti utilizzando Knowledge Catalog Data Insights. Arricchendo i metadati, gli altri esploratori possono comprendere meglio la tabella per le analisi future.

Generare approfondimenti sulle tabelle in BigQuery Studio

Nella console Google Cloud, vai a BigQuery Studio.
Nel riquadro Explorer, espandi il progetto, il set di dati lost_cargo_dataset e fai clic sulla tabella shipping_manifests.
Nel riquadro dei dettagli a destra, fai clic sulla scheda Approfondimenti.
Utilizza il menu a discesa per selezionare Genera e pubblica.

Genera insight

Attendi circa 3 minuti per il completamento della generazione di insight. Gemini analizzerà i metadati della tabella e genererà domande in linguaggio naturale e query SQL corrispondenti.
Una volta completata, vedrai una descrizione della tabella con una spiegazione in linguaggio naturale della tabella.

Visualizzare la descrizione della tabella

Fai clic su Visualizza descrizioni delle colonne per visualizzare informazioni sulle singole colonne.

Descrizione completa della tabella

Fai clic su Salva nei dettagli in Gemini generated description e poi su Salva nei dettagli nella finestra popup.

Salva descrizione della tabella

Allo stesso modo, fai clic su Salva nello schema per aggiungere le descrizioni delle colonne ai metadati della tabella.

Salva la descrizione della colonna

Esaminare gli insight generati

Vedrai anche un elenco di domande suggerite. Puoi fare clic su qualsiasi domanda per visualizzare la query SQL generata ed eseguirla per esplorare i dati. Ad esempio, potresti vedere domande come:

"Qual è il numero totale di spedizioni?"
"Elenca gli ID custode unici."

L'esecuzione di queste query ti aiuta a comprendere i dati.

7. Implementare il mascheramento e la governance dei dati

Per garantire che gli account di ricerca e i nomi utente attivi non possano essere divulgati durante questa indagine in corso sul carico, devi applicare protocolli di sicurezza standard. Creerai una tassonomia dei tag delle norme di sicurezza e configurerai il mascheramento dei dati di Knowledge Catalog sulla colonna sensibile custodian_id per verificare la privacy dei dati.

Per impostazione predefinita, BigQuery nega l'accesso alle colonne protette dai tag di policy. Per eseguire query sulla tabella e verificare le maschere dei dati attive, il tuo account utente deve avere il ruolo Lettore mascherato dei criteri dei dati BigQuery.

Questo ruolo è stato associato automaticamente al tuo account utente attivo durante l'esecuzione iniziale di setup_lab1.sh.

Crea la tassonomia e il tag di criteri

Crea una tassonomia dei dati e un tag di policy associato per gestire l'accesso ai tuoi dati.

Vai alla pagina Tassonomie di tag di policy.
Fai clic su + Crea tassonomia.
Configura i parametri:
- Nome tassonomia: inserisci lost-cargo-, sostituendo l'ID progetto.
- Regione: seleziona la tua regione.
- In Nome tag di policy , inserisci MaskCustodianID.
- Per il tag di policy Descrizione: Restricts visibility into cargo custodian usernames
Fai clic su Crea per registrare la nuova tassonomia e il nuovo tag di policy.

Crea tassonomia e tag di policy

Crea la policy di mascheramento dei dati

Successivamente, configura un criterio dei dati per definire come vengono mascherati i dati con il tag di classificazione MaskCustodianID. Utilizzerai la regola di mascheramento Sempre null (che sostituisce i valori corrispondenti con valori vuoti/null per tutti gli attori non privilegiati).

Nella pagina Tassonomie di tag di policy, fai clic sulla tassonomia appena creata nell'elenco delle tassonomie.
Nell'elenco della gerarchia, fai clic sul tag MaskCustodianID per selezionarlo, quindi seleziona Gestisci i criteri relativi ai dati.

Gestisci le policy relative ai dati

Nel riquadro a destra, fai clic sul pulsante + Aggiungi regola.
Configura i dettagli del criterio nel riquadro visualizzato:
- Nome norma sui dati: inserisci null_masking_policy (non lasciare il nome generato automaticamente, in quanto faremo riferimento a questo nome nei passaggi successivi).
- Regola di mascheramento: seleziona Nullify dal menu a discesa.
Fai clic su Invia.

Crea regola di mascheramento

Assegnare il tag di criteri alla colonna BigQuery

Con il tag di policy e la relativa regola di mascheramento dei dati attivi, mappa il tag di classificazione direttamente alla colonna custodian_id nella tabella del manifest di spedizione del partner BigQuery.

Vai alla BigQuery.
Nel riquadro Explorer a sinistra, espandi il progetto attivo, il set di dati lost_cargo_dataset e fai clic sulla tabella shipping_manifests per aprire la visualizzazione dettagliata.
Fai clic su Modifica schema.

Vai a Modifica schema

Nell'elenco delle colonne, seleziona la casella accanto a custodian_id.
Fai clic sul pulsante Aggiungi tag di policy nella barra degli strumenti in alto dell'editor dello schema.
Nel riquadro Aggiungi un tag di policy:
- Individua ed espandi la tassonomia LostCargo.
- Seleziona la bolla accanto a MaskCustodianID.
- Fai clic su Seleziona.
Verifica che il tag MaskCustodianID sia ora visibile nella colonna Tag norme nella riga che rappresenta custodian_id.
Fai clic su Salva.

Modifica schema

Verifica le limitazioni dei criteri

Ora che hai il ruolo Lettore mascherato a livello di progetto, puoi eseguire query sulla tabella per verificare che la policy di mascheramento sia attiva.

Torna al Data Agent Kit ed esegui la seguente query:

SELECT shipment_id, custodian_id 
FROM lost_cargo_dataset.shipping_manifests
LIMIT 5;

Dovresti vedere un output simile al seguente:

shipment_id	custodian_id
NORMAL-001	null
NORMAL-002	null
MV-CAT-001	null

Operazione riuscita. Anche se puoi visualizzare i record shipment_id, il campo sensibile custodian_id restituisce maschere sicure null per evitare fughe di dati.

8. Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse create durante questo codelab, esegui questi comandi nel terminale Cloud Shell per eliminare i set di dati e i bucket:

# Verify active variables
export PROJECT_ID=$(gcloud config get-value project)
export BUCKET_NAME="${PROJECT_ID}-lost-cargo-lake"

# Delete Knowledge Catalog security taxonomies
export TAXONOMY_NAME=$(gcloud data-catalog taxonomies list --location=us-central1 --filter="displayName:LostCargo" --format="value(name)")
if [[ -n "$TAXONOMY_NAME" ]]; then
  curl -X DELETE \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    "https://datacatalog.googleapis.com/v1/${TAXONOMY_NAME}" || true
fi

# Delete Lakehouse Iceberg REST Catalog tables and namespaces
gcloud biglake iceberg tables delete processed_maritime_logs \
    --catalog=${BUCKET_NAME} \
    --namespace=lost_cargo_namespace \
    --quiet || true

gcloud biglake iceberg namespaces delete lost_cargo_namespace \
    --catalog=${BUCKET_NAME} \
    --quiet || true

# Delete Lakehouse Iceberg REST Catalog
gcloud biglake iceberg catalogs delete ${BUCKET_NAME} --quiet || true

# Delete dependencies bucket
gcloud storage rm -r gs://${BUCKET_NAME} || true

# Delete BigQuery dataset and tables
bq rm -r -f -d ${PROJECT_ID}:lost_cargo_dataset || true

9. Complimenti

Complimenti! Hai completato il primo modulo cruciale dell'indagine su Carico smarrito. Hai creato una zona di ricerca controllata utilizzando i cataloghi REST Lakehouse Iceberg, la normalizzazione dei log PySpark e il mascheramento dei dati granulare.

Cosa hai imparato

Installazione, configurazione e configurazione dell'estensione Data Agent Kit all'interno dell'area di lavoro dell'IDE.
Creazione di un catalogo REST Iceberg Lakehouse serverless che utilizza credenziali fornite e spazi dei nomi gerarchici.
Importazione di feed regionali multiformato e creazione di tabelle esterne BigQuery nei bucket Cloud Storage.
Avvio di job Apache Spark serverless per analizzare, normalizzare, segmentare e riscrivere i log dei transponder non strutturati in BigQuery come tabelle del catalogo Iceberg registrate.
Creazione di tassonomie di sicurezza e mappatura dei criteri di mascheramento dei dati di Knowledge Catalog per impedire la divulgazione di identità su indici di log sensibili.
Generazione e analisi degli approfondimenti sui metadati delle tabelle utilizzando insight dei dati BigQuery per accelerare l'esplorazione dei dati.

Verifica degli indizi raccolti

Verifica di aver registrato i seguenti indizi definitivi necessari per passare alla fase successiva del lab:

ID spedizione smarrita: MV-CAT-001 (ultima posizione ping: Londra)
Destinazione target pianificata: New York (e alias vero del transponder: MV-DOG-002)
Colore del contenitore: Crimson RED
Tag di accesso alla governance: MaskCustodianID

Tutto pronto per la prossima fase?

Ora che le rotte di partenza / destinazione del transponder sono sicure, l'indagine può proseguire. Passa direttamente al Lab 2 per esaminare le videocamere di sicurezza utilizzando i modelli multimodali Gemini, identificare visivamente l'imbarcazione ed eseguire ricerche vettoriali in AlloyDB per verificare le anomalie di manomissione.

➡️ Continua con il passaggio 2: analisi dei dati e approfondimenti multimodali