CSV-Daten mit Cloud Data Fusion in BigQuery aufnehmen – Batchaufnahme

1. Einführung

12fb66cc134b50ef.png

Zuletzt aktualisiert: 28.02.2020

In diesem Codelab wird ein Muster für die Datenaufnahme gezeigt, mit dem Gesundheitsdaten im CSV-Format in BigQuery aufgenommen werden können. In diesem Lab verwenden wir eine Cloud Data Fusion-Batchdatenpipeline. Realistische Gesundheitsdaten für Tests wurden generiert und im Google Cloud Storage-Bucket (gs://hcls_testing_data_fhir_10_patients/csv/) für Sie bereitgestellt.

In diesem Codelab lernen Sie Folgendes:

  • Hier erfahren Sie, wie Sie CSV-Daten (Batch-geplante Ladevorgänge) mit Cloud Data Fusion aus GCS in BigQuery aufnehmen.
  • So erstellen Sie eine Datenintegrationspipeline in Cloud Data Fusion, um Gesundheitsdaten in großen Mengen zu laden, zu transformieren und zu maskieren.

Was benötige ich, um dieses Codelab durchzuarbeiten?

  • Sie benötigen Zugriff auf ein GCP-Projekt.
  • Ihnen muss die Rolle „Inhaber“ für das GCP-Projekt zugewiesen sein.
  • Gesundheitsdaten im CSV-Format, einschließlich des Headers.

Wenn Sie kein GCP-Projekt haben, erstellen Sie ein neues.

Gesundheitsdaten im CSV-Format wurden in den GCS-Bucket unter gs://hcls_testing_data_fhir_10_patients/csv/ vorab geladen. Jede CSV-Datei für Ressourcen hat eine eigene Schemastruktur. „Patients.csv“ hat beispielsweise ein anderes Schema als „Providers.csv“. Vorab geladene Schemadateien finden Sie unter gs://hcls_testing_data_fhir_10_patients/csv_schemas.

Wenn Sie ein neues Dataset benötigen, können Sie es jederzeit mit SyntheaTM generieren. Laden Sie die Datei dann in GCS hoch, anstatt sie im Schritt „Eingabedaten kopieren“ aus dem Bucket zu kopieren.

2. GCP-Projekteinrichtung

Shell-Variablen für Ihre Umgebung initialisieren

Wie Sie die PROJECT_ID herausfinden, erfahren Sie unter Projekte identifizieren.

<!-- CODELAB: Initialize shell variables ->
<!-- Your current GCP Project ID ->
export PROJECT_ID=<PROJECT_ID>
<!-- A new GCS Bucket in your current Project  - INPUT ->
export BUCKET_NAME=<BUCKET_NAME>
<!-- A new BQ Dataset ID - OUTPUT ->
export DATASET_ID=<DATASET_ID>

GCS-Bucket erstellen, um Eingabedaten und Fehlerlogs mit dem gsutil-Toolzu speichern.

gsutil mb -l us gs://$BUCKET_NAME

Zugriff auf das synthetische Dataset erhalten

  1. Senden Sie von der E-Mail-Adresse, mit der Sie sich in der Cloud Console anmelden, eine E-Mail an hcls-solutions-external+subscribe@google.com, um eine Beitrittsanfrage zu senden.
  2. Sie erhalten eine E‑Mail mit einer Anleitung, wie Sie die Aktion bestätigen können. 525a0fa752e0acae.png
  3. Verwenden Sie die Option, um auf die E‑Mail zu antworten und der Gruppe beizutreten. Klicken Sie NICHT auf die Schaltfläche.
  4. Sobald Sie die Bestätigungs-E-Mail erhalten haben, können Sie mit dem nächsten Schritt im Codelab fortfahren.

Eingabedaten kopieren:

gsutil -m cp -r gs://hcls_testing_data_fhir_10_patients/csv gs://$BUCKET_NAME

BigQuery-Dataset erstellen

bq mk --location=us --dataset $PROJECT_ID:$DATASET_ID

3. Cloud Data Fusion-Umgebung einrichten

So aktivieren Sie die Cloud Data Fusion API und erteilen die erforderlichen Berechtigungen:

APIs aktivieren.

  1. Rufen Sie die API-Bibliothek der GCP Console auf.
  2. Wählen Sie Ihr Projekt aus der Projektliste aus.
  3. Wählen Sie in der API-Bibliothek die API aus, die Sie aktivieren möchten. Wenn Sie Hilfe bei der Suche nach der API benötigen, verwenden Sie das Suchfeld und/oder die Filter.
  4. Klicken Sie auf der API-Seite auf „AKTIVIEREN“.

Erstellen Sie eine Cloud Data Fusion-Instanz.

  1. Wählen Sie in der GCP Console Ihre ProjectID aus.
  2. Wählen Sie im linken Menü „Data Fusion“ aus und klicken Sie dann in der Mitte der Seite auf die Schaltfläche „INSTANZ ERSTELLEN“ (bei der ersten Erstellung) oder im oberen Menü auf die Schaltfläche „INSTANZ ERSTELLEN“ (bei zusätzlichen Erstellungen).

a828690ff3bf3c46.png

8372c944c94737ea.png

  1. Geben Sie den Instanznamen an. Wählen Sie Enterprise aus.

5af91e46917260ff.png

  1. Klicken Sie auf die Schaltfläche „ERSTELLEN“.

Instanzberechtigungen einrichten:

Nachdem Sie eine Instanz erstellt haben, gehen Sie so vor, um dem Dienstkonto, das der Instanz zugeordnet ist, Berechtigungen für Ihr Projekt zu erteilen:

  1. Klicken Sie auf den Instanznamen, um die Seite "Instance details" (Instanzdetails) aufzurufen.

76ad691f795e1ab3.png

  1. Kopieren Sie das Dienstkonto.

6c91836afb72209d.png

  1. Rufen Sie die IAM-Seite des Projekts auf.
  2. Fügen Sie auf der Seite „IAM-Berechtigungen“ das Dienstkonto als neues Mitglied hinzu und weisen Sie ihm die Rolle Cloud Data Fusion API Service Agent (Cloud Data Fusion API-Dienst-Agent) zu. Klicken Sie auf die Schaltfläche Hinzufügen, fügen Sie das Dienstkonto in das Feld „Neue Mitglieder“ ein und wählen Sie die Rolle „Dienstverwaltung“ -> „Cloud Data Fusion API Server Agent“ aus.
  3. ea68b28d917a24b1.png
  4. Klicken Sie auf Speichern.

Nachdem Sie diese Schritte ausgeführt haben, ist Cloud Data Fusion einsatzbereit. Klicken Sie auf der Seite der Instanzen von Cloud Data Fusion oder auf der Detailseite einer Instanz einfach auf den Link Instanz aufrufen.

Firewallregel einrichten

  1. Rufen Sie in der GCP Console „VPC-Netzwerk“ > „Firewallregeln“ auf, um zu prüfen, ob die Regel „default-allow-ssh“ vorhanden ist.

102adef44bbe3a45.png

  1. Falls nicht, fügen Sie eine Firewallregel hinzu, die den gesamten eingehenden SSH-Traffic zum Standardnetzwerk zulässt.

Befehlszeile verwenden:

gcloud beta compute --project={PROJECT_ID} firewall-rules create default-allow-ssh --direction=INGRESS --priority=1000 --network=default --action=ALLOW --rules=tcp:22 --source-ranges=0.0.0.0/0 --enable-logging

Über die Benutzeroberfläche: Klicken Sie auf „Firewallregel erstellen“ und geben Sie die Informationen ein:

d9c69ac10496b3d9.png

2dc4971594b82a1f.png

4. Schema für die Transformation erstellen

Nachdem wir die Cloud Fusion-Umgebung in GCP haben, erstellen wir nun ein Schema. Wir benötigen dieses Schema für die Transformation der CSV-Daten.

  1. Klicken Sie im Cloud Data Fusion-Fenster in der Spalte „Aktion“ auf den Link „Instanz aufrufen“. Sie werden zu einer anderen Seite weitergeleitet. Klicken Sie auf die angegebene URL, um die Cloud Data Fusion-Instanz zu öffnen. Ihre Entscheidung, im Begrüßungs-Pop-up auf die Schaltfläche „Tour starten“ oder „Nein, danke“ zu klicken.
  2. Erweitern Sie das Dreistrich-Menü und wählen Sie „Pipeline“ > Studio aus.

6561b13f30e36c3a.png

  1. Doppelklicken Sie im Bereich „Transformieren“ in der Plug-in-Palette auf der linken Seite auf den Wrangler-Knoten. Er wird in der Data Pipelines-UI angezeigt.

aa44a4db5fe6623a.png

  1. Bewegen Sie den Mauszeiger auf den Wrangler-Knoten und klicken Sie auf Attribute. Klicken Sie auf die Schaltfläche Wrangle und wählen Sie dann eine CSV-Quelldatei aus (z. B. „patients.csv“), die alle Datenfelder enthalten muss, um das gewünschte Schema zu erstellen.
  2. Klicken Sie neben jedem Spaltennamen (z. B. „body“) auf den Abwärtspfeil (Spaltentransformationen). 802edca8a97da18.png
  3. Beim ersten Import wird standardmäßig davon ausgegangen, dass Ihre Datendatei nur eine Spalte enthält. Wenn Sie die Datei als CSV-Datei parsen möchten, wählen Sie Parsen → CSV aus. Wählen Sie dann das Trennzeichen aus und setzen Sie bei Bedarf ein Häkchen bei „Erste Zeile als Überschrift festlegen“. Klicken Sie auf die Schaltfläche „Übernehmen“.
  4. Klicken Sie neben dem Feld „Body“ auf den Abwärtspfeil und wählen Sie „Spalte löschen“ aus, um das Feld „Body“ zu entfernen. Außerdem können Sie andere Transformationen ausprobieren, z. B. Spalten entfernen, den Datentyp für einige Spalten ändern (Standard ist „String“), Spalten aufteilen oder Spaltennamen festlegen.

e6d2cda51ff298e7.png

  1. Auf den Tabs „Spalten“ und „Transformationsschritte“ werden das Ausgabeschema und das Rezept von Wrangler angezeigt. Klicken Sie rechts oben auf Übernehmen. Klicken Sie auf die Schaltfläche „Validieren“. Die grüne Meldung „Keine Fehler gefunden“ weist auf einen Erfolg hin.

1add853c43f2abee.png

  1. Klicken Sie in den Wrangler-Eigenschaften auf das Drop-down-Menü Aktionen, um das gewünschte Schema in Ihren lokalen Speicher zu exportieren und es bei Bedarf später zu importieren.
  2. Speichern Sie das Wrangler-Rezept zur späteren Verwendung.
parse-as-csv :body ',' true
drop body
  1. Klicken Sie auf die Schaltfläche X, um das Fenster „Wrangler-Eigenschaften“ zu schließen.

5. Knoten für die Pipeline erstellen

In diesem Abschnitt erstellen wir die Pipelinekomponenten.

  1. In der Data Pipelines-Benutzeroberfläche sollte oben links zu sehen sein, dass Data Pipeline – Batch als Pipelinetyp ausgewählt ist.

af67c42ce3d98529.png

  1. Im linken Bereich gibt es verschiedene Abschnitte wie „Filter“, „Quelle“, „Transformation“, „Analyse“, „Senke“, „Bedingungen und Aktionen“, „Fehler-Handler“ und „Benachrichtigungen“, in denen Sie einen oder mehrere Knoten für die Pipeline auswählen können.

c4438f7682f8b19b.png

Quellknoten

  1. Wählen Sie den Quellknoten aus.
  2. Doppelklicken Sie im Bereich „Quelle“ in der Plug-in-Palette auf der linken Seite auf den Knoten Google Cloud Storage, der in der Data Pipelines-Benutzeroberfläche angezeigt wird.
  3. Verweisen Sie auf den GCS-Quellknoten und klicken Sie auf Properties (Attribute).

87e51a3e8dae8b3f.png

  1. Fülle die Pflichtfelder aus. Legen Sie die folgenden Felder fest:
  • Label = {beliebiger Text}
  • Referenzname = {beliebiger Text}
  • Projekt-ID = automatisch erkennen
  • Pfad = GCS-URL zum Bucket in Ihrem aktuellen Projekt. Beispiel: gs://$BUCKET_NAME/csv/
  • Format = Text
  • Pfadfeld = Dateiname
  • Path Filename Only = true
  • Read Files Recursively = true
  1. Fügen Sie dem GCS-Ausgabeschema das Feld „filename“ hinzu, indem Sie auf die Schaltfläche + klicken.
  2. Klicken Sie auf Dokumentation, um eine detaillierte Erklärung zu erhalten. Klicken Sie auf die Schaltfläche „Validieren“. Die grüne Meldung „Keine Fehler gefunden“ weist auf einen Erfolg hin.
  3. Wenn Sie die GCS-Eigenschaften schließen möchten, klicken Sie auf die Schaltfläche X.

Transformationsknoten

  1. Wählen Sie den Transform-Knoten aus.
  2. Doppelklicken Sie im Bereich „Transformieren“ in der Plug-in-Palette auf der linken Seite auf den Knoten Wrangler, der in der Data Pipelines-UI angezeigt wird. Verbinden Sie den GCS-Quellknoten mit dem Wrangler-Transformationsknoten.
  3. Bewegen Sie den Mauszeiger auf den Wrangler-Knoten und klicken Sie auf Attribute.
  4. Klicken Sie auf das Drop-down-Menü Aktionen und wählen Sie Importieren aus, um ein gespeichertes Schema zu importieren (z. B. gs://hcls_testing_data_fhir_10_patients/csv_schemas/ schema (Patients).json). Fügen Sie dann das gespeicherte Rezept aus dem vorherigen Abschnitt ein.
  5. Alternativ können Sie den Wrangler-Knoten aus dem Abschnitt Schema für die Transformation erstellen wiederverwenden.
  6. Fülle die Pflichtfelder aus. Legen Sie die folgenden Felder fest:
  • Label = {beliebiger Text}
  • Name des Eingabefelds = {*}
  • Vorbedingung = {filename != "patients.csv"}, um jede Eingabedatei (z. B. patients.csv, providers.csv, allergies.csv usw.) vom Quellknoten zu unterscheiden.

2426f8f0a6c4c670.png

  1. Fügen Sie einen JavaScript-Knoten hinzu, um das von Nutzern bereitgestellte JavaScript auszuführen, das die Datensätze weiter transformiert. In diesem Codelab verwenden wir den JavaScript-Knoten, um für jede Datensatzaktualisierung einen Zeitstempel zu erhalten. Verbinden Sie den Wrangler-Transformationsknoten mit dem JavaScript-Transformationsknoten. Öffnen Sie die JavaScript-Eigenschaften und fügen Sie die folgende Funktion hinzu:

75212f9ad98265a8.png

function transform(input, emitter, context) {
  input.TIMESTAMP = (new Date()).getTime()*1000;
  emitter.emit(input);
}
  1. Fügen Sie dem Ausgabeschema das Feld „TIMESTAMP“ hinzu, falls es noch nicht vorhanden ist. Klicken Sie dazu auf das +-Symbol. Wählen Sie den Zeitstempel als Datentyp aus.

4227389b57661135.png

  1. Eine ausführliche Erklärung finden Sie unter Dokumentation. Klicken Sie auf die Schaltfläche „Validieren“, um alle eingegebenen Informationen zu validieren. Die grüne Meldung „Keine Fehler gefunden“ weist auf einen Erfolg hin.
  2. Klicken Sie auf die Schaltfläche X, um das Fenster „Transformationsattribute“ zu schließen.

Datenmaskierung und De-Identifikation

  1. Sie können einzelne Datenspalten auswählen, indem Sie in der Spalte auf den Abwärtspfeil klicken und Maskierungsregeln gemäß Ihren Anforderungen anwenden (z. B. für die Spalte „Sozialversicherungsnummer“).

bb1eb067dd6e0946.png

  1. Sie können dem Wrangler-Knoten im Fenster Rezept weitere Anweisungen hinzufügen. Wenn Sie beispielsweise die Hash-Anweisung mit dem Hashing-Algorithmus gemäß dieser Syntax zur Pseudonymisierung verwenden:
hash <column> <algorithm> <encode>

<column>: name of the column
<algorithm>: Hashing algorithm (i.e. MD5, SHA-1, etc.)
<encode>: default is true (hashed digest is encoded as hex with left-padding zeros). To disable hex encoding, set <encode> to false.

cbcc9a0932f53197.png

Senkenknoten

  1. Wählen Sie den Senkenknoten aus.
  2. Doppelklicken Sie im Bereich „Senke“ der Plug-in-Palette links auf den BigQuery-Knoten. Er wird in der Data Pipeline-Benutzeroberfläche angezeigt.
  3. Verweisen Sie auf den BigQuery-Senkenknoten und klicken Sie auf „Properties“ (Attribute).

1be711152c92c692.png

  1. Füllen Sie die Pflichtfelder aus. Legen Sie die folgenden Felder fest:
  • Label = {beliebiger Text}
  • Referenzname = {beliebiger Text}
  • Projekt-ID = automatisch erkennen
  • Dataset = BigQuery-Dataset, das im aktuellen Projekt verwendet wird (d.h. DATASET_ID)
  • Tabelle = {Tabellenname}
  1. Eine ausführliche Erklärung finden Sie unter Dokumentation. Klicken Sie auf die Schaltfläche „Validieren“, um alle eingegebenen Informationen zu validieren. Die grüne Meldung „Keine Fehler gefunden“ weist auf einen Erfolg hin.

c5585747da2ef341.png

  1. Klicken Sie auf die Schaltfläche X, um die BigQuery-Attribute zu schließen.

6. Batch-Datenpipeline erstellen

Alle Knoten in einer Pipeline verbinden

  1. Ziehen Sie einen Verbindungspfeil > vom rechten Rand des Quellknotens zum linken Rand des Zielknotens.
  2. Eine Pipeline kann mehrere Zweige haben, die Eingabedateien vom selben GCS-Quellknoten erhalten.

67510ab46bd44d36.png

  1. Geben Sie der Pipeline einen Namen.

Das war's. Sie haben Ihre erste Batch-Datenpipeline erstellt und können sie bereitstellen und ausführen.

Pipeline-Benachrichtigungen per E-Mail senden (optional)

Um die Funktion „Pipeline Alert SendEmail“ zu nutzen, muss ein Mailserver für das Senden von E-Mails von einer VM-Instanz eingerichtet sein. Weitere Informationen finden Sie unter dem folgenden Referenzlink:

E-Mails von einer Instanz aus senden | Compute Engine-Dokumentation

In diesem Codelab richten wir einen E-Mail-Relaisdienst über Mailgun ein. Dazu führen wir die folgenden Schritte aus:

  1. Folgen Sie der Anleitung unter E-Mails mit Mailgun senden | Compute Engine-Dokumentation, um ein Konto bei Mailgun einzurichten und den E-Mail-Relaisdienst zu konfigurieren. Weitere Änderungen finden Sie unten.
  2. Fügen Sie die E-Mail-Adressen aller Empfänger der Liste der autorisierten Absender von Mailgun hinzu. Diese Liste finden Sie in Mailgun unter „Sending“ > „Overview“ im linken Bereich.

7e6224cced3fa4e0.png fa78739f1ddf2dc2.png

Sobald die Empfänger in der E‑Mail von support@mailgun.net auf „Ich stimme zu“ klicken, werden ihre E‑Mail-Adressen in der Liste der autorisierten Adressen gespeichert, an die E‑Mails mit Pipeline-Benachrichtigungen gesendet werden.

72847c97fd5fce0f.png

  1. Schritt 3 im Abschnitt „Vorbereitung“: Erstellen Sie eine Firewallregel wie folgt:

75b063c165091912.png

  1. Schritt 3 von „Mailgun als E-Mail-Relais mit Postfix konfigurieren“ Wählen Sie Internet Site (Internetwebsite) oder Internet with smarthost (Internet mit Smarthost) anstelle von Local Only (Nur lokal) aus, wie in der Anleitung beschrieben.

8fd8474a4ef18f16.png

  1. Schritt 4 von „Mailgun als E-Mail-Relais mit Postfix konfigurieren“. Bearbeiten Sie vi /etc/postfix/main.cf, um 10.128.0.0/9 am Ende von mynetworks hinzuzufügen.

249fbf3edeff1ce8.png

  1. Bearbeiten Sie vi /etc/postfix/master.cf, um den Standard-SMTP-Port (25) in Port 587 zu ändern.

86c82cf48c687e72.png

  1. Klicken Sie rechts oben im Data Fusion Studio auf Konfigurieren. Klicken Sie auf Pipeline-Benachrichtigung und dann auf die Schaltfläche +, um das Fenster Benachrichtigungen zu öffnen. Wählen Sie SendEmail aus.

dc079a91f1b0da68.png

  1. Füllen Sie das Konfigurationsformular für E‑Mail aus. Wählen Sie für jeden Benachrichtigungstyp im Drop-down-Menü Ausführungsbedingung die Option Abschluss, Erfolg oder Fehler aus. Wenn Include Workflow Token = false, werden nur die Informationen aus dem Feld „Message“ gesendet. Wenn Include Workflow Token = true, werden die Informationen aus dem Feld „Message“ und die detaillierten Informationen zum Workflow-Token gesendet. Sie müssen Kleinbuchstaben für Protokoll verwenden. Verwenden Sie für Absender eine beliebige „falsche“-E-Mail-Adresse, die nicht Ihre geschäftliche E-Mail-Adresse ist.

1fa619b6ce28f5e5.png

7. Pipeline konfigurieren, bereitstellen, ausführen/planen

db612e62a1c7ab7e.png

  1. Klicken Sie rechts oben im Data Fusion Studio auf Konfigurieren. Wählen Sie „Spark“ für „Engine Config“ aus. Klicken Sie im Fenster „Konfigurieren“ auf „Speichern“.

8ecf7c243c125882.png

  1. Klicken Sie auf Vorschau, um sich eine Vorschau der Daten anzusehen, und dann noch einmal auf Vorschau, um zum vorherigen Fenster zurückzukehren. Sie können die Pipeline auch im Vorschaumodus **ausführen**.

b3c891e5e1aa20ae.png

  1. Klicken Sie auf Logs, um Logs aufzurufen.
  2. Klicken Sie auf Speichern, um alle Änderungen zu speichern.
  3. Klicken Sie auf Importieren, um die gespeicherte Pipelinekonfiguration beim Erstellen einer neuen Pipeline zu importieren.
  4. Klicken Sie auf Exportieren, um eine Pipelinekonfiguration zu exportieren.
  5. Klicken Sie auf Bereitstellen, um die Pipeline bereitzustellen.
  6. Klicken Sie nach der Bereitstellung auf Run (Ausführen) und warten Sie, bis die Pipeline vollständig ausgeführt wurde.

bb06001d46a293db.png

  1. Sie können die Pipeline duplizieren, indem Sie unter der Schaltfläche Aktionen die Option „Duplizieren“ auswählen.
  2. Sie können die Pipelinekonfiguration exportieren, indem Sie unter der Schaltfläche Aktionen die Option „Exportieren“ auswählen.
  3. Klicken Sie am linken oder rechten Rand des Studio-Fensters auf Eingehende Trigger oder Ausgehende Trigger, um bei Bedarf Pipeline-Trigger festzulegen.
  4. Klicken Sie auf Planen, um die regelmäßige Ausführung der Pipeline und das Laden von Daten zu planen.

4167fa67550a49d5.png

  1. Unter Zusammenfassung werden Diagramme mit dem Laufverlauf, Rekorden, Fehlerprotokollen und Warnungen angezeigt.

8. Validierung

  1. Die Pipeline „Validate“ wurde erfolgreich ausgeführt.

7dee6e662c323f14.png

  1. Prüfen Sie, ob das BigQuery-Dataset alle Tabellen enthält.
bq ls $PROJECT_ID:$DATASET_ID
     tableId       Type    Labels   Time Partitioning
----------------- ------- -------- -------------------
 Allergies         TABLE
 Careplans         TABLE
 Conditions        TABLE
 Encounters        TABLE
 Imaging_Studies   TABLE
 Immunizations     TABLE
 Medications       TABLE
 Observations      TABLE
 Organizations     TABLE
 Patients          TABLE
 Procedures        TABLE
 Providers         TABLE
  1. E‑Mail-Benachrichtigungen erhalten (falls konfiguriert)

Ergebnisse ansehen

So rufen Sie die Ergebnisse auf, nachdem die Pipeline ausgeführt wurde:

  1. Fragen Sie die Tabelle in der BigQuery-UI ab. ZUR BIGQUERY-UI
  2. Ersetzen Sie in der Abfrage unten den Projektnamen, das Dataset und die Tabelle durch Ihre eigenen.

e32bfd5d965a117f.png

9. Bereinigen

So vermeiden Sie, dass Ihrem Google Cloud Platform-Konto die in dieser Anleitung verwendeten Ressourcen berechnet werden:

Nachdem Sie die Anleitung abgeschlossen haben, können Sie die auf der GCP erstellten Ressourcen bereinigen, damit sie kein Kontingent mehr verbrauchen und Sie nicht mehr dafür in Rechnung gestellt werden. In den folgenden Abschnitten wird erläutert, wie Sie diese Ressourcen löschen oder deaktivieren.

BigQuery-Dataset löschen

Folgen Sie dieser Anleitung, um das BigQuery-Dataset zu löschen, das Sie im Rahmen dieser Anleitung erstellt haben.

GCS-Bucket löschen

Löschen Sie den GCS-Bucket, den Sie im Rahmen dieses Tutorials erstellt haben.

Cloud Data Fusion-Instanz löschen

Folgen Sie der Anleitung, um die Cloud Data Fusion-Instanz zu löschen.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.

So löschen Sie das Projekt:

  1. Rufen Sie in der GCP Console die Seite Projekte auf. ZUR SEITE „PROJEKTE“
  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Beenden, um das Projekt zu löschen.

10. Glückwunsch

Herzlichen Glückwunsch! Sie haben das Codelab zum Aufnehmen von Gesundheitsdaten in BigQuery mit Cloud Data Fusion erfolgreich abgeschlossen.

Sie haben CSV-Daten aus Google Cloud Storage in BigQuery importiert.

Sie haben die Datenintegrationspipeline zum Laden, Transformieren und Maskieren von Gesundheitsdaten in großen Mengen visuell erstellt.

Sie kennen jetzt die wichtigsten Schritte, die erforderlich sind, um mit der Healthcare-Datenanalyse mit BigQuery auf der Google Cloud Platform zu beginnen.