Daten schützen, die für KI-Anwendungen verwendet werden

1. Einführung

Übersicht

In diesem Lab erstellen Sie eine automatisierte Pipeline zur Bereinigung von Daten, um sensible Informationen zu schützen, die in der KI-Entwicklung verwendet werden. Sie verwenden Sensitive Data Protection von Google Cloud (früher Cloud DLP), um personenbezogene Daten in verschiedenen Datenformaten, darunter unstrukturierter Text, strukturierte Tabellen und Bilder, zu prüfen, zu klassifizieren und zu de-identifizieren.

Kontext

Sie sind der Sicherheits- und Datenschutzexperte in Ihrem Entwicklerteam. Ihr Ziel ist es, einen Workflow zu erstellen, mit dem sensible Informationen identifiziert und anonymisiert werden, bevor sie Entwicklern und Modellen zur Verfügung gestellt werden. Ihr Team benötigt realistische, hochwertige Daten, um eine neue Anwendung mit generativer KI zu optimieren und zu testen. Die Verwendung von Rohdaten von Kunden birgt jedoch erhebliche Datenschutzrisiken.

In der folgenden Tabelle sind die Datenschutzrisiken aufgeführt, die Sie am meisten minimieren möchten:

Risiko

Problembehebung

Offenlegung personenbezogener Daten in unstrukturierten Textdateien (z.B. Support-Chatprotokolle, Feedbackformulare).

Erstellen Sie eine De-Identifikationsvorlage, die sensible Werte durch ihren infoType ersetzt. So wird der Kontext beibehalten, ohne dass die Daten offengelegt werden.

Verlust der Datennützlichkeit in strukturierten Datasets (CSVs), wenn personenidentifizierbare Informationen entfernt werden.

Verwenden Sie Datensatztransformationen, um Kennungen wie Namen selektiv zu entfernen und Techniken wie Zeichenmaskierung anzuwenden, um andere Zeichen im String beizubehalten, damit Entwickler weiterhin mit den Daten testen können.

Offenlegung personenidentifizierbarer Informationen durch in Bilder eingebetteten Text (z.B. gescannte Dokumente, Nutzerfotos).

Erstellen Sie eine bildspezifische De-Identifikationsvorlage, mit der Text in Bildern entfernt wird.

Inkonsistente oder fehleranfällige manuelle Schwärzung bei verschiedenen Datentypen.

Konfigurieren Sie einen einzelnen, automatisierten Sensitive Data Protection-Job, in dem basierend auf dem verarbeiteten Dateityp immer die richtige De-Identifikationsvorlage angewendet wird.

Lerninhalte

Aufgaben in diesem Lab:

  • Definieren Sie eine Inspektionsvorlage, um bestimmte sensible Informationstypen (infoTypes) zu erkennen.
  • Erstellen Sie separate De-Identifikationsregeln für unstrukturierte, strukturierte und Bilddaten.
  • Konfigurieren und führen Sie einen einzelnen Job aus, der automatisch die richtige Schwärzung basierend auf dem Dateityp auf den Inhalt eines gesamten Buckets anwendet.
  • Prüfen Sie, ob sensible Daten erfolgreich in einen sicheren Ausgabespeicherort transformiert wurden.

2. Projekt einrichten

Google-Konto

Wenn Sie noch kein privates Google-Konto haben, müssen Sie ein Google-Konto erstellen.

Verwenden Sie stattdessen ein privates Konto.

In der Google Cloud Console anmelden

Melden Sie sich mit einem privaten Google-Konto in der Google Cloud Console an.

Abrechnung aktivieren

Google Cloud-Guthaben von 5 $einlösen (optional)

Für diesen Workshop benötigen Sie ein Rechnungskonto mit Guthaben. Wenn Sie Ihre eigene Abrechnung verwenden möchten, können Sie diesen Schritt überspringen.

  1. Klicken Sie auf diesen Link und melden Sie sich mit einem privaten Google-Konto an.Sie sehen dann Folgendes:Zur Seite „Guthaben“
  2. Klicken Sie auf die Schaltfläche HIER KLICKEN, UM AUF IHR GUTHABEN ZUZUGREIFEN. Sie werden dann auf eine Seite weitergeleitet, auf der Sie Ihr Abrechnungsprofil einrichten können.Seite zum Einrichten des Abrechnungsprofils
  3. Klicken Sie auf Bestätigen. Sie sind jetzt mit einem Google Cloud Platform-Testrechnungskonto verbunden.Screenshot der Abrechnungsübersicht

Privates Rechnungskonto einrichten

Wenn Sie die Abrechnung mit Google Cloud-Guthaben eingerichtet haben, können Sie diesen Schritt überspringen.

Klicken Sie hier, um die Abrechnung in der Cloud Console zu aktivieren und ein privates Rechnungskonto einzurichten.

Hinweise:

  • Die Kosten für Cloud-Ressourcen für dieses Lab sollten weniger als 1 $betragen.
  • Sie können die Schritte am Ende dieses Labs ausführen, um Ressourcen zu löschen und so weitere Kosten zu vermeiden.
  • Neuen Nutzern steht die kostenlose Testversion mit einem Guthaben von 300$ zur Verfügung.

Projekt erstellen (optional)

Wenn Sie kein aktuelles Projekt haben, das Sie für dieses Label verwenden möchten, erstellen Sie hier ein neues Projekt.

3. APIs aktivieren

Cloud Shell konfigurieren

Nachdem Ihr Projekt erfolgreich erstellt wurde, führen Sie die folgenden Schritte aus, um Cloud Shell einzurichten.

Cloud Shell starten

Rufen Sie shell.cloud.google.com auf. Wenn Sie ein Pop-up-Fenster sehen, in dem Sie aufgefordert werden, die Autorisierung zu bestätigen, klicken Sie auf Autorisieren.

Projekt-ID festlegen

Führen Sie den folgenden Befehl im Cloud Shell-Terminal aus, um die richtige Projekt-ID festzulegen. Ersetzen Sie <your-project-id> durch Ihre tatsächliche Projekt-ID, die Sie im Schritt zur Projekterstellung oben kopiert haben.

gcloud config set project <your-project-id>

Im Cloud Shell-Terminal sollte nun das richtige Projekt ausgewählt sein.

Schutz sensibler Daten aktivieren

Wenn Sie den Dienst „Schutz sensibler Daten“ und Cloud Storage verwenden möchten, müssen Sie dafür sorgen, dass diese APIs in Ihrem Google Cloud-Projekt aktiviert sind.

  1. Aktivieren Sie die APIs im Terminal:
    gcloud services enable dlp.googleapis.com storage.googleapis.com
    

Alternativ können Sie diese APIs aktivieren, indem Sie in der Konsole zu Sicherheit > Schutz sensibler Daten und Cloud Storage navigieren und für jeden Dienst auf die Schaltfläche Aktivieren klicken, wenn Sie dazu aufgefordert werden.

4. Buckets mit sensiblen Daten erstellen

Eingabe- und Ausgabe-Bucket erstellen

In diesem Schritt erstellen Sie zwei Buckets: einen für sensible Daten, die geprüft werden müssen, und einen weiteren, in dem Sensitive Data Protection die de-identifizierten Ausgabedateien speichert. Sie laden auch Beispieldatendateien herunter und laden sie in Ihren Eingabe-Bucket hoch.

  1. Führen Sie im Terminal die folgenden Befehle aus, um einen Bucket für Eingabedaten und einen für Ausgabedaten zu erstellen. Füllen Sie dann den Eingabe-Bucket mit Beispieldaten aus gs://dlp-codelab-data:
    PROJECT_ID=$(gcloud config get-value project)
    gsutil mb gs://input-$PROJECT_ID
    gsutil mb gs://output-$PROJECT_ID
    

Sensible Daten dem Eingabe-Bucket hinzufügen

In diesem Schritt laden Sie Beispieldatendateien mit personenidentifizierbaren Informationen aus GitHub herunter und in Ihren Eingabe-Bucket hoch.

  1. Führen Sie in Cloud Shell den folgenden Befehl aus, um das devrel-demos-Repository zu klonen, das die für dieses Lab erforderlichen Beispieldaten enthält.
    REPO_URL="https://github.com/GoogleCloudPlatform/devrel-demos.git"
    TARGET_PATH="security/sample-data"
    OUTPUT_FOLDER="sample-data"
    
    git clone --quiet --depth 1 --filter=blob:none --sparse "$REPO_URL" temp_loader
    cd temp_loader
    git sparse-checkout set "$TARGET_PATH"
    cd ..
    mv "temp_loader/$TARGET_PATH" "$OUTPUT_FOLDER"
    rm -rf temp_loader
    
  2. Kopieren Sie als Nächstes die Beispieldaten in den zuvor erstellten Eingabe-Bucket:
    gsutil -m cp -r sample-data/* gs://input-$PROJECT_ID/
    
  3. Rufen Sie Cloud Storage > Buckets auf und klicken Sie auf den Eingabe-Bucket, um die importierten Daten aufzurufen.

5. Prüfvorlage erstellen

In dieser Aufgabe erstellen Sie eine Vorlage, die Sensitive Data Protection mitteilt, wonach gesucht werden soll. So können Sie sich bei der Überprüfung auf infoTypes konzentrieren, die für Ihre Daten und Ihre Region relevant sind, was die Leistung und Genauigkeit verbessert.

Prüfvorlage erstellen

In diesem Schritt definieren Sie die Regeln dafür, was als vertrauliche Daten gilt, die geprüft werden müssen. Diese Vorlage wird von Ihren De-Identifikationsjobs wiederverwendet, um Konsistenz zu gewährleisten.

  1. Klicken Sie im Navigationsmenü auf Schutz sensibler Daten > Konfiguration > Vorlagen.
  2. Klicken Sie auf Vorlage erstellen.
  3. Wählen Sie unter Vorlagentyp die Option Prüfen (sensible Daten finden) aus.
  4. Legen Sie die Vorlagen-ID auf pii-finder fest.
  5. Klicken Sie auf Weiter, um die Erkennung zu konfigurieren.
  6. Klicken Sie auf infoTypes verwalten.
  7. Suchen Sie mit dem Filter nach den folgenden infoTypes und setzen Sie ein Häkchen neben jedem:<
    • CREDIT_CARD_EXPIRATION_DATE
    • CREDIT_CARD_NUMBER
    • DATE_OF_BIRTH
    • DRIVERS_LICENSE_NUMBER
    • EMAIL_ADDRESS
    • GCP_API_KEY
    • GCP_CREDENTIALS
    • ORGANIZATION_NAME
    • PASSWORD
    • PERSON_NAME
    • PHONE_NUMBER
    • US_SOCIAL_SECURITY_NUMBER
  8. Wählen Sie alle anderen aus, die Sie ebenfalls interessieren, und klicken Sie auf Fertig.
  9. Prüfen Sie in der resultierenden Tabelle, ob alle diese infoTypes hinzugefügt wurden.
  10. Klicken Sie auf Erstellen.

6. De-Identifikationsvorlagen erstellen

Als Nächstes erstellen Sie drei separate Vorlagen für die De-Identifikation für verschiedene Datenformate. So haben Sie die Möglichkeit, den Transformationsprozess detailliert zu steuern und für jeden Dateityp die am besten geeignete Methode anzuwenden. Diese Vorlagen funktionieren in Verbindung mit der Prüfvorlage, die Sie gerade erstellt haben.

Vorlage für unstrukturierte Daten erstellen

In dieser Vorlage wird definiert, wie sensible Daten, die in Freitext wie Chatprotokollen oder Feedbackformularen gefunden werden, de-identifiziert werden. Bei der ausgewählten Methode wird der sensible Wert durch den Namen seines infoType ersetzt, wodurch der Kontext erhalten bleibt.

  1. Klicken Sie auf der Seite Vorlagen auf Vorlage erstellen.
  2. De-Identifikationsvorlage definieren:

    Attribut

    Wert (eingeben oder auswählen)

    Vorlagentyp

    De-identifizieren (sensible Daten entfernen)

    Typ der Datentransformation

    infoType

    Vorlagen-ID

    de-identify-unstructured

  3. Klicken Sie auf Weiter, um De-Identifizierung zu konfigurieren.
    • Wählen Sie unter Transformationsmethode die Transformation Durch infoType-Namen ersetzen aus.
  4. Klicken Sie auf Erstellen.
  5. Klicken Sie auf Testen.
  6. Testen Sie eine Nachricht mit personenidentifizierbaren Informationen, um zu sehen, wie sie transformiert wird:
    Hi, my name is Alex and my SSN is 555-11-5555. You can reach me at +1-555-555-5555.
    

Vorlage für strukturierte Daten erstellen

Diese Vorlage ist speziell auf vertrauliche Informationen in strukturierten Datasets wie CSV-Dateien ausgerichtet. Sie konfigurieren die Maskierung so, dass der Nutzen der Daten für Tests erhalten bleibt, gleichzeitig aber sensible Felder de-identifiziert werden.

  1. Kehren Sie zur Seite Vorlagen zurück und klicken Sie auf Vorlage erstellen.
  2. De-Identifikationsvorlage definieren:

    Attribut

    Wert (eingeben oder auswählen)

    Vorlagentyp

    De-identifizieren (sensible Daten entfernen)

    Typ der Datentransformation

    Aufnehmen

    Vorlagen-ID

    de-identify-structured

  3. Klicken Sie auf Weiter, um De-Identifizierung konfigurieren aufzurufen.Da diese Vorlage für strukturierte Daten gilt, können wir die Felder oder Spalten, die bestimmte Arten sensibler Daten enthalten, oft vorhersagen. Sie wissen, dass die CSV-Datei, die Ihre Anwendung verwendet, Nutzer-E-Mail-Adressen unter user_id enthält und dass message häufig personenbezogene Daten aus Kundeninteraktionen enthält. Sie müssen agent_id nicht maskieren, da es sich um Mitarbeiter handelt und die Unterhaltungen zugeordnet werden sollten. Füllen Sie diesen Abschnitt wie folgt aus:
    • Feld(er) oder Spalt(e) für die Transformation: user_id, message.
    • Transformationstyp: Übereinstimmung mit infoType
    • Transformationsmethode: Klicken Sie auf Transformation hinzufügen.
      • Transformation: Mit Zeichen maskieren.
      • Zu ignorierende Zeichen: US-Satzzeichen.
  4. Klicken Sie auf Erstellen.

Vorlage für Bilddaten erstellen

Diese Vorlage wurde entwickelt, um sensiblen Text zu anonymisieren, der in Bildern enthalten ist, z. B. in gescannten Dokumenten oder von Nutzern eingereichten Fotos. Dabei wird die optische Zeichenerkennung (OCR) verwendet, um die personenbezogenen Daten zu erkennen und zu entfernen.

  1. Kehren Sie zur Seite Vorlagen zurück und klicken Sie auf Vorlage erstellen.
  2. De-Identifikationsvorlage definieren:

    Attribut

    Wert (eingeben oder auswählen)

    Vorlagentyp

    De-identifizieren (sensible Daten entfernen)

    Typ der Datentransformation

    Bild

    Vorlagen-ID

    de-identify-image

  3. Klicken Sie auf Weiter, um De-Identifizierung zu konfigurieren.
    • InfoTypes für die Transformation: Alle erkannten InfoTypes, die in einer Inspektionsvorlage oder Inspektionskonfiguration definiert und nicht in anderen Regeln angegeben sind.
  4. Klicken Sie auf Erstellen.

7. De-Identifikationsjob erstellen und ausführen

Nachdem Sie die Vorlagen definiert haben, erstellen Sie jetzt einen einzelnen Job, in dem die richtige De-Identifikationsvorlage basierend auf dem erkannten und geprüften Dateityp angewendet wird. Dadurch wird der Prozess zum Schutz sensibler Daten für Daten, die in Cloud Storage gespeichert sind, automatisiert.

Eingabedaten konfigurieren

In diesem Schritt geben Sie die Quelle der Daten an, die anonymisiert werden müssen. Das ist ein Cloud Storage-Bucket mit verschiedenen Dateitypen mit vertraulichen Informationen.

  1. Rufen Sie über die Suchleiste Sicherheit > Schutz sensibler Daten auf.
  2. Klicken Sie im Menü auf Prüfung.
  3. Klicken Sie auf Job und Job-Trigger erstellen.
  4. Konfigurieren Sie den Job:

    Attribut

    Wert (eingeben oder auswählen)

    Job-ID

    pii-remover

    Speichertyp

    Google Cloud Storage

    Standorttyp

    Einen Bucket mit optionalen Ein- bzw. Ausschlussregeln scannen

    Bucket-Name

    input-[your-project-id]

Erkennung und Aktionen konfigurieren

Jetzt verknüpfen Sie die zuvor erstellten Vorlagen mit diesem Job und geben so an, wie PII geprüft werden sollen und welche De-Identifikationsmethode je nach Inhaltstyp angewendet werden soll.

  1. Prüfvorlage: projects/[your-project-id]/locations/global/inspectTemplates/pii-finder
  2. Wählen Sie unter Aktionen hinzufügen die Option Eine de-identifizierte Kopie erstellen aus und konfigurieren Sie die Transformationen mit den von Ihnen erstellten Vorlagen.
  3. Ein Pop‑up-Fenster wird geöffnet, in dem Sie Confirm whether you want to de-identify the findings können. Klicken Sie auf SAMPLING DEAKTIVIEREN.

    Screenshot des Pop-ups, in dem Sie aufgefordert werden, die Stichprobenerhebung zu deaktivieren

    Attribut

    Wert (eingeben oder auswählen)

    De-Identifikationsvorlage

    projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-unstructured

    Strukturierte De-Identifikationsvorlage

    projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-structured

    Vorlage zur Bildentfernung

    projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-image

  4. Cloud Storage-Ausgabespeicherort konfigurieren:
    • URL: gs://output-[your-project-id]
  5. Lassen Sie unter Zeitplan die Auswahl auf Keiner, um den Job sofort auszuführen.
  6. Klicken Sie auf Erstellen.
  7. Ein Pop‑up-Fenster wird geöffnet. Klicke auf ERSTELLEN BESTÄTIGEN.

    Screenshot des Pop-ups „Job oder Job-Trigger-Erstellung bestätigen“

    Confirm job or job trigger create

8. Die Ergebnisse prüfen

Im letzten Schritt müssen Sie bestätigen, dass die vertraulichen Daten in allen Dateitypen im Ausgabebucket erfolgreich und korrekt entfernt wurden. So wird sichergestellt, dass Ihre Pipeline zur De-Identifikation wie erwartet funktioniert.

Jobstatus prüfen

Behalten Sie den Job im Blick, um sicherzustellen, dass er erfolgreich abgeschlossen wird, und sehen Sie sich die Zusammenfassung der Ergebnisse an, bevor Sie die Ausgabedateien prüfen.

  1. Warten Sie auf dem Tab Jobdetails, bis der Job den Status Fertig hat.
  2. Sehen Sie sich unter Übersicht die Anzahl der Ergebnisse und die Prozentsätze der einzelnen erkannten infoTypes an.
  3. Klicken Sie auf Konfiguration.
  4. Scrollen Sie nach unten zu Aktionen und klicken Sie auf den Ausgabe-Bucket, um die anonymisierten Daten zu sehen: gs://output-[your-project-id].

Eingabe- und Ausgabedateien vergleichen

In diesem Schritt prüfen Sie die anonymisierten Dateien manuell, um zu bestätigen, dass die Daten gemäß Ihren Vorlagen korrekt bereinigt wurden.

  1. Bilder: Öffnen Sie ein Bild aus dem Ausgabebucket. Prüfen Sie, ob in der Ausgabedatei der gesamte vertrauliche Text geschwärzt wurde.

    Screenshot eines Formularbilds, in dem personenbezogene Daten mit schwarzen Kästen unkenntlich gemacht wurden.

  2. Unstrukturierte Logs: Logdatei aus beiden Buckets ansehen. Prüfen Sie, ob personenbezogene Daten im Ausgabeprotokoll durch den Namen des infoType ersetzt wurden (z.B. [US_SOCIAL_SECURITY_NUMBER]) verwenden.
  3. Strukturierte CSV-Dateien: Öffnen Sie eine CSV-Datei aus beiden Buckets. Prüfen Sie, ob die E‑Mail-Adressen und Sozialversicherungsnummern der Nutzer in der Ausgabedatei mit ####@####.com maskiert wurden.

    Screenshot, auf dem rohe CSV-Daten (mit E‑Mail-Adressen und Sozialversicherungsnummern) und bereinigte CSV-Daten (mit maskierten E‑Mail-Adressen und Sozialversicherungsnummern) verglichen werden.

9. Vom Lab in die Praxis: So verwenden Sie das in Ihren eigenen Projekten

Die von Ihnen angewendeten Grundsätze und Konfigurationen sind der Blueprint für die Sicherung realer KI-Projekte in Google Cloud. Die Ressourcen, die Sie gerade erstellt haben – die Prüfvorlage, die De-Identifikationsvorlagen und der automatisierte Job – dienen als sichere Startvorlage für jeden neuen Datenerfassungsprozess.

Die automatisierte Pipeline zur Bereinigung von Daten: Ihre sichere Datenerfassung

So verwenden Sie das in Ihrer Einrichtung

Jedes Mal, wenn Ihr Team neue Rohkundendaten für die KI-Entwicklung aufnehmen muss, leiten Sie sie durch eine Pipeline, in die der von Ihnen konfigurierte Sensitive Data Protection-Job eingebunden ist. Statt die Daten manuell zu prüfen und zu entfernen, nutzen Sie diesen automatisierten Workflow. So wird sichergestellt, dass Data Scientists und KI-Modelle nur mit anonymisierten Daten interagieren, was das Datenschutzrisiko erheblich verringert.

Verbindung zur Produktionsumgebung

In einer Produktionsumgebung würden Sie dieses Konzept noch weiter ausbauen, indem Sie:

  • Automatisierung mit Jobtriggern: Anstatt den Job manuell auszuführen, richten Sie einen Jobtrigger ein, wenn eine neue Datei in Ihren Cloud Storage-Eingabe-Bucket hochgeladen wird. So wird ein vollständig automatisierter, berührungsloser Prozess zur Erkennung und Anonymisierung erstellt.
  • Integration mit Data Lakes/Warehouses: Die anonymisierten Ausgabedaten werden in der Regel in einen sicheren Data Lake (z.B. in Cloud Storage) oder ein Data Warehouse (z.B. BigQuery) für weitere Analysen und das Modelltraining verwendet. So wird der Datenschutz während des gesamten Datenlebenszyklus gewährleistet.

Detaillierte De-Identifikationsstrategien: Datenschutz und Nützlichkeit in Einklang bringen

So verwenden Sie das in Ihrer Einrichtung

Die verschiedenen De-Identifikationsvorlagen (unstrukturiert, strukturiert, Bild), die Sie erstellt haben, sind entscheidend. Sie würden ähnliche differenzierte Strategien basierend auf den spezifischen Anforderungen Ihrer KI-Modelle anwenden. So kann Ihr Entwicklungsteam Daten mit hohem Nutzen für seine Modelle verwenden, ohne die Privatsphäre zu beeinträchtigen.

Verbindung zur Produktionsumgebung

In einer Produktionsumgebung ist diese detaillierte Kontrolle noch wichtiger für:

  • Benutzerdefinierte infoTypes und Wörterbücher: Für sehr spezifische oder domänenspezifische sensible Daten definieren Sie benutzerdefinierte infoTypes und Wörterbücher in Sensitive Data Protection. So wird eine umfassende Erkennung gewährleistet, die auf Ihren individuellen geschäftlichen Kontext zugeschnitten ist.
  • Formaterhaltende Verschlüsselung (Format-Preserving Encryption, FPE): In Szenarien, in denen die de-identifizierten Daten ihr ursprüngliches Format beibehalten müssen (z.B. Kreditkartennummern für Integrationstests), sollten Sie erweiterte De-Identifikationstechniken wie die formaterhaltende Verschlüsselung in Betracht ziehen. So können Sie datenschutzkonforme Tests mit realistischen Datenmustern durchführen.

Monitoring und Prüfung: Kontinuierliche Compliance sicherstellen

So verwenden Sie das in Ihrer Einrichtung

Sie würden die Protokolle zum Schutz sensibler Daten kontinuierlich überwachen, um sicherzustellen, dass die gesamte Datenverarbeitung Ihren Datenschutzrichtlinien entspricht und keine sensiblen Informationen versehentlich offengelegt werden. Die regelmäßige Überprüfung von Jobzusammenfassungen und ‑ergebnissen ist Teil dieses kontinuierlichen Audits.

Verbindung zur Produktionsumgebung

Für ein robustes Produktionssystem sollten Sie die folgenden wichtigen Maßnahmen in Betracht ziehen:

  • Ergebnisse an Security Command Center senden: Für ein integriertes Threat Management und eine zentrale Ansicht Ihrer Sicherheitslage können Sie Ihre Jobs zum Schutz sensibler Daten so konfigurieren, dass eine Zusammenfassung der Ergebnisse direkt an Security Command Center gesendet wird. So werden Sicherheitswarnungen und Statistiken zusammengefasst.
  • Benachrichtigungen und Reaktion auf Vorfälle: Sie richten Cloud Monitoring-Benachrichtigungen basierend auf Sensitive Data Protection-Ergebnissen oder Jobfehlern ein. So wird Ihr Sicherheitsteam sofort über potenzielle Richtlinienverstöße oder Verarbeitungsprobleme informiert und kann schnell auf Vorfälle reagieren.

10. Fazit

Glückwunsch! Sie haben einen Workflow für die Datensicherheit erstellt, mit dem personenbezogene Daten automatisch in verschiedenen Datentypen erkannt und de-identifiziert werden können. So können sie sicher für die KI-Entwicklung und Analysen verwendet werden.

Zusammenfassung

In diesem Lab haben Sie Folgendes erreicht:

  • Sie haben eine Inspektionsvorlage definiert, um bestimmte Arten von vertraulichen Informationen (infoTypes) zu erkennen.
  • Es wurden separate De-Identifikationsregeln für unstrukturierte, strukturierte und Bilddaten erstellt.
  • Sie haben einen einzelnen Job konfiguriert und ausgeführt, bei dem automatisch die richtige Schwärzung basierend auf dem Dateityp auf den Inhalt eines gesamten Buckets angewendet wurde.
  • Die erfolgreiche Transformation sensibler Daten an einem sicheren Ausgabespeicherort wurde überprüft.

Nächste Schritte

  • Ergebnisse an Security Command Center senden: Für ein integriertes Threat Management können Sie die Jobaktion so konfigurieren, dass eine Zusammenfassung der Ergebnisse direkt an Security Command Center gesendet wird.
  • Mit Cloud Functions automatisieren: In einer Produktionsumgebung können Sie diesen Prüfjob automatisch auslösen, wenn eine neue Datei in den Eingabe-Bucket hochgeladen wird. Dazu verwenden Sie eine Cloud Functions-Funktion.