การรักษาความปลอดภัยของข้อมูลที่ใช้สำหรับแอปพลิเคชัน AI

1. บทนำ

ภาพรวม

ในแล็บนี้ คุณจะได้สร้างไปป์ไลน์การล้างข้อมูลอัตโนมัติเพื่อปกป้องข้อมูลที่ละเอียดอ่อนซึ่งใช้ในการพัฒนา AI คุณใช้ Sensitive Data Protection ของ Google Cloud (เดิมคือ Cloud DLP) เพื่อตรวจสอบ จัดประเภท และลบข้อมูลที่ระบุตัวบุคคลนั้นได้ (PII) ออกจากข้อมูลในรูปแบบต่างๆ ซึ่งรวมถึงข้อความที่ไม่มีโครงสร้าง ตารางที่มีโครงสร้าง และรูปภาพ

บริบท

คุณคือผู้เชี่ยวชาญด้านความปลอดภัยและความเป็นส่วนตัวในทีมพัฒนาแอป และเป้าหมายของคุณคือการสร้างเวิร์กโฟลว์ที่ระบุข้อมูลที่ละเอียดอ่อนและลบข้อมูลที่ระบุตัวบุคคลได้ก่อนที่จะทำให้ข้อมูลพร้อมใช้งานสำหรับนักพัฒนาแอปและโมเดล ทีมของคุณต้องการข้อมูลคุณภาพสูงที่สมจริงเพื่อปรับแต่งและทดสอบแอปพลิเคชัน Generative AI ใหม่ แต่การใช้ข้อมูลลูกค้าดิบๆ ทำให้เกิดความท้าทายด้านความเป็นส่วนตัวอย่างมาก

ตารางต่อไปนี้แสดงความเสี่ยงด้านความเป็นส่วนตัวที่คุณกังวลมากที่สุดและต้องการลดความเสี่ยง

ความเสี่ยง

การลดปัญหา

การเปิดเผย PII ในไฟล์ข้อความที่ไม่มีโครงสร้าง (เช่น บันทึกการแชทกับทีมสนับสนุน แบบฟอร์มความคิดเห็น)

สร้างเทมเพลตการลบข้อมูลระบุตัวบุคคลที่แทนที่ค่าที่ละเอียดอ่อนด้วย infoType โดยคงบริบทไว้ในขณะที่นำการเปิดเผยออก

การสูญเสียประโยชน์ของข้อมูลในชุดข้อมูลที่มีโครงสร้าง (CSV) เมื่อนำ PII ออก

ใช้การเปลี่ยนรูปแบบระเบียนเพื่อปกปิดตัวระบุ (เช่น ชื่อ) อย่างเลือกสรร และใช้เทคนิคต่างๆ เช่น การมาสก์อักขระเพื่อเก็บรักษาอักขระอื่นๆ ในสตริงไว้ เพื่อให้นักพัฒนาซอฟต์แวร์ยังคงทดสอบกับข้อมูลได้

การเปิดเผย PII จากข้อความที่ฝังในรูปภาพ (เช่น เอกสารที่สแกน รูปภาพของผู้ใช้)

สร้างเทมเพลตการลบการระบุตัวตนเฉพาะรูปภาพที่ปกปิดข้อความที่พบในรูปภาพ

การปกปิดข้อมูลด้วยตนเองที่ไม่สอดคล้องกันหรือมีข้อผิดพลาดในข้อมูลประเภทต่างๆ

กําหนดค่างานการปกป้องข้อมูลที่ละเอียดอ่อนแบบอัตโนมัติเพียงงานเดียว ซึ่งจะใช้เทมเพลตการลบข้อมูลระบุตัวบุคคล (De-identification) ที่ถูกต้องอย่างสม่ำเสมอตามประเภทไฟล์ที่ประมวลผล

สิ่งที่คุณจะได้เรียนรู้

ในแล็บนี้ คุณจะได้เรียนรู้วิธีทำสิ่งต่อไปนี้

  • กำหนดเทมเพลตการตรวจสอบเพื่อตรวจหาข้อมูลที่ละเอียดอ่อนประเภทที่เฉพาะเจาะจง (infoType)
  • สร้างกฎการลบข้อมูลระบุตัวบุคคลที่แตกต่างกันสำหรับข้อมูลที่ไม่มีโครงสร้าง ข้อมูลที่มีโครงสร้าง และข้อมูลรูปภาพ
  • กำหนดค่าและเรียกใช้เพียงงานเดียวที่ใช้การปกปิดข้อมูลบางส่วนที่ถูกต้องโดยอัตโนมัติตามประเภทไฟล์กับเนื้อหาของทั้ง Bucket
  • ยืนยันการแปลงข้อมูลที่ละเอียดอ่อนให้สำเร็จในตำแหน่งเอาต์พุตที่ปลอดภัย

2. การตั้งค่าโปรเจ็กต์

บัญชี Google

หากยังไม่มีบัญชี Google ส่วนบุคคล คุณต้องสร้างบัญชี Google

ใช้บัญชีส่วนตัวแทนบัญชีของที่ทำงานหรือโรงเรียน

ลงชื่อเข้าใช้ Google Cloud Console

ลงชื่อเข้าใช้ Google Cloud Console โดยใช้บัญชี Google ส่วนตัว

เปิดใช้การเรียกเก็บเงิน

แลกรับเครดิต Google Cloud มูลค่า $5 (ไม่บังคับ)

หากต้องการจัดเวิร์กช็อปนี้ คุณต้องมีบัญชีสำหรับการเรียกเก็บเงินที่มีเครดิตอยู่บ้าง หากวางแผนที่จะใช้การเรียกเก็บเงินของคุณเอง ให้ข้ามขั้นตอนนี้

  1. คลิกลิงก์นี้ แล้วลงชื่อเข้าใช้ด้วยบัญชี Google ส่วนบุคคล คุณจะเห็นข้อความคล้ายกับนี้คลิกที่นี่เพื่อไปที่หน้าเครดิต
  2. คลิกปุ่มคลิกที่นี่เพื่อเข้าถึงเครดิต ระบบจะนำคุณไปยังหน้าเพื่อตั้งค่าโปรไฟล์การเรียกเก็บเงินตั้งค่าหน้าโปรไฟล์การเรียกเก็บเงิน
  3. คลิกยืนยัน ตอนนี้คุณเชื่อมต่อกับบัญชีสำหรับการเรียกเก็บเงินของ Google Cloud Platform เวอร์ชันทดลองใช้งานแล้วภาพหน้าจอของภาพรวมการเรียกเก็บเงิน

ตั้งค่าบัญชีสำหรับการเรียกเก็บเงินส่วนตัว

หากตั้งค่าการเรียกเก็บเงินโดยใช้เครดิต Google Cloud คุณจะข้ามขั้นตอนนี้ได้

หากต้องการตั้งค่าบัญชีสำหรับการเรียกเก็บเงินส่วนตัว ให้ไปที่นี่เพื่อเปิดใช้การเรียกเก็บเงินใน Cloud Console

ข้อควรทราบ

  • การทำแล็บนี้ควรมีค่าใช้จ่ายน้อยกว่า $1 USD ในทรัพยากรระบบคลาวด์
  • คุณสามารถทำตามขั้นตอนที่ส่วนท้ายของแล็บนี้เพื่อลบทรัพยากรเพื่อหลีกเลี่ยงการเรียกเก็บเงินเพิ่มเติม
  • ผู้ใช้ใหม่มีสิทธิ์ใช้ช่วงทดลองใช้ฟรีมูลค่า$300 USD

สร้างโปรเจ็กต์ (ไม่บังคับ)

หากไม่มีโปรเจ็กต์ปัจจุบันที่ต้องการใช้สำหรับ Lab นี้ ให้สร้างโปรเจ็กต์ใหม่ที่นี่

3. เปิดใช้ API

กำหนดค่า Cloud Shell

เมื่อสร้างโปรเจ็กต์เรียบร้อยแล้ว ให้ทำตามขั้นตอนต่อไปนี้เพื่อตั้งค่า Cloud Shell

เปิดใช้ Cloud Shell

ไปที่ shell.cloud.google.com และหากเห็นป๊อปอัปขอให้คุณให้สิทธิ์ ให้คลิกให้สิทธิ์

ตั้งค่ารหัสโปรเจ็กต์

เรียกใช้คำสั่งต่อไปนี้ในเทอร์มินัล Cloud Shell เพื่อตั้งค่ารหัสโปรเจ็กต์ที่ถูกต้อง แทนที่ <your-project-id> ด้วยรหัสโปรเจ็กต์จริงที่คัดลอกจากขั้นตอนการสร้างโปรเจ็กต์ด้านบน

gcloud config set project <your-project-id>

ตอนนี้คุณควรเห็นว่าได้เลือกโปรเจ็กต์ที่ถูกต้องภายในเทอร์มินัล Cloud Shell แล้ว

เปิดใช้การคุ้มครองข้อมูลที่ละเอียดอ่อน

หากต้องการใช้บริการการปกป้องข้อมูลที่ละเอียดอ่อนและ Cloud Storage คุณต้องตรวจสอบว่าได้เปิดใช้ API เหล่านี้ในโปรเจ็กต์ Google Cloud แล้ว

  1. เปิดใช้ API ในเทอร์มินัลโดยทำดังนี้
    gcloud services enable dlp.googleapis.com storage.googleapis.com
    

หรือคุณจะเปิดใช้ API เหล่านี้ได้โดยไปที่ความปลอดภัย > การคุ้มครองข้อมูลที่ละเอียดอ่อนและ Cloud Storage ในคอนโซล แล้วคลิกปุ่มเปิดใช้หากได้รับแจ้งสำหรับแต่ละบริการ

4. สร้างที่เก็บข้อมูลที่มีข้อมูลที่ละเอียดอ่อน

สร้างที่เก็บข้อมูลอินพุตและเอาต์พุต

ในขั้นตอนนี้ คุณจะสร้าง 2 บัคเก็ต ได้แก่ บัคเก็ตหนึ่งสำหรับจัดเก็บข้อมูลที่ละเอียดอ่อนซึ่งต้องตรวจสอบ และอีกบัคเก็ตหนึ่งที่การปกป้องข้อมูลที่ละเอียดอ่อนจะจัดเก็บไฟล์เอาต์พุตที่ลบข้อมูลระบุตัวบุคคลออก นอกจากนี้ คุณยังดาวน์โหลดไฟล์ข้อมูลตัวอย่างและอัปโหลดไปยังที่เก็บข้อมูลอินพุตได้ด้วย

  1. ในเทอร์มินัล ให้เรียกใช้คำสั่งต่อไปนี้เพื่อสร้างที่เก็บข้อมูล 1 รายการสำหรับข้อมูลอินพุตและอีก 1 รายการสำหรับเอาต์พุต จากนั้นป้อนข้อมูลตัวอย่างจาก gs://dlp-codelab-data ลงในที่เก็บข้อมูลอินพุต
    PROJECT_ID=$(gcloud config get-value project)
    gsutil mb gs://input-$PROJECT_ID
    gsutil mb gs://output-$PROJECT_ID
    

เพิ่มข้อมูลที่ละเอียดอ่อนลงในที่เก็บข้อมูลอินพุต

ในขั้นตอนนี้ คุณจะดาวน์โหลดไฟล์ข้อมูลตัวอย่างที่มี PII สำหรับทดสอบจาก GitHub และอัปโหลดไปยังที่เก็บข้อมูลอินพุต

  1. ใน Cloud Shell ให้เรียกใช้คำสั่งต่อไปนี้เพื่อโคลนที่เก็บ devrel-demos ซึ่งมีข้อมูลตัวอย่างที่จำเป็นสำหรับแล็บนี้
    REPO_URL="https://github.com/GoogleCloudPlatform/devrel-demos.git"
    TARGET_PATH="security/sample-data"
    OUTPUT_FOLDER="sample-data"
    
    git clone --quiet --depth 1 --filter=blob:none --sparse "$REPO_URL" temp_loader
    cd temp_loader
    git sparse-checkout set "$TARGET_PATH"
    cd ..
    mv "temp_loader/$TARGET_PATH" "$OUTPUT_FOLDER"
    rm -rf temp_loader
    
  2. จากนั้นคัดลอกข้อมูลตัวอย่างไปยังที่เก็บข้อมูลอินพุตที่คุณสร้างไว้ก่อนหน้านี้
    gsutil -m cp -r sample-data/* gs://input-$PROJECT_ID/
    
  3. ไปที่ Cloud Storage > ที่เก็บข้อมูล แล้วคลิกที่เก็บข้อมูลอินพุตเพื่อดูข้อมูลที่คุณนำเข้า

5. สร้างเทมเพลตการตรวจสอบ

ในงานนี้ คุณจะสร้างเทมเพลตที่บอก Sensitive Data Protection ว่าควรค้นหาอะไร ซึ่งจะช่วยให้คุณมุ่งเน้นการตรวจสอบไปที่ infoTypes ที่เกี่ยวข้องกับข้อมูลและภูมิศาสตร์ของคุณ ซึ่งจะช่วยปรับปรุงประสิทธิภาพและความแม่นยำ

สร้างเทมเพลตการตรวจสอบ

ในขั้นตอนนี้ คุณจะกำหนดกฎสำหรับสิ่งที่ถือเป็นข้อมูลที่ละเอียดอ่อนซึ่งต้องตรวจสอบ งานการลบการระบุตัวตนจะนำเทมเพลตนี้กลับมาใช้ใหม่เพื่อให้มั่นใจถึงความสอดคล้องกัน

  1. จากเมนูการนำทาง ให้ไปที่การปกป้องข้อมูลที่ละเอียดอ่อน > การกำหนดค่า > เทมเพลต
  2. คลิกสร้างเทมเพลต
  3. เลือกตรวจสอบ (ค้นหาข้อมูลที่ละเอียดอ่อน) ในส่วนประเภทเทมเพลต
  4. ตั้งค่ารหัสเทมเพลตเป็น pii-finder
  5. ดำเนินการต่อเพื่อกำหนดค่าการตรวจหา
  6. คลิกจัดการ infoTypes
  7. ใช้ตัวกรองเพื่อค้นหา infoTypes ต่อไปนี้ แล้วเลือกช่องทำเครื่องหมายข้างแต่ละรายการ
    • CREDIT_CARD_EXPIRATION_DATE
    • CREDIT_CARD_NUMBER
    • DATE_OF_BIRTH
    • DRIVERS_LICENSE_NUMBER
    • EMAIL_ADDRESS
    • GCP_API_KEY
    • GCP_CREDENTIALS
    • ORGANIZATION_NAME
    • PASSWORD
    • PERSON_NAME
    • PHONE_NUMBER
    • US_SOCIAL_SECURITY_NUMBER
  8. เลือกรายการอื่นๆ ที่คุณสนใจด้วย แล้วคลิกเสร็จสิ้น
  9. ตรวจสอบตารางผลลัพธ์เพื่อให้แน่ใจว่าได้เพิ่ม InfoType เหล่านี้ทั้งหมดแล้ว
  10. คลิกสร้าง

6. สร้างเทมเพลตการไม่ระบุตัวตน

จากนั้นสร้างเทมเพลตการลบข้อมูลที่ระบุตัวบุคคลได้ 3 รายการแยกกันเพื่อจัดการรูปแบบข้อมูลต่างๆ ซึ่งจะช่วยให้คุณควบคุมกระบวนการแปลงได้อย่างละเอียด และใช้วิธีที่เหมาะสมที่สุดสำหรับไฟล์แต่ละประเภท เทมเพลตเหล่านี้จะทํางานร่วมกับเทมเพลตการตรวจสอบที่คุณเพิ่งสร้าง

สร้างเทมเพลตสำหรับข้อมูลที่ไม่มีโครงสร้าง

เทมเพลตนี้จะกำหนดวิธีลบข้อมูลที่ระบุตัวบุคคลได้ออกจากข้อมูลที่ละเอียดอ่อนซึ่งพบในข้อความแบบอิสระ เช่น บันทึกการแชทหรือแบบฟอร์มความคิดเห็น วิธีที่เลือกจะแทนที่ค่าที่ละเอียดอ่อนด้วยชื่อ infoType ของค่าดังกล่าว โดยยังคงบริบทไว้

  1. ในหน้าเทมเพลต ให้คลิกสร้างเทมเพลต
  2. กำหนดเทมเพลตการไม่ระบุตัวตน

    พร็อพเพอร์ตี้

    ค่า (พิมพ์หรือเลือก)

    ประเภทเทมเพลต

    ไม่ระบุตัวตน (ลบข้อมูลที่ละเอียดอ่อน)

    ประเภทการเปลี่ยนรูปแบบข้อมูล

    infoType

    รหัสเทมเพลต

    de-identify-unstructured

  3. ดำเนินการต่อเพื่อกำหนดค่าการไม่ระบุตัวตน
    • ในส่วนวิธีการเปลี่ยนรูปแบบ ให้เลือกการเปลี่ยนรูปแบบ: แทนที่ด้วยชื่อ infoType
  4. คลิกสร้าง
  5. คลิกทดสอบ
  6. ทดสอบข้อความที่มี PII เพื่อดูว่าระบบจะแปลงข้อความอย่างไร โดยทำดังนี้
    Hi, my name is Alex and my SSN is 555-11-5555. You can reach me at +1-555-555-5555.
    

สร้างเทมเพลตสำหรับข้อมูลที่มีโครงสร้าง

เทมเพลตนี้มุ่งเน้นไปที่ข้อมูลที่ละเอียดอ่อนภายในชุดข้อมูลที่มีโครงสร้าง เช่น ไฟล์ CSV โดยเฉพาะ คุณจะกำหนดค่าให้มาสก์ข้อมูลในลักษณะที่ยังคงรักษาประโยชน์ของข้อมูลไว้สำหรับการทดสอบ ในขณะที่ยังคงยกเลิกการระบุข้อมูลที่ละเอียดอ่อน

  1. กลับไปที่หน้าเทมเพลต แล้วคลิกสร้างเทมเพลต
  2. กำหนดเทมเพลตการไม่ระบุตัวตน

    พร็อพเพอร์ตี้

    ค่า (พิมพ์หรือเลือก)

    ประเภทเทมเพลต

    ไม่ระบุตัวตน (ลบข้อมูลที่ละเอียดอ่อน)

    ประเภทการเปลี่ยนรูปแบบข้อมูล

    บันทึก

    รหัสเทมเพลต

    de-identify-structured

  3. ดำเนินการต่อเพื่อกำหนดค่าการลบข้อมูลระบุตัวบุคคล เนื่องจากเทมเพลตนี้ใช้กับ Structured Data เราจึงมักคาดการณ์ฟิลด์หรือคอลัมน์ที่จะมีข้อมูลที่ละเอียดอ่อนบางประเภทได้ คุณทราบว่า CSV ที่แอปพลิเคชันใช้มีอีเมลของผู้ใช้ใน user_id และ message มักจะมี PII จากการโต้ตอบกับลูกค้า คุณไม่ต้องกังวลเกี่ยวกับการมาสก์ agent_id เนื่องจากเป็นพนักงานและการสนทนาควรระบุแหล่งที่มาได้ กรอกข้อมูลในส่วนนี้ดังนี้
    • ฟิลด์หรือคอลัมน์ที่จะเปลี่ยนรูปแบบ: user_id, message
    • ประเภทการเปลี่ยนรูปแบบ: จับคู่ด้วย infoType
    • วิธีการเปลี่ยนรูปแบบ: คลิกเพิ่มการเปลี่ยนรูปแบบ
      • การแปลง: มาสก์ด้วยอักขระ
      • อักขระที่ไม่ต้องสนใจ: เครื่องหมายวรรคตอนของสหรัฐอเมริกา
  4. คลิกสร้าง

สร้างเทมเพลตสำหรับข้อมูลรูปภาพ

เทมเพลตนี้ออกแบบมาเพื่อลบข้อมูลที่ระบุตัวบุคคลได้ออกจากข้อความที่มีความละเอียดอ่อนซึ่งฝังอยู่ในรูปภาพ เช่น เอกสารที่สแกนหรือรูปภาพที่ผู้ใช้ส่ง โดยใช้การรู้จำอักขระด้วยภาพ (OCR) เพื่อตรวจหาและปกปิด PII

  1. กลับไปที่หน้าเทมเพลต แล้วคลิกสร้างเทมเพลต
  2. กำหนดเทมเพลตการไม่ระบุตัวตน

    พร็อพเพอร์ตี้

    ค่า (พิมพ์หรือเลือก)

    ประเภทเทมเพลต

    ไม่ระบุตัวตน (ลบข้อมูลที่ละเอียดอ่อน)

    ประเภทการเปลี่ยนรูปแบบข้อมูล

    รูปภาพ

    รหัสเทมเพลต

    de-identify-image

  3. ดำเนินการต่อเพื่อกำหนดค่าการไม่ระบุตัวตน
    • infoType ที่ต้องเปลี่ยนรูปแบบ: infoType ที่ตรวจพบซึ่งระบุไว้ในเทมเพลตการตรวจสอบหรือการกำหนดค่าการตรวจสอบที่ไม่ได้ระบุไว้ในกฎอื่นๆ
  4. คลิกสร้าง

7. สร้างและเรียกใช้งานการไม่ระบุตัวตน

เมื่อกำหนดเทมเพลตแล้ว ตอนนี้คุณก็สร้างงานเดียวที่ใช้เทมเพลตการลบข้อมูลระบุตัวบุคคล (DPI) ที่ถูกต้องตามประเภทไฟล์ที่ตรวจพบและตรวจสอบได้ ซึ่งจะช่วยทำให้กระบวนการคุ้มครองข้อมูลที่ละเอียดอ่อนสำหรับข้อมูลที่จัดเก็บไว้ใน Cloud Storage เป็นไปโดยอัตโนมัติ

กำหนดค่าข้อมูลอินพุต

ในขั้นตอนนี้ คุณจะระบุแหล่งที่มาของข้อมูลที่ต้องทำการลบข้อมูลระบุตัวบุคคล ซึ่งก็คือที่เก็บข้อมูล Cloud Storage ที่มีไฟล์ประเภทต่างๆ ที่มีข้อมูลที่ละเอียดอ่อน

  1. ไปที่ความปลอดภัย > การปกป้องข้อมูลที่ละเอียดอ่อนผ่านแถบค้นหา
  2. คลิกการตรวจสอบในเมนู
  3. คลิกสร้างงานและทริกเกอร์งาน
  4. กำหนดค่างาน

    พร็อพเพอร์ตี้

    ค่า (พิมพ์หรือเลือก)

    รหัสงาน

    pii-remover

    ประเภทพื้นที่เก็บข้อมูล

    Google Cloud Storage

    ประเภทสถานที่ตั้ง

    สแกนที่เก็บข้อมูลที่มีกฎรวม/ไม่รวมที่ไม่บังคับ

    ชื่อที่เก็บข้อมูล

    input-[your-project-id]

กำหนดค่าการตรวจหาและการดำเนินการ

ตอนนี้คุณจะลิงก์เทมเพลตที่สร้างไว้ก่อนหน้านี้กับงานนี้ เพื่อบอกการปกป้องข้อมูลที่ละเอียดอ่อนว่าจะตรวจสอบ PII อย่างไรและใช้วิธีการลบข้อมูลระบุตัวบุคคลใดตามประเภทเนื้อหา

  1. เทมเพลตการตรวจสอบ: projects/[your-project-id]/locations/global/inspectTemplates/pii-finder
  2. ในส่วนเพิ่มการดำเนินการ ให้เลือกทำสำเนาที่ลบข้อมูลที่ระบุตัวบุคคลได้ แล้วกำหนดค่าเทมเพลตการเปลี่ยนรูปแบบให้เป็นเทมเพลตที่คุณสร้างขึ้น
  3. ป๊อปอัปจะเปิดขึ้นเพื่อให้คุณConfirm whether you want to de-identify the findings คลิกปิดใช้การสุ่มตัวอย่าง

    ภาพหน้าจอของป๊อปอัปที่ขอให้ปิดใช้การสุ่มตัวอย่าง

    พร็อพเพอร์ตี้

    ค่า (พิมพ์หรือเลือก)

    เทมเพลตการลบการระบุตัวตน

    projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-unstructured

    เทมเพลตการลบการระบุตัวตนที่มีโครงสร้าง

    projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-structured

    เทมเพลตการปกปิดข้อมูลในรูปภาพ

    projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-image

  4. กำหนดค่าตำแหน่งเอาต์พุตของ Cloud Storage
    • URL: gs://output-[your-project-id]
  5. ในส่วนกำหนดเวลา ให้เลือกไม่มีเพื่อเรียกใช้ชื่องานทันที
  6. คลิกสร้าง
  7. ป๊อปอัปจะเปิดขึ้นเพื่อ Confirm job or job trigger create ให้คลิกยืนยันการสร้าง

    ภาพหน้าจอของป๊อปอัปยืนยันการสร้างทริกเกอร์งานหรืองาน

8. ยืนยันผลการค้นหา

ขั้นตอนสุดท้ายคือการยืนยันว่ามีการปกปิดข้อมูลที่ละเอียดอ่อนสำเร็จและถูกต้องในไฟล์ทุกประเภทในที่เก็บข้อมูลเอาต์พุต ซึ่งจะช่วยให้มั่นใจได้ว่าไปป์ไลน์การลบข้อมูลระบุตัวบุคคลจะทำงานได้ตามที่คาดไว้

ตรวจสอบสถานะงาน

ตรวจสอบงานเพื่อให้แน่ใจว่าเสร็จสมบูรณ์แล้ว และตรวจสอบสรุปผลการค้นหาก่อนตรวจสอบไฟล์เอาต์พุต

  1. ในแท็บรายละเอียดงาน ให้รอจนกว่างานจะแสดงสถานะเป็นเสร็จสิ้น
  2. ในส่วนภาพรวม ให้ตรวจสอบจำนวนผลการตรวจหาและเปอร์เซ็นต์ของ infoType แต่ละรายการที่ตรวจพบ
  3. คลิกการกำหนดค่า
  4. เลื่อนลงไปที่การดำเนินการ แล้วคลิกที่ถังเอาต์พุตเพื่อดูข้อมูลที่ลบข้อมูลระบุตัวบุคคลออกแล้ว gs://output-[your-project-id]

เปรียบเทียบไฟล์อินพุตและเอาต์พุต

ในขั้นตอนนี้ คุณจะตรวจสอบไฟล์ที่ลบข้อมูลที่ระบุตัวบุคคลออกด้วยตนเองเพื่อยืนยันว่าได้ใช้การล้างข้อมูลอย่างถูกต้องตามเทมเพลต

  1. รูปภาพ: เปิดรูปภาพจากที่เก็บข้อมูลเอาต์พุต ตรวจสอบว่าข้อความที่มีความละเอียดอ่อนทั้งหมดได้รับการปกปิดในไฟล์เอาต์พุตแล้ว

    ภาพหน้าจอของรูปภาพแบบฟอร์มที่ระบบปกปิดข้อมูลส่วนบุคคลด้วยกล่องสีดำ

  2. บันทึกที่ไม่มีโครงสร้าง: ดูไฟล์บันทึกจากทั้ง 2 บัคเก็ต ยืนยันว่าระบบได้แทนที่ PII ในบันทึกเอาต์พุตด้วยชื่อ infoType แล้ว (เช่น [US_SOCIAL_SECURITY_NUMBER])
  3. CSV ที่มีโครงสร้าง: เปิดไฟล์ CSV จากทั้ง 2 บัคเก็ต ตรวจสอบว่าอีเมลผู้ใช้และหมายเลขประกันสังคมในไฟล์เอาต์พุตมาสก์ด้วย ####@####.com

    ภาพหน้าจอเปรียบเทียบข้อมูล CSV ดิบ (แสดงอีเมลและ SSN) กับข้อมูล CSV ที่มีการปกปิดข้อมูลบางส่วน (แสดงอีเมลและ SSN ที่มาสก์)

9. จากห้องทดลองสู่ความเป็นจริง: วิธีใช้ในโปรเจ็กต์ของคุณเอง

หลักการและการกำหนดค่าที่คุณใช้เป็นพิมพ์เขียวสำหรับการรักษาความปลอดภัยของโปรเจ็กต์ AI ในโลกจริงบน Google Cloud ทรัพยากรที่คุณเพิ่งสร้าง ได้แก่ เทมเพลตการตรวจสอบ เทมเพลตการลบข้อมูลระบุตัวบุคคล และงานอัตโนมัติ จะทำหน้าที่เป็นเทมเพลตเริ่มต้นที่ปลอดภัยสำหรับกระบวนการนำเข้าข้อมูลใหม่

ไปป์ไลน์การล้างข้อมูลอัตโนมัติ: การนำเข้าข้อมูลที่ปลอดภัย

วิธีใช้ในการตั้งค่า

ทุกครั้งที่ทีมของคุณต้องนำเข้าข้อมูลลูกค้าดิบใหม่เพื่อการพัฒนา AI คุณจะต้องส่งข้อมูลผ่านไปป์ไลน์ที่รวมงานการปกป้องข้อมูลที่ละเอียดอ่อนที่คุณกำหนดค่าไว้ คุณใช้เวิร์กโฟลว์อัตโนมัตินี้แทนการตรวจสอบและปกปิดข้อมูลด้วยตนเองได้ ซึ่งจะช่วยให้มั่นใจได้ว่านักวิทยาศาสตร์ด้านข้อมูลและโมเดล AI จะโต้ตอบกับข้อมูลที่นำข้อมูลระบุตัวบุคคลออกแล้วเท่านั้น ซึ่งจะช่วยลดความเสี่ยงด้านความเป็นส่วนตัวได้อย่างมาก

การเชื่อมต่อกับเวอร์ชันที่ใช้งานจริง

ในสภาพแวดล้อมที่ใช้งานจริง คุณจะต่อยอดแนวคิดนี้ได้โดยทำดังนี้

  • การทำงานอัตโนมัติด้วยทริกเกอร์งาน: คุณจะตั้งค่าทริกเกอร์งานเมื่อใดก็ตามที่มีการอัปโหลดไฟล์ใหม่ไปยังที่เก็บข้อมูล Cloud Storage ที่เป็นอินพุต แทนที่จะเรียกใช้งานด้วยตนเอง ซึ่งจะสร้างกระบวนการตรวจหาและการลบข้อมูลระบุตัวบุคคลโดยอัตโนมัติเต็มรูปแบบ
  • การผสานรวมกับที่เก็บข้อมูลขนาดใหญ่/คลังข้อมูล: โดยปกติแล้ว ข้อมูลเอาต์พุตที่ลบข้อมูลที่ระบุตัวบุคคลออกจะป้อนลงในที่เก็บข้อมูลขนาดใหญ่ที่ปลอดภัย (เช่น ใน Cloud Storage) หรือคลังข้อมูล (เช่น BigQuery) เพื่อการวิเคราะห์เพิ่มเติมและการฝึกโมเดล โดยจะมีการรักษาความเป็นส่วนตัวตลอดวงจรข้อมูล

กลยุทธ์การลบข้อมูลระบุตัวบุคคลแบบละเอียด: การสร้างสมดุลระหว่างความเป็นส่วนตัวและยูทิลิตี

วิธีใช้ในการตั้งค่า

เทมเพลตการลบข้อมูลที่ระบุตัวบุคคลได้ (ไม่มีโครงสร้าง มีโครงสร้าง รูปภาพ) ที่คุณสร้างขึ้นเป็นสิ่งสำคัญ คุณจะใช้กลยุทธ์ที่แตกต่างที่คล้ายกันตามความต้องการเฉพาะของโมเดล AI ซึ่งช่วยให้ทีมพัฒนาได้รับข้อมูลที่มีประโยชน์สูงสำหรับโมเดลโดยไม่กระทบต่อความเป็นส่วนตัว

การเชื่อมต่อกับเวอร์ชันที่ใช้งานจริง

ในสภาพแวดล้อมการใช้งานจริง การควบคุมแบบละเอียดนี้จะมีความสําคัญมากยิ่งขึ้นสําหรับ

  • infoType และพจนานุกรมที่กำหนดเอง: สำหรับข้อมูลที่ละเอียดอ่อนที่เฉพาะเจาะจงหรือโดเมนที่เฉพาะเจาะจง คุณจะต้องกำหนด infoType และพจนานุกรมที่กำหนดเองภายในการป้องกันข้อมูลที่ละเอียดอ่อน ซึ่งจะช่วยให้ตรวจจับได้อย่างครอบคลุมและปรับให้เหมาะกับบริบททางธุรกิจที่ไม่เหมือนใครของคุณ
  • การเข้ารหัสที่คงรูปแบบเดิม (FPE): สำหรับสถานการณ์ที่ข้อมูลที่ยกเลิกการระบุตัวตนต้องคงรูปแบบเดิมไว้ (เช่น หมายเลขบัตรเครดิตสำหรับการทดสอบการผสานรวม) คุณจะต้องสำรวจเทคนิคการยกเลิกการระบุตัวตนขั้นสูง เช่น การเข้ารหัสที่คงรูปแบบเดิม ซึ่งช่วยให้ทดสอบได้อย่างปลอดภัยด้านความเป็นส่วนตัวด้วยรูปแบบข้อมูลที่สมจริง

การตรวจสอบและการตรวจสอบ: การรับประกันการปฏิบัติตามข้อกำหนดอย่างต่อเนื่อง

วิธีใช้ในการตั้งค่า

คุณจะตรวจสอบบันทึกการปกป้องข้อมูลที่ละเอียดอ่อนอย่างต่อเนื่องเพื่อให้มั่นใจว่าการประมวลผลข้อมูลทั้งหมดเป็นไปตามนโยบายความเป็นส่วนตัว และไม่มีการเปิดเผยข้อมูลที่ละเอียดอ่อนโดยไม่ตั้งใจ การตรวจสอบสรุปงานและผลการค้นหาเป็นประจำเป็นส่วนหนึ่งของการตรวจสอบอย่างต่อเนื่องนี้

การเชื่อมต่อกับเวอร์ชันที่ใช้งานจริง

สําหรับระบบการผลิตที่มีประสิทธิภาพ ให้พิจารณาการดําเนินการสําคัญต่อไปนี้

  • ส่งผลการตรวจหาไปยังศูนย์บัญชาการการรักษาความปลอดภัย: กำหนดค่างานการปกป้องข้อมูลที่ละเอียดอ่อนให้ส่งสรุปผลการตรวจหาไปยังศูนย์บัญชาการการรักษาความปลอดภัยโดยตรง เพื่อการจัดการภัยคุกคามแบบผสานรวมและมุมมองแบบรวมศูนย์ของท่าทีด้านความปลอดภัย ซึ่งจะรวมการแจ้งเตือนและข้อมูลเชิงลึกด้านความปลอดภัย
  • การแจ้งเตือนและการตอบสนองต่อเหตุการณ์: คุณจะตั้งค่าการแจ้งเตือนของ Cloud Monitoring ตามผลการตรวจหาของ Sensitive Data Protection หรือความล้มเหลวของงาน ซึ่งจะช่วยให้ทีมรักษาความปลอดภัยได้รับการแจ้งเตือนทันทีเมื่อมีการละเมิดนโยบายหรือปัญหาในการประมวลผลที่อาจเกิดขึ้น ทำให้สามารถตอบสนองต่อเหตุการณ์ได้อย่างรวดเร็ว

10. บทสรุป

ยินดีด้วย คุณสร้างเวิร์กโฟลว์ด้านความปลอดภัยของข้อมูลที่ค้นหาและยกเลิกการระบุตัวบุคคลนั้นได้โดยอัตโนมัติสําเร็จแล้วสําหรับPII ในข้อมูลหลายประเภท ซึ่งทําให้ข้อมูลปลอดภัยสําหรับใช้ในการพัฒนา AI และการวิเคราะห์ขั้นปลาย

สรุป

ในห้องทดลองนี้ คุณได้ทำสิ่งต่อไปนี้

  • กำหนดเทมเพลตการตรวจสอบเพื่อตรวจหาข้อมูลที่ละเอียดอ่อนประเภทใดประเภทหนึ่ง (infoType)
  • สร้างกฎการลบข้อมูลระบุตัวบุคคลที่แตกต่างกันสำหรับข้อมูลที่ไม่มีโครงสร้าง ข้อมูลที่มีโครงสร้าง และข้อมูลรูปภาพ
  • กำหนดค่าและเรียกใช้งานเดียวที่ใช้การปกปิดข้อมูลบางส่วนที่ถูกต้องโดยอัตโนมัติตามประเภทไฟล์กับเนื้อหาของทั้ง Bucket
  • ยืนยันการแปลงข้อมูลที่ละเอียดอ่อนให้สำเร็จในตำแหน่งเอาต์พุตที่ปลอดภัย

ขั้นตอนถัดไป

  • ส่งผลการสืบค้นไปยังศูนย์บัญชาการการรักษาความปลอดภัย: หากต้องการจัดการภัยคุกคามแบบผสานรวมมากขึ้น ให้กำหนดค่าการดำเนินการของงานเพื่อส่งสรุปผลการสืบค้นไปยังศูนย์บัญชาการการรักษาความปลอดภัยโดยตรง
  • ทำงานอัตโนมัติด้วย Cloud Functions: ในสภาพแวดล้อมการใช้งานจริง คุณสามารถทริกเกอร์งานตรวจสอบนี้โดยอัตโนมัติเมื่อใดก็ตามที่มีการอัปโหลดไฟล์ใหม่ไปยังที่เก็บข้อมูลอินพุตโดยใช้ Cloud Functions