การรักษาความปลอดภัยของข้อมูลที่ใช้สำหรับแอปพลิเคชัน AI

1. บทนำ

ภาพรวม

ในแล็บนี้ คุณจะได้สร้างไปป์ไลน์การล้างข้อมูลอัตโนมัติเพื่อปกป้องข้อมูลที่ละเอียดอ่อนซึ่งใช้ในการพัฒนา AI คุณใช้ Sensitive Data Protection ของ Google Cloud (เดิมคือ Cloud DLP) เพื่อตรวจสอบ จัดประเภท และลบข้อมูลที่ระบุตัวบุคคลนั้นได้ (PII) ออกจากข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้ (PII) ในรูปแบบข้อมูลต่างๆ ซึ่งรวมถึงข้อความที่ไม่มีโครงสร้าง ตารางที่มีโครงสร้าง และรูปภาพ

บริบท

คุณคือผู้เชี่ยวชาญด้านความปลอดภัยและความเป็นส่วนตัวในทีมพัฒนาแอป และเป้าหมายของคุณคือการสร้างเวิร์กโฟลว์ที่ระบุข้อมูลที่ละเอียดอ่อนและลบข้อมูลที่ระบุตัวบุคคลได้ก่อนที่จะทำให้ข้อมูลพร้อมใช้งานสำหรับนักพัฒนาแอปและโมเดล ทีมของคุณต้องการข้อมูลคุณภาพสูงที่สมจริงเพื่อปรับแต่งและทดสอบแอปพลิเคชัน Generative AI ใหม่ แต่การใช้ข้อมูลลูกค้าดิบๆ ทำให้เกิดความท้าทายด้านความเป็นส่วนตัวอย่างมาก

ตารางต่อไปนี้แสดงความเสี่ยงด้านความเป็นส่วนตัวที่คุณกังวลมากที่สุดและต้องการลดความเสี่ยง

ความเสี่ยง

การลดปัญหา

การเปิดเผย PII ในไฟล์ข้อความที่ไม่มีโครงสร้าง (เช่น บันทึกการแชทกับทีมสนับสนุน แบบฟอร์มความคิดเห็น)

สร้างเทมเพลตการลบข้อมูลระบุตัวบุคคลที่แทนที่ค่าที่ละเอียดอ่อนด้วย infoType โดยคงบริบทไว้ในขณะที่นำการเปิดเผยออก

การสูญเสียประโยชน์ของข้อมูลในชุดข้อมูลที่มีโครงสร้าง (CSV) เมื่อนำ PII ออก

ใช้การเปลี่ยนรูปแบบระเบียนเพื่อปกปิดตัวระบุ (เช่น ชื่อ) อย่างเลือกสรร และใช้เทคนิคต่างๆ เช่น การมาสก์อักขระเพื่อรักษาอักขระอื่นๆ ในสตริง เพื่อให้นักพัฒนาซอฟต์แวร์ยังคงทดสอบกับข้อมูลได้

การเปิดเผย PII จากข้อความที่ฝังในรูปภาพ (เช่น เอกสารที่สแกน รูปภาพของผู้ใช้)

สร้างเทมเพลตการลบการระบุตัวตนเฉพาะรูปภาพที่ปกปิดข้อความที่พบในรูปภาพ

การปกปิดข้อมูลด้วยตนเองที่ไม่สอดคล้องกันหรือมีข้อผิดพลาดในข้อมูลประเภทต่างๆ

กําหนดค่างานการปกป้องข้อมูลที่ละเอียดอ่อนแบบอัตโนมัติเพียงงานเดียวซึ่งใช้เทมเพลตการลบข้อมูลระบุตัวบุคคล (De-identification) ที่ถูกต้องอย่างสม่ำเสมอตามประเภทไฟล์ที่ประมวลผล

สิ่งที่คุณจะได้เรียนรู้

ในแล็บนี้ คุณจะได้เรียนรู้วิธีทำสิ่งต่อไปนี้

  • กําหนดเทมเพลตการตรวจสอบเพื่อตรวจหาข้อมูลที่ละเอียดอ่อนประเภทที่เฉพาะเจาะจง (infoType)
  • สร้างกฎการลบข้อมูลระบุตัวบุคคลที่แตกต่างกันสำหรับข้อมูลที่ไม่มีโครงสร้าง ข้อมูลที่มีโครงสร้าง และข้อมูลรูปภาพ
  • กำหนดค่าและเรียกใช้เพียงงานเดียวที่ใช้การปกปิดข้อมูลที่ถูกต้องโดยอัตโนมัติตามประเภทไฟล์กับเนื้อหาของทั้ง Bucket
  • ยืนยันการแปลงข้อมูลที่ละเอียดอ่อนในตำแหน่งเอาต์พุตที่ปลอดภัยว่าสำเร็จ

2. การตั้งค่าโปรเจ็กต์

บัญชี Google

หากยังไม่มีบัญชี Google ส่วนบุคคล คุณต้องสร้างบัญชี Google

ใช้บัญชีส่วนตัวแทนบัญชีของที่ทำงานหรือโรงเรียน

ลงชื่อเข้าใช้ Google Cloud Console

ลงชื่อเข้าใช้ Google Cloud Console โดยใช้บัญชี Google ส่วนตัว

เปิดใช้การเรียกเก็บเงิน

แลกรับเครดิต Google Cloud มูลค่า $5 (ไม่บังคับ)

หากต้องการจัดเวิร์กช็อปนี้ คุณต้องมีบัญชีสำหรับการเรียกเก็บเงินที่มีเครดิตอยู่บ้าง หากวางแผนที่จะใช้การเรียกเก็บเงินของคุณเอง ให้ข้ามขั้นตอนนี้

  1. คลิกลิงก์นี้ แล้วลงชื่อเข้าใช้ด้วยบัญชี Google ส่วนบุคคล คุณจะเห็นข้อความคล้ายกับนี้คลิกที่นี่เพื่อดูหน้าเครดิต
  2. คลิกปุ่มคลิกที่นี่เพื่อเข้าถึงเครดิต ระบบจะนำคุณไปยังหน้าเพื่อตั้งค่าโปรไฟล์การเรียกเก็บเงินตั้งค่าหน้าโปรไฟล์การเรียกเก็บเงิน
  3. คลิกยืนยัน ตอนนี้คุณเชื่อมต่อกับบัญชีสำหรับการเรียกเก็บเงินของ Google Cloud Platform เวอร์ชันทดลองใช้งานแล้วภาพหน้าจอของภาพรวมการเรียกเก็บเงิน

ตั้งค่าบัญชีสำหรับการเรียกเก็บเงินส่วนตัว

หากตั้งค่าการเรียกเก็บเงินโดยใช้เครดิต Google Cloud คุณจะข้ามขั้นตอนนี้ได้

หากต้องการตั้งค่าบัญชีสำหรับการเรียกเก็บเงินส่วนตัว ให้ไปที่นี่เพื่อเปิดใช้การเรียกเก็บเงินใน Cloud Console

ข้อควรทราบ

  • การทำแล็บนี้ควรมีค่าใช้จ่ายน้อยกว่า $1 USD ในทรัพยากรระบบคลาวด์
  • คุณสามารถทำตามขั้นตอนที่ส่วนท้ายของแล็บนี้เพื่อลบทรัพยากรเพื่อหลีกเลี่ยงการเรียกเก็บเงินเพิ่มเติม
  • ผู้ใช้ใหม่มีสิทธิ์ใช้ช่วงทดลองใช้ฟรีมูลค่า$300 USD

สร้างโปรเจ็กต์ (ไม่บังคับ)

หากไม่มีโปรเจ็กต์ปัจจุบันที่ต้องการใช้สำหรับแล็บนี้ ให้สร้างโปรเจ็กต์ใหม่ที่นี่

3. เปิดใช้ API

กำหนดค่า Cloud Shell

เมื่อสร้างโปรเจ็กต์เรียบร้อยแล้ว ให้ทำตามขั้นตอนต่อไปนี้เพื่อตั้งค่า Cloud Shell

เปิดใช้ Cloud Shell

ไปที่ shell.cloud.google.com และหากเห็นป๊อปอัปขอให้คุณให้สิทธิ์ ให้คลิกให้สิทธิ์

ตั้งค่ารหัสโปรเจ็กต์

เรียกใช้คำสั่งต่อไปนี้ในเทอร์มินัล Cloud Shell เพื่อตั้งค่ารหัสโปรเจ็กต์ที่ถูกต้อง แทนที่ <your-project-id> ด้วยรหัสโปรเจ็กต์จริงที่คัดลอกจากขั้นตอนการสร้างโปรเจ็กต์ด้านบน

gcloud config set project <your-project-id>

ตอนนี้คุณควรเห็นว่าได้เลือกโปรเจ็กต์ที่ถูกต้องภายในเทอร์มินัล Cloud Shell แล้ว

เปิดใช้การคุ้มครองข้อมูลที่ละเอียดอ่อน

หากต้องการใช้บริการการปกป้องข้อมูลที่ละเอียดอ่อนและ Cloud Storage คุณต้องตรวจสอบว่าได้เปิดใช้ API เหล่านี้ในโปรเจ็กต์ Google Cloud แล้ว

  1. เปิดใช้ API ในเทอร์มินัลโดยทำดังนี้
    gcloud services enable dlp.googleapis.com storage.googleapis.com
    

หรือคุณจะเปิดใช้ API เหล่านี้ได้โดยไปที่ความปลอดภัย > การป้องกันข้อมูลที่ละเอียดอ่อนและ Cloud Storage ในคอนโซล แล้วคลิกปุ่มเปิดใช้หากระบบแจ้งสำหรับแต่ละบริการ

4. สร้างที่เก็บข้อมูลที่มีข้อมูลที่ละเอียดอ่อน

สร้างที่เก็บข้อมูลอินพุตและเอาต์พุต

ในขั้นตอนนี้ คุณจะสร้าง 2 บัคเก็ต ได้แก่ บัคเก็ตหนึ่งสำหรับจัดเก็บข้อมูลที่ละเอียดอ่อนซึ่งต้องตรวจสอบ และอีกบัคเก็ตหนึ่งที่การปกป้องข้อมูลที่ละเอียดอ่อนจะจัดเก็บไฟล์เอาต์พุตที่ลบข้อมูลระบุตัวบุคคลออก นอกจากนี้ คุณยังดาวน์โหลดไฟล์ข้อมูลตัวอย่างและอัปโหลดไปยังที่เก็บข้อมูลอินพุตได้ด้วย

  1. ในเทอร์มินัล ให้เรียกใช้คำสั่งต่อไปนี้เพื่อสร้างที่เก็บข้อมูล 1 รายการสำหรับข้อมูลนำเข้าและอีก 1 รายการสำหรับเอาต์พุต จากนั้นป้อนข้อมูลตัวอย่างจาก gs://dlp-codelab-data ลงในที่เก็บข้อมูลนำเข้า
    PROJECT_ID=$(gcloud config get-value project)
    gsutil mb gs://input-$PROJECT_ID
    gsutil mb gs://output-$PROJECT_ID
    

เพิ่มข้อมูลที่ละเอียดอ่อนลงในที่เก็บข้อมูลอินพุต

ในขั้นตอนนี้ คุณจะดาวน์โหลดไฟล์ข้อมูลตัวอย่างที่มี PII สำหรับทดสอบจาก GitHub และอัปโหลดไปยังที่เก็บข้อมูลอินพุต

  1. ใน Cloud Shell ให้เรียกใช้คำสั่งต่อไปนี้เพื่อโคลนที่เก็บ devrel-demos ซึ่งมีข้อมูลตัวอย่างที่จำเป็นสำหรับแล็บนี้
    REPO_URL="https://github.com/GoogleCloudPlatform/devrel-demos.git"
    TARGET_PATH="security/sample-data"
    OUTPUT_FOLDER="sample-data"
    
    git clone --quiet --depth 1 --filter=blob:none --sparse "$REPO_URL" temp_loader
    cd temp_loader
    git sparse-checkout set "$TARGET_PATH"
    cd ..
    mv "temp_loader/$TARGET_PATH" "$OUTPUT_FOLDER"
    rm -rf temp_loader
    
  2. จากนั้นคัดลอกข้อมูลตัวอย่างไปยังที่เก็บข้อมูลอินพุตที่คุณสร้างไว้ก่อนหน้านี้
    gsutil -m cp -r sample-data/* gs://input-$PROJECT_ID/
    
  3. ไปที่ Cloud Storage > ที่เก็บข้อมูล แล้วคลิกที่เก็บข้อมูลอินพุตเพื่อดูข้อมูลที่คุณนำเข้า

5. สร้างเทมเพลตการตรวจสอบ

ในงานนี้ คุณจะสร้างเทมเพลตที่บอก Sensitive Data Protection ว่าควรค้นหาอะไร ซึ่งจะช่วยให้คุณมุ่งเน้นการตรวจสอบไปที่ infoTypes ที่เกี่ยวข้องกับข้อมูลและภูมิศาสตร์ของคุณ ซึ่งจะช่วยปรับปรุงประสิทธิภาพและความแม่นยำ

สร้างเทมเพลตการตรวจสอบ

ในขั้นตอนนี้ คุณจะกำหนดกฎสำหรับสิ่งที่ถือเป็นข้อมูลที่ละเอียดอ่อนซึ่งต้องตรวจสอบ งานการลบการระบุตัวตนจะนำเทมเพลตนี้กลับมาใช้ใหม่เพื่อให้มั่นใจถึงความสอดคล้องกัน

  1. จากเมนูการนำทาง ให้ไปที่การปกป้องข้อมูลที่ละเอียดอ่อน > การกำหนดค่า > เทมเพลต
  2. คลิกสร้างเทมเพลต
  3. เลือกตรวจสอบ (ค้นหาข้อมูลที่ละเอียดอ่อน) ในส่วนประเภทเทมเพลต
  4. ตั้งค่ารหัสเทมเพลตเป็น pii-finder
  5. ดำเนินการต่อเพื่อกำหนดค่าการตรวจหา
  6. คลิกจัดการ infoTypes
  7. ใช้ตัวกรองเพื่อค้นหา infoTypes ต่อไปนี้ แล้วเลือกช่องทำเครื่องหมายข้างแต่ละรายการ
    • CREDIT_CARD_EXPIRATION_DATE
    • CREDIT_CARD_NUMBER
    • DATE_OF_BIRTH
    • DRIVERS_LICENSE_NUMBER
    • EMAIL_ADDRESS
    • GCP_API_KEY
    • GCP_CREDENTIALS
    • ORGANIZATION_NAME
    • PASSWORD
    • PERSON_NAME
    • PHONE_NUMBER
    • US_SOCIAL_SECURITY_NUMBER
  8. เลือกรายการอื่นๆ ที่คุณสนใจด้วย แล้วคลิกเสร็จสิ้น
  9. ตรวจสอบตารางผลลัพธ์เพื่อให้แน่ใจว่าได้เพิ่ม InfoType เหล่านี้ทั้งหมดแล้ว
  10. คลิกสร้าง

6. สร้างเทมเพลตการไม่ระบุตัวตน

จากนั้นสร้างเทมเพลตการลบข้อมูลระบุตัวบุคคล 3 รายการแยกกันเพื่อจัดการรูปแบบข้อมูลต่างๆ ซึ่งจะช่วยให้คุณควบคุมกระบวนการแปลงได้อย่างละเอียด โดยใช้วิธีที่เหมาะสมที่สุดสำหรับไฟล์แต่ละประเภท เทมเพลตเหล่านี้จะทำงานร่วมกับเทมเพลตการตรวจสอบที่คุณเพิ่งสร้าง

สร้างเทมเพลตสำหรับข้อมูลที่ไม่มีโครงสร้าง

เทมเพลตนี้จะกำหนดวิธียกเลิกการระบุตัวตนของข้อมูลที่ละเอียดอ่อนซึ่งพบในข้อความแบบอิสระ เช่น บันทึกการแชทหรือแบบฟอร์มความคิดเห็น วิธีที่เลือกจะแทนที่ค่าที่ละเอียดอ่อนด้วยชื่อ infoType ของค่าดังกล่าว โดยยังคงบริบทไว้

  1. ในหน้าเทมเพลต ให้คลิกสร้างเทมเพลต
  2. กำหนดเทมเพลตการไม่ระบุตัวตน

    พร็อพเพอร์ตี้

    ค่า (พิมพ์หรือเลือก)

    ประเภทเทมเพลต

    ไม่ระบุตัวตน (ลบข้อมูลที่ละเอียดอ่อน)

    ประเภทการเปลี่ยนรูปแบบข้อมูล

    infoType

    รหัสเทมเพลต

    de-identify-unstructured

  3. ดำเนินการต่อเพื่อกำหนดค่าการไม่ระบุตัวตน
    • ในส่วนวิธีการเปลี่ยนรูปแบบ ให้เลือกการเปลี่ยนรูปแบบ: แทนที่ด้วยชื่อ infoType
  4. คลิกสร้าง
  5. คลิกทดสอบ
  6. ทดสอบข้อความที่มี PII เพื่อดูว่าระบบจะแปลงข้อความอย่างไร โดยทำดังนี้
    Hi, my name is Alex and my SSN is 555-11-5555. You can reach me at +1-555-555-5555.
    

สร้างเทมเพลตสำหรับข้อมูลที่มีโครงสร้าง

เทมเพลตนี้มุ่งเน้นไปที่ข้อมูลที่ละเอียดอ่อนภายในชุดข้อมูลที่มีโครงสร้างโดยเฉพาะ เช่น ไฟล์ CSV คุณจะกำหนดค่าให้มาสก์ข้อมูลในลักษณะที่ยังคงรักษาอรรถประโยชน์ของข้อมูลไว้สำหรับการทดสอบ ในขณะที่ยังคงยกเลิกการระบุตัวตนของช่องที่ละเอียดอ่อน

  1. กลับไปที่หน้าเทมเพลต แล้วคลิกสร้างเทมเพลต
  2. กำหนดเทมเพลตการไม่ระบุตัวตน

    พร็อพเพอร์ตี้

    ค่า (พิมพ์หรือเลือก)

    ประเภทเทมเพลต

    ไม่ระบุตัวตน (ลบข้อมูลที่ละเอียดอ่อน)

    ประเภทการเปลี่ยนรูปแบบข้อมูล

    บันทึก

    รหัสเทมเพลต

    de-identify-structured

  3. ดำเนินการต่อเพื่อกำหนดค่าการลบข้อมูลระบุตัวบุคคล เนื่องจากเทมเพลตนี้ใช้กับ Structured Data เราจึงมักคาดการณ์ฟิลด์หรือคอลัมน์ที่จะมีข้อมูลที่ละเอียดอ่อนบางประเภทได้ คุณทราบว่า CSV ที่แอปพลิเคชันใช้มีอีเมลของผู้ใช้ในส่วน user_id และ message มักจะมี PII จากการโต้ตอบกับลูกค้า คุณไม่ต้องกังวลเกี่ยวกับการมาสก์ agent_id เนื่องจากเป็นพนักงานและการสนทนาควรระบุแหล่งที่มาได้ กรอกข้อมูลในส่วนนี้ดังนี้
    • ฟิลด์หรือคอลัมน์ที่จะเปลี่ยนรูปแบบ: user_id, message
    • ประเภทการเปลี่ยนรูปแบบ: จับคู่ด้วย infoType
    • วิธีการเปลี่ยนรูปแบบ: คลิกเพิ่มการเปลี่ยนรูปแบบ
      • การแปลง: มาสก์ด้วยอักขระ
      • อักขระที่ไม่ต้องสนใจ: เครื่องหมายวรรคตอนของสหรัฐอเมริกา
  4. คลิกสร้าง

สร้างเทมเพลตสำหรับข้อมูลรูปภาพ

เทมเพลตนี้ออกแบบมาเพื่อยกเลิกการระบุตัวตนของข้อความที่มีความละเอียดอ่อนซึ่งฝังอยู่ในรูปภาพ เช่น เอกสารที่สแกนหรือรูปภาพที่ผู้ใช้ส่ง โดยใช้การรู้จำอักขระด้วยภาพ (OCR) เพื่อตรวจหาและปกปิด PII

  1. กลับไปที่หน้าเทมเพลต แล้วคลิกสร้างเทมเพลต
  2. กำหนดเทมเพลตการไม่ระบุตัวตน

    พร็อพเพอร์ตี้

    ค่า (พิมพ์หรือเลือก)

    ประเภทเทมเพลต

    ไม่ระบุตัวตน (ลบข้อมูลที่ละเอียดอ่อน)

    ประเภทการเปลี่ยนรูปแบบข้อมูล

    รูปภาพ

    รหัสเทมเพลต

    de-identify-image

  3. ดำเนินการต่อเพื่อกำหนดค่าการไม่ระบุตัวตน
    • infoType ที่ต้องเปลี่ยนรูปแบบ: infoType ที่ตรวจพบซึ่งระบุไว้ในเทมเพลตการตรวจสอบหรือการกำหนดค่าการตรวจสอบที่ไม่ได้ระบุไว้ในกฎอื่นๆ
  4. คลิกสร้าง

7. สร้างและเรียกใช้งานการไม่ระบุตัวตน

เมื่อกำหนดเทมเพลตแล้ว ตอนนี้คุณก็สร้างงานเดียวที่ใช้เทมเพลตการลบข้อมูลระบุตัวบุคคล (De-identification) ที่ถูกต้องตามประเภทไฟล์ที่ตรวจพบและตรวจสอบได้ ซึ่งจะช่วยทำให้กระบวนการคุ้มครองข้อมูลที่ละเอียดอ่อนสำหรับข้อมูลที่จัดเก็บไว้ใน Cloud Storage เป็นไปโดยอัตโนมัติ

กำหนดค่าข้อมูลอินพุต

ในขั้นตอนนี้ คุณจะระบุแหล่งที่มาของข้อมูลที่ต้องทำการลบข้อมูลระบุตัวบุคคล ซึ่งก็คือที่เก็บข้อมูล Cloud Storage ที่มีไฟล์ประเภทต่างๆ ที่มีข้อมูลที่ละเอียดอ่อน

  1. ไปที่ความปลอดภัย > การปกป้องข้อมูลที่ละเอียดอ่อนผ่านแถบค้นหา
  2. คลิกการตรวจสอบในเมนู
  3. คลิกสร้างงานและทริกเกอร์งาน
  4. กำหนดค่างาน

    พร็อพเพอร์ตี้

    ค่า (พิมพ์หรือเลือก)

    รหัสงาน

    pii-remover

    ประเภทพื้นที่เก็บข้อมูล

    Google Cloud Storage

    ประเภทสถานที่ตั้ง

    สแกนที่เก็บข้อมูลที่มีกฎรวม/ไม่รวมที่ไม่บังคับ

    ชื่อที่เก็บข้อมูล

    input-[your-project-id]

กำหนดค่าการตรวจหาและการดำเนินการ

ตอนนี้คุณจะลิงก์เทมเพลตที่สร้างไว้ก่อนหน้านี้กับงานนี้ เพื่อบอกการปกป้องข้อมูลที่ละเอียดอ่อนว่าจะตรวจสอบ PII อย่างไรและใช้วิธีการลบข้อมูลระบุตัวบุคคลใดตามประเภทเนื้อหา

  1. เทมเพลตการตรวจสอบ: projects/[your-project-id]/locations/global/inspectTemplates/pii-finder
  2. ในส่วนเพิ่มการดำเนินการ ให้เลือกทำสำเนาที่ลบข้อมูลที่ระบุตัวบุคคลได้ แล้วกำหนดค่าเทมเพลตการเปลี่ยนรูปแบบให้เป็นเทมเพลตที่คุณสร้างขึ้น
  3. ป๊อปอัปจะเปิดขึ้นเพื่อให้คุณConfirm whether you want to de-identify the findings คลิกปิดใช้การสุ่มตัวอย่าง

    ภาพหน้าจอของป๊อปอัปที่ขอให้ปิดใช้การสุ่มตัวอย่าง

    พร็อพเพอร์ตี้

    ค่า (พิมพ์หรือเลือก)

    เทมเพลตการลบการระบุตัวตน

    projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-unstructured

    เทมเพลตการลบการระบุตัวตนที่มีโครงสร้าง

    projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-structured

    เทมเพลตการปกปิดข้อมูลในรูปภาพ

    projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-image

  4. กำหนดค่าตำแหน่งเอาต์พุตของ Cloud Storage
    • URL: gs://output-[your-project-id]
  5. ในส่วนกำหนดเวลา ให้ปล่อยให้การเลือกเป็นไม่มีเพื่อเรียกใช้ชื่องานทันที
  6. คลิกสร้าง
  7. ป๊อปอัปจะเปิดขึ้นเพื่อ Confirm job or job trigger create ให้คลิกยืนยันการสร้าง

    ภาพหน้าจอของป๊อปอัป &quot;ยืนยันการสร้างทริกเกอร์งานหรืองาน&quot;

8. ยืนยันผลการค้นหา

ขั้นตอนสุดท้ายคือการยืนยันว่าข้อมูลที่ละเอียดอ่อนได้รับการปกปิดอย่างถูกต้องและสำเร็จในไฟล์ทุกประเภทในที่เก็บข้อมูลเอาต์พุต ซึ่งจะช่วยให้มั่นใจได้ว่าไปป์ไลน์การลบข้อมูลระบุตัวบุคคลจะทำงานได้ตามที่คาดไว้

ตรวจสอบสถานะงาน

ตรวจสอบงานเพื่อให้แน่ใจว่างานเสร็จสมบูรณ์และตรวจสอบสรุปผลการค้นหาก่อนตรวจสอบไฟล์เอาต์พุต

  1. ในแท็บรายละเอียดงาน ให้รอจนกว่างานจะแสดงสถานะเป็นเสร็จสิ้น
  2. ในส่วนภาพรวม ให้ตรวจสอบจำนวนผลการตรวจสอบและเปอร์เซ็นต์ของ infoType แต่ละรายการที่ตรวจพบ
  3. คลิกการกำหนดค่า
  4. เลื่อนลงไปที่การดำเนินการ แล้วคลิกที่ถังเอาต์พุตเพื่อดูข้อมูลที่ลบข้อมูลระบุตัวบุคคลออก gs://output-[your-project-id]

เปรียบเทียบไฟล์อินพุตและเอาต์พุต

ในขั้นตอนนี้ คุณจะตรวจสอบไฟล์ที่ลบข้อมูลที่ระบุตัวบุคคลออกด้วยตนเองเพื่อยืนยันว่าได้ใช้การล้างข้อมูลอย่างถูกต้องตามเทมเพลต

  1. รูปภาพ: เปิดรูปภาพจากที่เก็บข้อมูลเอาต์พุต ตรวจสอบว่าข้อความที่มีความละเอียดอ่อนทั้งหมดได้รับการปกปิดในไฟล์เอาต์พุตแล้ว

    ภาพหน้าจอของรูปภาพแบบฟอร์มที่ระบบปกปิด PII ด้วยกล่องสีดำ

  2. บันทึกที่ไม่มีโครงสร้าง: ดูไฟล์บันทึกจากทั้ง 2 บัคเก็ต ยืนยันว่าระบบได้แทนที่ PII ในบันทึกเอาต์พุตด้วยชื่อ infoType แล้ว (เช่น [US_SOCIAL_SECURITY_NUMBER])
  3. CSV ที่มีโครงสร้าง: เปิดไฟล์ CSV จากทั้ง 2 บัคเก็ต ตรวจสอบว่าอีเมลผู้ใช้และหมายเลขประกันสังคมในไฟล์เอาต์พุตมาสก์ด้วย ####@####.com

    ภาพหน้าจอเปรียบเทียบข้อมูล CSV ดิบ (แสดงอีเมลและหมายเลขประกันสังคม) กับข้อมูล CSV ที่มีการปกปิดข้อมูลบางส่วน (แสดงอีเมลและหมายเลขประกันสังคมที่มาสก์)

9. จากห้องทดลองสู่ความเป็นจริง: วิธีใช้ในโปรเจ็กต์ของคุณเอง

หลักการและการกำหนดค่าที่คุณใช้เป็นพิมพ์เขียวสำหรับการรักษาความปลอดภัยของโปรเจ็กต์ AI ในโลกแห่งความเป็นจริงบน Google Cloud ทรัพยากรที่คุณเพิ่งสร้าง ได้แก่ เทมเพลตการตรวจสอบ เทมเพลตการลบข้อมูลที่ระบุตัวบุคคลได้ และงานอัตโนมัติ จะทำหน้าที่เป็นเทมเพลตเริ่มต้นที่ปลอดภัยสำหรับกระบวนการนำเข้าข้อมูลใหม่

ไปป์ไลน์การล้างข้อมูลอัตโนมัติ: การนำเข้าข้อมูลที่ปลอดภัย

วิธีใช้ในการตั้งค่า

ทุกครั้งที่ทีมของคุณต้องนำเข้าข้อมูลลูกค้าดิบใหม่เพื่อการพัฒนา AI คุณจะต้องส่งข้อมูลผ่านไปป์ไลน์ที่มีงานการปกป้องข้อมูลที่ละเอียดอ่อนที่คุณกำหนดค่าไว้ คุณใช้เวิร์กโฟลว์อัตโนมัตินี้แทนการตรวจสอบและปกปิดข้อมูลด้วยตนเอง ซึ่งจะช่วยให้มั่นใจได้ว่านักวิทยาศาสตร์ด้านข้อมูลและโมเดล AI จะโต้ตอบกับข้อมูลที่นำข้อมูลระบุตัวบุคคลออกแล้วเท่านั้น ซึ่งจะช่วยลดความเสี่ยงด้านความเป็นส่วนตัวได้อย่างมาก

การเชื่อมต่อกับเวอร์ชันที่ใช้งานจริง

ในสภาพแวดล้อมที่ใช้งานจริง คุณจะต่อยอดแนวคิดนี้ได้โดยทำดังนี้

  • การทำงานอัตโนมัติด้วยทริกเกอร์งาน: คุณจะตั้งค่าทริกเกอร์งานเมื่อใดก็ตามที่มีการอัปโหลดไฟล์ใหม่ไปยังที่เก็บข้อมูล Cloud Storage ที่เป็นอินพุต แทนที่จะเรียกใช้งานด้วยตนเอง ซึ่งจะสร้างกระบวนการตรวจหาและการลบข้อมูลระบุตัวบุคคลโดยอัตโนมัติอย่างเต็มรูปแบบ
  • การผสานรวมกับที่เก็บข้อมูลขนาดใหญ่/คลังข้อมูล: โดยปกติแล้ว ข้อมูลเอาต์พุตที่ลบข้อมูลที่ระบุตัวบุคคลออกจะป้อนลงในที่เก็บข้อมูลขนาดใหญ่ที่ปลอดภัย (เช่น ใน Cloud Storage) หรือคลังข้อมูล (เช่น BigQuery) เพื่อการวิเคราะห์เพิ่มเติมและการฝึกโมเดล โดยจะมีการรักษาความเป็นส่วนตัวตลอดวงจรข้อมูล

กลยุทธ์การลบข้อมูลระบุตัวบุคคลแบบละเอียด: การสร้างสมดุลระหว่างความเป็นส่วนตัวและยูทิลิตี

วิธีใช้ในการตั้งค่า

เทมเพลตการลบข้อมูลที่ระบุตัวบุคคลได้ (ไม่มีโครงสร้าง มีโครงสร้าง รูปภาพ) ที่คุณสร้างขึ้นเป็นสิ่งสำคัญ คุณจะใช้กลยุทธ์ที่แตกต่างที่คล้ายกันตามความต้องการเฉพาะของโมเดล AI ซึ่งช่วยให้ทีมพัฒนาได้รับข้อมูลที่มีประโยชน์สูงสำหรับโมเดลโดยไม่กระทบต่อความเป็นส่วนตัว

การเชื่อมต่อกับเวอร์ชันที่ใช้งานจริง

ในสภาพแวดล้อมการใช้งานจริง การควบคุมที่ละเอียดยิ่งขึ้นนี้จะมีความสําคัญมากยิ่งขึ้นสําหรับ

  • infoType และพจนานุกรมที่กำหนดเอง: สำหรับข้อมูลที่ละเอียดอ่อนที่เฉพาะเจาะจงหรือโดเมนที่เฉพาะเจาะจง คุณจะต้องกำหนด infoType และพจนานุกรมที่กำหนดเองภายในการป้องกันข้อมูลที่ละเอียดอ่อน ซึ่งจะช่วยให้ตรวจหาได้อย่างครอบคลุมและปรับให้เหมาะกับบริบททางธุรกิจที่ไม่เหมือนใครของคุณ
  • การเข้ารหัสที่คงรูปแบบเดิม (FPE): สำหรับสถานการณ์ที่ข้อมูลที่ลบข้อมูลระบุตัวบุคคลออกแล้วต้องคงรูปแบบเดิมไว้ (เช่น หมายเลขบัตรเครดิตสำหรับการทดสอบการผสานรวม) คุณจะต้องสำรวจเทคนิคการลบข้อมูลระบุตัวบุคคลออกขั้นสูง เช่น การเข้ารหัสที่คงรูปแบบเดิม ซึ่งช่วยให้ทดสอบได้อย่างปลอดภัยด้านความเป็นส่วนตัวด้วยรูปแบบข้อมูลที่สมจริง

การตรวจสอบและการสอบบัญชี: การปฏิบัติตามข้อกำหนดอย่างต่อเนื่อง

วิธีใช้ในการตั้งค่า

คุณจะตรวจสอบบันทึกการปกป้องข้อมูลที่ละเอียดอ่อนอย่างต่อเนื่องเพื่อให้มั่นใจว่าการประมวลผลข้อมูลทั้งหมดเป็นไปตามนโยบายความเป็นส่วนตัว และไม่มีการเปิดเผยข้อมูลที่ละเอียดอ่อนโดยไม่ตั้งใจ การตรวจสอบสรุปงานและผลการค้นหาเป็นประจำเป็นส่วนหนึ่งของการตรวจสอบอย่างต่อเนื่องนี้

การเชื่อมต่อกับเวอร์ชันที่ใช้งานจริง

สําหรับระบบการผลิตที่มีประสิทธิภาพ ให้พิจารณาการกระทําสําคัญต่อไปนี้

  • ส่งผลการตรวจหาไปยังศูนย์บัญชาการรักษาความปลอดภัย: กำหนดค่างานการปกป้องข้อมูลที่ละเอียดอ่อนให้ส่งข้อมูลสรุปของผลการตรวจหาไปยังศูนย์บัญชาการรักษาความปลอดภัยโดยตรง เพื่อการจัดการภัยคุกคามแบบผสานรวมและมุมมองแบบรวมศูนย์ของท่าทีด้านความปลอดภัย ซึ่งจะรวมการแจ้งเตือนด้านความปลอดภัยและข้อมูลเชิงลึก
  • การแจ้งเตือนและการตอบสนองต่อเหตุการณ์: คุณจะตั้งค่าการแจ้งเตือนของ Cloud Monitoring ตามผลการตรวจหาของ Sensitive Data Protection หรือความล้มเหลวของงาน ซึ่งจะช่วยให้ทีมรักษาความปลอดภัยได้รับการแจ้งเตือนทันทีเมื่อมีการละเมิดนโยบายหรือปัญหาในการประมวลผลที่อาจเกิดขึ้น ทำให้สามารถตอบสนองต่อเหตุการณ์ได้อย่างรวดเร็ว

10. บทสรุป

ยินดีด้วย คุณสร้างเวิร์กโฟลว์ด้านความปลอดภัยของข้อมูลที่ค้นหาและลบข้อมูลที่ระบุตัวบุคคลนั้นได้ (PII) โดยอัตโนมัติในข้อมูลหลายประเภทได้สำเร็จแล้ว ทำให้ข้อมูลปลอดภัยสำหรับการใช้ในการพัฒนา AI และการวิเคราะห์ขั้นปลาย

สรุป

ในห้องทดลองนี้ คุณได้ทำสิ่งต่อไปนี้

  • กำหนดเทมเพลตการตรวจสอบเพื่อตรวจหาข้อมูลที่ละเอียดอ่อนประเภทใดประเภทหนึ่ง (infoType)
  • สร้างกฎการลบข้อมูลระบุตัวบุคคลที่แตกต่างกันสำหรับข้อมูลที่ไม่มีโครงสร้าง ข้อมูลที่มีโครงสร้าง และข้อมูลรูปภาพ
  • กำหนดค่าและเรียกใช้งานเดียวที่ใช้การปกปิดข้อมูลบางส่วนที่ถูกต้องโดยอัตโนมัติตามประเภทไฟล์กับเนื้อหาของทั้ง Bucket
  • ยืนยันการแปลงข้อมูลที่ละเอียดอ่อนให้สำเร็จในตำแหน่งเอาต์พุตที่ปลอดภัย

ขั้นตอนถัดไป

  • ส่งผลการสืบค้นไปยังศูนย์บัญชาการการรักษาความปลอดภัย: หากต้องการจัดการภัยคุกคามแบบผสานรวมมากขึ้น ให้กำหนดค่าการดำเนินการของงานเพื่อส่งสรุปผลการสืบค้นไปยังศูนย์บัญชาการการรักษาความปลอดภัยโดยตรง
  • ทำงานอัตโนมัติด้วย Cloud Functions: ในสภาพแวดล้อมการใช้งานจริง คุณสามารถทริกเกอร์งานตรวจสอบนี้โดยอัตโนมัติเมื่อใดก็ตามที่มีการอัปโหลดไฟล์ใหม่ไปยังที่เก็บข้อมูลอินพุตโดยใช้ Cloud Functions