การรักษาความปลอดภัยของข้อมูลที่ใช้สำหรับแอปพลิเคชัน AI

1. บทนำ

ภาพรวม

ในแล็บนี้ คุณจะได้สร้างไปป์ไลน์การล้างข้อมูลอัตโนมัติเพื่อปกป้องข้อมูลที่ละเอียดอ่อนซึ่งใช้ในการพัฒนา AI คุณใช้ Sensitive Data Protection ของ Google Cloud (เดิมคือ Cloud DLP) เพื่อตรวจสอบ จัดประเภท และลบข้อมูลที่ระบุตัวบุคคลนั้นได้ (PII) ออกจากข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้ (PII) ในรูปแบบข้อมูลต่างๆ ซึ่งรวมถึงข้อความที่ไม่มีโครงสร้าง ตารางที่มีโครงสร้าง และรูปภาพ

บริบท

คุณคือผู้เชี่ยวชาญด้านความปลอดภัยและความเป็นส่วนตัวในทีมพัฒนาแอป และเป้าหมายของคุณคือการสร้างเวิร์กโฟลว์ที่ระบุข้อมูลที่ละเอียดอ่อนและลบข้อมูลที่ระบุตัวบุคคลได้ก่อนที่จะทำให้ข้อมูลพร้อมใช้งานสำหรับนักพัฒนาแอปและโมเดล ทีมของคุณต้องการข้อมูลคุณภาพสูงที่สมจริงเพื่อปรับแต่งและทดสอบแอปพลิเคชัน Generative AI ใหม่ แต่การใช้ข้อมูลลูกค้าดิบๆ ทำให้เกิดความท้าทายด้านความเป็นส่วนตัวอย่างมาก

ตารางต่อไปนี้แสดงความเสี่ยงด้านความเป็นส่วนตัวที่คุณกังวลมากที่สุดและต้องการลดความเสี่ยง

ความเสี่ยง	การลดปัญหา
การเปิดเผย PII ในไฟล์ข้อความที่ไม่มีโครงสร้าง (เช่น บันทึกการแชทกับทีมสนับสนุน แบบฟอร์มความคิดเห็น)	สร้างเทมเพลตการลบข้อมูลระบุตัวบุคคลที่แทนที่ค่าที่ละเอียดอ่อนด้วย infoType โดยคงบริบทไว้ในขณะที่นำการเปิดเผยออก
การสูญเสียประโยชน์ของข้อมูลในชุดข้อมูลที่มีโครงสร้าง (CSV) เมื่อนำ PII ออก	ใช้การเปลี่ยนรูปแบบระเบียนเพื่อปกปิดตัวระบุ (เช่น ชื่อ) อย่างเลือกสรร และใช้เทคนิคต่างๆ เช่น การมาสก์อักขระเพื่อรักษาอักขระอื่นๆ ในสตริง เพื่อให้นักพัฒนาซอฟต์แวร์ยังคงทดสอบกับข้อมูลได้
การเปิดเผย PII จากข้อความที่ฝังในรูปภาพ (เช่น เอกสารที่สแกน รูปภาพของผู้ใช้)	สร้างเทมเพลตการลบการระบุตัวตนเฉพาะรูปภาพที่ปกปิดข้อความที่พบในรูปภาพ
การปกปิดข้อมูลด้วยตนเองที่ไม่สอดคล้องกันหรือมีข้อผิดพลาดในข้อมูลประเภทต่างๆ	กําหนดค่างานการปกป้องข้อมูลที่ละเอียดอ่อนแบบอัตโนมัติเพียงงานเดียวซึ่งใช้เทมเพลตการลบข้อมูลระบุตัวบุคคล (De-identification) ที่ถูกต้องอย่างสม่ำเสมอตามประเภทไฟล์ที่ประมวลผล

สิ่งที่คุณจะได้เรียนรู้

ในแล็บนี้ คุณจะได้เรียนรู้วิธีทำสิ่งต่อไปนี้

กําหนดเทมเพลตการตรวจสอบเพื่อตรวจหาข้อมูลที่ละเอียดอ่อนประเภทที่เฉพาะเจาะจง (infoType)
สร้างกฎการลบข้อมูลระบุตัวบุคคลที่แตกต่างกันสำหรับข้อมูลที่ไม่มีโครงสร้าง ข้อมูลที่มีโครงสร้าง และข้อมูลรูปภาพ
กำหนดค่าและเรียกใช้เพียงงานเดียวที่ใช้การปกปิดข้อมูลที่ถูกต้องโดยอัตโนมัติตามประเภทไฟล์กับเนื้อหาของทั้ง Bucket
ยืนยันการแปลงข้อมูลที่ละเอียดอ่อนในตำแหน่งเอาต์พุตที่ปลอดภัยว่าสำเร็จ

2. การตั้งค่าโปรเจ็กต์

บัญชี Google

หากยังไม่มีบัญชี Google ส่วนบุคคล คุณต้องสร้างบัญชี Google

ใช้บัญชีส่วนตัวแทนบัญชีของที่ทำงานหรือโรงเรียน

ลงชื่อเข้าใช้ Google Cloud Console โดยใช้บัญชี Google ส่วนตัว

เปิดใช้การเรียกเก็บเงิน

แลกรับเครดิต Google Cloud มูลค่า $5 (ไม่บังคับ)

หากต้องการจัดเวิร์กช็อปนี้ คุณต้องมีบัญชีสำหรับการเรียกเก็บเงินที่มีเครดิตอยู่บ้าง หากวางแผนที่จะใช้การเรียกเก็บเงินของคุณเอง ให้ข้ามขั้นตอนนี้

คลิกลิงก์นี้ แล้วลงชื่อเข้าใช้ด้วยบัญชี Google ส่วนบุคคล คุณจะเห็นข้อความคล้ายกับนี้
คลิกปุ่มคลิกที่นี่เพื่อเข้าถึงเครดิต ระบบจะนำคุณไปยังหน้าเพื่อตั้งค่าโปรไฟล์การเรียกเก็บเงิน
คลิกยืนยัน ตอนนี้คุณเชื่อมต่อกับบัญชีสำหรับการเรียกเก็บเงินของ Google Cloud Platform เวอร์ชันทดลองใช้งานแล้ว

ตั้งค่าบัญชีสำหรับการเรียกเก็บเงินส่วนตัว

หากตั้งค่าการเรียกเก็บเงินโดยใช้เครดิต Google Cloud คุณจะข้ามขั้นตอนนี้ได้

หากต้องการตั้งค่าบัญชีสำหรับการเรียกเก็บเงินส่วนตัว ให้ไปที่นี่เพื่อเปิดใช้การเรียกเก็บเงินใน Cloud Console

ข้อควรทราบ

การทำแล็บนี้ควรมีค่าใช้จ่ายน้อยกว่า $1 USD ในทรัพยากรระบบคลาวด์
คุณสามารถทำตามขั้นตอนที่ส่วนท้ายของแล็บนี้เพื่อลบทรัพยากรเพื่อหลีกเลี่ยงการเรียกเก็บเงินเพิ่มเติม
ผู้ใช้ใหม่มีสิทธิ์ใช้ช่วงทดลองใช้ฟรีมูลค่า$300 USD

สร้างโปรเจ็กต์ (ไม่บังคับ)

หากไม่มีโปรเจ็กต์ปัจจุบันที่ต้องการใช้สำหรับแล็บนี้ ให้สร้างโปรเจ็กต์ใหม่ที่นี่

3. เปิดใช้ API

กำหนดค่า Cloud Shell

เมื่อสร้างโปรเจ็กต์เรียบร้อยแล้ว ให้ทำตามขั้นตอนต่อไปนี้เพื่อตั้งค่า Cloud Shell

เปิดใช้ Cloud Shell

ไปที่ shell.cloud.google.com และหากเห็นป๊อปอัปขอให้คุณให้สิทธิ์ ให้คลิกให้สิทธิ์

ตั้งค่ารหัสโปรเจ็กต์

เรียกใช้คำสั่งต่อไปนี้ในเทอร์มินัล Cloud Shell เพื่อตั้งค่ารหัสโปรเจ็กต์ที่ถูกต้อง แทนที่ <your-project-id> ด้วยรหัสโปรเจ็กต์จริงที่คัดลอกจากขั้นตอนการสร้างโปรเจ็กต์ด้านบน

gcloud config set project <your-project-id>

ตอนนี้คุณควรเห็นว่าได้เลือกโปรเจ็กต์ที่ถูกต้องภายในเทอร์มินัล Cloud Shell แล้ว

เปิดใช้การคุ้มครองข้อมูลที่ละเอียดอ่อน

หากต้องการใช้บริการการปกป้องข้อมูลที่ละเอียดอ่อนและ Cloud Storage คุณต้องตรวจสอบว่าได้เปิดใช้ API เหล่านี้ในโปรเจ็กต์ Google Cloud แล้ว

เปิดใช้ API ในเทอร์มินัลโดยทำดังนี้
```
gcloud services enable dlp.googleapis.com storage.googleapis.com
```

หรือคุณจะเปิดใช้ API เหล่านี้ได้โดยไปที่ความปลอดภัย > การป้องกันข้อมูลที่ละเอียดอ่อนและ Cloud Storage ในคอนโซล แล้วคลิกปุ่มเปิดใช้หากระบบแจ้งสำหรับแต่ละบริการ

4. สร้างที่เก็บข้อมูลที่มีข้อมูลที่ละเอียดอ่อน

สร้างที่เก็บข้อมูลอินพุตและเอาต์พุต

ในขั้นตอนนี้ คุณจะสร้าง 2 บัคเก็ต ได้แก่ บัคเก็ตหนึ่งสำหรับจัดเก็บข้อมูลที่ละเอียดอ่อนซึ่งต้องตรวจสอบ และอีกบัคเก็ตหนึ่งที่การปกป้องข้อมูลที่ละเอียดอ่อนจะจัดเก็บไฟล์เอาต์พุตที่ลบข้อมูลระบุตัวบุคคลออก นอกจากนี้ คุณยังดาวน์โหลดไฟล์ข้อมูลตัวอย่างและอัปโหลดไปยังที่เก็บข้อมูลอินพุตได้ด้วย

ในเทอร์มินัล ให้เรียกใช้คำสั่งต่อไปนี้เพื่อสร้างที่เก็บข้อมูล 1 รายการสำหรับข้อมูลนำเข้าและอีก 1 รายการสำหรับเอาต์พุต จากนั้นป้อนข้อมูลตัวอย่างจาก gs://dlp-codelab-data ลงในที่เก็บข้อมูลนำเข้า
```
PROJECT_ID=$(gcloud config get-value project)
gsutil mb gs://input-$PROJECT_ID
gsutil mb gs://output-$PROJECT_ID
```

เพิ่มข้อมูลที่ละเอียดอ่อนลงในที่เก็บข้อมูลอินพุต

ในขั้นตอนนี้ คุณจะดาวน์โหลดไฟล์ข้อมูลตัวอย่างที่มี PII สำหรับทดสอบจาก GitHub และอัปโหลดไปยังที่เก็บข้อมูลอินพุต

ใน Cloud Shell ให้เรียกใช้คำสั่งต่อไปนี้เพื่อโคลนที่เก็บ devrel-demos ซึ่งมีข้อมูลตัวอย่างที่จำเป็นสำหรับแล็บนี้

REPO_URL="https://github.com/GoogleCloudPlatform/devrel-demos.git"
TARGET_PATH="security/sample-data"
OUTPUT_FOLDER="sample-data"

git clone --quiet --depth 1 --filter=blob:none --sparse "$REPO_URL" temp_loader
cd temp_loader
git sparse-checkout set "$TARGET_PATH"
cd ..
mv "temp_loader/$TARGET_PATH" "$OUTPUT_FOLDER"
rm -rf temp_loader

จากนั้นคัดลอกข้อมูลตัวอย่างไปยังที่เก็บข้อมูลอินพุตที่คุณสร้างไว้ก่อนหน้านี้
```
gsutil -m cp -r sample-data/* gs://input-$PROJECT_ID/
```
ไปที่ Cloud Storage > ที่เก็บข้อมูล แล้วคลิกที่เก็บข้อมูลอินพุตเพื่อดูข้อมูลที่คุณนำเข้า
ระบบอาจใช้เวลาสักครู่ในการแสดงไฟล์และที่เก็บข้อมูล ดังนั้นหากหน้าเว็บว่างเปล่าทันทีหลังจากนำเข้าข้อมูลตัวอย่าง โปรดรอสักครู่แล้วรีเฟรช

5. สร้างเทมเพลตการตรวจสอบ

ในงานนี้ คุณจะสร้างเทมเพลตที่บอก Sensitive Data Protection ว่าควรค้นหาอะไร ซึ่งจะช่วยให้คุณมุ่งเน้นการตรวจสอบไปที่ infoTypes ที่เกี่ยวข้องกับข้อมูลและภูมิศาสตร์ของคุณ ซึ่งจะช่วยปรับปรุงประสิทธิภาพและความแม่นยำ

สร้างเทมเพลตการตรวจสอบ

ในขั้นตอนนี้ คุณจะกำหนดกฎสำหรับสิ่งที่ถือเป็นข้อมูลที่ละเอียดอ่อนซึ่งต้องตรวจสอบ งานการลบการระบุตัวตนจะนำเทมเพลตนี้กลับมาใช้ใหม่เพื่อให้มั่นใจถึงความสอดคล้องกัน

จากเมนูการนำทาง ให้ไปที่การปกป้องข้อมูลที่ละเอียดอ่อน > การกำหนดค่า > เทมเพลต
คลิกสร้างเทมเพลต
เลือกตรวจสอบ (ค้นหาข้อมูลที่ละเอียดอ่อน) ในส่วนประเภทเทมเพลต
ตั้งค่ารหัสเทมเพลตเป็น pii-finder
ดำเนินการต่อเพื่อกำหนดค่าการตรวจหา
คลิกจัดการ infoTypes
ใช้ตัวกรองเพื่อค้นหา infoTypes ต่อไปนี้ แล้วเลือกช่องทำเครื่องหมายข้างแต่ละรายการ
- CREDIT_CARD_EXPIRATION_DATE
- CREDIT_CARD_NUMBER
- DATE_OF_BIRTH
- DRIVERS_LICENSE_NUMBER
- EMAIL_ADDRESS
- GCP_API_KEY
- GCP_CREDENTIALS
- ORGANIZATION_NAME
- PASSWORD
- PERSON_NAME
- PHONE_NUMBER
- US_SOCIAL_SECURITY_NUMBER
เลือกรายการอื่นๆ ที่คุณสนใจด้วย แล้วคลิกเสร็จสิ้น
ตรวจสอบตารางผลลัพธ์เพื่อให้แน่ใจว่าได้เพิ่ม InfoType เหล่านี้ทั้งหมดแล้ว
คลิกสร้าง

6. สร้างเทมเพลตการไม่ระบุตัวตน

จากนั้นสร้างเทมเพลตการลบข้อมูลระบุตัวบุคคล 3 รายการแยกกันเพื่อจัดการรูปแบบข้อมูลต่างๆ ซึ่งจะช่วยให้คุณควบคุมกระบวนการแปลงได้อย่างละเอียด โดยใช้วิธีที่เหมาะสมที่สุดสำหรับไฟล์แต่ละประเภท เทมเพลตเหล่านี้จะทำงานร่วมกับเทมเพลตการตรวจสอบที่คุณเพิ่งสร้าง

สร้างเทมเพลตสำหรับข้อมูลที่ไม่มีโครงสร้าง

เทมเพลตนี้จะกำหนดวิธียกเลิกการระบุตัวตนของข้อมูลที่ละเอียดอ่อนซึ่งพบในข้อความแบบอิสระ เช่น บันทึกการแชทหรือแบบฟอร์มความคิดเห็น วิธีที่เลือกจะแทนที่ค่าที่ละเอียดอ่อนด้วยชื่อ infoType ของค่าดังกล่าว โดยยังคงบริบทไว้

ในหน้าเทมเพลต ให้คลิกสร้างเทมเพลต

กำหนดเทมเพลตการไม่ระบุตัวตน

พร็อพเพอร์ตี้	ค่า (พิมพ์หรือเลือก)
ประเภทเทมเพลต	ไม่ระบุตัวตน (ลบข้อมูลที่ละเอียดอ่อน)
ประเภทการเปลี่ยนรูปแบบข้อมูล	infoType
รหัสเทมเพลต	`de-identify-unstructured`

ดำเนินการต่อเพื่อกำหนดค่าการไม่ระบุตัวตน
- ในส่วนวิธีการเปลี่ยนรูปแบบ ให้เลือกการเปลี่ยนรูปแบบ: แทนที่ด้วยชื่อ infoType
เหตุผลที่วิธีนี้มีประโยชน์: สำหรับข้อความรูปแบบอิสระ เช่น อีเมลหรือบันทึก วิธีนี้จะแทนที่ข้อมูลที่ละเอียดอ่อนด้วยประเภทของข้อมูล (เช่น "John Doe" จะกลายเป็น "[PERSON_NAME]") ซึ่งจะบอกเหตุผลที่ต้องปกปิดข้อมูลบางส่วนในขณะที่ยังคงนำ PII ออก
คลิกสร้าง
คลิกทดสอบ
ทดสอบข้อความที่มี PII เพื่อดูว่าระบบจะแปลงข้อความอย่างไร โดยทำดังนี้
```
Hi, my name is Alex and my SSN is 555-11-5555. You can reach me at +1-555-555-5555.
```

สร้างเทมเพลตสำหรับข้อมูลที่มีโครงสร้าง

เทมเพลตนี้มุ่งเน้นไปที่ข้อมูลที่ละเอียดอ่อนภายในชุดข้อมูลที่มีโครงสร้างโดยเฉพาะ เช่น ไฟล์ CSV คุณจะกำหนดค่าให้มาสก์ข้อมูลในลักษณะที่ยังคงรักษาอรรถประโยชน์ของข้อมูลไว้สำหรับการทดสอบ ในขณะที่ยังคงยกเลิกการระบุตัวตนของช่องที่ละเอียดอ่อน

กลับไปที่หน้าเทมเพลต แล้วคลิกสร้างเทมเพลต

กำหนดเทมเพลตการไม่ระบุตัวตน

พร็อพเพอร์ตี้	ค่า (พิมพ์หรือเลือก)
ประเภทเทมเพลต	ไม่ระบุตัวตน (ลบข้อมูลที่ละเอียดอ่อน)
ประเภทการเปลี่ยนรูปแบบข้อมูล	บันทึก
รหัสเทมเพลต	`de-identify-structured`

ดำเนินการต่อเพื่อกำหนดค่าการลบข้อมูลระบุตัวบุคคล เนื่องจากเทมเพลตนี้ใช้กับ Structured Data เราจึงมักคาดการณ์ฟิลด์หรือคอลัมน์ที่จะมีข้อมูลที่ละเอียดอ่อนบางประเภทได้ คุณทราบว่า CSV ที่แอปพลิเคชันใช้มีอีเมลของผู้ใช้ในส่วน user_id และ message มักจะมี PII จากการโต้ตอบกับลูกค้า คุณไม่ต้องกังวลเกี่ยวกับการมาสก์ agent_id เนื่องจากเป็นพนักงานและการสนทนาควรระบุแหล่งที่มาได้ กรอกข้อมูลในส่วนนี้ดังนี้
- ฟิลด์หรือคอลัมน์ที่จะเปลี่ยนรูปแบบ: user_id, message
- ประเภทการเปลี่ยนรูปแบบ: จับคู่ด้วย infoType
- วิธีการเปลี่ยนรูปแบบ: คลิกเพิ่มการเปลี่ยนรูปแบบ
  - การแปลง: มาสก์ด้วยอักขระ
  - อักขระที่ไม่ต้องสนใจ: เครื่องหมายวรรคตอนของสหรัฐอเมริกา
เหตุผลที่วิธีนี้มีประโยชน์: วิธีนี้จะเก็บรักษาอักขระในสตริงไว้ เพื่อให้นักพัฒนาซอฟต์แวร์ยังคงทำการตรวจสอบตามนิพจน์ทั่วไปสำหรับการทดสอบได้ นอกจากนี้ยังใช้การมาสก์กับผู้ใช้ปลายทางเพื่อแสดงข้อมูลที่จำเป็นเท่านั้นได้ด้วย เช่น ตัวเลข 4 หลักสุดท้ายของบัตรเครดิตหรือหมายเลขโทรศัพท์ โดยไม่ต้องเปิดเผยค่าทั้งหมด
คลิกสร้าง

สร้างเทมเพลตสำหรับข้อมูลรูปภาพ

เทมเพลตนี้ออกแบบมาเพื่อยกเลิกการระบุตัวตนของข้อความที่มีความละเอียดอ่อนซึ่งฝังอยู่ในรูปภาพ เช่น เอกสารที่สแกนหรือรูปภาพที่ผู้ใช้ส่ง โดยใช้การรู้จำอักขระด้วยภาพ (OCR) เพื่อตรวจหาและปกปิด PII

กลับไปที่หน้าเทมเพลต แล้วคลิกสร้างเทมเพลต

กำหนดเทมเพลตการไม่ระบุตัวตน

พร็อพเพอร์ตี้	ค่า (พิมพ์หรือเลือก)
ประเภทเทมเพลต	ไม่ระบุตัวตน (ลบข้อมูลที่ละเอียดอ่อน)
ประเภทการเปลี่ยนรูปแบบข้อมูล	รูปภาพ
รหัสเทมเพลต	`de-identify-image`

ดำเนินการต่อเพื่อกำหนดค่าการไม่ระบุตัวตน
- infoType ที่ต้องเปลี่ยนรูปแบบ: infoType ที่ตรวจพบซึ่งระบุไว้ในเทมเพลตการตรวจสอบหรือการกำหนดค่าการตรวจสอบที่ไม่ได้ระบุไว้ในกฎอื่นๆ
คลิกสร้าง

7. สร้างและเรียกใช้งานการไม่ระบุตัวตน

เมื่อกำหนดเทมเพลตแล้ว ตอนนี้คุณก็สร้างงานเดียวที่ใช้เทมเพลตการลบข้อมูลระบุตัวบุคคล (De-identification) ที่ถูกต้องตามประเภทไฟล์ที่ตรวจพบและตรวจสอบได้ ซึ่งจะช่วยทำให้กระบวนการคุ้มครองข้อมูลที่ละเอียดอ่อนสำหรับข้อมูลที่จัดเก็บไว้ใน Cloud Storage เป็นไปโดยอัตโนมัติ

กำหนดค่าข้อมูลอินพุต

ในขั้นตอนนี้ คุณจะระบุแหล่งที่มาของข้อมูลที่ต้องทำการลบข้อมูลระบุตัวบุคคล ซึ่งก็คือที่เก็บข้อมูล Cloud Storage ที่มีไฟล์ประเภทต่างๆ ที่มีข้อมูลที่ละเอียดอ่อน

ไปที่ความปลอดภัย > การปกป้องข้อมูลที่ละเอียดอ่อนผ่านแถบค้นหา
คลิกการตรวจสอบในเมนู
คลิกสร้างงานและทริกเกอร์งาน

กำหนดค่างาน

พร็อพเพอร์ตี้	ค่า (พิมพ์หรือเลือก)
รหัสงาน	`pii-remover`
ประเภทพื้นที่เก็บข้อมูล	Google Cloud Storage
ประเภทสถานที่ตั้ง	สแกนที่เก็บข้อมูลที่มีกฎรวม/ไม่รวมที่ไม่บังคับ
ชื่อที่เก็บข้อมูล	`input-[your-project-id]`

กำหนดค่าการตรวจหาและการดำเนินการ

ตอนนี้คุณจะลิงก์เทมเพลตที่สร้างไว้ก่อนหน้านี้กับงานนี้ เพื่อบอกการปกป้องข้อมูลที่ละเอียดอ่อนว่าจะตรวจสอบ PII อย่างไรและใช้วิธีการลบข้อมูลระบุตัวบุคคลใดตามประเภทเนื้อหา

เทมเพลตการตรวจสอบ: projects/[your-project-id]/locations/global/inspectTemplates/pii-finder
ในส่วนเพิ่มการดำเนินการ ให้เลือกทำสำเนาที่ลบข้อมูลที่ระบุตัวบุคคลได้ แล้วกำหนดค่าเทมเพลตการเปลี่ยนรูปแบบให้เป็นเทมเพลตที่คุณสร้างขึ้น

ป๊อปอัปจะเปิดขึ้นเพื่อให้คุณConfirm whether you want to de-identify the findings คลิกปิดใช้การสุ่มตัวอย่าง

ภาพหน้าจอของป๊อปอัปที่ขอให้ปิดใช้การสุ่มตัวอย่าง

ภาพหน้าจอของป๊อปอัปที่ขอให้ปิดใช้การสุ่มตัวอย่าง

พร็อพเพอร์ตี้	ค่า (พิมพ์หรือเลือก)
เทมเพลตการลบการระบุตัวตน	`projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-unstructured`
เทมเพลตการลบการระบุตัวตนที่มีโครงสร้าง	`projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-structured`
เทมเพลตการปกปิดข้อมูลในรูปภาพ	`projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-image`

กำหนดค่าตำแหน่งเอาต์พุตของ Cloud Storage
- URL: gs://output-[your-project-id]
ในส่วนกำหนดเวลา ให้ปล่อยให้การเลือกเป็นไม่มีเพื่อเรียกใช้ชื่องานทันที
คลิกสร้าง
ป๊อปอัปจะเปิดขึ้นเพื่อ Confirm job or job trigger create ให้คลิกยืนยันการสร้าง

8. ยืนยันผลการค้นหา

ขั้นตอนสุดท้ายคือการยืนยันว่าข้อมูลที่ละเอียดอ่อนได้รับการปกปิดอย่างถูกต้องและสำเร็จในไฟล์ทุกประเภทในที่เก็บข้อมูลเอาต์พุต ซึ่งจะช่วยให้มั่นใจได้ว่าไปป์ไลน์การลบข้อมูลระบุตัวบุคคลจะทำงานได้ตามที่คาดไว้

ตรวจสอบสถานะงาน

ตรวจสอบงานเพื่อให้แน่ใจว่างานเสร็จสมบูรณ์และตรวจสอบสรุปผลการค้นหาก่อนตรวจสอบไฟล์เอาต์พุต

ในแท็บรายละเอียดงาน ให้รอจนกว่างานจะแสดงสถานะเป็นเสร็จสิ้น
ในส่วนภาพรวม ให้ตรวจสอบจำนวนผลการตรวจสอบและเปอร์เซ็นต์ของ infoType แต่ละรายการที่ตรวจพบ
คลิกการกำหนดค่า
เลื่อนลงไปที่การดำเนินการ แล้วคลิกที่ถังเอาต์พุตเพื่อดูข้อมูลที่ลบข้อมูลระบุตัวบุคคลออก gs://output-[your-project-id]

เปรียบเทียบไฟล์อินพุตและเอาต์พุต

ในขั้นตอนนี้ คุณจะตรวจสอบไฟล์ที่ลบข้อมูลที่ระบุตัวบุคคลออกด้วยตนเองเพื่อยืนยันว่าได้ใช้การล้างข้อมูลอย่างถูกต้องตามเทมเพลต

รูปภาพ: เปิดรูปภาพจากที่เก็บข้อมูลเอาต์พุต ตรวจสอบว่าข้อความที่มีความละเอียดอ่อนทั้งหมดได้รับการปกปิดในไฟล์เอาต์พุตแล้ว
บันทึกที่ไม่มีโครงสร้าง: ดูไฟล์บันทึกจากทั้ง 2 บัคเก็ต ยืนยันว่าระบบได้แทนที่ PII ในบันทึกเอาต์พุตด้วยชื่อ infoType แล้ว (เช่น [US_SOCIAL_SECURITY_NUMBER])
CSV ที่มีโครงสร้าง: เปิดไฟล์ CSV จากทั้ง 2 บัคเก็ต ตรวจสอบว่าอีเมลผู้ใช้และหมายเลขประกันสังคมในไฟล์เอาต์พุตมาสก์ด้วย ####@####.com

หมายเหตุ: หากต้องการดูเนื้อหาของไฟล์ ให้คลิกไฟล์ใดไฟล์หนึ่งในโฟลเดอร์ ในหน้าถัดไป ให้คลิกลิงก์ข้าง URL ที่ตรวจสอบสิทธิ์แล้ว

9. จากห้องทดลองสู่ความเป็นจริง: วิธีใช้ในโปรเจ็กต์ของคุณเอง

หลักการและการกำหนดค่าที่คุณใช้เป็นพิมพ์เขียวสำหรับการรักษาความปลอดภัยของโปรเจ็กต์ AI ในโลกแห่งความเป็นจริงบน Google Cloud ทรัพยากรที่คุณเพิ่งสร้าง ได้แก่ เทมเพลตการตรวจสอบ เทมเพลตการลบข้อมูลที่ระบุตัวบุคคลได้ และงานอัตโนมัติ จะทำหน้าที่เป็นเทมเพลตเริ่มต้นที่ปลอดภัยสำหรับกระบวนการนำเข้าข้อมูลใหม่

ไปป์ไลน์การล้างข้อมูลอัตโนมัติ: การนำเข้าข้อมูลที่ปลอดภัย

วิธีใช้ในการตั้งค่า

ทุกครั้งที่ทีมของคุณต้องนำเข้าข้อมูลลูกค้าดิบใหม่เพื่อการพัฒนา AI คุณจะต้องส่งข้อมูลผ่านไปป์ไลน์ที่มีงานการปกป้องข้อมูลที่ละเอียดอ่อนที่คุณกำหนดค่าไว้ คุณใช้เวิร์กโฟลว์อัตโนมัตินี้แทนการตรวจสอบและปกปิดข้อมูลด้วยตนเอง ซึ่งจะช่วยให้มั่นใจได้ว่านักวิทยาศาสตร์ด้านข้อมูลและโมเดล AI จะโต้ตอบกับข้อมูลที่นำข้อมูลระบุตัวบุคคลออกแล้วเท่านั้น ซึ่งจะช่วยลดความเสี่ยงด้านความเป็นส่วนตัวได้อย่างมาก

การเชื่อมต่อกับเวอร์ชันที่ใช้งานจริง

ในสภาพแวดล้อมที่ใช้งานจริง คุณจะต่อยอดแนวคิดนี้ได้โดยทำดังนี้

การทำงานอัตโนมัติด้วยทริกเกอร์งาน: คุณจะตั้งค่าทริกเกอร์งานเมื่อใดก็ตามที่มีการอัปโหลดไฟล์ใหม่ไปยังที่เก็บข้อมูล Cloud Storage ที่เป็นอินพุต แทนที่จะเรียกใช้งานด้วยตนเอง ซึ่งจะสร้างกระบวนการตรวจหาและการลบข้อมูลระบุตัวบุคคลโดยอัตโนมัติอย่างเต็มรูปแบบ
การผสานรวมกับที่เก็บข้อมูลขนาดใหญ่/คลังข้อมูล: โดยปกติแล้ว ข้อมูลเอาต์พุตที่ลบข้อมูลที่ระบุตัวบุคคลออกจะป้อนลงในที่เก็บข้อมูลขนาดใหญ่ที่ปลอดภัย (เช่น ใน Cloud Storage) หรือคลังข้อมูล (เช่น BigQuery) เพื่อการวิเคราะห์เพิ่มเติมและการฝึกโมเดล โดยจะมีการรักษาความเป็นส่วนตัวตลอดวงจรข้อมูล

กลยุทธ์การลบข้อมูลระบุตัวบุคคลแบบละเอียด: การสร้างสมดุลระหว่างความเป็นส่วนตัวและยูทิลิตี

วิธีใช้ในการตั้งค่า

เทมเพลตการลบข้อมูลที่ระบุตัวบุคคลได้ (ไม่มีโครงสร้าง มีโครงสร้าง รูปภาพ) ที่คุณสร้างขึ้นเป็นสิ่งสำคัญ คุณจะใช้กลยุทธ์ที่แตกต่างที่คล้ายกันตามความต้องการเฉพาะของโมเดล AI ซึ่งช่วยให้ทีมพัฒนาได้รับข้อมูลที่มีประโยชน์สูงสำหรับโมเดลโดยไม่กระทบต่อความเป็นส่วนตัว

การเชื่อมต่อกับเวอร์ชันที่ใช้งานจริง

ในสภาพแวดล้อมการใช้งานจริง การควบคุมที่ละเอียดยิ่งขึ้นนี้จะมีความสําคัญมากยิ่งขึ้นสําหรับ

infoType และพจนานุกรมที่กำหนดเอง: สำหรับข้อมูลที่ละเอียดอ่อนที่เฉพาะเจาะจงหรือโดเมนที่เฉพาะเจาะจง คุณจะต้องกำหนด infoType และพจนานุกรมที่กำหนดเองภายในการป้องกันข้อมูลที่ละเอียดอ่อน ซึ่งจะช่วยให้ตรวจหาได้อย่างครอบคลุมและปรับให้เหมาะกับบริบททางธุรกิจที่ไม่เหมือนใครของคุณ
การเข้ารหัสที่คงรูปแบบเดิม (FPE): สำหรับสถานการณ์ที่ข้อมูลที่ลบข้อมูลระบุตัวบุคคลออกแล้วต้องคงรูปแบบเดิมไว้ (เช่น หมายเลขบัตรเครดิตสำหรับการทดสอบการผสานรวม) คุณจะต้องสำรวจเทคนิคการลบข้อมูลระบุตัวบุคคลออกขั้นสูง เช่น การเข้ารหัสที่คงรูปแบบเดิม ซึ่งช่วยให้ทดสอบได้อย่างปลอดภัยด้านความเป็นส่วนตัวด้วยรูปแบบข้อมูลที่สมจริง

การตรวจสอบและการสอบบัญชี: การปฏิบัติตามข้อกำหนดอย่างต่อเนื่อง

วิธีใช้ในการตั้งค่า

คุณจะตรวจสอบบันทึกการปกป้องข้อมูลที่ละเอียดอ่อนอย่างต่อเนื่องเพื่อให้มั่นใจว่าการประมวลผลข้อมูลทั้งหมดเป็นไปตามนโยบายความเป็นส่วนตัว และไม่มีการเปิดเผยข้อมูลที่ละเอียดอ่อนโดยไม่ตั้งใจ การตรวจสอบสรุปงานและผลการค้นหาเป็นประจำเป็นส่วนหนึ่งของการตรวจสอบอย่างต่อเนื่องนี้

การเชื่อมต่อกับเวอร์ชันที่ใช้งานจริง

สําหรับระบบการผลิตที่มีประสิทธิภาพ ให้พิจารณาการกระทําสําคัญต่อไปนี้

ส่งผลการตรวจหาไปยังศูนย์บัญชาการรักษาความปลอดภัย: กำหนดค่างานการปกป้องข้อมูลที่ละเอียดอ่อนให้ส่งข้อมูลสรุปของผลการตรวจหาไปยังศูนย์บัญชาการรักษาความปลอดภัยโดยตรง เพื่อการจัดการภัยคุกคามแบบผสานรวมและมุมมองแบบรวมศูนย์ของท่าทีด้านความปลอดภัย ซึ่งจะรวมการแจ้งเตือนด้านความปลอดภัยและข้อมูลเชิงลึก
การแจ้งเตือนและการตอบสนองต่อเหตุการณ์: คุณจะตั้งค่าการแจ้งเตือนของ Cloud Monitoring ตามผลการตรวจหาของ Sensitive Data Protection หรือความล้มเหลวของงาน ซึ่งจะช่วยให้ทีมรักษาความปลอดภัยได้รับการแจ้งเตือนทันทีเมื่อมีการละเมิดนโยบายหรือปัญหาในการประมวลผลที่อาจเกิดขึ้น ทำให้สามารถตอบสนองต่อเหตุการณ์ได้อย่างรวดเร็ว

10. บทสรุป

ยินดีด้วย คุณสร้างเวิร์กโฟลว์ด้านความปลอดภัยของข้อมูลที่ค้นหาและลบข้อมูลที่ระบุตัวบุคคลนั้นได้ (PII) โดยอัตโนมัติในข้อมูลหลายประเภทได้สำเร็จแล้ว ทำให้ข้อมูลปลอดภัยสำหรับการใช้ในการพัฒนา AI และการวิเคราะห์ขั้นปลาย

สรุป

ในห้องทดลองนี้ คุณได้ทำสิ่งต่อไปนี้

กำหนดเทมเพลตการตรวจสอบเพื่อตรวจหาข้อมูลที่ละเอียดอ่อนประเภทใดประเภทหนึ่ง (infoType)
สร้างกฎการลบข้อมูลระบุตัวบุคคลที่แตกต่างกันสำหรับข้อมูลที่ไม่มีโครงสร้าง ข้อมูลที่มีโครงสร้าง และข้อมูลรูปภาพ
กำหนดค่าและเรียกใช้งานเดียวที่ใช้การปกปิดข้อมูลบางส่วนที่ถูกต้องโดยอัตโนมัติตามประเภทไฟล์กับเนื้อหาของทั้ง Bucket
ยืนยันการแปลงข้อมูลที่ละเอียดอ่อนให้สำเร็จในตำแหน่งเอาต์พุตที่ปลอดภัย

ขั้นตอนถัดไป

ส่งผลการสืบค้นไปยังศูนย์บัญชาการการรักษาความปลอดภัย: หากต้องการจัดการภัยคุกคามแบบผสานรวมมากขึ้น ให้กำหนดค่าการดำเนินการของงานเพื่อส่งสรุปผลการสืบค้นไปยังศูนย์บัญชาการการรักษาความปลอดภัยโดยตรง
ทำงานอัตโนมัติด้วย Cloud Functions: ในสภาพแวดล้อมการใช้งานจริง คุณสามารถทริกเกอร์งานตรวจสอบนี้โดยอัตโนมัติเมื่อใดก็ตามที่มีการอัปโหลดไฟล์ใหม่ไปยังที่เก็บข้อมูลอินพุตโดยใช้ Cloud Functions