1. บทนำ
ภาพรวม
ในแล็บนี้ คุณจะได้สร้างไปป์ไลน์การล้างข้อมูลอัตโนมัติเพื่อปกป้องข้อมูลที่ละเอียดอ่อนซึ่งใช้ในการพัฒนา AI คุณใช้ Sensitive Data Protection ของ Google Cloud (เดิมคือ Cloud DLP) เพื่อตรวจสอบ จัดประเภท และลบข้อมูลที่ระบุตัวบุคคลนั้นได้ (PII) ออกจากข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้ (PII) ในรูปแบบข้อมูลต่างๆ ซึ่งรวมถึงข้อความที่ไม่มีโครงสร้าง ตารางที่มีโครงสร้าง และรูปภาพ
บริบท
คุณคือผู้เชี่ยวชาญด้านความปลอดภัยและความเป็นส่วนตัวในทีมพัฒนาแอป และเป้าหมายของคุณคือการสร้างเวิร์กโฟลว์ที่ระบุข้อมูลที่ละเอียดอ่อนและลบข้อมูลที่ระบุตัวบุคคลได้ก่อนที่จะทำให้ข้อมูลพร้อมใช้งานสำหรับนักพัฒนาแอปและโมเดล ทีมของคุณต้องการข้อมูลคุณภาพสูงที่สมจริงเพื่อปรับแต่งและทดสอบแอปพลิเคชัน Generative AI ใหม่ แต่การใช้ข้อมูลลูกค้าดิบๆ ทำให้เกิดความท้าทายด้านความเป็นส่วนตัวอย่างมาก
ตารางต่อไปนี้แสดงความเสี่ยงด้านความเป็นส่วนตัวที่คุณกังวลมากที่สุดและต้องการลดความเสี่ยง
ความเสี่ยง | การลดปัญหา |
การเปิดเผย PII ในไฟล์ข้อความที่ไม่มีโครงสร้าง (เช่น บันทึกการแชทกับทีมสนับสนุน แบบฟอร์มความคิดเห็น) | สร้างเทมเพลตการลบข้อมูลระบุตัวบุคคลที่แทนที่ค่าที่ละเอียดอ่อนด้วย infoType โดยคงบริบทไว้ในขณะที่นำการเปิดเผยออก |
การสูญเสียประโยชน์ของข้อมูลในชุดข้อมูลที่มีโครงสร้าง (CSV) เมื่อนำ PII ออก | ใช้การเปลี่ยนรูปแบบระเบียนเพื่อปกปิดตัวระบุ (เช่น ชื่อ) อย่างเลือกสรร และใช้เทคนิคต่างๆ เช่น การมาสก์อักขระเพื่อรักษาอักขระอื่นๆ ในสตริง เพื่อให้นักพัฒนาซอฟต์แวร์ยังคงทดสอบกับข้อมูลได้ |
การเปิดเผย PII จากข้อความที่ฝังในรูปภาพ (เช่น เอกสารที่สแกน รูปภาพของผู้ใช้) | สร้างเทมเพลตการลบการระบุตัวตนเฉพาะรูปภาพที่ปกปิดข้อความที่พบในรูปภาพ |
การปกปิดข้อมูลด้วยตนเองที่ไม่สอดคล้องกันหรือมีข้อผิดพลาดในข้อมูลประเภทต่างๆ | กําหนดค่างานการปกป้องข้อมูลที่ละเอียดอ่อนแบบอัตโนมัติเพียงงานเดียวซึ่งใช้เทมเพลตการลบข้อมูลระบุตัวบุคคล (De-identification) ที่ถูกต้องอย่างสม่ำเสมอตามประเภทไฟล์ที่ประมวลผล |
สิ่งที่คุณจะได้เรียนรู้
ในแล็บนี้ คุณจะได้เรียนรู้วิธีทำสิ่งต่อไปนี้
- กําหนดเทมเพลตการตรวจสอบเพื่อตรวจหาข้อมูลที่ละเอียดอ่อนประเภทที่เฉพาะเจาะจง (infoType)
- สร้างกฎการลบข้อมูลระบุตัวบุคคลที่แตกต่างกันสำหรับข้อมูลที่ไม่มีโครงสร้าง ข้อมูลที่มีโครงสร้าง และข้อมูลรูปภาพ
- กำหนดค่าและเรียกใช้เพียงงานเดียวที่ใช้การปกปิดข้อมูลที่ถูกต้องโดยอัตโนมัติตามประเภทไฟล์กับเนื้อหาของทั้ง Bucket
- ยืนยันการแปลงข้อมูลที่ละเอียดอ่อนในตำแหน่งเอาต์พุตที่ปลอดภัยว่าสำเร็จ
2. การตั้งค่าโปรเจ็กต์
บัญชี Google
หากยังไม่มีบัญชี Google ส่วนบุคคล คุณต้องสร้างบัญชี Google
ใช้บัญชีส่วนตัวแทนบัญชีของที่ทำงานหรือโรงเรียน
ลงชื่อเข้าใช้ Google Cloud Console
ลงชื่อเข้าใช้ Google Cloud Console โดยใช้บัญชี Google ส่วนตัว
เปิดใช้การเรียกเก็บเงิน
แลกรับเครดิต Google Cloud มูลค่า $5 (ไม่บังคับ)
หากต้องการจัดเวิร์กช็อปนี้ คุณต้องมีบัญชีสำหรับการเรียกเก็บเงินที่มีเครดิตอยู่บ้าง หากวางแผนที่จะใช้การเรียกเก็บเงินของคุณเอง ให้ข้ามขั้นตอนนี้
- คลิกลิงก์นี้ แล้วลงชื่อเข้าใช้ด้วยบัญชี Google ส่วนบุคคล คุณจะเห็นข้อความคล้ายกับนี้

- คลิกปุ่มคลิกที่นี่เพื่อเข้าถึงเครดิต ระบบจะนำคุณไปยังหน้าเพื่อตั้งค่าโปรไฟล์การเรียกเก็บเงิน

- คลิกยืนยัน ตอนนี้คุณเชื่อมต่อกับบัญชีสำหรับการเรียกเก็บเงินของ Google Cloud Platform เวอร์ชันทดลองใช้งานแล้ว

ตั้งค่าบัญชีสำหรับการเรียกเก็บเงินส่วนตัว
หากตั้งค่าการเรียกเก็บเงินโดยใช้เครดิต Google Cloud คุณจะข้ามขั้นตอนนี้ได้
หากต้องการตั้งค่าบัญชีสำหรับการเรียกเก็บเงินส่วนตัว ให้ไปที่นี่เพื่อเปิดใช้การเรียกเก็บเงินใน Cloud Console
ข้อควรทราบ
- การทำแล็บนี้ควรมีค่าใช้จ่ายน้อยกว่า $1 USD ในทรัพยากรระบบคลาวด์
- คุณสามารถทำตามขั้นตอนที่ส่วนท้ายของแล็บนี้เพื่อลบทรัพยากรเพื่อหลีกเลี่ยงการเรียกเก็บเงินเพิ่มเติม
- ผู้ใช้ใหม่มีสิทธิ์ใช้ช่วงทดลองใช้ฟรีมูลค่า$300 USD
สร้างโปรเจ็กต์ (ไม่บังคับ)
หากไม่มีโปรเจ็กต์ปัจจุบันที่ต้องการใช้สำหรับแล็บนี้ ให้สร้างโปรเจ็กต์ใหม่ที่นี่
3. เปิดใช้ API
กำหนดค่า Cloud Shell
เมื่อสร้างโปรเจ็กต์เรียบร้อยแล้ว ให้ทำตามขั้นตอนต่อไปนี้เพื่อตั้งค่า Cloud Shell
เปิดใช้ Cloud Shell
ไปที่ shell.cloud.google.com และหากเห็นป๊อปอัปขอให้คุณให้สิทธิ์ ให้คลิกให้สิทธิ์
ตั้งค่ารหัสโปรเจ็กต์
เรียกใช้คำสั่งต่อไปนี้ในเทอร์มินัล Cloud Shell เพื่อตั้งค่ารหัสโปรเจ็กต์ที่ถูกต้อง แทนที่ <your-project-id> ด้วยรหัสโปรเจ็กต์จริงที่คัดลอกจากขั้นตอนการสร้างโปรเจ็กต์ด้านบน
gcloud config set project <your-project-id>
ตอนนี้คุณควรเห็นว่าได้เลือกโปรเจ็กต์ที่ถูกต้องภายในเทอร์มินัล Cloud Shell แล้ว
เปิดใช้การคุ้มครองข้อมูลที่ละเอียดอ่อน
หากต้องการใช้บริการการปกป้องข้อมูลที่ละเอียดอ่อนและ Cloud Storage คุณต้องตรวจสอบว่าได้เปิดใช้ API เหล่านี้ในโปรเจ็กต์ Google Cloud แล้ว
- เปิดใช้ API ในเทอร์มินัลโดยทำดังนี้
gcloud services enable dlp.googleapis.com storage.googleapis.com
หรือคุณจะเปิดใช้ API เหล่านี้ได้โดยไปที่ความปลอดภัย > การป้องกันข้อมูลที่ละเอียดอ่อนและ Cloud Storage ในคอนโซล แล้วคลิกปุ่มเปิดใช้หากระบบแจ้งสำหรับแต่ละบริการ
4. สร้างที่เก็บข้อมูลที่มีข้อมูลที่ละเอียดอ่อน
สร้างที่เก็บข้อมูลอินพุตและเอาต์พุต
ในขั้นตอนนี้ คุณจะสร้าง 2 บัคเก็ต ได้แก่ บัคเก็ตหนึ่งสำหรับจัดเก็บข้อมูลที่ละเอียดอ่อนซึ่งต้องตรวจสอบ และอีกบัคเก็ตหนึ่งที่การปกป้องข้อมูลที่ละเอียดอ่อนจะจัดเก็บไฟล์เอาต์พุตที่ลบข้อมูลระบุตัวบุคคลออก นอกจากนี้ คุณยังดาวน์โหลดไฟล์ข้อมูลตัวอย่างและอัปโหลดไปยังที่เก็บข้อมูลอินพุตได้ด้วย
- ในเทอร์มินัล ให้เรียกใช้คำสั่งต่อไปนี้เพื่อสร้างที่เก็บข้อมูล 1 รายการสำหรับข้อมูลนำเข้าและอีก 1 รายการสำหรับเอาต์พุต จากนั้นป้อนข้อมูลตัวอย่างจาก
gs://dlp-codelab-dataลงในที่เก็บข้อมูลนำเข้าPROJECT_ID=$(gcloud config get-value project) gsutil mb gs://input-$PROJECT_ID gsutil mb gs://output-$PROJECT_ID
เพิ่มข้อมูลที่ละเอียดอ่อนลงในที่เก็บข้อมูลอินพุต
ในขั้นตอนนี้ คุณจะดาวน์โหลดไฟล์ข้อมูลตัวอย่างที่มี PII สำหรับทดสอบจาก GitHub และอัปโหลดไปยังที่เก็บข้อมูลอินพุต
- ใน Cloud Shell ให้เรียกใช้คำสั่งต่อไปนี้เพื่อโคลนที่เก็บ
devrel-demosซึ่งมีข้อมูลตัวอย่างที่จำเป็นสำหรับแล็บนี้REPO_URL="https://github.com/GoogleCloudPlatform/devrel-demos.git" TARGET_PATH="security/sample-data" OUTPUT_FOLDER="sample-data" git clone --quiet --depth 1 --filter=blob:none --sparse "$REPO_URL" temp_loader cd temp_loader git sparse-checkout set "$TARGET_PATH" cd .. mv "temp_loader/$TARGET_PATH" "$OUTPUT_FOLDER" rm -rf temp_loader - จากนั้นคัดลอกข้อมูลตัวอย่างไปยังที่เก็บข้อมูลอินพุตที่คุณสร้างไว้ก่อนหน้านี้
gsutil -m cp -r sample-data/* gs://input-$PROJECT_ID/ - ไปที่ Cloud Storage > ที่เก็บข้อมูล แล้วคลิกที่เก็บข้อมูลอินพุตเพื่อดูข้อมูลที่คุณนำเข้า
5. สร้างเทมเพลตการตรวจสอบ
ในงานนี้ คุณจะสร้างเทมเพลตที่บอก Sensitive Data Protection ว่าควรค้นหาอะไร ซึ่งจะช่วยให้คุณมุ่งเน้นการตรวจสอบไปที่ infoTypes ที่เกี่ยวข้องกับข้อมูลและภูมิศาสตร์ของคุณ ซึ่งจะช่วยปรับปรุงประสิทธิภาพและความแม่นยำ
สร้างเทมเพลตการตรวจสอบ
ในขั้นตอนนี้ คุณจะกำหนดกฎสำหรับสิ่งที่ถือเป็นข้อมูลที่ละเอียดอ่อนซึ่งต้องตรวจสอบ งานการลบการระบุตัวตนจะนำเทมเพลตนี้กลับมาใช้ใหม่เพื่อให้มั่นใจถึงความสอดคล้องกัน
- จากเมนูการนำทาง ให้ไปที่การปกป้องข้อมูลที่ละเอียดอ่อน > การกำหนดค่า > เทมเพลต
- คลิกสร้างเทมเพลต
- เลือกตรวจสอบ (ค้นหาข้อมูลที่ละเอียดอ่อน) ในส่วนประเภทเทมเพลต
- ตั้งค่ารหัสเทมเพลตเป็น
pii-finder - ดำเนินการต่อเพื่อกำหนดค่าการตรวจหา
- คลิกจัดการ infoTypes
- ใช้ตัวกรองเพื่อค้นหา infoTypes ต่อไปนี้ แล้วเลือกช่องทำเครื่องหมายข้างแต่ละรายการ
CREDIT_CARD_EXPIRATION_DATECREDIT_CARD_NUMBERDATE_OF_BIRTHDRIVERS_LICENSE_NUMBEREMAIL_ADDRESSGCP_API_KEYGCP_CREDENTIALSORGANIZATION_NAMEPASSWORDPERSON_NAMEPHONE_NUMBERUS_SOCIAL_SECURITY_NUMBER
- เลือกรายการอื่นๆ ที่คุณสนใจด้วย แล้วคลิกเสร็จสิ้น
- ตรวจสอบตารางผลลัพธ์เพื่อให้แน่ใจว่าได้เพิ่ม InfoType เหล่านี้ทั้งหมดแล้ว
- คลิกสร้าง
6. สร้างเทมเพลตการไม่ระบุตัวตน
จากนั้นสร้างเทมเพลตการลบข้อมูลระบุตัวบุคคล 3 รายการแยกกันเพื่อจัดการรูปแบบข้อมูลต่างๆ ซึ่งจะช่วยให้คุณควบคุมกระบวนการแปลงได้อย่างละเอียด โดยใช้วิธีที่เหมาะสมที่สุดสำหรับไฟล์แต่ละประเภท เทมเพลตเหล่านี้จะทำงานร่วมกับเทมเพลตการตรวจสอบที่คุณเพิ่งสร้าง
สร้างเทมเพลตสำหรับข้อมูลที่ไม่มีโครงสร้าง
เทมเพลตนี้จะกำหนดวิธียกเลิกการระบุตัวตนของข้อมูลที่ละเอียดอ่อนซึ่งพบในข้อความแบบอิสระ เช่น บันทึกการแชทหรือแบบฟอร์มความคิดเห็น วิธีที่เลือกจะแทนที่ค่าที่ละเอียดอ่อนด้วยชื่อ infoType ของค่าดังกล่าว โดยยังคงบริบทไว้
- ในหน้าเทมเพลต ให้คลิกสร้างเทมเพลต
- กำหนดเทมเพลตการไม่ระบุตัวตน
พร็อพเพอร์ตี้
ค่า (พิมพ์หรือเลือก)
ประเภทเทมเพลต
ไม่ระบุตัวตน (ลบข้อมูลที่ละเอียดอ่อน)
ประเภทการเปลี่ยนรูปแบบข้อมูล
infoType
รหัสเทมเพลต
de-identify-unstructured - ดำเนินการต่อเพื่อกำหนดค่าการไม่ระบุตัวตน
- ในส่วนวิธีการเปลี่ยนรูปแบบ ให้เลือกการเปลี่ยนรูปแบบ: แทนที่ด้วยชื่อ infoType
- คลิกสร้าง
- คลิกทดสอบ
- ทดสอบข้อความที่มี PII เพื่อดูว่าระบบจะแปลงข้อความอย่างไร โดยทำดังนี้
Hi, my name is Alex and my SSN is 555-11-5555. You can reach me at +1-555-555-5555.
สร้างเทมเพลตสำหรับข้อมูลที่มีโครงสร้าง
เทมเพลตนี้มุ่งเน้นไปที่ข้อมูลที่ละเอียดอ่อนภายในชุดข้อมูลที่มีโครงสร้างโดยเฉพาะ เช่น ไฟล์ CSV คุณจะกำหนดค่าให้มาสก์ข้อมูลในลักษณะที่ยังคงรักษาอรรถประโยชน์ของข้อมูลไว้สำหรับการทดสอบ ในขณะที่ยังคงยกเลิกการระบุตัวตนของช่องที่ละเอียดอ่อน
- กลับไปที่หน้าเทมเพลต แล้วคลิกสร้างเทมเพลต
- กำหนดเทมเพลตการไม่ระบุตัวตน
พร็อพเพอร์ตี้
ค่า (พิมพ์หรือเลือก)
ประเภทเทมเพลต
ไม่ระบุตัวตน (ลบข้อมูลที่ละเอียดอ่อน)
ประเภทการเปลี่ยนรูปแบบข้อมูล
บันทึก
รหัสเทมเพลต
de-identify-structured - ดำเนินการต่อเพื่อกำหนดค่าการลบข้อมูลระบุตัวบุคคล เนื่องจากเทมเพลตนี้ใช้กับ Structured Data เราจึงมักคาดการณ์ฟิลด์หรือคอลัมน์ที่จะมีข้อมูลที่ละเอียดอ่อนบางประเภทได้ คุณทราบว่า CSV ที่แอปพลิเคชันใช้มีอีเมลของผู้ใช้ในส่วน
user_idและmessageมักจะมี PII จากการโต้ตอบกับลูกค้า คุณไม่ต้องกังวลเกี่ยวกับการมาสก์agent_idเนื่องจากเป็นพนักงานและการสนทนาควรระบุแหล่งที่มาได้ กรอกข้อมูลในส่วนนี้ดังนี้- ฟิลด์หรือคอลัมน์ที่จะเปลี่ยนรูปแบบ:
user_id,message - ประเภทการเปลี่ยนรูปแบบ: จับคู่ด้วย infoType
- วิธีการเปลี่ยนรูปแบบ: คลิกเพิ่มการเปลี่ยนรูปแบบ
- การแปลง: มาสก์ด้วยอักขระ
- อักขระที่ไม่ต้องสนใจ: เครื่องหมายวรรคตอนของสหรัฐอเมริกา
- ฟิลด์หรือคอลัมน์ที่จะเปลี่ยนรูปแบบ:
- คลิกสร้าง
สร้างเทมเพลตสำหรับข้อมูลรูปภาพ
เทมเพลตนี้ออกแบบมาเพื่อยกเลิกการระบุตัวตนของข้อความที่มีความละเอียดอ่อนซึ่งฝังอยู่ในรูปภาพ เช่น เอกสารที่สแกนหรือรูปภาพที่ผู้ใช้ส่ง โดยใช้การรู้จำอักขระด้วยภาพ (OCR) เพื่อตรวจหาและปกปิด PII
- กลับไปที่หน้าเทมเพลต แล้วคลิกสร้างเทมเพลต
- กำหนดเทมเพลตการไม่ระบุตัวตน
พร็อพเพอร์ตี้
ค่า (พิมพ์หรือเลือก)
ประเภทเทมเพลต
ไม่ระบุตัวตน (ลบข้อมูลที่ละเอียดอ่อน)
ประเภทการเปลี่ยนรูปแบบข้อมูล
รูปภาพ
รหัสเทมเพลต
de-identify-image - ดำเนินการต่อเพื่อกำหนดค่าการไม่ระบุตัวตน
- infoType ที่ต้องเปลี่ยนรูปแบบ: infoType ที่ตรวจพบซึ่งระบุไว้ในเทมเพลตการตรวจสอบหรือการกำหนดค่าการตรวจสอบที่ไม่ได้ระบุไว้ในกฎอื่นๆ
- คลิกสร้าง
7. สร้างและเรียกใช้งานการไม่ระบุตัวตน
เมื่อกำหนดเทมเพลตแล้ว ตอนนี้คุณก็สร้างงานเดียวที่ใช้เทมเพลตการลบข้อมูลระบุตัวบุคคล (De-identification) ที่ถูกต้องตามประเภทไฟล์ที่ตรวจพบและตรวจสอบได้ ซึ่งจะช่วยทำให้กระบวนการคุ้มครองข้อมูลที่ละเอียดอ่อนสำหรับข้อมูลที่จัดเก็บไว้ใน Cloud Storage เป็นไปโดยอัตโนมัติ
กำหนดค่าข้อมูลอินพุต
ในขั้นตอนนี้ คุณจะระบุแหล่งที่มาของข้อมูลที่ต้องทำการลบข้อมูลระบุตัวบุคคล ซึ่งก็คือที่เก็บข้อมูล Cloud Storage ที่มีไฟล์ประเภทต่างๆ ที่มีข้อมูลที่ละเอียดอ่อน
- ไปที่ความปลอดภัย > การปกป้องข้อมูลที่ละเอียดอ่อนผ่านแถบค้นหา
- คลิกการตรวจสอบในเมนู
- คลิกสร้างงานและทริกเกอร์งาน
- กำหนดค่างาน
พร็อพเพอร์ตี้
ค่า (พิมพ์หรือเลือก)
รหัสงาน
pii-removerประเภทพื้นที่เก็บข้อมูล
Google Cloud Storage
ประเภทสถานที่ตั้ง
สแกนที่เก็บข้อมูลที่มีกฎรวม/ไม่รวมที่ไม่บังคับ
ชื่อที่เก็บข้อมูล
input-[your-project-id]
กำหนดค่าการตรวจหาและการดำเนินการ
ตอนนี้คุณจะลิงก์เทมเพลตที่สร้างไว้ก่อนหน้านี้กับงานนี้ เพื่อบอกการปกป้องข้อมูลที่ละเอียดอ่อนว่าจะตรวจสอบ PII อย่างไรและใช้วิธีการลบข้อมูลระบุตัวบุคคลใดตามประเภทเนื้อหา
- เทมเพลตการตรวจสอบ:
projects/[your-project-id]/locations/global/inspectTemplates/pii-finder - ในส่วนเพิ่มการดำเนินการ ให้เลือกทำสำเนาที่ลบข้อมูลที่ระบุตัวบุคคลได้ แล้วกำหนดค่าเทมเพลตการเปลี่ยนรูปแบบให้เป็นเทมเพลตที่คุณสร้างขึ้น
- ป๊อปอัปจะเปิดขึ้นเพื่อให้คุณ
Confirm whether you want to de-identify the findingsคลิกปิดใช้การสุ่มตัวอย่าง
พร็อพเพอร์ตี้
ค่า (พิมพ์หรือเลือก)
เทมเพลตการลบการระบุตัวตน
projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-unstructuredเทมเพลตการลบการระบุตัวตนที่มีโครงสร้าง
projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-structuredเทมเพลตการปกปิดข้อมูลในรูปภาพ
projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-image - กำหนดค่าตำแหน่งเอาต์พุตของ Cloud Storage
- URL:
gs://output-[your-project-id]
- URL:
- ในส่วนกำหนดเวลา ให้ปล่อยให้การเลือกเป็นไม่มีเพื่อเรียกใช้ชื่องานทันที
- คลิกสร้าง
- ป๊อปอัปจะเปิดขึ้นเพื่อ
Confirm job or job trigger createให้คลิกยืนยันการสร้าง
8. ยืนยันผลการค้นหา
ขั้นตอนสุดท้ายคือการยืนยันว่าข้อมูลที่ละเอียดอ่อนได้รับการปกปิดอย่างถูกต้องและสำเร็จในไฟล์ทุกประเภทในที่เก็บข้อมูลเอาต์พุต ซึ่งจะช่วยให้มั่นใจได้ว่าไปป์ไลน์การลบข้อมูลระบุตัวบุคคลจะทำงานได้ตามที่คาดไว้
ตรวจสอบสถานะงาน
ตรวจสอบงานเพื่อให้แน่ใจว่างานเสร็จสมบูรณ์และตรวจสอบสรุปผลการค้นหาก่อนตรวจสอบไฟล์เอาต์พุต
- ในแท็บรายละเอียดงาน ให้รอจนกว่างานจะแสดงสถานะเป็นเสร็จสิ้น
- ในส่วนภาพรวม ให้ตรวจสอบจำนวนผลการตรวจสอบและเปอร์เซ็นต์ของ infoType แต่ละรายการที่ตรวจพบ
- คลิกการกำหนดค่า
- เลื่อนลงไปที่การดำเนินการ แล้วคลิกที่ถังเอาต์พุตเพื่อดูข้อมูลที่ลบข้อมูลระบุตัวบุคคลออก
gs://output-[your-project-id]
เปรียบเทียบไฟล์อินพุตและเอาต์พุต
ในขั้นตอนนี้ คุณจะตรวจสอบไฟล์ที่ลบข้อมูลที่ระบุตัวบุคคลออกด้วยตนเองเพื่อยืนยันว่าได้ใช้การล้างข้อมูลอย่างถูกต้องตามเทมเพลต
- รูปภาพ: เปิดรูปภาพจากที่เก็บข้อมูลเอาต์พุต ตรวจสอบว่าข้อความที่มีความละเอียดอ่อนทั้งหมดได้รับการปกปิดในไฟล์เอาต์พุตแล้ว

- บันทึกที่ไม่มีโครงสร้าง: ดูไฟล์บันทึกจากทั้ง 2 บัคเก็ต ยืนยันว่าระบบได้แทนที่ PII ในบันทึกเอาต์พุตด้วยชื่อ infoType แล้ว (เช่น
[US_SOCIAL_SECURITY_NUMBER]) - CSV ที่มีโครงสร้าง: เปิดไฟล์ CSV จากทั้ง 2 บัคเก็ต ตรวจสอบว่าอีเมลผู้ใช้และหมายเลขประกันสังคมในไฟล์เอาต์พุตมาสก์ด้วย
####@####.com
9. จากห้องทดลองสู่ความเป็นจริง: วิธีใช้ในโปรเจ็กต์ของคุณเอง
หลักการและการกำหนดค่าที่คุณใช้เป็นพิมพ์เขียวสำหรับการรักษาความปลอดภัยของโปรเจ็กต์ AI ในโลกแห่งความเป็นจริงบน Google Cloud ทรัพยากรที่คุณเพิ่งสร้าง ได้แก่ เทมเพลตการตรวจสอบ เทมเพลตการลบข้อมูลที่ระบุตัวบุคคลได้ และงานอัตโนมัติ จะทำหน้าที่เป็นเทมเพลตเริ่มต้นที่ปลอดภัยสำหรับกระบวนการนำเข้าข้อมูลใหม่
ไปป์ไลน์การล้างข้อมูลอัตโนมัติ: การนำเข้าข้อมูลที่ปลอดภัย
วิธีใช้ในการตั้งค่า
ทุกครั้งที่ทีมของคุณต้องนำเข้าข้อมูลลูกค้าดิบใหม่เพื่อการพัฒนา AI คุณจะต้องส่งข้อมูลผ่านไปป์ไลน์ที่มีงานการปกป้องข้อมูลที่ละเอียดอ่อนที่คุณกำหนดค่าไว้ คุณใช้เวิร์กโฟลว์อัตโนมัตินี้แทนการตรวจสอบและปกปิดข้อมูลด้วยตนเอง ซึ่งจะช่วยให้มั่นใจได้ว่านักวิทยาศาสตร์ด้านข้อมูลและโมเดล AI จะโต้ตอบกับข้อมูลที่นำข้อมูลระบุตัวบุคคลออกแล้วเท่านั้น ซึ่งจะช่วยลดความเสี่ยงด้านความเป็นส่วนตัวได้อย่างมาก
การเชื่อมต่อกับเวอร์ชันที่ใช้งานจริง
ในสภาพแวดล้อมที่ใช้งานจริง คุณจะต่อยอดแนวคิดนี้ได้โดยทำดังนี้
- การทำงานอัตโนมัติด้วยทริกเกอร์งาน: คุณจะตั้งค่าทริกเกอร์งานเมื่อใดก็ตามที่มีการอัปโหลดไฟล์ใหม่ไปยังที่เก็บข้อมูล Cloud Storage ที่เป็นอินพุต แทนที่จะเรียกใช้งานด้วยตนเอง ซึ่งจะสร้างกระบวนการตรวจหาและการลบข้อมูลระบุตัวบุคคลโดยอัตโนมัติอย่างเต็มรูปแบบ
- การผสานรวมกับที่เก็บข้อมูลขนาดใหญ่/คลังข้อมูล: โดยปกติแล้ว ข้อมูลเอาต์พุตที่ลบข้อมูลที่ระบุตัวบุคคลออกจะป้อนลงในที่เก็บข้อมูลขนาดใหญ่ที่ปลอดภัย (เช่น ใน Cloud Storage) หรือคลังข้อมูล (เช่น BigQuery) เพื่อการวิเคราะห์เพิ่มเติมและการฝึกโมเดล โดยจะมีการรักษาความเป็นส่วนตัวตลอดวงจรข้อมูล
กลยุทธ์การลบข้อมูลระบุตัวบุคคลแบบละเอียด: การสร้างสมดุลระหว่างความเป็นส่วนตัวและยูทิลิตี
วิธีใช้ในการตั้งค่า
เทมเพลตการลบข้อมูลที่ระบุตัวบุคคลได้ (ไม่มีโครงสร้าง มีโครงสร้าง รูปภาพ) ที่คุณสร้างขึ้นเป็นสิ่งสำคัญ คุณจะใช้กลยุทธ์ที่แตกต่างที่คล้ายกันตามความต้องการเฉพาะของโมเดล AI ซึ่งช่วยให้ทีมพัฒนาได้รับข้อมูลที่มีประโยชน์สูงสำหรับโมเดลโดยไม่กระทบต่อความเป็นส่วนตัว
การเชื่อมต่อกับเวอร์ชันที่ใช้งานจริง
ในสภาพแวดล้อมการใช้งานจริง การควบคุมที่ละเอียดยิ่งขึ้นนี้จะมีความสําคัญมากยิ่งขึ้นสําหรับ
- infoType และพจนานุกรมที่กำหนดเอง: สำหรับข้อมูลที่ละเอียดอ่อนที่เฉพาะเจาะจงหรือโดเมนที่เฉพาะเจาะจง คุณจะต้องกำหนด infoType และพจนานุกรมที่กำหนดเองภายในการป้องกันข้อมูลที่ละเอียดอ่อน ซึ่งจะช่วยให้ตรวจหาได้อย่างครอบคลุมและปรับให้เหมาะกับบริบททางธุรกิจที่ไม่เหมือนใครของคุณ
- การเข้ารหัสที่คงรูปแบบเดิม (FPE): สำหรับสถานการณ์ที่ข้อมูลที่ลบข้อมูลระบุตัวบุคคลออกแล้วต้องคงรูปแบบเดิมไว้ (เช่น หมายเลขบัตรเครดิตสำหรับการทดสอบการผสานรวม) คุณจะต้องสำรวจเทคนิคการลบข้อมูลระบุตัวบุคคลออกขั้นสูง เช่น การเข้ารหัสที่คงรูปแบบเดิม ซึ่งช่วยให้ทดสอบได้อย่างปลอดภัยด้านความเป็นส่วนตัวด้วยรูปแบบข้อมูลที่สมจริง
การตรวจสอบและการสอบบัญชี: การปฏิบัติตามข้อกำหนดอย่างต่อเนื่อง
วิธีใช้ในการตั้งค่า
คุณจะตรวจสอบบันทึกการปกป้องข้อมูลที่ละเอียดอ่อนอย่างต่อเนื่องเพื่อให้มั่นใจว่าการประมวลผลข้อมูลทั้งหมดเป็นไปตามนโยบายความเป็นส่วนตัว และไม่มีการเปิดเผยข้อมูลที่ละเอียดอ่อนโดยไม่ตั้งใจ การตรวจสอบสรุปงานและผลการค้นหาเป็นประจำเป็นส่วนหนึ่งของการตรวจสอบอย่างต่อเนื่องนี้
การเชื่อมต่อกับเวอร์ชันที่ใช้งานจริง
สําหรับระบบการผลิตที่มีประสิทธิภาพ ให้พิจารณาการกระทําสําคัญต่อไปนี้
- ส่งผลการตรวจหาไปยังศูนย์บัญชาการรักษาความปลอดภัย: กำหนดค่างานการปกป้องข้อมูลที่ละเอียดอ่อนให้ส่งข้อมูลสรุปของผลการตรวจหาไปยังศูนย์บัญชาการรักษาความปลอดภัยโดยตรง เพื่อการจัดการภัยคุกคามแบบผสานรวมและมุมมองแบบรวมศูนย์ของท่าทีด้านความปลอดภัย ซึ่งจะรวมการแจ้งเตือนด้านความปลอดภัยและข้อมูลเชิงลึก
- การแจ้งเตือนและการตอบสนองต่อเหตุการณ์: คุณจะตั้งค่าการแจ้งเตือนของ Cloud Monitoring ตามผลการตรวจหาของ Sensitive Data Protection หรือความล้มเหลวของงาน ซึ่งจะช่วยให้ทีมรักษาความปลอดภัยได้รับการแจ้งเตือนทันทีเมื่อมีการละเมิดนโยบายหรือปัญหาในการประมวลผลที่อาจเกิดขึ้น ทำให้สามารถตอบสนองต่อเหตุการณ์ได้อย่างรวดเร็ว
10. บทสรุป
ยินดีด้วย คุณสร้างเวิร์กโฟลว์ด้านความปลอดภัยของข้อมูลที่ค้นหาและลบข้อมูลที่ระบุตัวบุคคลนั้นได้ (PII) โดยอัตโนมัติในข้อมูลหลายประเภทได้สำเร็จแล้ว ทำให้ข้อมูลปลอดภัยสำหรับการใช้ในการพัฒนา AI และการวิเคราะห์ขั้นปลาย
สรุป
ในห้องทดลองนี้ คุณได้ทำสิ่งต่อไปนี้
- กำหนดเทมเพลตการตรวจสอบเพื่อตรวจหาข้อมูลที่ละเอียดอ่อนประเภทใดประเภทหนึ่ง (infoType)
- สร้างกฎการลบข้อมูลระบุตัวบุคคลที่แตกต่างกันสำหรับข้อมูลที่ไม่มีโครงสร้าง ข้อมูลที่มีโครงสร้าง และข้อมูลรูปภาพ
- กำหนดค่าและเรียกใช้งานเดียวที่ใช้การปกปิดข้อมูลบางส่วนที่ถูกต้องโดยอัตโนมัติตามประเภทไฟล์กับเนื้อหาของทั้ง Bucket
- ยืนยันการแปลงข้อมูลที่ละเอียดอ่อนให้สำเร็จในตำแหน่งเอาต์พุตที่ปลอดภัย
ขั้นตอนถัดไป
- ส่งผลการสืบค้นไปยังศูนย์บัญชาการการรักษาความปลอดภัย: หากต้องการจัดการภัยคุกคามแบบผสานรวมมากขึ้น ให้กำหนดค่าการดำเนินการของงานเพื่อส่งสรุปผลการสืบค้นไปยังศูนย์บัญชาการการรักษาความปลอดภัยโดยตรง
- ทำงานอัตโนมัติด้วย Cloud Functions: ในสภาพแวดล้อมการใช้งานจริง คุณสามารถทริกเกอร์งานตรวจสอบนี้โดยอัตโนมัติเมื่อใดก็ตามที่มีการอัปโหลดไฟล์ใหม่ไปยังที่เก็บข้อมูลอินพุตโดยใช้ Cloud Functions