1. परिचय
खास जानकारी
इस लैब में, एआई डेवलपमेंट में इस्तेमाल की गई संवेदनशील जानकारी को सुरक्षित रखने के लिए, डेटा को अपने-आप साफ़ करने वाली पाइपलाइन बनाई जाती है. आपके पास Google Cloud की Sensitive Data Protection (पहले इसे Cloud DLP कहा जाता था) का इस्तेमाल करने का विकल्प होता है. इसकी मदद से, अलग-अलग फ़ॉर्मैट में मौजूद व्यक्तिगत पहचान से जुड़ी जानकारी (पीआईआई) की जांच की जा सकती है. साथ ही, उसे अलग-अलग कैटगरी में बांटा जा सकता है और उसकी पहचान मिटाई जा सकती है. इसमें बिना स्ट्रक्चर वाला टेक्स्ट, स्ट्रक्चर्ड टेबल, और इमेज शामिल हैं.
कॉन्टेक्स्ट
आपकी डेवलपमेंट टीम में, सुरक्षा और निजता से जुड़ी समस्याओं को हल करने की ज़िम्मेदारी आपकी है. आपका लक्ष्य ऐसा वर्कफ़्लो बनाना है जो संवेदनशील जानकारी की पहचान करे और उसे डेवलपर और मॉडल के लिए उपलब्ध कराने से पहले, उसकी पहचान छिपा दे. आपकी टीम को जनरेटिव एआई के नए ऐप्लिकेशन को ट्यून और टेस्ट करने के लिए, भरोसेमंद और अच्छी क्वालिटी वाले डेटा की ज़रूरत है. हालांकि, ग्राहक के रॉ डेटा का इस्तेमाल करने से, निजता से जुड़ी गंभीर समस्याएं पैदा हो सकती हैं.
यहां दी गई टेबल में, निजता से जुड़े उन जोखिमों के बारे में बताया गया है जिन्हें कम करने के लिए, आपको सबसे ज़्यादा चिंता है:
जोखिम | गड़बड़ी की गंभीरता को कम करना |
बिना स्ट्रक्चर वाली टेक्स्ट फ़ाइलों में व्यक्तिगत पहचान से जुड़ी जानकारी का दिखना. उदाहरण के लिए, सहायता के लिए चैट की लॉग फ़ाइलें, सुझाव/राय देने या शिकायत करने के फ़ॉर्म. | एक पहचान छिपाने वाला टेंप्लेट बनाएं. यह टेंप्लेट, संवेदनशील वैल्यू को उनके infoType से बदल देता है. इससे, कॉन्टेक्स्ट को बनाए रखते हुए, संवेदनशील जानकारी को हटाया जा सकता है. |
व्यक्तिगत पहचान से जुड़ी जानकारी हटाने पर, स्ट्रक्चर्ड डेटासेट (सीएसवी) में डेटा के इस्तेमाल में कमी आती है. | रिकॉर्ड ट्रांसफ़ॉर्मेशन का इस्तेमाल करके, पहचान ज़ाहिर करने वाली जानकारी (जैसे कि नाम) को चुनिंदा तौर पर छिपाएं. साथ ही, स्ट्रिंग में मौजूद अन्य वर्णों को सुरक्षित रखने के लिए, वर्ण मास्किंग जैसी तकनीकों का इस्तेमाल करें. इससे डेवलपर, डेटा की मदद से अब भी टेस्ट कर पाएंगे. |
इमेज में एम्बेड किए गए टेक्स्ट से व्यक्तिगत पहचान से जुड़ी जानकारी का पता चलना. जैसे, स्कैन किए गए दस्तावेज़ और उपयोगकर्ता की फ़ोटो. | इमेज के हिसाब से पहचान छिपाने वाला टेंप्लेट बनाएं. इससे इमेज में मौजूद टेक्स्ट को छिपाया जा सकता है. |
अलग-अलग तरह के डेटा में, मैन्युअल तरीके से डेटा छिपाने की प्रोसेस में गड़बड़ी होना या एक जैसा तरीका इस्तेमाल न करना. | संवेदनशील डेटा की सुरक्षा से जुड़ा एक ऐसा ऑटोमेटेड जॉब कॉन्फ़िगर करें जो प्रोसेस की जाने वाली फ़ाइल के टाइप के आधार पर, सही डी-आइडेंटिफ़िकेशन टेंप्लेट को लगातार लागू करता हो. |
आपको क्या सीखने को मिलेगा
इस लैब में, आपको इनके बारे में जानकारी मिलेगी:
- संवेदनशील जानकारी के खास टाइप (infoTypes) का पता लगाने के लिए, inspection template तय करें.
- स्ट्रक्चर नहीं किए गए, स्ट्रक्चर किए गए, और इमेज डेटा के लिए अलग-अलग पहचान छिपाने के नियम बनाएं.
- एक ऐसा जॉब कॉन्फ़िगर और चलाया जा सकता है जो फ़ाइल टाइप के आधार पर, पूरे बकेट के कॉन्टेंट पर सही तरीके से डेटा छिपाने की सुविधा अपने-आप लागू करता है.
- पुष्टि करें कि संवेदनशील डेटा को सुरक्षित आउटपुट लोकेशन में बदल दिया गया है.
2. प्रोजेक्ट सेटअप करना
Google खाता
अगर आपके पास पहले से कोई निजी Google खाता नहीं है, तो आपको Google खाता बनाना होगा.
ऑफ़िस या स्कूल वाले खाते के बजाय, निजी खाते का इस्तेमाल करें.
Google Cloud Console में साइन इन करना
किसी निजी Google खाते का इस्तेमाल करके, Google Cloud Console में साइन इन करें.
बिलिंग चालू करें
Google Cloud के 500 रुपये के क्रेडिट रिडीम करें (ज़रूरी नहीं)
इस वर्कशॉप को चलाने के लिए, आपके पास कुछ क्रेडिट वाला बिलिंग खाता होना चाहिए. अगर आपको अपने बिलिंग सिस्टम का इस्तेमाल करना है, तो इस चरण को छोड़ा जा सकता है.
- इस लिंक पर क्लिक करें और किसी निजी Google खाते से साइन इन करें.आपको कुछ ऐसा दिखेगा:

- अपने क्रेडिट ऐक्सेस करने के लिए यहां क्लिक करें बटन पर क्लिक करें.इससे आपको एक ऐसे पेज पर ले जाया जाएगा जहां आपको अपनी बिलिंग प्रोफ़ाइल सेट अप करनी होगी

- पुष्टि करें पर क्लिक करें. अब आप Google Cloud Platform के ट्रायल बिलिंग खाते से कनेक्ट हो गए हैं.

निजी बिलिंग खाता सेट अप करना
अगर आपने Google Cloud क्रेडिट का इस्तेमाल करके बिलिंग सेट अप की है, तो इस चरण को छोड़ा जा सकता है.
निजी बिलिंग खाता सेट अप करने के लिए, Cloud Console में बिलिंग की सुविधा चालू करने के लिए यहां जाएं.
ध्यान दें:
- इस लैब को पूरा करने में, Cloud संसाधनों पर 1 डॉलर से कम का खर्च आना चाहिए.
- ज़्यादा शुल्क से बचने के लिए, इस लैब के आखिर में दिए गए निर्देशों का पालन करके संसाधनों को मिटाया जा सकता है.
- नए उपयोगकर्ता, 300 डॉलर के मुफ़्त में आज़माने की सुविधा का फ़ायदा पा सकते हैं.
प्रोजेक्ट बनाना (ज़रूरी नहीं)
अगर आपके पास कोई ऐसा मौजूदा प्रोजेक्ट नहीं है जिसका इस्तेमाल आपको इस लैब के लिए करना है, तो यहां नया प्रोजेक्ट बनाएं.
3. एपीआई चालू करना
Cloud Shell को कॉन्फ़िगर करना
प्रोजेक्ट बन जाने के बाद, Cloud Shell को सेट अप करने के लिए, यह तरीका अपनाएं.
Cloud Shell लॉन्च करना
shell.cloud.google.com पर जाएं. अगर आपको पुष्टि करने के लिए कहा जाता है, तो पुष्टि करें पर क्लिक करें.
प्रोजेक्ट आईडी सेट करें
सही प्रोजेक्ट आईडी सेट करने के लिए, Cloud Shell टर्मिनल में यह कमांड चलाएं. <your-project-id> की जगह, प्रोजेक्ट बनाने के ऊपर दिए गए चरण से कॉपी किया गया अपना असल प्रोजेक्ट आईडी डालें.
gcloud config set project <your-project-id>
अब आपको Cloud Shell टर्मिनल में, सही प्रोजेक्ट चुना हुआ दिखेगा.
संवेदनशील डेटा की सुरक्षा की सुविधा चालू करना
Sensitive Data Protection सेवा और Cloud Storage का इस्तेमाल करने के लिए, आपको यह पक्का करना होगा कि आपके Google Cloud प्रोजेक्ट में ये एपीआई चालू हों.
- टर्मिनल में, इन एपीआई को चालू करें:
gcloud services enable dlp.googleapis.com storage.googleapis.com
इसके अलावा, इन एपीआई को चालू करने के लिए, कंसोल में सुरक्षा > संवेदनशील डेटा की सुरक्षा और Cloud Storage पर जाएं. इसके बाद, अगर हर सेवा के लिए कहा जाता है, तो चालू करें बटन पर क्लिक करें.
4. संवेदनशील डेटा के साथ बकेट बनाना
इनपुट और आउटपुट बकेट बनाना
इस चरण में, आपको दो बकेट बनानी होंगी: एक में वह संवेदनशील डेटा होगा जिसकी जांच करनी है. दूसरी बकेट में, Sensitive Data Protection, पहचान छिपाकर बनाई गई आउटपुट फ़ाइलें सेव करेगा. आपके पास सैंपल डेटा फ़ाइलें डाउनलोड करने और उन्हें अपने इनपुट बकेट में अपलोड करने का विकल्प भी होता है.
- टर्मिनल में, इनपुट डेटा के लिए एक बकेट और आउटपुट के लिए एक बकेट बनाने के लिए, ये कमांड चलाएं. इसके बाद,
gs://dlp-codelab-dataसे सैंपल डेटा को इनपुट बकेट में डालें:PROJECT_ID=$(gcloud config get-value project) gsutil mb gs://input-$PROJECT_ID gsutil mb gs://output-$PROJECT_ID
इनपुट बकेट में संवेदनशील डेटा जोड़ना
इस चरण में, आपको GitHub से सैंपल डेटा फ़ाइलें डाउनलोड करनी होंगी. इनमें टेस्ट के लिए पीआईआई शामिल होती है. इसके बाद, इन फ़ाइलों को अपने इनपुट बकेट में अपलोड करना होगा.
- Cloud Shell में,
devrel-demosरिपॉज़िटरी को क्लोन करने के लिए, यहां दिया गया निर्देश चलाएं. इसमें इस लैब के लिए ज़रूरी सैंपल डेटा मौजूद है.REPO_URL="https://github.com/GoogleCloudPlatform/devrel-demos.git" TARGET_PATH="security/sample-data" OUTPUT_FOLDER="sample-data" git clone --quiet --depth 1 --filter=blob:none --sparse "$REPO_URL" temp_loader cd temp_loader git sparse-checkout set "$TARGET_PATH" cd .. mv "temp_loader/$TARGET_PATH" "$OUTPUT_FOLDER" rm -rf temp_loader - इसके बाद, सैंपल डेटा को उस इनपुट बकेट में कॉपी करें जिसे आपने पहले बनाया था:
gsutil -m cp -r sample-data/* gs://input-$PROJECT_ID/ - Cloud Storage > बकेट पर जाएं. इसके बाद, इंपोर्ट किए गए डेटा को देखने के लिए, इनपुट बकेट पर क्लिक करें.
5. जांच करने के लिए टेंप्लेट बनाना
इस टास्क में, आपको एक ऐसा टेंप्लेट बनाना होता है जो संवेदनशील डेटा की सुरक्षा को यह बताता है कि उसे किस तरह का डेटा ढूंढना है. इससे, अपने डेटा और इलाके के हिसाब से काम के infoTypes पर ध्यान दिया जा सकता है. इससे परफ़ॉर्मेंस और सटीकता बेहतर होती है.
जांच करने के लिए टेंप्लेट बनाना
इस चरण में, यह तय किया जाता है कि किस तरह के डेटा को संवेदनशील डेटा माना जाएगा और उसकी जांच की जाएगी. इस टेंप्लेट का फिर से इस्तेमाल किया जाएगा, ताकि पहचान से जुड़ी जानकारी हटाने की प्रोसेस में एक जैसा तरीका अपनाया जा सके.
- नेविगेशन मेन्यू में, संवेदनशील डेटा की सुरक्षा > कॉन्फ़िगरेशन > टेंप्लेट पर जाएं.
- टेंप्लेट बनाएं पर क्लिक करें.
- टेंप्लेट टाइप के लिए, जांच करें (संवेदनशील डेटा ढूंढें) चुनें.
- टेंप्लेट आईडी को
pii-finderपर सेट करें. - जारी रखें पर क्लिक करके, डिटेक्शन को कॉन्फ़िगर करें पर जाएं.
- infoType मैनेज करें पर क्लिक करें.
- फ़िल्टर का इस्तेमाल करके, यहां दिए गए infoTypes खोजें और हर एक के बगल में मौजूद चेकबॉक्स पर सही का निशान लगाएं:
CREDIT_CARD_EXPIRATION_DATECREDIT_CARD_NUMBERDATE_OF_BIRTHDRIVERS_LICENSE_NUMBEREMAIL_ADDRESSGCP_API_KEYGCP_CREDENTIALSORGANIZATION_NAMEPASSWORDPERSON_NAMEPHONE_NUMBERUS_SOCIAL_SECURITY_NUMBER
- इसके अलावा, अपनी पसंद के अन्य विषय भी चुनें और हो गया पर क्लिक करें.
- नतीजे के तौर पर मिली टेबल देखें और पक्का करें कि ये सभी infoType जोड़े गए हों.
- बनाएं पर क्लिक करें.
6. पहचान छिपाने वाले टेंप्लेट बनाना
इसके बाद, अलग-अलग डेटा फ़ॉर्मैट को मैनेज करने के लिए, तीन अलग-अलग पहचान छिपाने वाले टेंप्लेट बनाए जाते हैं. इससे आपको डेटा ट्रांसफ़ॉर्मेशन की प्रोसेस पर ज़्यादा कंट्रोल मिलता है. साथ ही, हर फ़ाइल टाइप के लिए सबसे सही तरीका लागू किया जा सकता है. ये टेंप्लेट, अभी बनाए गए जांच वाले टेंप्लेट के साथ मिलकर काम करते हैं.
अनस्ट्रक्चर्ड डेटा के लिए टेंप्लेट बनाना
इस टेंप्लेट से यह तय होगा कि चैट लॉग या फ़ीडबैक फ़ॉर्म जैसे फ़्री-फ़ॉर्म टेक्स्ट में मिले संवेदनशील डेटा की पहचान कैसे हटाई जाएगी. चुना गया तरीका, संवेदनशील वैल्यू को उसके infoType नाम से बदल देता है. इससे कॉन्टेक्स्ट बना रहता है.
- टेंप्लेट पेज पर, टेंप्लेट बनाएं पर क्लिक करें.
- पहचान छिपाने वाला टेंप्लेट तय करें:
प्रॉपर्टी
वैल्यू (टाइप करें या चुनें)
टेंप्लेट का टाइप
पहचान ज़ाहिर करने वाली जानकारी हटाना (संवेदनशील डेटा हटाना)
डेटा ट्रांसफ़ॉर्मेशन का टाइप
InfoType
टेंप्लेट आईडी
de-identify-unstructured - जारी रखें पर क्लिक करके, पहचान से जुड़ी जानकारी हटाने की सुविधा कॉन्फ़िगर करें पर जाएं.
- बदलाव का तरीका में जाकर, बदलाव: infoType के नाम से बदलें चुनें.
- बनाएं पर क्लिक करें.
- परीक्षण करें पर क्लिक करें.
- व्यक्तिगत पहचान से जुड़ी जानकारी वाले मैसेज की जांच करें, ताकि यह पता चल सके कि उसे कैसे बदला जाएगा:
Hi, my name is Alex and my SSN is 555-11-5555. You can reach me at +1-555-555-5555.
स्ट्रक्चर्ड डेटा के लिए टेंप्लेट बनाना
यह टेंप्लेट, खास तौर पर स्ट्रक्चर्ड डेटासेट (जैसे, CSV फ़ाइलें) में मौजूद संवेदनशील जानकारी को टारगेट करता है. आपको इसे इस तरह से कॉन्फ़िगर करना होगा कि डेटा को मास्क किया जा सके. इससे टेस्टिंग के लिए डेटा का इस्तेमाल किया जा सकेगा. साथ ही, संवेदनशील फ़ील्ड की पहचान भी नहीं हो पाएगी.
- टेंप्लेट पेज पर वापस जाएं और टेंप्लेट बनाएं पर क्लिक करें.
- पहचान छिपाने वाला टेंप्लेट तय करें:
प्रॉपर्टी
वैल्यू (टाइप करें या चुनें)
टेंप्लेट का टाइप
पहचान ज़ाहिर करने वाली जानकारी हटाना (संवेदनशील डेटा हटाना)
डेटा ट्रांसफ़ॉर्मेशन का टाइप
रिकॉर्ड करें
टेंप्लेट आईडी
de-identify-structured - जारी रखें पर क्लिक करके, पहचान छिपाने की सुविधा को कॉन्फ़िगर करें पर जाएं. यह टेंप्लेट स्ट्रक्चर्ड डेटा पर लागू होता है. इसलिए, हम अक्सर उन फ़ील्ड या कॉलम का अनुमान लगा सकते हैं जिनमें कुछ तरह का संवेदनशील डेटा मौजूद होगा. आपको पता है कि आपका ऐप्लिकेशन जिस CSV फ़ाइल का इस्तेमाल करता है उसमें
user_idसे कम उपयोगकर्ताओं के ईमेल पते हैं. साथ ही,messageमें अक्सर ग्राहक इंटरैक्शन से जुड़ी निजी पहचान वाली जानकारी (पीआईआई) होती है. आपकोagent_idको मास्क करने की ज़रूरत नहीं है, क्योंकि वे कर्मचारी हैं और बातचीत का श्रेय उन्हें मिलना चाहिए. इस सेक्शन को इस तरह भरें:- बदलाव करने के लिए फ़ील्ड या कॉलम:
user_id,message. - ट्रांसफ़ॉर्मेशन का टाइप: जानकारी किस तरह की है के आधार पर मैच करना
- ट्रांसफ़ॉर्मेशन का तरीका: ट्रांसफ़ॉर्मेशन जोड़ें पर क्लिक करें
- ट्रांसफ़ॉर्मेशन: वर्ण के साथ मास्क.
- अनदेखा किए जाने वाले वर्ण: अमेरिका में इस्तेमाल होने वाले विराम चिह्न.
- बदलाव करने के लिए फ़ील्ड या कॉलम:
- बनाएं पर क्लिक करें.
इमेज डेटा के लिए टेंप्लेट बनाना
इस टेंप्लेट को इमेज में मौजूद संवेदनशील टेक्स्ट की पहचान छिपाने के लिए डिज़ाइन किया गया है. जैसे, स्कैन किए गए दस्तावेज़ या उपयोगकर्ता की सबमिट की गई फ़ोटो. यह ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) का इस्तेमाल करके, निजी पहचान से जुड़ी जानकारी का पता लगाता है और उसे छिपाता है.
- टेंप्लेट पेज पर वापस जाएं और टेंप्लेट बनाएं पर क्लिक करें.
- पहचान छिपाने वाला टेंप्लेट तय करें:
प्रॉपर्टी
वैल्यू (टाइप करें या चुनें)
टेंप्लेट का टाइप
पहचान ज़ाहिर करने वाली जानकारी हटाना (संवेदनशील डेटा हटाना)
डेटा ट्रांसफ़ॉर्मेशन का टाइप
इमेज
टेंप्लेट आईडी
de-identify-image - जारी रखें पर क्लिक करके, पहचान से जुड़ी जानकारी हटाने की सुविधा कॉन्फ़िगर करें पर जाएं.
- बदले जाने वाले InfoType: जांच के टेंप्लेट या जांच के कॉन्फ़िगरेशन में तय किए गए ऐसे InfoType जिनका पता लगाया गया है और जिन्हें अन्य नियमों में नहीं बताया गया है.
- बनाएं पर क्लिक करें.
7. पहचान छिपाने वाला जॉब बनाना और उसे चलाना
टेंप्लेट तय करने के बाद, अब एक सिंगल जॉब बनाएं. यह जॉब, फ़ाइल टाइप का पता लगाकर और उसकी जांच करके, सही डी-आइडेंटिफ़िकेशन टेंप्लेट लागू करती है. इससे Cloud Storage में सेव किए गए डेटा के लिए, संवेदनशील डेटा की सुरक्षा से जुड़ी प्रोसेस अपने-आप हो जाती है.
इनपुट डेटा कॉन्फ़िगर करना
इस चरण में, आपको उस डेटा सोर्स के बारे में बताना होता है जिसमें मौजूद डेटा की पहचान छिपाने की ज़रूरत है. यह डेटा सोर्स, Cloud Storage बकेट होता है. इसमें अलग-अलग तरह की फ़ाइलें होती हैं, जिनमें संवेदनशील जानकारी होती है.
- खोज बार का इस्तेमाल करके, सुरक्षा > संवेदनशील डेटा की सुरक्षा पर जाएं.
- मेन्यू में, जांच पर क्लिक करें.
- Create job and job triggers पर क्लिक करें.
- जॉब कॉन्फ़िगर करें:
प्रॉपर्टी
वैल्यू (टाइप करें या चुनें)
जॉब आईडी
pii-removerस्टोरेज का टाइप
Google Cloud Storage
जगह की जानकारी का टाइप
शामिल/बाहर रखने के नियमों के साथ किसी बकेट को स्कैन करना
बकेट का नाम
input-[your-project-id]
पहचान करने और कार्रवाइयों को कॉन्फ़िगर करना
अब आपको पहले से बनाए गए टेंप्लेट को इस काम से लिंक करना होगा. इससे Sensitive Data Protection को यह पता चलेगा कि पीआईआई की जांच कैसे करनी है और कॉन्टेंट टाइप के आधार पर, पहचान छिपाने का कौन-सा तरीका लागू करना है.
- जांच का टेंप्लेट:
projects/[your-project-id]/locations/global/inspectTemplates/pii-finder - कार्रवाइयां जोड़ें में जाकर, पहचान छिपाकर कॉपी बनाएं को चुनें. इसके बाद, ट्रांसफ़ॉर्मेशन टेंप्लेट को कॉन्फ़िगर करें, ताकि वे आपके बनाए गए टेंप्लेट हों.
- आपके लिए एक पॉप-अप खुलता है
Confirm whether you want to de-identify the findings, सैंपलिंग बंद करें पर क्लिक करें.
प्रॉपर्टी
वैल्यू (टाइप करें या चुनें)
पहचान ज़ाहिर करने वाली जानकारी हटाने का टेंप्लेट
projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-unstructuredस्ट्रक्चर्ड डी-आइडेंटिफ़िकेशन टेंप्लेट
projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-structuredइमेज में बदलाव करने का टेंप्लेट
projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-image - Cloud Storage में आउटपुट फ़ाइल सेव करने की जगह कॉन्फ़िगर करें:
- यूआरएल:
gs://output-[your-project-id]
- यूआरएल:
- शेड्यूल करें में जाकर, कोई नहीं विकल्प को चुनें, ताकि जॉब तुरंत शुरू हो जाए.
- बनाएं पर क्लिक करें.
Confirm job or job trigger createके लिए एक पॉप-अप खुलता है. बनाएं की पुष्टि करें पर क्लिक करें.
8. नतीजों की पुष्टि करना
आखिरी चरण में, यह पुष्टि करना होता है कि आउटपुट बकेट में मौजूद सभी फ़ाइल टाइप में, संवेदनशील डेटा को सही तरीके से छिपाया गया है. इससे यह पक्का किया जा सकता है कि आपकी डी-आइडेंटिफ़िकेशन पाइपलाइन उम्मीद के मुताबिक काम कर रही है.
नौकरी की स्थिति देखना
यह पक्का करने के लिए कि जॉब पूरी हो गई है, उस पर नज़र रखें. साथ ही, आउटपुट फ़ाइलें देखने से पहले, नतीजों की खास जानकारी देखें.
- जॉब की जानकारी टैब में, जॉब के हो गया स्टेटस में दिखने का इंतज़ार करें.
- खास जानकारी में जाकर, नतीजों की संख्या और पता लगाए गए हर infoType का प्रतिशत देखें.
- कॉन्फ़िगरेशन पर क्लिक करें.
- नीचे की ओर स्क्रोल करके कार्रवाइयां पर जाएं. इसके बाद, पहचान छिपाया गया डेटा देखने के लिए, आउटपुट बकेट
gs://output-[your-project-id]पर क्लिक करें.
इनपुट और आउटपुट फ़ाइलों की तुलना करना
इस चरण में, पहचान छिपाकर रखी गई फ़ाइलों की मैन्युअल तरीके से जांच की जाती है. इससे यह पुष्टि की जाती है कि आपके टेंप्लेट के मुताबिक, डेटा को सही तरीके से सैनिटाइज़ किया गया है.
- इमेज: आउटपुट बकेट से कोई इमेज खोलें. पुष्टि करें कि आउटपुट फ़ाइल में, सभी संवेदनशील टेक्स्ट को छिपा दिया गया हो.

- अनस्ट्रक्चर्ड लॉग: दोनों बकेट की लॉग फ़ाइल देखें. पुष्टि करें कि आउटपुट लॉग में मौजूद व्यक्तिगत पहचान से जुड़ी जानकारी को infoType के नाम से बदल दिया गया है. उदाहरण के लिए,
[US_SOCIAL_SECURITY_NUMBER]). - स्ट्रक्चर्ड CSV फ़ाइलें: दोनों बकेट से CSV फ़ाइल खोलें. पुष्टि करें कि आउटपुट फ़ाइल में मौजूद उपयोगकर्ता के ईमेल पते और एसएसएन,
####@####.comसे मास्क किए गए हों.
9. लैब से लेकर असल ज़िंदगी तक: इस सुविधा को अपने प्रोजेक्ट में कैसे इस्तेमाल करें
आपने जो सिद्धांत और कॉन्फ़िगरेशन लागू किए हैं वे Google Cloud पर, असल दुनिया के एआई प्रोजेक्ट को सुरक्षित करने के लिए ब्लूप्रिंट हैं. आपने अभी जो संसाधन बनाए हैं—जांच करने वाला टेंप्लेट, पहचान छिपाने वाले टेंप्लेट, और ऑटोमेटेड जॉब—ये किसी भी नई डेटा इंटेक प्रोसेस के लिए, सुरक्षित स्टार्टर टेंप्लेट के तौर पर काम करते हैं.
डेटा को अपने-आप साफ़ करने वाली पाइपलाइन: सुरक्षित तरीके से डेटा पाना
इसे सेट अप में इस्तेमाल करने का तरीका
जब भी आपकी टीम को एआई डेवलपमेंट के लिए, ग्राहक का नया रॉ डेटा इस्तेमाल करना हो, तब आपको उसे ऐसी पाइपलाइन से भेजना होगा जिसमें आपने संवेदनशील डेटा की सुरक्षा से जुड़ा कॉन्फ़िगरेशन शामिल किया हो. मैन्युअल तरीके से जांच करने और डेटा छिपाने के बजाय, इस ऑटोमेटेड वर्कफ़्लो का इस्तेमाल करें. इससे यह पक्का किया जाता है कि डेटा साइंटिस्ट और एआई मॉडल सिर्फ़ ऐसे डेटा के साथ इंटरैक्ट करें जिसमें पहचान ज़ाहिर करने वाली जानकारी शामिल न हो. इससे निजता से जुड़े जोखिम काफ़ी हद तक कम हो जाते हैं.
प्रोडक्शन ट्रैक से कनेक्ट किया जा रहा है
प्रोडक्शन एनवायरमेंट में, इस कॉन्सेप्ट को और बेहतर बनाया जा सकता है. इसके लिए, ये काम किए जा सकते हैं:
- जॉब ट्रिगर की मदद से ऑटोमेशन: जॉब को मैन्युअल तरीके से चलाने के बजाय, जब भी आपके इनपुट Cloud Storage बकेट में कोई नई फ़ाइल अपलोड की जाती है, तब जॉब ट्रिगर सेट अप किया जाता है. इससे पूरी तरह से ऑटोमेटेड, बिना किसी मानवीय हस्तक्षेप के पहचान का पता लगाने और उसे हटाने की प्रोसेस तैयार होती है.
- डेटा लेक/वेयरहाउस के साथ इंटिग्रेशन: पहचान छिपाकर तैयार किया गया आउटपुट डेटा, आम तौर पर सुरक्षित डेटा लेक (जैसे, Cloud Storage पर) या डेटा वेयरहाउस (जैसे, BigQuery) में एक्सपोर्ट किया जाता है, ताकि उसका विश्लेषण किया जा सके और मॉडल को ट्रेन किया जा सके. साथ ही, यह पक्का किया जाता है कि डेटा के पूरे लाइफ़साइकल में निजता बनाए रखी जाए.
पहचान छिपाने की रणनीतियां: निजता और काम की जानकारी के बीच संतुलन बनाए रखना
इसे सेट अप में इस्तेमाल करने का तरीका
आपने जो अलग-अलग पहचान छिपाने वाले टेंप्लेट (अनस्ट्रक्चर्ड, स्ट्रक्चर्ड, इमेज) बनाए हैं वे अहम हैं. आपको अपने एआई मॉडल की खास ज़रूरतों के हिसाब से, मिलती-जुलती अलग-अलग रणनीतियां लागू करनी होंगी. इससे आपकी डेवलपमेंट टीम को, निजता से समझौता किए बिना अपने मॉडल के लिए काम का डेटा मिल पाता है.
प्रोडक्शन ट्रैक से कनेक्ट किया जा रहा है
प्रोडक्शन एनवायरमेंट में, यह बेहतर कंट्रोल इन कामों के लिए और भी ज़्यादा ज़रूरी हो जाता है:
- कस्टम जानकारी के टाइप और डिक्शनरी: किसी खास या डोमेन से जुड़े संवेदनशील डेटा के लिए, Sensitive Data Protection में कस्टम जानकारी के टाइप और डिक्शनरी तय की जाती हैं. इससे आपके कारोबार के हिसाब से, सभी तरह की गड़बड़ियों का पता लगाया जा सकता है.
- फ़ॉर्मैट-प्रिज़र्विंग एन्क्रिप्शन (एफ़पीई): कुछ मामलों में, पहचान छिपाए गए डेटा को उसके ओरिजनल फ़ॉर्मैट में ही रखना होता है. जैसे, इंटिग्रेशन टेस्टिंग के लिए क्रेडिट कार्ड नंबर. ऐसे मामलों में, पहचान छिपाने की बेहतर तकनीकों का इस्तेमाल किया जाता है. जैसे, फ़ॉर्मैट-प्रिज़र्विंग एन्क्रिप्शन. इससे, निजता को सुरक्षित रखते हुए, डेटा के असल पैटर्न के साथ टेस्टिंग की जा सकती है.
निगरानी और ऑडिट करना: लगातार नियमों का पालन करना
इसे सेट अप में इस्तेमाल करने का तरीका
आपको संवेदनशील डेटा की सुरक्षा से जुड़े लॉग की लगातार निगरानी करनी होगी. इससे यह पक्का किया जा सकेगा कि डेटा प्रोसेसिंग, आपकी निजता नीतियों के मुताबिक हो रही है और कोई भी संवेदनशील जानकारी गलती से सार्वजनिक नहीं हुई है. लगातार होने वाले इस ऑडिट में, नौकरी की खास जानकारी और नतीजों की समय-समय पर समीक्षा करना शामिल है.
प्रोडक्शन ट्रैक से कनेक्ट किया जा रहा है
बेहतर प्रोडक्शन सिस्टम के लिए, इन मुख्य कार्रवाइयों पर ध्यान दें:
- खोज के नतीजों को Security Command Center में भेजें: खतरे को मैनेज करने और सुरक्षा की स्थिति को एक ही जगह पर देखने के लिए, संवेदनशील डेटा की सुरक्षा से जुड़ी नौकरियों को कॉन्फ़िगर करें. इससे खोज के नतीजों की खास जानकारी सीधे Security Command Center में भेजी जा सकेगी. इससे सुरक्षा से जुड़ी चेतावनियों और अहम जानकारी को एक जगह पर इकट्ठा किया जाता है.
- सूचनाएं और घटना से जुड़ी कार्रवाई: आपको संवेदनशील डेटा की सुरक्षा से जुड़ी सेटिंग के नतीजों या नौकरी से जुड़ी गड़बड़ियों के आधार पर, Cloud Monitoring की सूचनाएं सेट अप करनी होंगी. इससे यह पक्का होता है कि आपकी सुरक्षा टीम को नीति के संभावित उल्लंघनों या प्रोसेसिंग से जुड़ी समस्याओं के बारे में तुरंत सूचना मिल जाए. इससे, किसी भी घटना पर तुरंत कार्रवाई की जा सकती है.
10. नतीजा
बधाई हो! आपने डेटा की सुरक्षा से जुड़ा एक ऐसा वर्कफ़्लो बनाया है जो कई तरह के डेटा टाइप में मौजूद पीआईआई का अपने-आप पता लगा सकता है और उसे पहचान छिपाकर इस्तेमाल करने लायक बना सकता है. इससे, डाउनस्ट्रीम एआई डेवलपमेंट और विश्लेषण में डेटा का इस्तेमाल सुरक्षित तरीके से किया जा सकता है.
रीकैप
इस लैब में, आपने ये काम किए:
- संवेदनशील जानकारी के खास टाइप (infoTypes) का पता लगाने के लिए, जांच का टेंप्लेट तय किया गया हो.
- स्ट्रक्चर नहीं किए गए, स्ट्रक्चर किए गए, और इमेज डेटा के लिए, पहचान छिपाने के अलग-अलग नियम बनाए गए हैं.
- कॉन्फ़िगर किया गया और एक ऐसा जॉब चलाया गया जो फ़ाइल टाइप के आधार पर, पूरे बकेट के कॉन्टेंट पर सही तरीके से डेटा छिपाने की सुविधा को अपने-आप लागू करता है.
- पुष्टि की गई कि संवेदनशील डेटा को सुरक्षित आउटपुट लोकेशन में ट्रांसफ़ॉर्म किया गया है.
अगले चरण
- Security Command Center को नतीजे भेजना: थ्रेट मैनेजमेंट को बेहतर तरीके से इंटिग्रेट करने के लिए, जॉब ऐक्शन को कॉन्फ़िगर करें. इससे, जांच के नतीजों की खास जानकारी सीधे Security Command Center को भेजी जा सकेगी.
- Cloud Functions की मदद से प्रोसेस को अपने-आप शुरू होने की सुविधा सेट अप करना: प्रोडक्शन एनवायरमेंट में, Cloud Functions का इस्तेमाल करके, इस जांच की प्रोसेस को अपने-आप शुरू होने की सुविधा सेट अप की जा सकती है. ऐसा तब होगा, जब इनपुट बकेट में कोई नई फ़ाइल अपलोड की जाएगी.