एआई ऐप्लिकेशन के लिए इस्तेमाल किए गए डेटा को सुरक्षित करना

1. परिचय

खास जानकारी

इस लैब में, आपको डेटा को सुरक्षित करने वाली एक ऑटोमेटेड पाइपलाइन बनानी है. इससे एआई डेवलपमेंट में इस्तेमाल की गई संवेदनशील जानकारी को सुरक्षित रखा जा सकेगा. Google Cloud की Sensitive Data Protection (पहले इसे Cloud DLP कहा जाता था) का इस्तेमाल करके, अलग-अलग फ़ॉर्मैट में मौजूद व्यक्तिगत पहचान से जुड़ी जानकारी (पीआईआई) की जांच की जा सकती है. साथ ही, इसे अलग-अलग कैटगरी में बांटा जा सकता है और इसकी पहचान मिटाई जा सकती है. इसमें बिना स्ट्रक्चर वाला टेक्स्ट, स्ट्रक्चर्ड टेबल, और इमेज शामिल हैं.

कॉन्टेक्स्ट

आपकी डेवलपमेंट टीम में, सुरक्षा और निजता से जुड़ी समस्याओं को हल करने की ज़िम्मेदारी आपकी है. आपका लक्ष्य ऐसा वर्कफ़्लो बनाना है जो संवेदनशील जानकारी की पहचान करे और उसे डेवलपर और मॉडल के लिए उपलब्ध कराने से पहले, उसकी पहचान छिपा दे. आपकी टीम को जनरेटिव एआई के नए ऐप्लिकेशन को ट्यून और टेस्ट करने के लिए, भरोसेमंद और अच्छी क्वालिटी वाले डेटा की ज़रूरत है. हालांकि, ग्राहक के रॉ डेटा का इस्तेमाल करने से, निजता से जुड़ी गंभीर समस्याएं पैदा हो सकती हैं.

यहां दी गई टेबल में, निजता से जुड़े उन जोखिमों के बारे में बताया गया है जिन्हें कम करने के लिए, आपको सबसे ज़्यादा चिंता है:

जोखिम

गड़बड़ी की गंभीरता को कम करना

बिना स्ट्रक्चर वाली टेक्स्ट फ़ाइलों में व्यक्तिगत पहचान से जुड़ी जानकारी का दिखना. जैसे, सहायता के लिए चैट लॉग, सुझाव/राय देने या शिकायत करने के फ़ॉर्म.

एक पहचान छिपाने वाला टेंप्लेट बनाएं. यह टेंप्लेट, संवेदनशील वैल्यू को उनके infoType से बदल देता है. इससे, कॉन्टेक्स्ट को बनाए रखते हुए, डेटा को सुरक्षित रखा जा सकता है.

व्यक्तिगत पहचान से जुड़ी जानकारी हटाने पर, स्ट्रक्चर्ड डेटासेट (सीएसवी) में डेटा के इस्तेमाल से जुड़ी जानकारी का नुकसान होता है.

रिकॉर्ड ट्रांसफ़ॉर्मेशन का इस्तेमाल करके, पहचान ज़ाहिर करने वाली जानकारी (जैसे कि नाम) को चुनिंदा तौर पर छिपाएं. साथ ही, स्ट्रिंग में मौजूद अन्य वर्णों को सुरक्षित रखने के लिए, वर्ण मास्किंग जैसी तकनीकों का इस्तेमाल करें, ताकि डेवलपर अब भी डेटा की जांच कर सकें.

इमेज में एम्बेड किए गए टेक्स्ट से व्यक्तिगत पहचान से जुड़ी जानकारी का पता चलना. जैसे, स्कैन किए गए दस्तावेज़ और उपयोगकर्ता की फ़ोटो.

इमेज के हिसाब से पहचान छिपाने वाला टेंप्लेट बनाएं. इससे इमेज में मौजूद टेक्स्ट को छिपाया जा सकता है.

अलग-अलग तरह के डेटा में, मैन्युअल तरीके से डेटा छिपाने की प्रोसेस में गड़बड़ी होना या एक जैसा तरीका इस्तेमाल न किया जाना.

संवेदनशील डेटा की सुरक्षा से जुड़ा एक ऐसा ऑटोमेटेड जॉब कॉन्फ़िगर करें जो प्रोसेस की जाने वाली फ़ाइल के टाइप के आधार पर, सही डी-आइडेंटिफ़िकेशन टेंप्लेट को लगातार लागू करता हो.

आपको क्या सीखने को मिलेगा

इस लैब में, आपको इनके बारे में जानकारी मिलेगी:

  • संवेदनशील जानकारी के खास टाइप (infoTypes) का पता लगाने के लिए, inspection template तय करें.
  • स्ट्रक्चर नहीं किए गए, स्ट्रक्चर किए गए, और इमेज डेटा के लिए अलग-अलग पहचान छिपाने के नियम बनाएं.
  • एक ऐसा जॉब कॉन्फ़िगर और चलाया जा सकता है जो फ़ाइल टाइप के आधार पर, पूरे बकेट के कॉन्टेंट पर सही डेटा छिपाने की सुविधा अपने-आप लागू करता है.
  • पुष्टि करें कि संवेदनशील डेटा को सुरक्षित आउटपुट लोकेशन में बदल दिया गया है.

2. प्रोजेक्ट सेटअप करना

Google खाता

अगर आपके पास पहले से कोई निजी Google खाता नहीं है, तो आपको Google खाता बनाना होगा.

ऑफ़िस या स्कूल वाले खाते के बजाय, निजी खाते का इस्तेमाल करें.

Google Cloud Console में साइन इन करना

किसी निजी Google खाते का इस्तेमाल करके, Google Cloud Console में साइन इन करें.

बिलिंग चालू करें

Google Cloud के 500 रुपये के क्रेडिट रिडीम करें (ज़रूरी नहीं)

इस वर्कशॉप को चलाने के लिए, आपके पास कुछ क्रेडिट वाला बिलिंग खाता होना चाहिए. अगर आपको अपनी बिलिंग का इस्तेमाल करना है, तो इस चरण को छोड़ा जा सकता है.

  1. इस लिंक पर क्लिक करें और किसी निजी Google खाते से साइन इन करें.आपको कुछ ऐसा दिखेगा:क्रेडिट पेज के लिए यहां क्लिक करें
  2. अपने क्रेडिट ऐक्सेस करने के लिए यहां क्लिक करें बटन पर क्लिक करें.इससे आपको बिलिंग प्रोफ़ाइल सेट अप करने वाले पेज पर ले जाया जाएगाबिलिंग प्रोफ़ाइल पेज सेट अप करना
  3. पुष्टि करें पर क्लिक करें. अब आप Google Cloud Platform के ट्रायल बिलिंग खाते से कनेक्ट हो गए हैं.बिलिंग की खास जानकारी देने वाले पेज का स्क्रीनशॉट

निजी बिलिंग खाता सेट अप करना

अगर आपने Google Cloud क्रेडिट का इस्तेमाल करके बिलिंग सेट अप की है, तो इस चरण को छोड़ें.

निजी बिलिंग खाता सेट अप करने के लिए, Cloud Console में बिलिंग की सुविधा चालू करने के लिए यहां जाएं.

ध्यान दें:

  • इस लैब को पूरा करने में, Cloud संसाधनों पर 1 डॉलर से कम का खर्च आना चाहिए.
  • ज़्यादा शुल्क से बचने के लिए, संसाधन मिटाने के लिए इस लैब के आखिर में दिया गया तरीका अपनाएं.
  • नए उपयोगकर्ता, 300 डॉलर के मुफ़्त में आज़माने की सुविधा का फ़ायदा पा सकते हैं.

प्रोजेक्ट बनाना (ज़रूरी नहीं)

अगर आपके पास कोई ऐसा मौजूदा प्रोजेक्ट नहीं है जिसका इस्तेमाल इस लेबल के लिए किया जा सके, तो यहां नया प्रोजेक्ट बनाएं.

3. एपीआई चालू करना

Cloud Shell को कॉन्फ़िगर करना

प्रोजेक्ट बन जाने के बाद, Cloud Shell को सेट अप करने के लिए, यह तरीका अपनाएं.

Cloud Shell लॉन्च करना

shell.cloud.google.com पर जाएं. अगर आपको अनुमति देने के लिए कहा गया है, तो अनुमति दें पर क्लिक करें.

प्रोजेक्ट आईडी सेट करें

सही प्रोजेक्ट आईडी सेट करने के लिए, Cloud Shell टर्मिनल में यह कमांड चलाएं. <your-project-id> की जगह, प्रोजेक्ट बनाने के ऊपर दिए गए चरण से कॉपी किया गया अपना असल प्रोजेक्ट आईडी डालें.

gcloud config set project <your-project-id>

अब आपको Cloud Shell टर्मिनल में, सही प्रोजेक्ट चुना हुआ दिखेगा.

संवेदनशील डेटा की सुरक्षा की सुविधा चालू करना

Sensitive Data Protection सेवा और Cloud Storage का इस्तेमाल करने के लिए, आपको यह पक्का करना होगा कि आपके Google Cloud प्रोजेक्ट में ये एपीआई चालू हों.

  1. टर्मिनल में, इन एपीआई को चालू करें:
    gcloud services enable dlp.googleapis.com storage.googleapis.com
    

इसके अलावा, इन एपीआई को चालू करने के लिए, कंसोल में सुरक्षा > संवेदनशील डेटा की सुरक्षा और Cloud Storage पर जाएं. इसके बाद, अगर हर सेवा के लिए कहा जाता है, तो चालू करें बटन पर क्लिक करें.

4. संवेदनशील डेटा के साथ बकेट बनाना

इनपुट और आउटपुट बकेट बनाना

इस चरण में, आपको दो बकेट बनानी होंगी: एक में वह संवेदनशील डेटा होगा जिसकी जांच करनी है. दूसरी बकेट में, संवेदनशील जानकारी की सुरक्षा करने वाली सुविधा, पहचान छिपाकर बनाई गई आउटपुट फ़ाइलें सेव करेगी. आपके पास सैंपल डेटा फ़ाइलें डाउनलोड करने और उन्हें अपने इनपुट बकेट में अपलोड करने का विकल्प भी होता है.

  1. टर्मिनल में, इनपुट डेटा के लिए एक बकेट और आउटपुट के लिए एक बकेट बनाने के लिए, ये कमांड चलाएं. इसके बाद, gs://dlp-codelab-data से सैंपल डेटा को इनपुट बकेट में डालें:
    PROJECT_ID=$(gcloud config get-value project)
    gsutil mb gs://input-$PROJECT_ID
    gsutil mb gs://output-$PROJECT_ID
    

इनपुट बकेट में संवेदनशील डेटा जोड़ना

इस चरण में, GitHub से सैंपल डेटा फ़ाइलें डाउनलोड की जाती हैं. इनमें टेस्ट पीआईआई शामिल होती है. इसके बाद, इन्हें अपने इनपुट बकेट में अपलोड किया जाता है.

  1. इस लैब के लिए ज़रूरी सैंपल डेटा वाली devrel-demos रिपॉज़िटरी को क्लोन करने के लिए, Cloud Shell में यह कमांड चलाएं.
    REPO_URL="https://github.com/GoogleCloudPlatform/devrel-demos.git"
    TARGET_PATH="security/sample-data"
    OUTPUT_FOLDER="sample-data"
    
    git clone --quiet --depth 1 --filter=blob:none --sparse "$REPO_URL" temp_loader
    cd temp_loader
    git sparse-checkout set "$TARGET_PATH"
    cd ..
    mv "temp_loader/$TARGET_PATH" "$OUTPUT_FOLDER"
    rm -rf temp_loader
    
  2. इसके बाद, सैंपल डेटा को उस इनपुट बकेट में कॉपी करें जिसे आपने पहले बनाया था:
    gsutil -m cp -r sample-data/* gs://input-$PROJECT_ID/
    
  3. Cloud Storage > बकेट पर जाएं. इसके बाद, इंपोर्ट किए गए डेटा को देखने के लिए, इनपुट बकेट पर क्लिक करें.

5. जांच करने के लिए टेंप्लेट बनाना

इस टास्क में, आपको एक ऐसा टेंप्लेट बनाना होता है जिससे संवेदनशील डेटा की सुरक्षा को यह पता चल सके कि उसे किस तरह का डेटा ढूंढना है. इससे, अपने डेटा और इलाके के हिसाब से काम के infoTypes पर जांच को फ़ोकस किया जा सकता है. इससे परफ़ॉर्मेंस और सटीकता बेहतर होती है.

जांच करने के लिए टेंप्लेट बनाना

इस चरण में, यह तय किया जाता है कि किस तरह के डेटा को संवेदनशील डेटा माना जाएगा और उसकी जांच की जाएगी. इस टेंप्लेट का फिर से इस्तेमाल किया जाएगा, ताकि पहचान से जुड़ी जानकारी हटाने की प्रोसेस में एक जैसा तरीका अपनाया जा सके.

  1. नेविगेशन मेन्यू में, संवेदनशील डेटा की सुरक्षा > कॉन्फ़िगरेशन > टेंप्लेट पर जाएं.
  2. टेंप्लेट बनाएं पर क्लिक करें.
  3. टेंप्लेट टाइप के लिए, जांच करें (संवेदनशील डेटा ढूंढें) चुनें.
  4. टेंप्लेट आईडी को pii-finder पर सेट करें.
  5. जारी रखें पर क्लिक करके, डिटेक्शन को कॉन्फ़िगर करें पर जाएं.
  6. infoTypes मैनेज करें पर क्लिक करें.
  7. फ़िल्टर का इस्तेमाल करके, यहां दिए गए infoTypes खोजें और हर एक के बगल में मौजूद चेकबॉक्स पर सही का निशान लगाएं:
    • CREDIT_CARD_EXPIRATION_DATE
    • CREDIT_CARD_NUMBER
    • DATE_OF_BIRTH
    • DRIVERS_LICENSE_NUMBER
    • EMAIL_ADDRESS
    • GCP_API_KEY
    • GCP_CREDENTIALS
    • ORGANIZATION_NAME
    • PASSWORD
    • PERSON_NAME
    • PHONE_NUMBER
    • US_SOCIAL_SECURITY_NUMBER
  8. अपनी पसंद के अन्य विषय भी चुनें और हो गया पर क्लिक करें.
  9. नतीजे के तौर पर मिली टेबल देखें और पक्का करें कि ये सभी infoType जोड़े गए हों.
  10. बनाएं पर क्लिक करें.

6. पहचान छिपाने वाले टेंप्लेट बनाना

इसके बाद, अलग-अलग डेटा फ़ॉर्मैट को मैनेज करने के लिए, तीन अलग-अलग पहचान छिपाने वाले टेंप्लेट बनाए जाते हैं. इससे आपको डेटा ट्रांसफ़ॉर्मेशन की प्रोसेस पर ज़्यादा कंट्रोल मिलता है. साथ ही, हर फ़ाइल टाइप के लिए सबसे सही तरीका लागू किया जा सकता है. ये टेंप्लेट, अभी बनाए गए जांच वाले टेंप्लेट के साथ मिलकर काम करते हैं.

अनस्ट्रक्चर्ड डेटा के लिए टेंप्लेट बनाना

इस टेंप्लेट से यह तय होगा कि चैट लॉग या फ़ीडबैक फ़ॉर्म जैसे फ़्री-फ़ॉर्म टेक्स्ट में मिले संवेदनशील डेटा की पहचान कैसे हटाई जाएगी. चुना गया तरीका, संवेदनशील वैल्यू को उसके infoType नाम से बदल देता है. इससे कॉन्टेक्स्ट बना रहता है.

  1. टेंप्लेट पेज पर, टेंप्लेट बनाएं पर क्लिक करें.
  2. पहचान छिपाने वाला टेंप्लेट तय करें:

    प्रॉपर्टी

    वैल्यू (टाइप करें या चुनें)

    टेंप्लेट का टाइप

    पहचान ज़ाहिर करने वाली जानकारी हटाना (संवेदनशील डेटा हटाना)

    डेटा बदलने का टाइप

    InfoType

    टेंप्लेट आईडी

    de-identify-unstructured

  3. डेटा की पहचान से जुड़ी जानकारी हटाने की सुविधा कॉन्फ़िगर करें पर जाकर, जारी रखें.
    • बदलाव का तरीका में जाकर, बदलाव: infoType के नाम से बदलें चुनें.
  4. बनाएं पर क्लिक करें.
  5. परीक्षण करें पर क्लिक करें.
  6. व्यक्तिगत पहचान से जुड़ी जानकारी वाले मैसेज की जांच करें, ताकि यह पता चल सके कि उसे कैसे बदला जाएगा:
    Hi, my name is Alex and my SSN is 555-11-5555. You can reach me at +1-555-555-5555.
    

स्ट्रक्चर्ड डेटा के लिए टेंप्लेट बनाना

यह टेंप्लेट, खास तौर पर स्ट्रक्चर्ड डेटासेट में मौजूद संवेदनशील जानकारी को टारगेट करता है. जैसे, CSV फ़ाइलें. आपको इसे इस तरह से कॉन्फ़िगर करना होगा कि डेटा को मास्क किया जा सके. इससे टेस्टिंग के लिए डेटा का इस्तेमाल किया जा सकेगा. साथ ही, संवेदनशील फ़ील्ड की पहचान भी नहीं हो पाएगी.

  1. टेंप्लेट पेज पर वापस जाएं और टेंप्लेट बनाएं पर क्लिक करें.
  2. पहचान छिपाने वाला टेंप्लेट तय करें:

    प्रॉपर्टी

    वैल्यू (टाइप करें या चुनें)

    टेंप्लेट का टाइप

    पहचान ज़ाहिर करने वाली जानकारी हटाना (संवेदनशील डेटा हटाना)

    डेटा बदलने का टाइप

    रिकॉर्ड करें

    टेंप्लेट आईडी

    de-identify-structured

  3. जारी रखें पर क्लिक करके, पहचान छिपाने की सुविधा को कॉन्फ़िगर करें पर जाएं. यह टेंप्लेट स्ट्रक्चर्ड डेटा पर लागू होता है. इसलिए, हम अक्सर उन फ़ील्ड या कॉलम का अनुमान लगा सकते हैं जिनमें कुछ तरह का संवेदनशील डेटा मौजूद होगा. आपको पता है कि आपका ऐप्लिकेशन जिस CSV फ़ाइल का इस्तेमाल करता है उसमें user_id से कम उपयोगकर्ताओं के ईमेल पते हैं. साथ ही, message में अक्सर ग्राहक इंटरैक्शन से जुड़ी निजी पहचान वाली जानकारी (पीआईआई) होती है. आपको agent_id को मास्क करने की ज़रूरत नहीं है, क्योंकि वे कर्मचारी हैं और बातचीत का श्रेय उन्हें मिलना चाहिए. इस सेक्शन को इस तरह भरें:
    • बदलाव करने के लिए फ़ील्ड या कॉलम: user_id, message.
    • ट्रांसफ़ॉर्मेशन का टाइप: जानकारी किस तरह की है के आधार पर मैच करना
    • ट्रांसफ़ॉर्मेशन का तरीका: ट्रांसफ़ॉर्मेशन जोड़ें पर क्लिक करें
      • ट्रांसफ़ॉर्मेशन: वर्ण के साथ मास्क.
      • अनदेखा किए जाने वाले वर्ण: अमेरिका में इस्तेमाल होने वाले विराम चिह्न.
  4. बनाएं पर क्लिक करें.

इमेज डेटा के लिए टेंप्लेट बनाना

इस टेंप्लेट को इमेज में मौजूद संवेदनशील टेक्स्ट की पहचान छिपाने के लिए डिज़ाइन किया गया है. जैसे, स्कैन किए गए दस्तावेज़ या उपयोगकर्ता की सबमिट की गई फ़ोटो. यह ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) का इस्तेमाल करके, निजी पहचान से जुड़ी जानकारी का पता लगाता है और उसे छिपाता है.

  1. टेंप्लेट पेज पर वापस जाएं और टेंप्लेट बनाएं पर क्लिक करें.
  2. पहचान छिपाने वाला टेंप्लेट तय करें:

    प्रॉपर्टी

    वैल्यू (टाइप करें या चुनें)

    टेंप्लेट का टाइप

    पहचान ज़ाहिर करने वाली जानकारी हटाना (संवेदनशील डेटा हटाना)

    डेटा बदलने का टाइप

    इमेज

    टेंप्लेट आईडी

    de-identify-image

  3. डेटा की पहचान से जुड़ी जानकारी हटाने की सुविधा कॉन्फ़िगर करें पर जाकर, जारी रखें.
    • बदले जाने वाले InfoType: जांच के टेंप्लेट या जांच के कॉन्फ़िगरेशन में तय किए गए ऐसे InfoType जिनका पता लगाया गया है और जिन्हें अन्य नियमों में नहीं बताया गया है.
  4. बनाएं पर क्लिक करें.

7. पहचान छिपाने की प्रोसेस वाला जॉब बनाना और उसे चलाना

टेंप्लेट तय करने के बाद, अब एक सिंगल जॉब बनाएं. यह जॉब, फ़ाइल टाइप का पता लगाकर और उसकी जांच करके, सही डी-आइडेंटिफ़िकेशन टेंप्लेट लागू करती है. इससे Cloud Storage में सेव किए गए डेटा के लिए, संवेदनशील डेटा की सुरक्षा से जुड़ी प्रोसेस अपने-आप हो जाती है.

इनपुट डेटा कॉन्फ़िगर करना

इस चरण में, आपको उस डेटा सोर्स के बारे में बताना होता है जिसमें मौजूद डेटा की पहचान छिपाने की ज़रूरत है. यह डेटा सोर्स, Cloud Storage बकेट होता है. इसमें अलग-अलग तरह की फ़ाइलें होती हैं, जिनमें संवेदनशील जानकारी होती है.

  1. खोज बार का इस्तेमाल करके, सुरक्षा > संवेदनशील डेटा की सुरक्षा पर जाएं.
  2. मेन्यू में, जांच पर क्लिक करें.
  3. Create job and job triggers पर क्लिक करें.
  4. जॉब कॉन्फ़िगर करें:

    प्रॉपर्टी

    वैल्यू (टाइप करें या चुनें)

    जॉब आईडी

    pii-remover

    स्टोरेज का टाइप

    Google Cloud Storage

    जगह की जानकारी का टाइप

    शामिल/बाहर रखने के नियमों के साथ बकेट को स्कैन करना (ज़रूरी नहीं)

    बकेट का नाम

    input-[your-project-id]

पहचान करने और कार्रवाइयों को कॉन्फ़िगर करना

अब आपको पहले से बनाए गए टेंप्लेट को इस काम से लिंक करना होगा. इससे Sensitive Data Protection को यह पता चलेगा कि पीआईआई की जांच कैसे करनी है और कॉन्टेंट टाइप के आधार पर, पहचान छिपाने का कौनसा तरीका लागू करना है.

  1. जांच का टेंप्लेट: projects/[your-project-id]/locations/global/inspectTemplates/pii-finder
  2. कार्रवाइयां जोड़ें में जाकर, पहचान छिपाकर कॉपी बनाएं को चुनें. इसके बाद, ट्रांसफ़ॉर्मेशन टेंप्लेट को कॉन्फ़िगर करें, ताकि वे आपके बनाए गए टेंप्लेट हों.
  3. आपके लिए एक पॉप-अप खुलता है Confirm whether you want to de-identify the findings, सैंपलिंग बंद करें पर क्लिक करें.

    सैंपलिंग बंद करने के लिए कहा गया पॉप-अप का स्क्रीनशॉट

    प्रॉपर्टी

    वैल्यू (टाइप करें या चुनें)

    पहचान ज़ाहिर करने वाली जानकारी हटाने का टेंप्लेट

    projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-unstructured

    स्ट्रक्चर्ड डी-आइडेंटिफ़िकेशन टेंप्लेट

    projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-structured

    इमेज में बदलाव करने का टेंप्लेट

    projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-image

  4. Cloud Storage में आउटपुट फ़ाइल सेव करने की जगह कॉन्फ़िगर करें:
    • यूआरएल: gs://output-[your-project-id]
  5. शेड्यूल करें में जाकर, कोई नहीं विकल्प को चुनें, ताकि जॉब तुरंत शुरू हो जाए.
  6. बनाएं पर क्लिक करें.
  7. Confirm job or job trigger create के लिए एक पॉप-अप खुलता है. बनाएं की पुष्टि करें पर क्लिक करें.

    &#39;जॉब की पुष्टि करें&#39; या &#39;जॉब ट्रिगर बनाएं&#39; पॉप-अप का स्क्रीनशॉट

8. नतीजों की पुष्टि करना

आखिरी चरण में, यह पुष्टि करना होता है कि आउटपुट बकेट में मौजूद सभी फ़ाइल टाइप में, संवेदनशील डेटा को सही तरीके से छिपाया गया है. इससे यह पक्का किया जा सकता है कि आपकी डी-आइडेंटिफ़िकेशन पाइपलाइन उम्मीद के मुताबिक काम कर रही है.

नौकरी की स्थिति देखना

यह पक्का करने के लिए कि जॉब पूरी हो गई है, उस पर नज़र रखें. साथ ही, आउटपुट फ़ाइलों की जांच करने से पहले, नतीजों की खास जानकारी देखें.

  1. जॉब की जानकारी टैब में, जॉब के हो गया स्टेटस में दिखने का इंतज़ार करें.
  2. खास जानकारी में जाकर, नतीजों की संख्या और पता लगाए गए हर infoType का प्रतिशत देखें.
  3. कॉन्फ़िगरेशन पर क्लिक करें.
  4. नीचे की ओर स्क्रोल करके कार्रवाइयां पर जाएं. इसके बाद, पहचान छिपाए गए डेटा को देखने के लिए, आउटपुट बकेट gs://output-[your-project-id] पर क्लिक करें.

इनपुट और आउटपुट फ़ाइलों की तुलना करना

इस चरण में, पहचान छिपाकर रखी गई फ़ाइलों की मैन्युअल तरीके से जांच की जाती है. इससे यह पुष्टि की जाती है कि आपके टेंप्लेट के मुताबिक, डेटा को सही तरीके से सैनिटाइज़ किया गया है.

  1. इमेज: आउटपुट बकेट से कोई इमेज खोलें. पुष्टि करें कि आउटपुट फ़ाइल में, सभी संवेदनशील टेक्स्ट को छिपा दिया गया हो.

    फ़ॉर्म की इमेज का स्क्रीनशॉट, जिसमें काले बॉक्स से निजी पहचान से जुड़ी जानकारी को छिपाया गया है.

  2. अनस्ट्रक्चर्ड लॉग: दोनों बकेट की लॉग फ़ाइल देखें. पुष्टि करें कि आउटपुट लॉग में मौजूद व्यक्तिगत पहचान से जुड़ी जानकारी को infoType के नाम से बदल दिया गया है. उदाहरण के लिए, [US_SOCIAL_SECURITY_NUMBER]).
  3. स्ट्रक्चर्ड CSV फ़ाइलें: दोनों बकेट से CSV फ़ाइल खोलें. पुष्टि करें कि आउटपुट फ़ाइल में मौजूद उपयोगकर्ता के ईमेल पते और एसएसएन, ####@####.com से मास्क किए गए हों.

    इस स्क्रीनशॉट में, रॉ CSV डेटा (जिसमें ईमेल और एसएसएन दिख रहे हैं) और छिपाए गए CSV डेटा (जिसमें मास्क किए गए ईमेल और एसएसएन दिख रहे हैं) की तुलना की गई है.

9. लैब से लेकर असल दुनिया तक: इस सुविधा को अपने प्रोजेक्ट में कैसे इस्तेमाल करें

आपने जो सिद्धांत और कॉन्फ़िगरेशन लागू किए हैं वे Google Cloud पर एआई के असल प्रोजेक्ट को सुरक्षित करने के लिए ब्लूप्रिंट हैं. आपने अभी जो संसाधन बनाए हैं—जांच करने वाला टेंप्लेट, पहचान छिपाने वाले टेंप्लेट, और ऑटोमेटेड जॉब—ये किसी भी नई डेटा इंटेक प्रोसेस के लिए, सुरक्षित स्टार्टर टेंप्लेट के तौर पर काम करते हैं.

डेटा को अपने-आप साफ़ करने वाली पाइपलाइन: सुरक्षित तरीके से डेटा पाना

इसे सेट अप में इस्तेमाल करने का तरीका

जब भी आपकी टीम को एआई डेवलपमेंट के लिए, ग्राहक का नया रॉ डेटा इस्तेमाल करना हो, तब आपको उसे ऐसी पाइपलाइन से भेजना होगा जिसमें आपने संवेदनशील डेटा की सुरक्षा से जुड़ा कॉन्फ़िगरेशन शामिल किया हो. मैन्युअल तरीके से समीक्षा करने और डेटा छिपाने के बजाय, इस ऑटोमेटेड वर्कफ़्लो का इस्तेमाल करें. इससे यह पक्का किया जाता है कि डेटा साइंटिस्ट और एआई मॉडल सिर्फ़ ऐसे डेटा के साथ इंटरैक्ट करें जिसमें पहचान से जुड़ी जानकारी न हो. इससे निजता से जुड़े जोखिम काफ़ी हद तक कम हो जाते हैं.

प्रोडक्शन ट्रैक से कनेक्ट किया जा रहा है

प्रोडक्शन एनवायरमेंट में, इस कॉन्सेप्ट को और बेहतर बनाया जा सकता है. इसके लिए, ये काम किए जा सकते हैं:

  • जॉब ट्रिगर के साथ ऑटोमेशन: जॉब को मैन्युअल तरीके से चलाने के बजाय, जब भी आपके इनपुट Cloud Storage बकेट में कोई नई फ़ाइल अपलोड की जाती है, तब जॉब ट्रिगर सेट अप किया जाता है. इससे पूरी तरह से ऑटोमेटेड, बिना किसी मानवीय हस्तक्षेप के पहचान का पता लगाने और उसे हटाने की प्रोसेस तैयार होती है.
  • डेटा लेक/वेयरहाउस के साथ इंटिग्रेशन: पहचान छिपाकर तैयार किया गया आउटपुट डेटा, आम तौर पर सुरक्षित डेटा लेक (जैसे, Cloud Storage पर) या डेटा वेयरहाउस (जैसे, BigQuery) में एक्सपोर्ट किया जाता है, ताकि उसका विश्लेषण किया जा सके और मॉडल को ट्रेन किया जा सके. साथ ही, यह पक्का किया जाता है कि डेटा के पूरे लाइफ़साइकल में निजता बनाए रखी जाए.

पहचान छिपाने की रणनीतियां: निजता और उपयोगिता के बीच संतुलन बनाना

इसे सेट अप में इस्तेमाल करने का तरीका

आपने जो अलग-अलग पहचान छिपाने वाले टेंप्लेट (अनस्ट्रक्चर्ड, स्ट्रक्चर्ड, इमेज) बनाए हैं वे अहम हैं. आपको अपने एआई मॉडल की खास ज़रूरतों के हिसाब से, मिलती-जुलती अलग-अलग रणनीतियां लागू करनी होंगी. इससे आपकी डेवलपमेंट टीम को, निजता से समझौता किए बिना अपने मॉडल के लिए काम का डेटा मिल पाता है.

प्रोडक्शन ट्रैक से कनेक्ट किया जा रहा है

प्रोडक्शन एनवायरमेंट में, यह बेहतर कंट्रोल इन कामों के लिए और भी ज़्यादा ज़रूरी हो जाता है:

  • कस्टम इन्फ़ोटाइप और डिक्शनरी: किसी खास या डोमेन से जुड़े संवेदनशील डेटा के लिए, Sensitive Data Protection में कस्टम इन्फ़ोटाइप और डिक्शनरी तय की जाती हैं. इससे आपके कारोबार के हिसाब से, धोखाधड़ी का पता लगाने में मदद मिलती है.
  • फ़ॉर्मैट-प्रिज़र्विंग एन्क्रिप्शन (एफ़पीई): ऐसे मामलों में जहां पहचान छिपाए गए डेटा को अपने मूल फ़ॉर्मैट में बनाए रखना ज़रूरी है (जैसे, इंटिग्रेशन टेस्टिंग के लिए क्रेडिट कार्ड नंबर), आपको पहचान छिपाने की बेहतर तकनीकों का इस्तेमाल करना होगा. जैसे, फ़ॉर्मैट-प्रिज़र्विंग एन्क्रिप्शन. इससे, निजता को सुरक्षित रखते हुए, डेटा के असल पैटर्न के साथ टेस्टिंग की जा सकती है.

निगरानी और ऑडिट करना: लगातार नियमों का पालन करना

इसे सेट अप में इस्तेमाल करने का तरीका

आपको संवेदनशील डेटा की सुरक्षा से जुड़े लॉग की लगातार निगरानी करनी होगी. इससे यह पक्का किया जा सकेगा कि डेटा प्रोसेसिंग, आपकी निजता नीतियों के मुताबिक हो रही है. साथ ही, यह भी पक्का किया जा सकेगा कि कोई भी संवेदनशील जानकारी गलती से सार्वजनिक न हो. लगातार होने वाले इस ऑडिट में, नौकरी की खास जानकारी और नतीजों की समय-समय पर समीक्षा करना शामिल है.

प्रोडक्शन ट्रैक से कनेक्ट किया जा रहा है

बेहतर प्रोडक्शन सिस्टम के लिए, इन मुख्य कार्रवाइयों पर ध्यान दें:

  • Security Command Center को नतीजे भेजें: थ्रेट मैनेजमेंट को इंटिग्रेट करने और सुरक्षा की स्थिति को एक ही जगह पर देखने के लिए, Sensitive Data Protection की जॉब कॉन्फ़िगर करें. इससे, नतीजों की खास जानकारी सीधे Security Command Center को भेजी जा सकेगी. इससे सुरक्षा से जुड़ी चेतावनियों और अहम जानकारी को एक जगह पर इकट्ठा किया जाता है.
  • सूचनाएं पाना और घटना पर कार्रवाई करना: आपको संवेदनशील डेटा की सुरक्षा से जुड़ी सेटिंग के आधार पर, Cloud Monitoring की सूचनाएं सेट अप करनी होंगी. इसके अलावा, आपको नौकरी से जुड़ी गड़बड़ियों के आधार पर भी सूचनाएं सेट अप करनी होंगी. इससे यह पक्का होता है कि आपकी सुरक्षा टीम को नीति के संभावित उल्लंघनों या प्रोसेसिंग से जुड़ी किसी भी समस्या के बारे में तुरंत सूचना मिल जाए. इससे, किसी भी घटना पर तुरंत कार्रवाई की जा सकती है.

10. नतीजा

बधाई हो! आपने डेटा की सुरक्षा से जुड़ा एक ऐसा वर्कफ़्लो बनाया है जो कई तरह के डेटा टाइप में मौजूद पीआईआई का अपने-आप पता लगा सकता है और उसकी पहचान छिपा सकता है. इससे, डाउनस्ट्रीम एआई डेवलपमेंट और विश्लेषण में इसका इस्तेमाल सुरक्षित हो जाता है.

रीकैप

इस लैब में, आपने ये काम किए:

  • संवेदनशील जानकारी के खास टाइप (infoTypes) का पता लगाने के लिए, जांच का टेंप्लेट तय किया गया हो.
  • स्ट्रक्चर नहीं किए गए, स्ट्रक्चर किए गए, और इमेज डेटा के लिए, पहचान छिपाने के अलग-अलग नियम बनाए गए हैं.
  • कॉन्फ़िगर किया गया और एक ऐसा जॉब चलाया गया जो फ़ाइल टाइप के आधार पर, पूरे बकेट के कॉन्टेंट पर सही तरीके से डेटा छिपाने की सुविधा को अपने-आप लागू करता है.
  • पुष्टि की गई है कि संवेदनशील डेटा को सुरक्षित आउटपुट लोकेशन में बदल दिया गया है.

अगले चरण

  • Security Command Center को नतीजे भेजना: थ्रेट मैनेजमेंट को बेहतर तरीके से इंटिग्रेट करने के लिए, जॉब ऐक्शन को कॉन्फ़िगर करें. इससे, जांच के नतीजों की खास जानकारी सीधे Security Command Center को भेजी जा सकेगी.
  • Cloud Functions की मदद से प्रोसेस को अपने-आप होने की सुविधा चालू करना: प्रोडक्शन एनवायरमेंट में, Cloud Functions का इस्तेमाल करके, इस जांच के काम को अपने-आप ट्रिगर किया जा सकता है. ऐसा तब होगा, जब इनपुट बकेट में कोई नई फ़ाइल अपलोड की जाएगी.