এআই অ্যাপ্লিকেশনের জন্য ব্যবহৃত ডেটা সুরক্ষিত করা

1. ভূমিকা

সংক্ষিপ্ত বিবরণ

এই ল্যাবে, আপনি AI ডেভেলপমেন্টে ব্যবহৃত সংবেদনশীল তথ্য সুরক্ষিত রাখার জন্য একটি স্বয়ংক্রিয় ডেটা স্যানিটাইজেশন পাইপলাইন তৈরি করেন। আপনি Google Cloud এর সংবেদনশীল ডেটা সুরক্ষা (পূর্বে Cloud DLP) ব্যবহার করে বিভিন্ন ডেটা ফর্ম্যাটে ব্যক্তিগতভাবে শনাক্তযোগ্য তথ্য (PII) পরিদর্শন, শ্রেণীবদ্ধকরণ এবং সনাক্তকরণ থেকে বিরত রাখেন, যার মধ্যে রয়েছে অসংগঠিত পাঠ্য, কাঠামোগত টেবিল এবং ছবি।

প্রসঙ্গ

আপনার ডেভেলপমেন্ট টিমের নিরাপত্তা এবং গোপনীয়তার পক্ষে আপনিই, এবং আপনার লক্ষ্য হল এমন একটি কর্মপ্রবাহ প্রতিষ্ঠা করা যা সংবেদনশীল তথ্য সনাক্ত করে এবং ডেভেলপার এবং মডেলদের কাছে উপলব্ধ করার আগে তা সনাক্ত না করে। একটি নতুন জেনারেটিভ এআই অ্যাপ্লিকেশন টিউন এবং পরীক্ষা করার জন্য আপনার টিমের বাস্তবসম্মত, উচ্চ-মানের ডেটা প্রয়োজন, কিন্তু কাঁচা গ্রাহক ডেটা ব্যবহার করা গুরুত্বপূর্ণ গোপনীয়তার চ্যালেঞ্জ তৈরি করে।

নিম্নলিখিত সারণীতে গোপনীয়তার ঝুঁকিগুলি তালিকাভুক্ত করা হয়েছে যা প্রশমনের বিষয়ে আপনি সবচেয়ে বেশি উদ্বিগ্ন:

ঝুঁকি

প্রশমন

অসংগঠিত টেক্সট ফাইলগুলিতে (যেমন, সাপোর্ট চ্যাট লগ, ফিডব্যাক ফর্ম) PII-এর এক্সপোজার

একটি ডি-আইডেন্টিফিকেশন টেমপ্লেট তৈরি করুন যা সংবেদনশীল মানগুলিকে তাদের infoType দিয়ে প্রতিস্থাপন করে, এক্সপোজারটি সরিয়ে দেওয়ার সময় প্রসঙ্গ সংরক্ষণ করে।

PII অপসারণের সময় স্ট্রাকচার্ড ডেটাসেট (CSV) তে ডেটা ইউটিলিটি হারিয়ে যায়

রেকর্ড ট্রান্সফর্মেশন ব্যবহার করে শনাক্তকারী (যেমন নাম) নির্বাচনীভাবে সংশোধন করুন এবং স্ট্রিং-এর অন্যান্য অক্ষর সংরক্ষণের জন্য ক্যারেক্টার মাস্কিংয়ের মতো কৌশল প্রয়োগ করুন, যাতে ডেভেলপাররা এখনও ডেটা দিয়ে পরীক্ষা করতে পারেন।

ছবিতে এমবেড করা টেক্সট থেকে PII এক্সপোজার (যেমন, স্ক্যান করা ডকুমেন্ট, ব্যবহারকারীর ছবি)।

একটি ছবি-নির্দিষ্ট ডি-আইডেন্টিফিকেশন টেমপ্লেট তৈরি করুন যা ছবির মধ্যে পাওয়া টেক্সট সম্পাদনা করে।

বিভিন্ন ডেটা টাইপ জুড়ে অসঙ্গতিপূর্ণ বা ত্রুটি-প্রবণ ম্যানুয়াল রিডাকশন

একটি একক, স্বয়ংক্রিয় সংবেদনশীল ডেটা সুরক্ষা কাজ কনফিগার করুন যা এটি যে ফাইলের ধরণের প্রক্রিয়া করে তার উপর ভিত্তি করে সঠিক ডি-আইডেন্টিফিকেশন টেমপ্লেটটি ধারাবাহিকভাবে প্রয়োগ করে।

তুমি কি শিখবে

এই ল্যাবে, আপনি শিখবেন কিভাবে:

  • নির্দিষ্ট সংবেদনশীল তথ্যের ধরণ ( infoTypes ) সনাক্ত করার জন্য একটি পরিদর্শন টেমপ্লেট সংজ্ঞায়িত করুন।
  • অসংগঠিত, কাঠামোগত এবং চিত্র ডেটার জন্য স্বতন্ত্র ডি-আইডেন্টিফিকেশন নিয়ম তৈরি করুন।
  • একটি একক কাজ কনফিগার করুন এবং চালান যা সম্পূর্ণ বাকেটের বিষয়বস্তুতে ফাইলের ধরণের উপর ভিত্তি করে সঠিক সম্পাদনা স্বয়ংক্রিয়ভাবে প্রয়োগ করে
  • একটি নিরাপদ আউটপুট স্থানে সংবেদনশীল ডেটার সফল রূপান্তর যাচাই করুন।

2. প্রকল্প সেটআপ

গুগল অ্যাকাউন্ট

যদি আপনার ইতিমধ্যেই একটি ব্যক্তিগত Google অ্যাকাউন্ট না থাকে, তাহলে আপনাকে অবশ্যই একটি Google অ্যাকাউন্ট তৈরি করতে হবে।

কর্মক্ষেত্র বা স্কুল অ্যাকাউন্টের পরিবর্তে ব্যক্তিগত অ্যাকাউন্ট ব্যবহার করুন

গুগল ক্লাউড কনসোলে সাইন-ইন করুন

একটি ব্যক্তিগত গুগল অ্যাকাউন্ট ব্যবহার করে গুগল ক্লাউড কনসোলে সাইন-ইন করুন।

বিলিং সক্ষম করুন

$৫ গুগল ক্লাউড ক্রেডিট রিডিম করুন (ঐচ্ছিক)

এই কর্মশালাটি পরিচালনা করার জন্য, আপনার কিছু ক্রেডিট সহ একটি বিলিং অ্যাকাউন্ট প্রয়োজন। আপনি যদি নিজের বিলিং ব্যবহার করার পরিকল্পনা করেন, তাহলে আপনি এই ধাপটি এড়িয়ে যেতে পারেন।

  1. এই লিঙ্কে ক্লিক করুন এবং একটি ব্যক্তিগত গুগল অ্যাকাউন্ট দিয়ে সাইন ইন করুন। আপনি এরকম কিছু দেখতে পাবেন: ক্রেডিট পৃষ্ঠার জন্য এখানে ক্লিক করুন
  2. আপনার ক্রেডিট অ্যাক্সেস করতে এখানে ক্লিক করুন বোতামটি ক্লিক করুন। এটি আপনাকে আপনার বিলিং প্রোফাইল সেট আপ করার জন্য একটি পৃষ্ঠায় নিয়ে যাবে। বিলিং প্রোফাইল পৃষ্ঠা সেট আপ করুন
  3. আপনি এখন একটি Google Cloud Platform ট্রায়াল বিলিং অ্যাকাউন্টের সাথে সংযুক্ত আছেন কিনা তা নিশ্চিত করুন -এ ক্লিক করুন। বিলিং ওভারভিউয়ের স্ক্রিনশট

একটি ব্যক্তিগত বিলিং অ্যাকাউন্ট সেট আপ করুন

আপনি যদি গুগল ক্লাউড ক্রেডিট ব্যবহার করে বিলিং সেট আপ করেন, তাহলে আপনি এই ধাপটি এড়িয়ে যেতে পারেন।

একটি ব্যক্তিগত বিলিং অ্যাকাউন্ট সেট আপ করতে, ক্লাউড কনসোলে বিলিং সক্ষম করতে এখানে যান

কিছু নোট:

  • এই ল্যাবটি সম্পূর্ণ করতে ক্লাউড রিসোর্সে $1 USD এর কম খরচ হবে।
  • আরও চার্জ এড়াতে আপনি এই ল্যাবের শেষে রিসোর্স মুছে ফেলার ধাপগুলি অনুসরণ করতে পারেন।
  • নতুন ব্যবহারকারীরা $300 USD বিনামূল্যে ট্রায়ালের জন্য যোগ্য।

একটি প্রকল্প তৈরি করুন (ঐচ্ছিক)

যদি আপনার কাছে এই ল্যাবের জন্য ব্যবহার করতে চান এমন কোন বর্তমান প্রকল্প না থাকে, তাহলে এখানে একটি নতুন প্রকল্প তৈরি করুন

৩. API গুলি সক্রিয় করুন

ক্লাউড শেল কনফিগার করুন

আপনার প্রকল্পটি সফলভাবে তৈরি হয়ে গেলে, ক্লাউড শেল সেট আপ করার জন্য নিম্নলিখিত পদক্ষেপগুলি অনুসরণ করুন।

ক্লাউড শেল চালু করুন

shell.cloud.google.com- এ নেভিগেট করুন এবং যদি আপনি একটি পপআপ দেখতে পান যা আপনাকে অনুমোদন করতে বলছে, তাহলে Authorize- এ ক্লিক করুন।

প্রোজেক্ট আইডি সেট করুন

সঠিক প্রজেক্ট আইডি সেট করতে ক্লাউড শেল টার্মিনালে নিম্নলিখিত কমান্ডটি কার্যকর করুন। <your-project-id> উপরের প্রজেক্ট তৈরির ধাপ থেকে কপি করা আপনার প্রকৃত প্রজেক্ট আইডি দিয়ে প্রতিস্থাপন করুন।

gcloud config set project <your-project-id>

এখন তুমি দেখতে পাবে যে ক্লাউড শেল টার্মিনালে সঠিক প্রকল্পটি নির্বাচন করা হয়েছে।

সংবেদনশীল ডেটা সুরক্ষা সক্ষম করুন

সংবেদনশীল ডেটা সুরক্ষা পরিষেবা এবং ক্লাউড স্টোরেজ ব্যবহার করার জন্য, আপনার Google ক্লাউড প্রকল্পে এই API গুলি সক্ষম করা আছে কিনা তা নিশ্চিত করতে হবে।

  1. টার্মিনালে, API গুলি সক্রিয় করুন:
    gcloud services enable dlp.googleapis.com storage.googleapis.com
    

বিকল্পভাবে, আপনি কনসোলে নিরাপত্তা > সংবেদনশীল ডেটা সুরক্ষা এবং ক্লাউড স্টোরেজ- এ নেভিগেট করে এবং প্রতিটি পরিষেবার জন্য অনুরোধ করা হলে সক্ষম বোতামে ক্লিক করে এই API গুলি সক্ষম করতে পারেন।

৪. সংবেদনশীল তথ্য সহ বালতি তৈরি করুন

একটি ইনপুট এবং আউটপুট বাকেট তৈরি করুন

এই ধাপে, আপনি দুটি বাকেট তৈরি করবেন: একটি সংবেদনশীল ডেটা রাখার জন্য যা পরিদর্শন করা প্রয়োজন, এবং অন্যটি যেখানে সংবেদনশীল ডেটা সুরক্ষা অ-শনাক্তকৃত আউটপুট ফাইলগুলি সংরক্ষণ করবে। আপনি নমুনা ডেটা ফাইলগুলিও ডাউনলোড করবেন এবং সেগুলি আপনার ইনপুট বাকেটে আপলোড করবেন।

  1. টার্মিনালে, ইনপুট ডেটার জন্য একটি বাকেট এবং আউটপুটের জন্য একটি বাকেট তৈরি করতে নিম্নলিখিত কমান্ডগুলি চালান, তারপর gs://dlp-codelab-data থেকে নমুনা ডেটা দিয়ে ইনপুট বাকেটটি পূরণ করুন:
    PROJECT_ID=$(gcloud config get-value project)
    gsutil mb gs://input-$PROJECT_ID
    gsutil mb gs://output-$PROJECT_ID
    

ইনপুট বাকেটে সংবেদনশীল ডেটা যোগ করুন

এই ধাপে, আপনি GitHub থেকে টেস্ট PII ধারণকারী নমুনা ডেটা ফাইল ডাউনলোড করুন এবং আপনার ইনপুট বাকেটে আপলোড করুন।

  1. ক্লাউড শেলে, devrel-demos রিপোজিটরি ক্লোন করতে নিম্নলিখিত কমান্ডটি চালান, যাতে এই ল্যাবের জন্য প্রয়োজনীয় নমুনা ডেটা রয়েছে।
    REPO_URL="https://github.com/GoogleCloudPlatform/devrel-demos.git"
    TARGET_PATH="security/sample-data"
    OUTPUT_FOLDER="sample-data"
    
    git clone --quiet --depth 1 --filter=blob:none --sparse "$REPO_URL" temp_loader
    cd temp_loader
    git sparse-checkout set "$TARGET_PATH"
    cd ..
    mv "temp_loader/$TARGET_PATH" "$OUTPUT_FOLDER"
    rm -rf temp_loader
    
  2. এরপর, আপনার আগে তৈরি করা ইনপুট বাকেটে নমুনা ডেটা কপি করুন:
    gsutil -m cp -r sample-data/* gs://input-$PROJECT_ID/
    
  3. ক্লাউড স্টোরেজ > বাকেটস- এ নেভিগেট করুন এবং আপনার আমদানি করা ডেটা দেখতে ইনপুট বাকেটটিতে ক্লিক করুন।

৫. একটি পরিদর্শন টেমপ্লেট তৈরি করুন

এই কাজে, আপনি একটি টেমপ্লেট তৈরি করেন যা সংবেদনশীল ডেটা সুরক্ষাকে কী সন্ধান করতে হবে তা বলে দেয়। এটি আপনাকে আপনার ডেটা এবং ভূগোলের সাথে প্রাসঙ্গিক তথ্যপ্রকারের উপর পরিদর্শনকে কেন্দ্রীভূত করতে দেয়, কর্মক্ষমতা এবং নির্ভুলতা উন্নত করে।

একটি পরিদর্শন টেমপ্লেট তৈরি করুন

এই ধাপে, আপনি সংবেদনশীল ডেটা কী কী তা পরিদর্শন করার জন্য নিয়মগুলি সংজ্ঞায়িত করেন। ধারাবাহিকতা নিশ্চিত করার জন্য আপনার ডি-আইডেন্টিফিকেশন কাজগুলি এই টেমপ্লেটটি পুনরায় ব্যবহার করবে।

  1. নেভিগেশন মেনু থেকে, সংবেদনশীল ডেটা সুরক্ষা > কনফিগারেশন > টেমপ্লেট এ যান।
  2. টেমপ্লেট তৈরি করুন ক্লিক করুন।
  3. টেমপ্লেট ধরণের জন্য, Inspect (sensitive data find) নির্বাচন করুন।
  4. টেমপ্লেট আইডি pii-finder এ সেট করুন।
  5. সনাক্তকরণ কনফিগার করতে চালিয়ে যান
  6. তথ্যপ্রকার পরিচালনা করুন ক্লিক করুন।
  7. ফিল্টারটি ব্যবহার করে, নিম্নলিখিত তথ্যপ্রকারগুলি অনুসন্ধান করুন এবং প্রতিটির পাশে থাকা চেকবক্সটি চেক করুন:
    • CREDIT_CARD_EXPIRATION_DATE
    • CREDIT_CARD_NUMBER
    • DATE_OF_BIRTH
    • DRIVERS_LICENSE_NUMBER
    • EMAIL_ADDRESS
    • GCP_API_KEY
    • GCP_CREDENTIALS
    • ORGANIZATION_NAME
    • PASSWORD
    • PERSON_NAME
    • PHONE_NUMBER
    • US_SOCIAL_SECURITY_NUMBER
  8. আপনার আগ্রহের অন্য যেকোনো একটি নির্বাচন করুন এবং সম্পন্ন ক্লিক করুন।
  9. এই সমস্ত infoTypes যোগ করা হয়েছে কিনা তা নিশ্চিত করতে ফলাফলের টেবিলটি পরীক্ষা করুন।
  10. তৈরি করুন ক্লিক করুন।

৬. ডি-আইডেন্টিফিকেশন টেমপ্লেট তৈরি করুন

এরপর, আপনি বিভিন্ন ডেটা ফর্ম্যাট পরিচালনা করার জন্য তিনটি পৃথক ডি-আইডেন্টিফিকেশন টেমপ্লেট তৈরি করেন। এটি আপনাকে রূপান্তর প্রক্রিয়ার উপর সূক্ষ্ম নিয়ন্ত্রণ দেয়, প্রতিটি ফাইল ধরণের জন্য সবচেয়ে উপযুক্ত পদ্ধতি প্রয়োগ করে। এই টেমপ্লেটগুলি আপনার তৈরি করা পরিদর্শন টেমপ্লেটের সাথে একত্রে কাজ করে।

অসংগঠিত ডেটার জন্য একটি টেমপ্লেট তৈরি করুন

এই টেমপ্লেটটি নির্ধারণ করবে যে চ্যাট লগ বা প্রতিক্রিয়া ফর্মের মতো মুক্ত-ফর্ম টেক্সটে পাওয়া সংবেদনশীল ডেটা কীভাবে সনাক্ত করা যায় না। নির্বাচিত পদ্ধতিটি সংবেদনশীল মানটিকে তার infoType নাম দিয়ে প্রতিস্থাপন করে, প্রসঙ্গ সংরক্ষণ করে।

  1. টেমপ্লেট পৃষ্ঠায়, টেমপ্লেট তৈরি করুন ক্লিক করুন।
  2. ডি-আইডেন্টিফিকেশন টেমপ্লেটটি সংজ্ঞায়িত করুন:

    সম্পত্তি

    মান (টাইপ করুন অথবা নির্বাচন করুন)

    টেমপ্লেটের ধরণ

    শনাক্তকরণ বাতিল করুন (সংবেদনশীল ডেটা সরান)

    ডেটা ট্রান্সফর্মেশনের ধরণ

    তথ্যপ্রকার

    টেমপ্লেট আইডি

    de-identify-unstructured

  3. ডি-আইডেন্টিফিকেশন কনফিগার করতে থাকুন
    • Transformation method এর অধীনে, Transformation: Replace দিয়ে infoType নাম নির্বাচন করুন।
  4. তৈরি করুন ক্লিক করুন।
  5. পরীক্ষা করুন ক্লিক করুন।
  6. PII সম্বলিত একটি বার্তা পরীক্ষা করে দেখুন কিভাবে এটি রূপান্তরিত হবে:
    Hi, my name is Alex and my SSN is 555-11-5555. You can reach me at +1-555-555-5555.
    

স্ট্রাকচার্ড ডেটার জন্য একটি টেমপ্লেট তৈরি করুন

এই টেমপ্লেটটি বিশেষভাবে স্ট্রাকচার্ড ডেটাসেটের মধ্যে সংবেদনশীল তথ্য, যেমন CSV ফাইলগুলিকে লক্ষ্য করে। আপনি এটিকে এমনভাবে কনফিগার করবেন যাতে ডেটা মাস্ক করা যায় এবং সংবেদনশীল ক্ষেত্রগুলিকে সনাক্ত করা না যায় এবং পরীক্ষার জন্য ডেটা ইউটিলিটি সংরক্ষণ করা যায়।

  1. টেমপ্লেট পৃষ্ঠায় ফিরে যান এবং টেমপ্লেট তৈরি করুন ক্লিক করুন।
  2. ডি-আইডেন্টিফিকেশন টেমপ্লেটটি সংজ্ঞায়িত করুন:

    সম্পত্তি

    মান (টাইপ করুন অথবা নির্বাচন করুন)

    টেমপ্লেটের ধরণ

    শনাক্তকরণ বাতিল করুন (সংবেদনশীল ডেটা সরান)

    ডেটা ট্রান্সফর্মেশনের ধরণ

    রেকর্ড

    টেমপ্লেট আইডি

    de-identify-structured

  3. ডি-আইডেন্টিফিকেশন কনফিগার করতে থাকুন । যেহেতু এই টেমপ্লেটটি স্ট্রাকচার্ড ডেটার ক্ষেত্রে প্রযোজ্য, তাই আমরা প্রায়শই সেই ক্ষেত্র বা কলামগুলির পূর্বাভাস দিতে পারি যেখানে নির্দিষ্ট ধরণের সংবেদনশীল ডেটা থাকবে। আপনি জানেন যে আপনার অ্যাপ্লিকেশনটি যে CSV ব্যবহার করে তাতে user_id অধীনে ব্যবহারকারীর ইমেল থাকে এবং সেই message প্রায়শই গ্রাহকের মিথস্ক্রিয়া থেকে PII থাকে। agent_id মাস্কিং নিয়ে আপনার কোনও চিন্তা নেই কারণ তারা কর্মচারী এবং কথোপকথনগুলি অবশ্যই দায়ী করা উচিত। এই বিভাগটি নিম্নরূপ পূরণ করুন:
    • রূপান্তর করার জন্য ক্ষেত্র(গুলি) বা কলাম(গুলি) : user_id , message
    • রূপান্তরের ধরণ : তথ্য প্রকারের সাথে মিল
    • রূপান্তর পদ্ধতি : রূপান্তর যোগ করুন ক্লিক করুন
      • রূপান্তর : চরিত্রের মুখোশ।
      • উপেক্ষা করার জন্য অক্ষর : মার্কিন বিরাম চিহ্ন।
  4. তৈরি করুন ক্লিক করুন।

ছবির ডেটার জন্য একটি টেমপ্লেট তৈরি করুন

এই টেমপ্লেটটি ছবির মধ্যে থাকা সংবেদনশীল টেক্সট, যেমন স্ক্যান করা ডকুমেন্ট বা ব্যবহারকারীর জমা দেওয়া ছবি, সনাক্তকরণ থেকে বিরত রাখার জন্য ডিজাইন করা হয়েছে। এটি PII সনাক্ত এবং সম্পাদনা করার জন্য অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) ব্যবহার করে।

  1. টেমপ্লেট পৃষ্ঠায় ফিরে যান এবং টেমপ্লেট তৈরি করুন ক্লিক করুন।
  2. ডি-আইডেন্টিফিকেশন টেমপ্লেটটি সংজ্ঞায়িত করুন:

    সম্পত্তি

    মান (টাইপ করুন অথবা নির্বাচন করুন)

    টেমপ্লেটের ধরণ

    শনাক্তকরণ বাতিল করুন (সংবেদনশীল ডেটা সরান)

    ডেটা ট্রান্সফর্মেশনের ধরণ

    ভাবমূর্তি

    টেমপ্লেট আইডি

    de-identify-image

  3. ডি-আইডেন্টিফিকেশন কনফিগার করতে থাকুন
    • রূপান্তরের জন্য InfoTypes: পরিদর্শন টেমপ্লেট বা পরিদর্শন কনফিগারেশনে সংজ্ঞায়িত যেকোনো সনাক্ত করা তথ্য প্রকার যা অন্যান্য নিয়মে নির্দিষ্ট করা নেই
  4. তৈরি করুন ক্লিক করুন।

৭. একটি ডি-আইডেন্টিফিকেশন কাজ তৈরি এবং পরিচালনা করুন

আপনার টেমপ্লেটগুলি সংজ্ঞায়িত করার সাথে সাথে, আপনি এখন একটি একক কাজ তৈরি করবেন যা এটি সনাক্ত করে এবং পরিদর্শন করে এমন ফাইলের ধরণের উপর ভিত্তি করে সঠিক ডি-আইডেন্টিফিকেশন টেমপ্লেট প্রয়োগ করবে। এটি ক্লাউড স্টোরেজে সংরক্ষিত ডেটার জন্য সংবেদনশীল ডেটা সুরক্ষা প্রক্রিয়াটিকে স্বয়ংক্রিয় করে তোলে।

ইনপুট ডেটা কনফিগার করুন

এই ধাপে, আপনি যে ডেটার শনাক্তকরণ বাতিল করতে হবে তার উৎস নির্দিষ্ট করবেন, যা হল একটি ক্লাউড স্টোরেজ বাকেট যেখানে বিভিন্ন ধরণের ফাইল থাকে এবং সংবেদনশীল তথ্য থাকে।

  1. সার্চ বারের মাধ্যমে নিরাপত্তা > সংবেদনশীল ডেটা সুরক্ষা -এ নেভিগেট করুন।
  2. মেনুতে Inspection-এ ক্লিক করুন।
  3. চাকরি তৈরি করুন এবং চাকরির ট্রিগারগুলিতে ক্লিক করুন।
  4. কাজটি কনফিগার করুন:

    সম্পত্তি

    মান (টাইপ করুন অথবা নির্বাচন করুন)

    চাকরির আইডি

    pii-remover

    স্টোরেজের ধরণ

    গুগল ক্লাউড স্টোরেজ

    অবস্থানের ধরণ

    ঐচ্ছিক অন্তর্ভুক্ত/বহির্ভূত নিয়ম সহ একটি বাকেট স্ক্যান করুন

    বাকেটের নাম

    input-[your-project-id]

সনাক্তকরণ এবং ক্রিয়াগুলি কনফিগার করুন

এখন আপনি আপনার পূর্বে তৈরি করা টেমপ্লেটগুলিকে এই কাজের সাথে লিঙ্ক করবেন, সংবেদনশীল ডেটা সুরক্ষাকে বলবেন কিভাবে PII পরীক্ষা করতে হবে এবং বিষয়বস্তুর ধরণের উপর ভিত্তি করে কোন ডি-আইডেন্টিফিকেশন পদ্ধতি প্রয়োগ করতে হবে।

  1. পরিদর্শন টেমপ্লেট : projects/[your-project-id]/locations/global/inspectTemplates/pii-finder
  2. "অ্যাকশন যোগ করুন" এর অধীনে, "একটি অ-শনাক্তকৃত অনুলিপি তৈরি করুন" নির্বাচন করুন এবং রূপান্তর টেমপ্লেটগুলিকে আপনার তৈরি করা টেমপ্লেট হিসাবে কনফিগার করুন।
  3. Confirm whether you want to de-identify the findings জন্য একটি পপ-আপ খুলবে, তাহলে নমুনা বন্ধ করুন এ ক্লিক করুন।

    স্যাম্পলিং বন্ধ করতে বলা পপ-আপের স্ক্রিনশট

    সম্পত্তি

    মান (টাইপ করুন অথবা নির্বাচন করুন)

    শনাক্তকরণ বিচ্ছিন্নকরণ টেমপ্লেট

    projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-unstructured

    স্ট্রাকচার্ড ডি-আইডেন্টিফিকেশন টেমপ্লেট

    projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-structured

    ছবি সম্পাদনা টেমপ্লেট

    projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-image

  4. ক্লাউড স্টোরেজ আউটপুট অবস্থান কনফিগার করুন:
    • URL : gs://output-[your-project-id]
  5. Schedule এর অধীনে, কাজটি অবিলম্বে চালানোর জন্য নির্বাচনটিকে None হিসেবে ছেড়ে দিন।
  6. তৈরি করুন ক্লিক করুন।
  7. একটি পপ-আপ খুলবে যেখানে Confirm job or job trigger create " বোতামটি ক্লিক করুন।

    চাকরি নিশ্চিত করুন বা চাকরি তৈরির পপ-আপের স্ক্রিনশট

৮. ফলাফল যাচাই করুন

চূড়ান্ত ধাপ হল নিশ্চিত করা যে সংবেদনশীল ডেটা আউটপুট বাকেটের সমস্ত ফাইল টাইপ জুড়ে সফলভাবে এবং সঠিকভাবে সম্পাদনা করা হয়েছে। এটি নিশ্চিত করে যে আপনার ডি-আইডেন্টিফিকেশন পাইপলাইনটি প্রত্যাশা অনুযায়ী কাজ করছে।

চাকরির অবস্থা পর্যালোচনা করুন

কাজটি সফলভাবে সম্পন্ন হয়েছে কিনা তা পর্যবেক্ষণ করুন এবং আউটপুট ফাইলগুলি পরীক্ষা করার আগে ফলাফলের সারাংশ পর্যালোচনা করুন।

  1. চাকরির বিবরণ ট্যাবে, কাজটি সম্পন্ন হওয়ার অবস্থা দেখানোর জন্য অপেক্ষা করুন।
  2. "ওভারভিউ" এর অধীনে, সনাক্ত করা প্রতিটি তথ্য প্রকারের ফলাফলের সংখ্যা এবং শতাংশ পর্যালোচনা করুন।
  3. কনফিগারেশন ক্লিক করুন।
  4. অ্যাকশনস -এ স্ক্রোল করে আউটপুট বাকেটে ক্লিক করে অ-শনাক্তকৃত ডেটা দেখুন: gs://output-[your-project-id]

ইনপুট এবং আউটপুট ফাইল তুলনা করুন

এই ধাপে, আপনি আপনার টেমপ্লেট অনুসারে ডেটা স্যানিটাইজেশন সঠিকভাবে প্রয়োগ করা হয়েছে কিনা তা নিশ্চিত করার জন্য শনাক্ত না করা ফাইলগুলি ম্যানুয়ালি পরিদর্শন করবেন।

  1. ছবি : আউটপুট বাকেট থেকে একটি ছবি খুলুন। যাচাই করুন যে আউটপুট ফাইলে সমস্ত সংবেদনশীল লেখা মুছে ফেলা হয়েছে।

    একটি ফর্ম ছবির স্ক্রিনশট যেখানে PII কে কালো বাক্স দিয়ে সম্পাদনা করা হয়েছে।

  2. আনস্ট্রাকচার্ড লগ : উভয় বাকেট থেকে একটি লগ ফাইল দেখুন। নিশ্চিত করুন যে আউটপুট লগে PII infoType নাম দিয়ে প্রতিস্থাপিত হয়েছে (যেমন, [US_SOCIAL_SECURITY_NUMBER] )।
  3. স্ট্রাকচার্ড CSV : উভয় বাকেট থেকে একটি CSV ফাইল খুলুন। যাচাই করুন যে আউটপুট ফাইলে থাকা ব্যবহারকারীর ইমেল এবং SSN গুলি ####@####.com দিয়ে মাস্ক করা আছে।

    কাঁচা CSV ডেটা (ইমেল এবং SSN দেখানো হচ্ছে) এবং রিড্যাক্ট করা CSV ডেটা (মাস্ক করা ইমেল এবং SSN দেখানো হচ্ছে) তুলনা করার স্ক্রিনশট।

৯. ল্যাব থেকে বাস্তবতা: আপনার নিজস্ব প্রকল্পে এটি কীভাবে ব্যবহার করবেন

আপনি যে নীতি এবং কনফিগারেশনগুলি প্রয়োগ করেছেন তা হল গুগল ক্লাউডে বাস্তব-বিশ্বের AI প্রকল্পগুলি সুরক্ষিত করার নীলনকশা। আপনি যে সংস্থানগুলি তৈরি করেছেন - পরিদর্শন টেমপ্লেট , সনাক্তকরণ টেমপ্লেট এবং স্বয়ংক্রিয় কাজ - যেকোনো নতুন ডেটা গ্রহণ প্রক্রিয়ার জন্য একটি নিরাপদ স্টার্টার টেমপ্লেট হিসাবে কাজ করে।

স্বয়ংক্রিয় ডেটা স্যানিটাইজেশন পাইপলাইন: আপনার নিরাপদ ডেটা গ্রহণ

আপনার সেটআপে এটি কীভাবে ব্যবহার করবেন

যখনই আপনার টিমকে AI ডেভেলপমেন্টের জন্য নতুন কাঁচা গ্রাহক ডেটা গ্রহণের প্রয়োজন হবে, তখন আপনি এটিকে এমন একটি পাইপলাইনের মাধ্যমে পরিচালনা করবেন যেখানে আপনার কনফিগার করা সংবেদনশীল ডেটা সুরক্ষা কাজ অন্তর্ভুক্ত থাকবে। ম্যানুয়ালি পরিদর্শন এবং সম্পাদনা করার পরিবর্তে, আপনি এই স্বয়ংক্রিয় কর্মপ্রবাহটি ব্যবহার করবেন। এটি নিশ্চিত করে যে ডেটা বিজ্ঞানী এবং AI মডেলগুলি কেবল অ-শনাক্তকৃত ডেটার সাথেই যোগাযোগ করে, যা গোপনীয়তার ঝুঁকি উল্লেখযোগ্যভাবে হ্রাস করে।

উৎপাদনের সাথে সংযোগ স্থাপন করা হচ্ছে

উৎপাদন পরিবেশে, আপনি এই ধারণাটিকে আরও এগিয়ে নিয়ে যাবেন:

  • জব ট্রিগার সহ অটোমেশন : জবটি ম্যানুয়ালি চালানোর পরিবর্তে, আপনার ইনপুট ক্লাউড স্টোরেজ বাকেটে যখনই কোনও নতুন ফাইল আপলোড করা হবে তখন আপনি একটি জব ট্রিগার সেট আপ করবেন। এটি একটি সম্পূর্ণ স্বয়ংক্রিয়, হ্যান্ডস-অফ সনাক্তকরণ এবং সনাক্তকরণ বিচ্ছিন্নকরণ প্রক্রিয়া তৈরি করে।
  • ডেটা লেক/গুদামের সাথে একীকরণ : অ-শনাক্তকৃত আউটপুট ডেটা সাধারণত আরও বিশ্লেষণ এবং মডেল প্রশিক্ষণের জন্য একটি নিরাপদ ডেটা লেকে (যেমন, ক্লাউড স্টোরেজ) বা ডেটা গুদামে (যেমন, BigQuery ) ফিড করা হবে, যাতে ডেটা জীবনচক্র জুড়ে গোপনীয়তা বজায় থাকে তা নিশ্চিত করা যায়।

দানাদার পরিচয় শনাক্তকরণ কৌশল: গোপনীয়তা এবং উপযোগিতার ভারসাম্য বজায় রাখা

আপনার সেটআপে এটি কীভাবে ব্যবহার করবেন

আপনার তৈরি করা বিভিন্ন ডি-আইডেন্টিফিকেশন টেমপ্লেট (অসংগঠিত, কাঠামোগত, চিত্র) গুরুত্বপূর্ণ। আপনার AI মডেলগুলির নির্দিষ্ট চাহিদার উপর ভিত্তি করে আপনি একই রকমের ভিন্ন কৌশল প্রয়োগ করবেন। এটি আপনার ডেভেলপমেন্ট টিমকে গোপনীয়তার সাথে আপস না করেই তাদের মডেলগুলির জন্য উচ্চ-ব্যবহারযোগ্য ডেটা রাখার অনুমতি দেয়।

উৎপাদনের সাথে সংযোগ স্থাপন করা হচ্ছে

উৎপাদন পরিবেশে, এই ক্ষুদ্র নিয়ন্ত্রণ আরও গুরুত্বপূর্ণ হয়ে ওঠে:

  • কাস্টম ইনফোটাইপস এবং অভিধান : অত্যন্ত নির্দিষ্ট বা ডোমেন-নির্দিষ্ট সংবেদনশীল ডেটার জন্য, আপনাকে সংবেদনশীল ডেটা সুরক্ষার মধ্যে কাস্টম ইনফোটাইপস এবং অভিধান সংজ্ঞায়িত করতে হবে। এটি আপনার অনন্য ব্যবসায়িক প্রেক্ষাপট অনুসারে ব্যাপক সনাক্তকরণ নিশ্চিত করে।
  • ফরম্যাট-সংরক্ষণ এনক্রিপশন (FPE) : যেসব পরিস্থিতিতে ডি-আইডেন্টিফাই করা ডেটা তার আসল ফর্ম্যাট ধরে রাখতে হবে (যেমন, ইন্টিগ্রেশন পরীক্ষার জন্য ক্রেডিট কার্ড নম্বর), আপনি ফরম্যাট-সংরক্ষণ এনক্রিপশনের মতো উন্নত ডি-আইডেন্টিফিকেশন কৌশলগুলি অন্বেষণ করতে পারেন। এটি বাস্তবসম্মত ডেটা প্যাটার্ন সহ গোপনীয়তা-নিরাপদ পরীক্ষার অনুমতি দেয়।

পর্যবেক্ষণ এবং নিরীক্ষণ: ক্রমাগত সম্মতি নিশ্চিত করা

আপনার সেটআপে এটি কীভাবে ব্যবহার করবেন

আপনার গোপনীয়তা নীতিমালা মেনে সমস্ত ডেটা প্রক্রিয়াকরণ যাতে মেনে চলে এবং কোনও সংবেদনশীল তথ্য যাতে অসাবধানতাবশত প্রকাশ না পায়, তা নিশ্চিত করার জন্য আপনাকে ক্রমাগত সংবেদনশীল ডেটা সুরক্ষা লগগুলি পর্যবেক্ষণ করতে হবে। নিয়মিতভাবে কাজের সারসংক্ষেপ এবং ফলাফল পর্যালোচনা করা এই ক্রমাগত নিরীক্ষার অংশ।

উৎপাদনের সাথে সংযোগ স্থাপন করা হচ্ছে

একটি শক্তিশালী উৎপাদন ব্যবস্থার জন্য, এই মূল পদক্ষেপগুলি বিবেচনা করুন:

  • সিকিউরিটি কমান্ড সেন্টারে ফলাফল পাঠান : সমন্বিত হুমকি ব্যবস্থাপনা এবং আপনার নিরাপত্তা অবস্থানের কেন্দ্রীভূত দৃষ্টিভঙ্গির জন্য, আপনার সংবেদনশীল ডেটা সুরক্ষা কাজগুলি কনফিগার করুন যাতে তাদের ফলাফলের একটি সারসংক্ষেপ সরাসরি সিকিউরিটি কমান্ড সেন্টারে পাঠানো যায়। এটি নিরাপত্তা সতর্কতা এবং অন্তর্দৃষ্টিগুলিকে একীভূত করে।
  • সতর্কতা এবং ঘটনার প্রতিক্রিয়া : সংবেদনশীল ডেটা সুরক্ষার ফলাফল বা কাজের ব্যর্থতার উপর ভিত্তি করে আপনি ক্লাউড মনিটরিং সতর্কতা সেট আপ করবেন। এটি নিশ্চিত করে যে আপনার সুরক্ষা দলকে যেকোনো সম্ভাব্য নীতি লঙ্ঘন বা প্রক্রিয়াকরণের সমস্যা সম্পর্কে অবিলম্বে অবহিত করা হবে, যা দ্রুত ঘটনার প্রতিক্রিয়া সক্ষম করবে।

১০. উপসংহার

অভিনন্দন! আপনি সফলভাবে একটি ডেটা সুরক্ষা কর্মপ্রবাহ তৈরি করেছেন যা একাধিক ডেটা প্রকারের PII স্বয়ংক্রিয়ভাবে আবিষ্কার এবং সনাক্তকরণ থেকে মুক্ত করতে পারে, যা এটিকে ডাউনস্ট্রিম AI ডেভেলপমেন্ট এবং বিশ্লেষণে ব্যবহারের জন্য নিরাপদ করে তোলে।

সংক্ষিপ্তসার

এই ল্যাবে, আপনি নিম্নলিখিত কাজগুলি সম্পন্ন করেছেন:

  • নির্দিষ্ট সংবেদনশীল তথ্যের ধরণ ( infoTypes ) সনাক্ত করার জন্য একটি পরিদর্শন টেমপ্লেট সংজ্ঞায়িত করা হয়েছে।
  • অসংগঠিত, কাঠামোগত এবং চিত্র ডেটার জন্য স্বতন্ত্র ডি-আইডেন্টিফিকেশন নিয়ম তৈরি করা হয়েছে।
  • একটি একক কাজ কনফিগার করা হয়েছে এবং চালানো হয়েছে যা স্বয়ংক্রিয়ভাবে একটি সম্পূর্ণ বাকেটের বিষয়বস্তুতে ফাইলের ধরণের উপর ভিত্তি করে সঠিক সম্পাদনা প্রয়োগ করে।
  • একটি নিরাপদ আউটপুট স্থানে সংবেদনশীল ডেটার সফল রূপান্তর যাচাই করা হয়েছে।

পরবর্তী পদক্ষেপ

  • সিকিউরিটি কমান্ড সেন্টারে ফলাফল পাঠান : আরও সমন্বিত হুমকি ব্যবস্থাপনার জন্য, কাজের পদক্ষেপটি কনফিগার করুন যাতে এর ফলাফলের সারাংশ সরাসরি সিকিউরিটি কমান্ড সেন্টারে পাঠানো হয়।
  • ক্লাউড ফাংশন ব্যবহার করে স্বয়ংক্রিয় করুন : একটি উৎপাদন পরিবেশে, ক্লাউড ফাংশন ব্যবহার করে ইনপুট বাকেটে একটি নতুন ফাইল আপলোড হলে আপনি স্বয়ংক্রিয়ভাবে এই পরিদর্শন কাজটি ট্রিগার করতে পারেন।