1. परिचय
आपको लग सकता है कि एग्रीगेट किए गए आंकड़े, उन लोगों के बारे में कोई भी जानकारी लीक नहीं करते जिनके डेटा से ये जुड़े हैं. हालांकि, ऐसे कई तरीके हैं जिनसे कोई हमलावर किसी डेटासेट में मौजूद किसी व्यक्ति के बारे में संवेदनशील जानकारी को इकट्ठा किए गए आंकड़ों से जान सकता है.
लोगों की सुरक्षा के लिए निजता के लिए, आप बीम पर प्राइवसी से डिफ़रेंशियल प्राइवेट एग्रीगेशन का इस्तेमाल करके निजी आंकड़े तैयार करने का तरीका जानेंगे. बीम पर निजता एक डिफ़रेंशियल प्राइवसी फ़्रेमवर्क है, जो Apache बीम के साथ काम करता है.
"निजी" का क्या मतलब है?
‘निजी' शब्द इस्तेमाल करते समय कोडलैब के इस हिस्से में, हमारा मतलब है कि आउटपुट इस तरह तैयार किया जाएगा कि उससे डेटा में मौजूद किसी व्यक्ति की निजी जानकारी किसी से लीक नहीं होगी. ऐसा करने के लिए हम डिफ़रेंशियल प्राइवसी का इस्तेमाल कर सकते हैं. यह निजता की पहचान छिपाने का सबसे मज़बूत तरीका है. पहचान छिपाना, उपयोगकर्ता की निजता को सुरक्षित रखने के लिए कई उपयोगकर्ताओं का डेटा इकट्ठा करने की प्रोसेस है. पहचान छिपाने के सभी तरीकों में एग्रीगेशन का इस्तेमाल किया जाता है. हालांकि, एग्रीगेशन के सभी तरीकों में पहचान छिपाई नहीं जाती. वहीं दूसरी ओर, डिफ़रेंशियल प्राइवसी, जानकारी के लीक होने और निजता से जुड़ी गारंटी देता है.
2. डिफ़रेंशियल प्राइवसी के बारे में खास जानकारी
डिफ़रेंशियल प्राइवसी को बेहतर तरीके से समझने के लिए, आइए एक आसान उदाहरण पर नज़र डालें.
यह बार चार्ट किसी खास शाम को किसी छोटे रेस्टोरेंट में मौजूद भीड़-भाड़ को दिखाता है. शाम 7 बजे बहुत से मेहमान आते हैं और रात 1 बजे रेस्टोरेंट पूरी तरह से खाली रहता है:
यह काम का है!
कोई कैच किया गया है. जब कोई नया मेहमान आता है, तो बार चार्ट में यह जानकारी तुरंत दिखती है. चार्ट देखें: साफ़ तौर पर पता चल रहा है कि कोई नया मेहमान आया है और यह मेहमान करीब रात 1 बजे आया है:
निजता के नज़रिए से यह सही नहीं है. असल में पहचान छिपाकर दिए गए आंकड़ों से व्यक्तिगत योगदान की जानकारी नहीं मिलनी चाहिए. इन दो चार्ट को एक साथ रखने से स्थिति और भी साफ़ हो जाती है: नारंगी बार चार्ट में एक और मेहमान आता है जो रात 1 बजे से रात 1 बजे तक आता है:
यह अच्छी बात नहीं है. हम क्या करें?
हम रैंडम नॉइज़ जोड़कर बार चार्ट को थोड़ा सटीक बना देंगे!
नीचे दिए गए दो बार चार्ट देखें. हालांकि, ये पूरी तरह से सटीक नहीं होते, लेकिन ये फिर भी काम के होते हैं और इनसे व्यक्तिगत योगदान की जानकारी नहीं मिलती. बढ़िया!
डिफ़रेंशियल प्राइवसी का मतलब है कि अलग-अलग योगदानों को मास्क करने के लिए, गै़र-ज़रूरी डेटा का सही लेवल सही है.
हमारा विश्लेषण कुछ हद तक आसान बना दिया गया था. डिफ़रेंशियल प्राइवसी को सही तरीके से लागू करना ज़्यादा अहम है. इसमें इसे लागू करने से जुड़ी कई बारीकियां दिखती हैं. क्रिप्टोग्राफ़ी की तरह ही, डिफ़रेंशियल प्राइवसी को अपने हिसाब से लागू करना सही नहीं होगा. आप अपने स्वयं के समाधान को लागू करने के बजाय, बीम पर निजता का इस्तेमाल कर सकते हैं. अपनी डिफ़रेंशियल प्राइवसी का इस्तेमाल न करें!
इस कोडलैब में, हम आपको बताएंगे कि बीम पर निजता का इस्तेमाल करके डिफ़रेंशियली प्राइवेट विश्लेषण कैसे किया जाता है.
3. बीम पर निजता सेटिंग डाउनलोड हो रही है
कोडलैब का आसानी से पालन करने के लिए, आपको बीम पर निजता सेटिंग डाउनलोड करने की ज़रूरत नहीं है. ऐसा इसलिए, क्योंकि इस दस्तावेज़ में सभी ज़रूरी कोड और ग्राफ़ मौजूद हैं. हालांकि, अगर आपको कोड चलाने के लिए इसे डाउनलोड करना है, इसे खुद चलाना है या बाद में बीम पर निजता का इस्तेमाल करना है, तो यहां दिया गया तरीका अपनाएं.
ध्यान दें कि यह कोडलैब, लाइब्रेरी के 1.1.0 वर्शन के लिए है.
पहले, बीम पर निजता की सेटिंग डाउनलोड करें:
https://github.com/google/differential-privacy/archive/refs/tags/v1.1.0.tar.gz
इसके अलावा, GitHub रिपॉज़िटरी का क्लोन बनाया जा सकता है:
git clone --branch v1.1.0 https://github.com/google/differential-privacy.git
बीम पर निजता privacy-on-beam/
की टॉप लेवल की डायरेक्ट्री में मौजूद है.
इस कोडलैब और डेटासेट का कोड, privacy-on-beam/codelab/
डायरेक्ट्री में मौजूद है.
आपको अपने कंप्यूटर पर Basel को इंस्टॉल करना भी होगा. Bazu की वेबसाइट पर, अपने ऑपरेटिंग सिस्टम को इंस्टॉल करने से जुड़े निर्देश देखें.
4. हर घंटे होने वाली विज़िट की गिनती करना
मान लें कि आप एक रेस्टोरेंट के मालिक हैं और आपको अपने रेस्टोरेंट से जुड़े कुछ आंकड़े शेयर करने हैं. जैसे, रेस्टोरेंट में सबसे ज़्यादा समय आने के बारे में जानकारी देना. अच्छी बात यह है कि आपको डिफ़रेंशियल प्राइवसी और पहचान छिपाने के बारे में पता है. इसलिए, आपको यह काम इस तरह करना है जिससे आपकी वेबसाइट पर आने वाले किसी भी व्यक्ति की जानकारी लीक न हो.
इस उदाहरण के लिए कोड codelab/count.go
में है.
चलिए, एक मॉक डेटासेट लोड करने से शुरुआत करते हैं जिसमें किसी सोमवार को आपके रेस्टोरेंट में आने वाले लोगों की संख्या की जानकारी होती है. इस कोडलैब के उद्देश्यों के लिए यह कोड दिलचस्प नहीं है, लेकिन आप इसके लिए codelab/main.go
, codelab/utils.go
और codelab/visit.go
में कोड देख सकते हैं.
विज़िटर आईडी | समय डाला गया | बिताया गया समय (मिनट) | खर्च किया गया पैसा (यूरो) |
1 | सुबह 9:30:00 बजे | 26 | 24 |
2 | सुबह 11:54:00 बजे | 53 | 17 |
3 | दोपहर 1:05:00 बजे | 81 | 33 |
आप पहले नीचे दिए गए कोड सैंपल में बीम का इस्तेमाल करके, अपने रेस्टोरेंट में आने-जाने के समय का एक गैर-निजी बार चार्ट बनाएंगे. Scope
पाइपलाइन को दिखाता है और हम डेटा पर जो भी नया कार्रवाई करते हैं वह Scope
में जुड़ जाता है. CountVisitsPerHour
, Scope
और विज़िट का संग्रह लेता है, जिसे बीम में PCollection
के तौर पर दिखाया जाता है. यह कलेक्शन पर extractVisitHour
फ़ंक्शन लागू करके, हर विज़िट का घंटा निकालता है. इसके बाद, यह हर घंटे की गतिविधियों की गिनती करके उसे दिखाता है.
func CountVisitsPerHour(s beam.Scope, col beam.PCollection) beam.PCollection { s = s.Scope("CountVisitsPerHour") visitHours := beam.ParDo(s, extractVisitHourFn, col) visitsPerHour := stats.Count(s, visitHours) return visitsPerHour } func extractVisitHourFn(v Visit) int { return v.TimeEntered.Hour() }
इससे मौजूदा डायरेक्ट्री में count.png
के तौर पर एक अच्छा बार चार्ट (bazel run codelab -- --example="count" --input_file=$(pwd)/day_data.csv --output_stats_file=$(pwd)/count.csv --output_chart_file=$(pwd)/count.png
चलाकर) बनता है:
अगला चरण है, अपने पाइपलाइन और बार चार्ट को निजी में बदलना. हम यह कार्रवाई इस तरह करते हैं.
PrivatePCollection<V>
पाने के लिए, सबसे पहले MakePrivateFromStruct
को PCollection<V>
पर कॉल करें. इनपुट PCollection
, स्ट्रक्चर के संग्रह से जुड़ा होना चाहिए. हमें MakePrivateFromStruct
के इनपुट के तौर पर, PrivacySpec
और idFieldPath
डालना होगा.
spec := pbeam.NewPrivacySpec(epsilon, delta) pCol := pbeam.MakePrivateFromStruct(s, col, spec, "VisitorID")
PrivacySpec
एक ऐसा स्ट्रक्चर है जिसमें डिफ़रेंशियल प्राइवसी पैरामीटर (epsilon और डेल्टा) होता है. हम डेटा की पहचान छिपाने के लिए इसका इस्तेमाल करते हैं. (अभी आपको इस बारे में चिंता करने की ज़रूरत नहीं है. अगर आपको इनके बारे में ज़्यादा जानना है, तो बाद में हमारे पास एक वैकल्पिक सेक्शन उपलब्ध है.)
idFieldPath
, स्ट्रक्चर में उपयोगकर्ता आइडेंटिफ़ायर फ़ील्ड का पाथ है (हमारे मामले में Visit
). यहां, वेबसाइट पर आने वाले लोगों का उपयोगकर्ता आइडेंटिफ़ायर, Visit
का VisitorID
फ़ील्ड है.
इसके बाद, हम stats.Count()
के बजाय pbeam.Count()
को कॉल करते हैं. pbeam.Count()
, इनपुट के तौर पर CountParams
स्ट्रक्चर लेता है. इसमें MaxValue
जैसे पैरामीटर शामिल होते हैं, जो आउटपुट के सटीक होने पर असर डालते हैं.
visitsPerHour := pbeam.Count(s, visitHours, pbeam.CountParams{ // Visitors can visit the restaurant once (one hour) a day MaxPartitionsContributed: 1, // Visitors can visit the restaurant once within an hour MaxValue: 1, })
इसी तरह, MaxPartitionsContributed
यह बताता है कि कोई उपयोगकर्ता कितने अलग-अलग विज़िट के घंटे योगदान कर सकता है. हम उम्मीद करते हैं कि वे दिन में ज़्यादा से ज़्यादा एक बार रेस्टोरेंट में आएंगे (या अगर वे दिन में कई बार यहां आते हैं, तो हमें कोई परवाह नहीं है), इसलिए हम इसे भी 1 पर सेट कर देते हैं. हम वैकल्पिक सेक्शन में, इन पैरामीटर के बारे में ज़्यादा जानकारी देंगे.
MaxValue
से यह तय होता है कि जिन वैल्यू की गिनती की जा रही है उनमें कोई एक उपयोगकर्ता कितनी बार योगदान दे सकता है. इस खास मामले में, हम जिन वैल्यू की गिनती कर रहे हैं वे विज़िट के घंटे हैं और हम उम्मीद करते हैं कि कोई उपयोगकर्ता रेस्टोरेंट में सिर्फ़ एक बार जाएगा (या अगर वह एक घंटे में कई बार आता है, तो हमें कोई दिक्कत नहीं है), इसलिए हम इस पैरामीटर को 1 पर सेट कर देते हैं.
आखिर में, आपका कोड कुछ ऐसा दिखेगा:
func PrivateCountVisitsPerHour(s beam.Scope, col beam.PCollection) beam.PCollection { s = s.Scope("PrivateCountVisitsPerHour") // Create a Privacy Spec and convert col into a PrivatePCollection spec := pbeam.NewPrivacySpec(epsilon, delta) pCol := pbeam.MakePrivateFromStruct(s, col, spec, "VisitorID") visitHours := pbeam.ParDo(s, extractVisitHourFn, pCol) visitsPerHour := pbeam.Count(s, visitHours, pbeam.CountParams{ // Visitors can visit the restaurant once (one hour) a day MaxPartitionsContributed: 1, // Visitors can visit the restaurant once within an hour MaxValue: 1, }) return visitsPerHour }
हमें डिफ़रेंशियल प्राइवेट स्टैटिस्टिक्स के लिए मिलता-जुलता बार चार्ट (count_dp.png
) दिखता है (पिछला निर्देश, गैर-निजी और निजी, दोनों पाइपलाइन चलाता है):
बधाई हो! आपने अपना पहला डिफ़रेंशियल प्राइवेट स्टैटिस्टिक्स कैलकुलेट किया है!
यह कोड चलाने पर आपको मिलने वाला बार चार्ट, इस कोड से अलग हो सकता है. कोई बात नहीं. डिफ़रेंशियल प्राइवसी में शोर की वजह से, हर बार कोड चलाने पर आपको एक अलग बार चार्ट मिलेगा. हालांकि, यह देखा जा सकता है कि वे हमारे ओरिजनल नॉन-प्राइवेट बार चार्ट से काफ़ी हद तक मिलते-जुलते हैं.
कृपया ध्यान दें कि निजता की गारंटी के लिए यह बहुत ज़रूरी है कि पाइपलाइन को कई बार न चलाया जाए (उदाहरण के लिए, बेहतर दिखने वाला बार चार्ट पाने के लिए). आपको अपनी पाइपलाइन फिर से क्यों नहीं चलाना चाहिए, इसका कारण "एक से अधिक आंकड़ों की गणना करना" में बताया गया है सेक्शन में जाएं.
5. पब्लिक पार्टीशन का इस्तेमाल करना
पिछले सेक्शन में, आपने देखा होगा कि हमने कुछ सेगमेंट के लिए सभी विज़िट (डेटा) को हटा दिया है, यानी घंटे.
ऐसा, बंटवारे के लिए चुने गए/थ्रेशोल्ड की वजह से होता है. यह एक अहम चरण है, जिससे डिफ़रेंशियल प्राइवसी गारंटी को पक्का किया जा सकता है, क्योंकि आउटपुट वाले सेगमेंट की मौजूदगी, उपयोगकर्ता के डेटा पर निर्भर करती है. ऐसा होने पर, आउटपुट में सिर्फ़ किसी उपयोगकर्ता के मौजूद होने से, डेटा में मौजूद किसी उपयोगकर्ता की मौजूदगी का पता चल सकता है. यह जानने के लिए कि यह निजता का उल्लंघन क्यों करता है, यह ब्लॉग पोस्ट देखें. इससे बचने के लिए, बीम पर निजता की सुविधा उन हिस्सों को ही सेव करती है जिनमें ज़रूरत के मुताबिक उपयोगकर्ता हों.
जब आउटपुट विभाजनों की सूची निजी उपयोगकर्ता डेटा पर निर्भर नहीं करती, यानी वे सार्वजनिक जानकारी होती हैं, तो हमें इस विभाजन चयन चरण की आवश्यकता नहीं होती. हमारे रेस्टोरेंट वाले उदाहरण में यही बात लागू होती है: हमें रेस्टोरेंट के काम के घंटे (9.00 से 21.00) पता है.
इस उदाहरण के लिए कोड codelab/public_partitions.go
में है.
हम सिर्फ़ 9 से 21 के बीच के घंटों का PCollection बनाएंगे और उसे CountParams
के PublicPartitions
फ़ील्ड में डालेंगे:
func PrivateCountVisitsPerHourWithPublicPartitions(s beam.Scope, col beam.PCollection) beam.PCollection { s = s.Scope("PrivateCountVisitsPerHourWithPublicPartitions") // Create a Privacy Spec and convert col into a PrivatePCollection spec := pbeam.NewPrivacySpec(epsilon, /* delta */ 0) pCol := pbeam.MakePrivateFromStruct(s, col, spec, "VisitorID") // Create a PCollection of output partitions, i.e. restaurant's work hours // (from 9 am till 9pm (exclusive)). hours := beam.CreateList(s, [12]int{9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20}) visitHours := pbeam.ParDo(s, extractVisitHourFn, pCol) visitsPerHour := pbeam.Count(s, visitHours, pbeam.CountParams{ // Visitors can visit the restaurant once (one hour) a day MaxPartitionsContributed: 1, // Visitors can visit the restaurant once within an hour MaxValue: 1, // Visitors only visit during work hours PublicPartitions: hours, }) return visitsPerHour }
ध्यान दें कि यदि आप सार्वजनिक विभाजनों और लाप्लास नॉइज़ (डिफ़ॉल्ट) का उपयोग कर रहे हैं तो डेल्टा को 0 पर सेट करना संभव है जैसा कि ऊपर दिया गया है.
जब हम सार्वजनिक विभाजनों (bazel run codelab -- --example="public_partitions" --input_file=$(pwd)/day_data.csv --output_stats_file=$(pwd)/public_partitions.csv --output_chart_file=$(pwd)/public_partitions.png
के साथ) वाली पाइपलाइन चलाते हैं, तो हमें (public_partitions_dp.png
) मिलता है:
जैसा कि आपको दिख रहा है, अब हम 9, 10, और 16 के हिसाब से सेगमेंट को छोड़ देते हैं. हालांकि, पहले से ही इसे सार्वजनिक तौर पर नहीं बांटा गया था.
सार्वजनिक विभाजनों का उपयोग करने से न केवल आपको ज़्यादा विभाजन बनाए जा सकते हैं, बल्कि यह बिना किसी गोपनीयता बजट, जैसे कि ऐप्सिलॉन और डेल्टा चुनने पर. यही वजह है कि रॉ और प्राइवेट काउंट का अंतर, पिछली बार चलाए जाने वाले डेटा के मुकाबले थोड़ा कम है.
सार्वजनिक विभाजनों का उपयोग करते समय ध्यान रखने योग्य दो महत्वपूर्ण बातें हैं:
- रॉ डेटा से सेगमेंट की सूची लेते समय सावधानी बरतें: अगर किसी डिफ़रेंशियल तरीके से ऐसा नहीं किया जाता है, तो उदाहरण के लिए उपयोगकर्ता के डेटा के सभी सेगमेंट की सूची पढ़ने से, आपकी पाइपलाइन में डिफ़रेंशियल प्राइवसी गारंटी नहीं मिलती. इसे डिफ़रेंशियल तरीके से निजी तरीके से कैसे किया जाए, इसके लिए नीचे दिया गया ऐडवांस सेक्शन देखें.
- अगर कुछ सार्वजनिक विभाजनों के लिए कोई डेटा (जैसे कि विज़िट) नहीं है, तो डिफ़रेंशियल प्राइवसी बनाए रखने के लिए, उन सेगमेंट पर नॉइज़ लागू किया जाएगा. उदाहरण के लिए, अगर हमने 0 से 24 के बीच (9 और 21 के बजाय) घंटों का इस्तेमाल किया है, तो सभी घंटों के लिए नॉइज़ किया जाएगा. अगर कोई विज़िट नहीं होगी, तो हो सकता है कि आपको कुछ विज़िट की जानकारी दिखे.
(बेहतर) डेटा से विभाजन निकालना
अगर एक ही पाइपलाइन में गैर-सार्वजनिक आउटपुट विभाजनों की समान सूची के साथ कई एग्रीगेशन चलाए जा रहे हैं, तो आप SelectPartitions()
का इस्तेमाल करके एक बार पार्टिशन की सूची पा सकते हैं और PublicPartition
इनपुट के रूप में हर एग्रीगेशन को पार्टिशन दे सकते हैं. यह न सिर्फ़ निजता के लिहाज़ से सुरक्षित है, बल्कि यह आपको सिस्टम के बंटवारे के लिए निजता बजट का इस्तेमाल करने की वजह से भी कम नॉइज़ जोड़ने की सुविधा देता है. ऐसा पूरी पाइपलाइन के लिए सिर्फ़ एक बार किया जाता है.
6. ठहरने की औसत अवधि का हिसाब लगाना
अब जब हम जानते हैं कि चीज़ों को अलग-अलग निजी तरीके से कैसे गिना जाए, तो आइए अब आकलन के साधनों पर गौर करें. खास तौर पर, अब हम विज़िटर के ठहरने की औसत अवधि का हिसाब लगाएंगे.
इस उदाहरण के लिए कोड codelab/mean.go
में है.
आम तौर पर, ठहरने की कुल अवधि के गैर-निजी मीन का हिसाब लगाने के लिए, हम प्री-प्रोसेसिंग चरण के साथ stats.MeanPerKey()
का इस्तेमाल करते हैं. यह विज़िट की PCollection
विज़िट को PCollection<K,V>
में बदल देता है. यहां K विज़िट का घंटा है और V का मतलब है कि व्यक्ति ने रेस्टोरेंट में कितना समय बिताया.
func MeanTimeSpent(s beam.Scope, col beam.PCollection) beam.PCollection { s = s.Scope("MeanTimeSpent") hourToTimeSpent := beam.ParDo(s, extractVisitHourAndTimeSpentFn, col) meanTimeSpent := stats.MeanPerKey(s, hourToTimeSpent) return meanTimeSpent } func extractVisitHourAndTimeSpentFn(v Visit) (int, int) { return v.TimeEntered.Hour(), v.MinutesSpent }
इससे मौजूदा डायरेक्ट्री में mean.png
के तौर पर एक अच्छा बार चार्ट (bazel run codelab -- --example="mean" --input_file=$(pwd)/day_data.csv --output_stats_file=$(pwd)/mean.csv --output_chart_file=$(pwd)/mean.png
चलाकर) बनता है:
इसे अलग से निजी बनाने के लिए, हम अपने PCollection
को फिर से PrivatePCollection
में बदलते हैं. साथ ही, stats.MeanPerKey()
को pbeam.MeanPerKey()
से बदल देते हैं. Count
की तरह ही, हमारे पास MeanParams
भी हैं जिनमें MinValue
और MaxValue
जैसे कुछ पैरामीटर मौजूद हैं. ये पैरामीटर सटीक होने पर असर डालते हैं. MinValue
और MaxValue
, हर कुंजी के लिए हर उपयोगकर्ता के योगदान की सीमाएं दिखाते हैं.
meanTimeSpent := pbeam.MeanPerKey(s, hourToTimeSpent, pbeam.MeanParams{ // Visitors can visit the restaurant once (one hour) a day MaxPartitionsContributed: 1, // Visitors can visit the restaurant once within an hour MaxContributionsPerPartition: 1, // Minimum time spent per user (in mins) MinValue: 0, // Maximum time spent per user (in mins) MaxValue: 60, })
इस मामले में, प्रत्येक कुंजी एक घंटे को दिखाती है और इसके मान विज़िटर द्वारा बिताया गया समय होते हैं. हमने MinValue
को 0 पर सेट किया है, क्योंकि हमें नहीं लगता कि लोग रेस्टोरेंट में 0 मिनट से भी कम समय बिताेंगे. हम MaxValue
को 60 पर सेट करते हैं, जिसका मतलब है कि अगर वेबसाइट पर आने वाला कोई व्यक्ति 60 मिनट से ज़्यादा समय बिताता है, तो हम यह मानकर चलते हैं कि उपयोगकर्ता ने 60 मिनट बिताए हैं.
आखिर में, आपका कोड कुछ ऐसा दिखेगा:
func PrivateMeanTimeSpent(s beam.Scope, col beam.PCollection) beam.PCollection { s = s.Scope("PrivateMeanTimeSpent") // Create a Privacy Spec and convert col into a PrivatePCollection spec := pbeam.NewPrivacySpec(epsilon, /* delta */ 0) pCol := pbeam.MakePrivateFromStruct(s, col, spec, "VisitorID") // Create a PCollection of output partitions, i.e. restaurant's work hours // (from 9 am till 9pm (exclusive)). hours := beam.CreateList(s, [12]int{9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20}) hourToTimeSpent := pbeam.ParDo(s, extractVisitHourAndTimeSpentFn, pCol) meanTimeSpent := pbeam.MeanPerKey(s, hourToTimeSpent, pbeam.MeanParams{ // Visitors can visit the restaurant once (one hour) a day MaxPartitionsContributed: 1, // Visitors can visit the restaurant once within an hour MaxContributionsPerPartition: 1, // Minimum time spent per user (in mins) MinValue: 0, // Maximum time spent per user (in mins) MaxValue: 60, // Visitors only visit during work hours PublicPartitions: hours, }) return meanTimeSpent }
हमें डिफ़रेंशियल प्राइवेट स्टैटिस्टिक्स (पिछले निर्देश में गैर-निजी और निजी पाइपलाइन, दोनों) के लिए एक मिलता-जुलता बार चार्ट (mean_dp.png
) दिखता है:
जैसा कि हम जानते हैं कि यह एक अलग तरह का निजी ऑपरेशन है, इसलिए जब भी हम इसे चलाएंगे, तब हमें अलग-अलग नतीजे मिलेंगे. हालांकि, आप देख सकते हैं कि अलग-अलग अवधि के दौरान ठहरने की अलग-अलग अवधि, असल नतीजे से ज़्यादा दूर नहीं है.
7. हर घंटे के हिसाब से रेवेन्यू का हिसाब लगाना
दिन भर में हर घंटे होने वाली कमाई, एक और दिलचस्प आंकड़े है.
इस उदाहरण के लिए कोड codelab/sum.go
में है.
हम गैर-निजी वर्शन से शुरुआत करेंगे. अपने मॉक डेटासेट पर कुछ प्री-प्रोसेसिंग की मदद से, हम एक PCollection<K,V>
बना सकते हैं, जहां K विज़िट के घंटे को और V वह पैसा होता है जो रेस्टोरेंट में आने वाले व्यक्ति ने खर्च किया: प्रति घंटे गैर-निजी आय का हिसाब लगाने के लिए, हम stats.SumPerKey()
को कॉल करके वेबसाइट पर आने वाले लोगों की खर्च की गई कुल रकम को जोड़ सकते हैं:
func RevenuePerHour(s beam.Scope, col beam.PCollection) beam.PCollection { s = s.Scope("RevenuePerHour") hourToMoneySpent := beam.ParDo(s, extractVisitHourAndMoneySpentFn, col) revenues := stats.SumPerKey(s, hourToMoneySpent) return revenues } func extractVisitHourAndMoneySpentFn(v Visit) (int, int) { return v.TimeEntered.Hour(), v.MoneySpent }
इससे मौजूदा डायरेक्ट्री में sum.png
के तौर पर एक अच्छा बार चार्ट (bazel run codelab -- --example="sum" --input_file=$(pwd)/day_data.csv --output_stats_file=$(pwd)/sum.csv --output_chart_file=$(pwd)/sum.png
चलाकर) बनता है:
इसे अलग से निजी बनाने के लिए, हम अपने PCollection
को फिर से PrivatePCollection
में बदलते हैं. साथ ही, stats.SumPerKey()
को pbeam.SumPerKey()
से बदल देते हैं. Count
और MeanPerKey
की तरह, हमारे पास SumParams
हैं जिनमें MinValue
और MaxValue
जैसे कुछ पैरामीटर हैं. ये पैरामीटर सटीक होने पर असर डालते हैं.
revenues := pbeam.SumPerKey(s, hourToMoneySpent, pbeam.SumParams{ // Visitors can visit the restaurant once (one hour) a day MaxPartitionsContributed: 1, // Minimum money spent per user (in euros) MinValue: 0, // Maximum money spent per user (in euros) MaxValue: 40, })
इस मामले में, MinValue
और MaxValue
, वेबसाइट पर आने वाले हर व्यक्ति के लिए खर्च की जाने वाली सीमाओं को दिखाते हैं. हमने MinValue
को 0 पर सेट किया है, क्योंकि हम नहीं चाहते कि लोग रेस्टोरेंट में 0 यूरो से कम खर्च करें. हम MaxValue
को 40 पर सेट करते हैं, जिसका मतलब है कि अगर वेबसाइट पर आने वाला कोई व्यक्ति 40 यूरो से ज़्यादा खर्च करता है, तो हम यह मानेंगे कि उपयोगकर्ता ने 40 यूरो खर्च किए हैं.
आखिर में, कोड कुछ ऐसा दिखेगा:
func PrivateRevenuePerHour(s beam.Scope, col beam.PCollection) beam.PCollection { s = s.Scope("PrivateRevenuePerHour") // Create a Privacy Spec and convert col into a PrivatePCollection spec := pbeam.NewPrivacySpec(epsilon, /* delta */ 0) pCol := pbeam.MakePrivateFromStruct(s, col, spec, "VisitorID") // Create a PCollection of output partitions, i.e. restaurant's work hours // (from 9 am till 9pm (exclusive)). hours := beam.CreateList(s, [12]int{9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20}) hourToMoneySpent := pbeam.ParDo(s, extractVisitHourAndMoneySpentFn, pCol) revenues := pbeam.SumPerKey(s, hourToMoneySpent, pbeam.SumParams{ // Visitors can visit the restaurant once (one hour) a day MaxPartitionsContributed: 1, // Minimum money spent per user (in euros) MinValue: 0, // Maximum money spent per user (in euros) MaxValue: 40, // Visitors only visit during work hours PublicPartitions: hours, }) return revenues }
हमें डिफ़रेंशियल प्राइवेट स्टैटिस्टिक्स (पिछले निर्देश में गैर-निजी और निजी पाइपलाइन, दोनों) के लिए एक मिलता-जुलता बार चार्ट (sum_dp.png
) दिखता है:
जैसा कि गिनती और मतलब की तरह है, क्योंकि यह एक अलग तरह से निजी ऑपरेशन है, इसलिए जब भी हम इसे चलाएंगे, तो हमें अलग-अलग नतीजे मिलेंगे. हालांकि, अलग-अलग निजी खोज नतीजे से आपको हर घंटे मिलने वाले रेवेन्यू के काफ़ी ज़्यादा अंतर दिख सकते हैं.
8. एकाधिक आंकड़ों की गणना करना
ज़्यादातर मामलों में, हो सकता है कि आपकी एक ही तरह के डेटा पर एक से ज़्यादा आंकड़ों का हिसाब लगाने में दिलचस्पी हो. ये वैसे ही होते हैं जैसे आपने गिनती, माध्य, और योग को ध्यान में रखकर किया है. आम तौर पर, किसी एक बीम पाइपलाइन और एक बाइनरी में ऐसा करना ज़्यादा साफ़ और आसान होता है. आप ऐसा बीम पर निजता के साथ भी कर सकते हैं. अपने ट्रांसफ़ॉर्मेशन और कंप्यूटेशन को चलाने के लिए, एक पाइपलाइन लिखी जा सकती है. साथ ही, पूरी पाइपलाइन के लिए, एक ही PrivacySpec
का इस्तेमाल किया जा सकता है.
एक PrivacySpec
के साथ ऐसा करना न सिर्फ़ ज़्यादा सुविधाजनक है, बल्कि निजता के मामले में भी बेहतर है. अगर आपको याद है कि हम PrivacySpec
को जो ऐपसिलॉन और डेल्टा पैरामीटर देते हैं, वे निजता बजट को दिखाते हैं. इससे पता चलता है कि आप जिस डेटा को लीक कर रहे हैं उसमें उपयोगकर्ताओं की निजता का कितना स्तर है.
निजता के लिए बजट के बारे में याद रखने वाली एक बात यह है कि यह अलग से जोड़ा जाता है: अगर एक बार में किसी खास एप्सिलॉन, आइडेंटिफ़ायर, डेल्टा वैल्यू के साथ पाइपलाइन चलाई जा रही है, तो इसका मतलब है कि आपको एक ही बार में (क्षेत्रफल में) का बजट खर्च करना होगा. अगर आप इसे दूसरी बार चलाते हैं, तो इसका मतलब है कि आपका कुल बजट (2 पेमेंट्स, 26) खर्च होगा. इसी तरह, अगर आप PrivacySpec
(और लगातार निजता बजट) (,,, 2,) के साथ कई आंकड़ों का हिसाब लगाते हैं, तो इसका मतलब है कि आपका कुल बजट (2 पेमेंट्स, 2 पुलिस) खर्च हो जाएगा. इसका मतलब है कि आप निजता से जुड़ी गारंटी का अपमान कर रहे हैं.
इससे बचने के लिए, जब आपको एक ही डेटा पर कई आंकड़ों का हिसाब लगाना हो, तो आपको अपने कुल बजट के साथ एक PrivacySpec
का इस्तेमाल करना होगा. इसके बाद, आपको हर एग्रीगेशन के लिए इस्तेमाल किए जाने वाले ऐप्सिलॉन और डेल्टा को तय करना होगा. आखिर में, आपको निजता की वही गारंटी मिलेगी. लेकिन किसी खास एग्रीगेशन में जितना ज़्यादा एप्सिलॉन और डेल्टा होगा, वह उतनी ही ज़्यादा सटीक होगा.
इसे देखने के लिए, हम उन तीन आंकड़ों (संख्या, माध्य, और योग) का हिसाब लगा सकते हैं जिनकी गणना पहले हमने किसी एक पाइपलाइन में अलग-अलग की थी.
इस उदाहरण के लिए कोड codelab/multiple.go
में है. ध्यान दें कि हम किस तरह कुल (χ,$) के बजट को तीन एग्रीगेशन के बीच बराबर बांट रहे हैं:
func ComputeCountMeanSum(s beam.Scope, col beam.PCollection) (visitsPerHour, meanTimeSpent, revenues beam.PCollection) { s = s.Scope("ComputeCountMeanSum") // Create a Privacy Spec and convert col into a PrivatePCollection // Budget is shared by count, mean and sum. spec := pbeam.NewPrivacySpec(epsilon, /* delta */ 0) pCol := pbeam.MakePrivateFromStruct(s, col, spec, "VisitorID") // Create a PCollection of output partitions, i.e. restaurant's work hours // (from 9 am till 9pm (exclusive)). hours := beam.CreateList(s, [12]int{9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20}) visitHours := pbeam.ParDo(s, extractVisitHourFn, pCol) visitsPerHour = pbeam.Count(s, visitHours, pbeam.CountParams{ Epsilon: epsilon / 3, Delta: 0, // Visitors can visit the restaurant once (one hour) a day MaxPartitionsContributed: 1, // Visitors can visit the restaurant once within an hour MaxValue: 1, // Visitors only visit during work hours PublicPartitions: hours, }) hourToTimeSpent := pbeam.ParDo(s, extractVisitHourAndTimeSpentFn, pCol) meanTimeSpent = pbeam.MeanPerKey(s, hourToTimeSpent, pbeam.MeanParams{ Epsilon: epsilon / 3, Delta: 0, // Visitors can visit the restaurant once (one hour) a day MaxPartitionsContributed: 1, // Visitors can visit the restaurant once within an hour MaxContributionsPerPartition: 1, // Minimum time spent per user (in mins) MinValue: 0, // Maximum time spent per user (in mins) MaxValue: 60, // Visitors only visit during work hours PublicPartitions: hours, }) hourToMoneySpent := pbeam.ParDo(s, extractVisitHourAndMoneySpentFn, pCol) revenues = pbeam.SumPerKey(s, hourToMoneySpent, pbeam.SumParams{ Epsilon: epsilon / 3, Delta: 0, // Visitors can visit the restaurant once (one hour) a day MaxPartitionsContributed: 1, // Minimum money spent per user (in euros) MinValue: 0, // Maximum money spent per user (in euros) MaxValue: 40, // Visitors only visit during work hours PublicPartitions: hours, }) return visitsPerHour, meanTimeSpent, revenues }
9. (ज़रूरी नहीं) डिफ़रेंशियल प्राइवसी के पैरामीटर को ट्वीक करना
आपने इस कोडलैब में बताए गए कुछ पैरामीटर देखे हैं: epsilon, Delta, maxPartitionsContributed, वगैरह. हम इन्हें करीब-करीब दो कैटगरी में बांट सकते हैं: प्राइवसी पैरामीटर और यूटिलिटी पैरामीटर.
निजता के पैरामीटर
एप्सिलॉन और डेल्टा ऐसे पैरामीटर हैं जो डिफ़रेंशियल प्राइवसी का इस्तेमाल करके, मिलने वाली निजता का आकलन करते हैं. सीधे तौर पर कहा जाए, तो एप्सिलॉन और डेल्टा इस बात का आकलन करते हैं कि कोई संभावित हमलावर, पहचान छिपाकर दिए गए आउटपुट को देखकर, दिए गए डेटा के बारे में कितनी जानकारी हासिल करता है. एप्सिलॉन और डेल्टा जितना ज़्यादा होता है, हमलावर को बुनियादी डेटा के बारे में उतनी ही ज़्यादा जानकारी मिलती है, जिससे निजता को खतरा होता है.
वहीं दूसरी ओर, लोअर ऐपसिलॉन और डेल्टा जितना ज़्यादा होता है, आपको अनाम बनाए रखने के लिए आउटपुट में उतना ही ज़्यादा नॉइज़ जोड़ने की ज़रूरत होती है और आपको हर पार्टिशन में उस विभाजन को बेनाम आउटपुट में बनाए रखने के लिए ज़्यादा संख्या में यूनीक उपयोगकर्ताओं की ज़रूरत होती है. इसलिए, यहां उपयोगिता और गोपनीयता के बीच एक संतुलन है.
बीम पर निजता सेटिंग में आपको निजता की उस गारंटी के बारे में चिंता होनी चाहिए जो PrivacySpec
में निजता के लिए कुल बजट तय करते समय, पहचान छिपाने वाले आउटपुट में शामिल हो. ध्यान रखें कि अगर आपको निजता से जुड़ी गारंटी को होल्ड पर रखना है, तो आपको इस कोडलैब में दी गई सलाह का पालन करना होगा. इसमें, बजट का ज़्यादा इस्तेमाल न करने के बारे में बताया गया है. इसके लिए, हर एग्रीगेशन के लिए एक अलग PrivacySpec
सेट करना होगा या कई बार पाइपलाइन चलाना होगा.
डिफ़रेंशियल प्राइवसी और निजता के पैरामीटर का मतलब जानने के लिए, साहित्य पढ़ें.
यूटिलिटी पैरामीटर
ये पैरामीटर निजता गारंटी पर तब तक असर नहीं डालते, जब तक कि बीम पर निजता के इस्तेमाल से जुड़ी सलाह का सही तरीके से पालन किया जाता है. हालांकि, इससे आउटपुट की सटीक जानकारी और उसकी उपयोगिता पर असर पड़ता है. ये हर एग्रीगेशन के Params
स्ट्रक्चर में दिए जाते हैं, जैसे कि CountParams
, SumParams
वगैरह. इन पैरामीटर का इस्तेमाल, जोड़े जा रहे ग़ैर-ज़रूरी डेटा का आकलन करने के लिए किया जाता है.
Params
में दिया गया एक यूटिलिटी पैरामीटर और सभी एग्रीगेशन पर लागू होने वाला MaxPartitionsContributed
है. कोई विभाजन उस PCollection की कुंजी से मेल खाता है, जो बीम एग्रीगेशन की किसी कार्रवाई, जैसे कि Count
, SumPerKey
वगैरह से आउटपुट के रूप में मिलती है. इसलिए, MaxPartitionsContributed
तय करता है कि कोई उपयोगकर्ता, आउटपुट में कितनी अलग-अलग कुंजी वैल्यू में योगदान कर सकता है. अगर कोई उपयोगकर्ता दिए गए डेटा में MaxPartitionsContributed
से ज़्यादा कुंजियों का योगदान करती है, तो उसके कुछ योगदान छोड़ दिए जाएंगे, ताकि वह ठीक MaxPartitionsContributed
कुंजियों के योगदान में योगदान दे सके.
MaxPartitionsContributed
की तरह ही, ज़्यादातर एग्रीगेशन में MaxContributionsPerPartition
पैरामीटर होता है. ये Params
स्ट्रक्चर में दिए जाते हैं और हर एग्रीगेशन के लिए अलग-अलग वैल्यू हो सकती हैं. MaxPartitionsContributed
के उलट, MaxContributionsPerPartition
हर कुंजी के लिए उपयोगकर्ता के योगदान को सीमित करता है. दूसरे शब्दों में कहें, तो उपयोगकर्ता हर कुंजी के लिए सिर्फ़ MaxContributionsPerPartition
वैल्यू दे सकता है.
आउटपुट में ग़ैर-ज़रूरी आवाज़ें कम करने के लिए, MaxPartitionsContributed
और MaxContributionsPerPartition
का इस्तेमाल किया जाता है. इसलिए, आपको एक फ़ायदा मिलता है: MaxPartitionsContributed
और MaxContributionsPerPartition
का साइज़ ज़्यादा होने का मतलब है कि ज़्यादा डेटा मिलेगा, लेकिन नतीजे में आपको ज़्यादा शोर मिलेगा.
कुछ एग्रीगेशन के लिए MinValue
और MaxValue
की ज़रूरत होती है. ये हर उपयोगकर्ता के योगदान की सीमाएं तय करती हैं. अगर कोई उपयोगकर्ता, MinValue
से कम वैल्यू का योगदान देता है, तो उस वैल्यू को MinValue
तक सीमित कर दिया जाएगा. इसी तरह, अगर कोई उपयोगकर्ता MaxValue
से बड़ी वैल्यू दिखाता है, तो उस वैल्यू को MaxValue
तक सीमित कर दिया जाता है. इसका मतलब है कि ओरिजनल वैल्यू को ज़्यादा बनाए रखने के लिए, आपको बड़ी सीमाएं तय करनी होंगी. MaxPartitionsContributed
और MaxContributionsPerPartition
की तरह, नॉइज़ को बाउंड के साइज़ के हिसाब से स्केल किया जाता है. इसलिए, बड़े बाउंड का मतलब है कि आपके पास ज़्यादा डेटा रहेगा, लेकिन नतीजे में आपको ज़्यादा शोर मिलेगा.
आखिरी पैरामीटर के बारे में हम बात करेंगे, वह है NoiseKind
. हम प्राइवसी ऑन बीम में, ग़ैर-ज़रूरी आवाज़ों को ट्रैक करने की दो अलग-अलग प्रक्रियाओं के साथ काम करते हैं: GaussianNoise
और LaplaceNoise
. दोनों के अपने फ़ायदे और खामियां हैं, लेकिन लाप्लास डिस्ट्रिब्यूशन की सुविधा, कम योगदान के साथ बेहतर सुविधाएं देती है. इसी वजह से, प्राइवसी ऑन बीम इसका इस्तेमाल डिफ़ॉल्ट रूप से करती है. हालांकि, अगर आपको गॉसियन डिस्ट्रिब्यूशन नॉइज़ का इस्तेमाल करना है, तो pbeam.GaussianNoise{}
वैरिएबल के साथ Params
उपलब्ध कराया जा सकता है.
10. खास जानकारी
बहुत बढ़िया! आपने बीम कोडलैब (कोड बनाना सीखना) में निजता से जुड़ी प्रक्रिया पूरी कर ली है. आपने बीम पर डिफ़रेंशियल प्राइवसी और प्राइवसी के बारे में बहुत कुछ सीखा है:
MakePrivateFromStruct
को कॉल करके अपनेPCollection
कोPrivatePCollection
में बदला जा रहा है.- डिफ़रेंशियल प्राइवेट काउंट की वैल्यू को कैलकुलेट करने के लिए,
Count
का इस्तेमाल किया जा रहा है. - अलग-अलग निजी तरीकों का पता लगाने के लिए
MeanPerKey
का इस्तेमाल किया जा रहा है. - डिफ़रेंशियल प्राइवेट योग को कैलकुलेट करने के लिए,
SumPerKey
का इस्तेमाल किया जा रहा है. - एक पाइपलाइन में, सिंगल
PrivacySpec
से कई आंकड़े गिनना. - (ज़रूरी नहीं)
PrivacySpec
और एग्रीगेशन पैरामीटर (CountParams, MeanParams, SumParams
) को पसंद के मुताबिक बनाना.
लेकिन, बीम पर निजता की मदद से कई और एग्रीगेशन (जैसे कि क्वांटाइल, अलग-अलग वैल्यू की गिनती) किए जा सकते हैं! इनके बारे में ज़्यादा जानने के लिए, GitHub रिपॉज़िटरी या godoc पर जाएं.
अगर आपके पास समय है, तो कृपया सर्वे में हिस्सा लेकर, कोडलैब के बारे में हमें सुझाव/राय दें या शिकायत करें.