Google Dataproc की मदद से, स्पार्क एमएल मॉडल बनाएं

1. परिचय

Apache Spark के मुख्य कॉम्पोनेंट में से एक Spark ML है. यह Apache Spark इंजन पर बनाए गए मशीन लर्निंग मॉडल और पाइपलाइन बनाने के लिए एक लाइब्रेरी है. वेबसाइट पर, इस तरह के टूल मौजूद होते हैं:

  • मशीन लर्निंग एल्गोरिदम: सामान्य लर्निंग एल्गोरिदम, जैसे कि क्लासिफ़िकेशन, रिग्रेशन, क्लस्टरिंग, और कोलैबोरेटिव फ़िल्टरिंग
  • फ़ीचर बनाना: फ़ीचर निकालना, बदलना, डाइमेंशन कम करना, और चुनना
  • पाइपलाइन: एमएल पाइपलाइन बनाने, उनका आकलन करने, और उन्हें बेहतर बनाने के लिए टूल
  • परसिस्टेंस: एल्गोरिदम, मॉडल, और पाइपलाइन सेव करना और लोड करना
  • उपयोगिताएं: लीनियर ऐलजेब्रा, आंकड़े, डेटा हैंडलिंग वगैरह.

इस कोडलैब में, नोटबुक का इस्तेमाल करके Spark ML मॉडल बनाने का तरीका बताया गया है.

2. एपीआई चालू करें

इस कोडलैब के लिए, आपको इन एपीआई को चालू करना होगा:

अपने प्रोजेक्ट में इन एपीआई को चालू करने के लिए, इस लिंक पर क्लिक करें. जब आपसे पूछा जाए, तब पुष्टि करें कि एपीआई सही प्रोजेक्ट में चालू किए जाएंगे.

3. Vertex AI Workbench इंस्टेंस बनाना और उससे कनेक्ट करना

इस सेक्शन में, आपको Vertex AI Workbench इंस्टेंस बनाना होगा. इसके बाद, आपको इससे कनेक्ट करना होगा. साथ ही, Github रिपॉज़िटरी को क्लोन करके नोटबुक को चलाना होगा.

Vertex AI Workbench इंस्टेंस बनाने के लिए, निर्देशों का पालन करें या यहां दिया गया तरीका अपनाएं.

  1. मैनेज किए जा रहे नोटबुक कंसोल पेज पर जाएं.
  2. नई नोटबुक पर क्लिक करें.
  3. कोई नाम डालें और क्षेत्र चुनें. जैसे, us-central1 (आयोवा). यह उस क्षेत्र से मेल खाना चाहिए जिसे आपने कोडलैब में पहले चुना था. हालांकि, ऐसा करना ज़रूरी नहीं है.
  4. अनुमति में जाकर, सिर्फ़ एक उपयोगकर्ता चुनें.
  5. ऐडवांस सेटिंग ड्रॉपडाउन खोलें.
  6. सुरक्षा में जाकर, nbconvert चालू करें और टर्मिनल चालू करें को चुनें.
  7. बनाएं पर क्लिक करें.

इंस्टेंस को चालू होने में करीब पांच मिनट लगेंगे. जब इंस्टेंस तैयार हो जाएगा, तब आपको नोटबुक के नाम के बगल में हरे रंग का सही का निशान दिखेगा.

जब इंस्टेंस तैयार हो जाए, तो JupyterLab खोलें पर क्लिक करें. जब आपसे पुष्टि करने के लिए कहा जाए, तब पुष्टि करें और सभी अनुमतियां चालू करें.

4. नोटबुक से Spark ML की मदद से मॉडल बनाना

JupyterLab इंस्टेंस लोड होने के बाद, आपको लॉन्चर टैब दिखेगा. इस टैब में, अन्य में जाकर, टर्मिनल पर क्लिक करें. इससे एक नया टर्मिनल खुल जाएगा.

टर्मिनल में, Vertex AI Samples रिपॉज़िटरी को क्लोन करें.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

फ़ाइल ब्राउज़र टैब में, vertex-ai-samples/notebooks/official/workbench/spark पर जाएं. spark_ml.ipynb नोटबुक को दो बार क्लिक करके खोलें. जब आपसे कर्नल चुनने के लिए कहा जाए, तब Python (local) चुनें.

नोटबुक के हर चरण को पूरा करने के लिए, हर सेल को एक्ज़ीक्यूट करें. साथ ही, सेल में दिए गए निर्देशों का पालन करें.

5. संसाधन मिटाना

इस कोडलैब को पूरा करने के बाद, अपने GCP खाते पर बेवजह शुल्क लगने से बचने के लिए:

  1. अपने Workbench इंस्टेंस को मिटाएं. कंसोल में जाकर, अपने इंस्टेंस के बगल में मौजूद बॉक्स को चुनें. इसके बाद, मिटाएं पर क्लिक करें.

अगर आपने यह प्रोजेक्ट सिर्फ़ इस कोडलैब के लिए बनाया है, तो आपके पास इसे मिटाने का विकल्प भी है:

  1. GCP Console में, प्रोजेक्ट पेज पर जाएं.
  2. प्रोजेक्ट की सूची में, वह प्रोजेक्ट चुनें जिसे मिटाना है. इसके बाद, मिटाएं पर क्लिक करें.
  3. बॉक्स में प्रोजेक्ट आईडी टाइप करें. इसके बाद, प्रोजेक्ट मिटाने के लिए बंद करें पर क्लिक करें.