Google Dataproc की मदद से, स्पार्क एमएल मॉडल बनाएं

1. परिचय

Apache Spark के मुख्य कॉम्पोनेंट में से एक Spark ML है. यह Apache Spark इंजन पर बनाए गए मशीन लर्निंग मॉडल और पाइपलाइन बनाने के लिए एक लाइब्रेरी है. वेबसाइट पर, इस तरह के टूल मौजूद होते हैं:

  • मशीन लर्निंग एल्गोरिदम: सामान्य लर्निंग एल्गोरिदम, जैसे कि क्लासिफ़िकेशन, रिग्रेशन, क्लस्टरिंग, और कोलैबोरेटिव फ़िल्टरिंग
  • फ़ीचर बनाना: फ़ीचर निकालना, बदलना, डाइमेंशन कम करना, और चुनना
  • पाइपलाइन: एमएल पाइपलाइन बनाने, उनका आकलन करने, और उन्हें बेहतर बनाने के लिए टूल
  • परसिस्टेंस: एल्गोरिदम, मॉडल, और पाइपलाइन सेव करना और लोड करना
  • उपयोगिताएं: लीनियर अलजेब्रा, आंकड़े, डेटा हैंडलिंग वगैरह.

इस कोडलैब में, नोटबुक का इस्तेमाल करके Spark ML मॉडल बनाने का तरीका बताया गया है.

2. एपीआई चालू करें

इस कोडलैब के लिए, आपको इन एपीआई को चालू करना होगा:

अपने प्रोजेक्ट में इन एपीआई को चालू करने के लिए, इस लिंक पर क्लिक करें. जब कहा जाए, तब पुष्टि करें कि एपीआई सही प्रोजेक्ट में चालू किए जाएंगे.

3. Vertex AI Workbench इंस्टेंस बनाना और उससे कनेक्ट करना

इस सेक्शन में, आपको Vertex AI Workbench इंस्टेंस बनाना होगा. इसके बाद, आपको इससे कनेक्ट करना होगा. साथ ही, Github रिपॉज़िटरी को क्लोन करके नोटबुक को चलाना होगा.

Vertex AI Workbench इंस्टेंस बनाने के लिए, निर्देशों का पालन करें या यहां दिया गया तरीका अपनाएं.

  1. मैनेज किए जा रहे नोटबुक कंसोल पेज पर जाएं.
  2. नई नोटबुक पर क्लिक करें.
  3. कोई नाम डालें और क्षेत्र चुनें. जैसे, us-central1 (Iowa). यह उस क्षेत्र से मेल खाना चाहिए जिसे आपने कोडलैब में पहले चुना था. हालांकि, ऐसा करना ज़रूरी नहीं है.
  4. अनुमति में जाकर, सिर्फ़ एक उपयोगकर्ता चुनें.
  5. ऐडवांस सेटिंग ड्रॉपडाउन खोलें.
  6. सुरक्षा में जाकर, nbconvert चालू करें और टर्मिनल चालू करें को चुनें.
  7. बनाएं पर क्लिक करें.

इंस्टेंस को चालू होने में करीब पांच मिनट लगेंगे. जब इंस्टेंस तैयार हो जाएगा, तब आपको नोटबुक के नाम के बगल में हरे रंग का सही का निशान दिखेगा.

जब इंस्टेंस तैयार हो जाए, तो JupyterLab खोलें पर क्लिक करें. जब आपसे पुष्टि करने के लिए कहा जाए, तब पुष्टि करें और सभी अनुमतियां चालू करें.

4. नोटबुक से Spark ML की मदद से मॉडल बनाना

JupyterLab इंस्टेंस लोड होने के बाद, आपको लॉन्चर टैब दिखेगा. इस टैब में, अन्य में जाकर, टर्मिनल पर क्लिक करें. इससे एक नया टर्मिनल खुल जाएगा.

टर्मिनल में, Vertex AI Samples रिपॉज़िटरी को क्लोन करें.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

फ़ाइल ब्राउज़र टैब में, vertex-ai-samples/notebooks/official/workbench/spark पर जाएं. spark_ml.ipynb नोटबुक को खोलने के लिए, उस पर दो बार क्लिक करें. जब आपसे कर्नल चुनने के लिए कहा जाए, तब Python (local) चुनें.

नोटबुक के हर चरण को पूरा करें. इसके लिए, हर सेल को एक्ज़ीक्यूट करें. साथ ही, सेल में दिए गए निर्देशों का पालन करें.

5. संसाधन हटाना

इस कोडलैब को पूरा करने के बाद, अपने GCP खाते पर बेवजह शुल्क लगने से बचने के लिए:

  1. अपने Workbench इंस्टेंस को मिटाएं. कंसोल में जाकर, अपने इंस्टेंस के बगल में मौजूद बॉक्स को चुनें. इसके बाद, मिटाएं पर क्लिक करें.

अगर आपने यह प्रोजेक्ट सिर्फ़ इस कोडलैब के लिए बनाया है, तो आपके पास इसे मिटाने का विकल्प भी है:

  1. GCP Console में, प्रोजेक्ट पेज पर जाएं.
  2. प्रोजेक्ट की सूची में, वह प्रोजेक्ट चुनें जिसे मिटाना है. इसके बाद, मिटाएं पर क्लिक करें.
  3. बॉक्स में प्रोजेक्ट आईडी टाइप करें. इसके बाद, प्रोजेक्ट मिटाने के लिए बंद करें पर क्लिक करें.