1. परिचय
Apache Spark के मुख्य कॉम्पोनेंट में से एक Spark ML है. यह मशीन लर्निंग मॉडल और पाइपलाइन बनाने के लिए एक लाइब्रेरी है. इसे Apache Spark इंजन के आधार पर बनाया गया है. वेबसाइट पर, इस तरह के टूल मौजूद होते हैं:
- मशीन लर्निंग एल्गोरिदम: सामान्य लर्निंग एल्गोरिदम, जैसे कि क्लासिफ़िकेशन, रिग्रेशन, क्लस्टरिंग, और कोलैबोरेटिव फ़िल्टरिंग
- फ़ीचर बनाना: फ़ीचर निकालना, बदलना, डाइमेंशन कम करना, और चुनना
- पाइपलाइन: एमएल पाइपलाइन बनाने, उनका आकलन करने, और उन्हें बेहतर बनाने के लिए टूल
- परसिस्टेंस: एल्गोरिदम, मॉडल, और पाइपलाइन सेव करना और लोड करना
- उपयोगिताएं: लीनियर अलजेब्रा, आंकड़े, डेटा हैंडलिंग वगैरह.
इस कोडलैब में, नोटबुक का इस्तेमाल करके Spark ML मॉडल बनाने का तरीका बताया गया है.
2. एपीआई चालू करें
इस कोडलैब के लिए, आपको इन एपीआई को चालू करना होगा:
अपने प्रोजेक्ट में इन एपीआई को चालू करने के लिए, इस लिंक पर क्लिक करें. जब कहा जाए, तब पुष्टि करें कि एपीआई सही प्रोजेक्ट में चालू किए जाएंगे.
3. Gemini Enterprise Agent Engine Workbench इंस्टेंस बनाना और उससे कनेक्ट करना
इस सेक्शन में, आपको Gemini Enterprise के एजेंट इंजन वर्कबेंच का एक इंस्टेंस बनाना होगा. इसके बाद, आपको इससे कनेक्ट करना होगा. साथ ही, GitHub रिपॉज़िटरी को क्लोन करके नोटबुक को चलाना होगा.
Gemini Enterprise Agent Engine Workbench का इंस्टेंस बनाने के लिए, निर्देशों का पालन करें या यहां दिया गया तरीका अपनाएं.
- मैनेज किए जा रहे नोटबुक कंसोल पेज पर जाएं.
- नई नोटबुक पर क्लिक करें.
- कोई नाम डालें और क्षेत्र चुनें. जैसे, us-central1 (आयोवा). यह उस क्षेत्र से मेल खाना चाहिए जिसे आपने कोडलैब में पहले चुना था. हालांकि, ऐसा करना ज़रूरी नहीं है.
- अनुमति में जाकर, सिर्फ़ एक उपयोगकर्ता के लिए चुनें.
- ऐडवांस सेटिंग ड्रॉपडाउन खोलें.
- सुरक्षा में जाकर, nbconvert चालू करें और टर्मिनल चालू करें को चुनें.
- बनाएं पर क्लिक करें.
इंस्टेंस को चालू होने में करीब पांच मिनट लगेंगे. जब इंस्टेंस तैयार हो जाएगा, तब आपको नोटबुक के नाम के बगल में हरे रंग का सही का निशान दिखेगा.
जब इंस्टेंस तैयार हो जाए, तो JupyterLab खोलें पर क्लिक करें. जब पुष्टि करने के लिए कहा जाए, तब पुष्टि करें और सभी अनुमतियां चालू करें.
4. नोटबुक से Spark ML की मदद से मॉडल बनाना
JupyterLab इंस्टेंस लोड होने के बाद, आपको लॉन्चर टैब दिखेगा. इस टैब में, अन्य में जाकर, टर्मिनल पर क्लिक करें. इससे एक नया टर्मिनल खुल जाएगा.
टर्मिनल में, Gemini Enterprise Agent Engine Samples रिपॉज़िटरी को क्लोन करें.
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
फ़ाइल ब्राउज़र टैब में, vertex-ai-samples/notebooks/official/workbench/spark पर जाएं. spark_ml.ipynb नोटबुक को खोलने के लिए, उस पर दो बार क्लिक करें. जब आपसे कर्नल चुनने के लिए कहा जाए, तब Python (local) चुनें.
नोटबुक के हर चरण को पूरा करें. इसके लिए, हर सेल को एक-एक करके एक्ज़ीक्यूट करें. साथ ही, सेल में दिए गए निर्देशों का पालन करें.
5. संसाधन मिटाना
इस कोडलैब को पूरा करने के बाद, अपने GCP खाते पर बेवजह शुल्क लगने से बचने के लिए:
- अपने Workbench इंस्टेंस को मिटाएं. कंसोल में जाकर, अपने इंस्टेंस के बगल में मौजूद बॉक्स को चुनें. इसके बाद, मिटाएं पर क्लिक करें.
अगर आपने यह प्रोजेक्ट सिर्फ़ इस कोडलैब के लिए बनाया है, तो आपके पास इसे मिटाने का विकल्प भी है:
- GCP Console में, प्रोजेक्ट पेज पर जाएं.
- प्रोजेक्ट की सूची में, वह प्रोजेक्ट चुनें जिसे आपको मिटाना है. इसके बाद, मिटाएं पर क्लिक करें.
- बॉक्स में प्रोजेक्ट आईडी टाइप करें. इसके बाद, प्रोजेक्ट मिटाने के लिए बंद करें पर क्लिक करें.