ক্লাউড ডেটাপ্রোকে অ্যাপাচি স্পার্ক এবং জুপিটার নোটবুক

1. ওভারভিউ

এই ল্যাবটি ক্লাউড ডেটাপ্রোকে অ্যাপাচি স্পার্ক এবং জুপিটার নোটবুকগুলি কীভাবে সেট-আপ এবং ব্যবহার করতে হয় তা কভার করবে।

জুপিটার নোটবুকগুলি অনুসন্ধানমূলক ডেটা বিশ্লেষণ এবং মেশিন লার্নিং মডেল তৈরির জন্য ব্যাপকভাবে ব্যবহৃত হয় কারণ তারা আপনাকে ইন্টারেক্টিভভাবে আপনার কোড চালাতে এবং অবিলম্বে আপনার ফলাফল দেখতে দেয়।

তবে অ্যাপাচি স্পার্ক এবং জুপিটার নোটবুক সেট আপ এবং ব্যবহার করা জটিল হতে পারে।

b9ed855863c57d6.png

ক্লাউড ডেটাপ্রোক আপনাকে প্রায় 90 সেকেন্ডের মধ্যে Apache Spark, Jupyter কম্পোনেন্ট এবং কম্পোনেন্ট গেটওয়ে সহ একটি Dataproc ক্লাস্টার তৈরি করার অনুমতি দিয়ে এটিকে দ্রুত এবং সহজ করে তোলে।

আপনি কি শিখবেন

এই কোডল্যাবে, আপনি কীভাবে করবেন তা শিখবেন:

  • আপনার ক্লাস্টারের জন্য একটি Google ক্লাউড স্টোরেজ বাকেট তৈরি করুন৷
  • জুপিটার এবং কম্পোনেন্ট গেটওয়ে সহ একটি ডেটাপ্রোক ক্লাস্টার তৈরি করুন,
  • Dataproc এ JupyterLab ওয়েব UI অ্যাক্সেস করুন
  • স্পার্ক BigQuery স্টোরেজ সংযোগকারী ব্যবহার করে একটি নোটবুক তৈরি করুন
  • একটি স্পার্ক কাজ চালানো এবং ফলাফল প্লট করা।

Google ক্লাউডে এই ল্যাবটি চালানোর জন্য মোট খরচ প্রায় $1। ক্লাউড ডেটাপ্রোক মূল্যের সম্পূর্ণ বিবরণ এখানে পাওয়া যাবে।

2. একটি প্রকল্প তৈরি করা

console.cloud.google.com- এ Google ক্লাউড প্ল্যাটফর্ম কনসোলে সাইন-ইন করুন এবং একটি নতুন প্রকল্প তৈরি করুন:

7e541d932b20c074.png

2deefc9295d114ea.png

a92a49afe05008a.png

এর পরে, Google ক্লাউড সংস্থানগুলি ব্যবহার করার জন্য আপনাকে ক্লাউড কনসোলে বিলিং সক্ষম করতে হবে৷

এই কোডল্যাবের মাধ্যমে চালানোর জন্য আপনার কয়েক ডলারের বেশি খরচ করা উচিত নয়, তবে আপনি যদি আরও সংস্থান ব্যবহার করার সিদ্ধান্ত নেন বা আপনি যদি সেগুলি চলমান রেখে দেন তবে এটি আরও বেশি হতে পারে। এই কোডল্যাবের শেষ বিভাগটি আপনাকে আপনার প্রকল্প পরিষ্কার করার মাধ্যমে নিয়ে যাবে।

Google ক্লাউড প্ল্যাটফর্মের নতুন ব্যবহারকারীরা $300 বিনামূল্যের ট্রায়ালের জন্য যোগ্য৷

3. আপনার পরিবেশ সেট আপ করা

প্রথমে, ক্লাউড কনসোলের উপরের ডানদিকের কোণায় বোতামটি ক্লিক করে ক্লাউড শেল খুলুন:

a10c47ee6ca41c54.png

ক্লাউড শেল লোড হওয়ার পরে, পূর্ববর্তী ধাপ থেকে প্রজেক্ট আইডি সেট করতে নিম্নলিখিত কমান্ডটি চালান**:**

gcloud config set project <project_id>

ক্লাউড কনসোলের উপরের বাম দিকে আপনার প্রোজেক্টে ক্লিক করেও প্রজেক্ট আইডি পাওয়া যাবে:

b4b233632ce0c3c4.png

c7e39ffc6dec3765.png

এরপরে, Dataproc, Compute Engine এবং BigQuery স্টোরেজ এপিআই সক্ষম করুন।

gcloud services enable dataproc.googleapis.com \
  compute.googleapis.com \
  storage-component.googleapis.com \
  bigquery.googleapis.com \
  bigquerystorage.googleapis.com

বিকল্পভাবে এটি ক্লাউড কনসোলে করা যেতে পারে। স্ক্রিনের উপরের বাম দিকে মেনু আইকনে ক্লিক করুন।

2bfc27ef9ba2ec7d.png

ড্রপ ডাউন থেকে API ম্যানেজার নির্বাচন করুন।

408af5f32c4b7c25.png

Enable APIs এবং Services- এ ক্লিক করুন।

a9c0e84296a7ba5b.png

নিম্নলিখিত APIগুলির জন্য অনুসন্ধান করুন এবং সক্ষম করুন:

  • কম্পিউট ইঞ্জিন API
  • Dataproc API
  • BigQuery API
  • BigQuery স্টোরেজ API

4. একটি GCS বালতি তৈরি করুন৷

আপনার ডেটার সবচেয়ে কাছের অঞ্চলে একটি Google ক্লাউড স্টোরেজ বাকেট তৈরি করুন এবং এটিকে একটি অনন্য নাম দিন৷

এটি Dataproc ক্লাস্টারের জন্য ব্যবহার করা হবে।

REGION=us-central1
BUCKET_NAME=<your-bucket-name>

gsutil mb -c standard -l ${REGION} gs://${BUCKET_NAME}

আপনি নিম্নলিখিত আউটপুট দেখতে হবে

Creating gs://<your-bucket-name>/...

5. জুপিটার এবং কম্পোনেন্ট গেটওয়ে দিয়ে আপনার ডেটাপ্রোক ক্লাস্টার তৈরি করুন

আপনার ক্লাস্টার তৈরি করা হচ্ছে

আপনার ক্লাস্টারের জন্য env ভেরিয়েবল সেট করুন

REGION=us-central1
ZONE=us-central1-a
CLUSTER_NAME=spark-jupyter
BUCKET_NAME=<your-bucket-name>

তারপর আপনার ক্লাস্টারে জুপিটারের সাথে কাজ করার জন্য প্রয়োজনীয় সমস্ত উপাদান সহ আপনার ক্লাস্টার তৈরি করতে এই gcloud কমান্ডটি চালান।

gcloud beta dataproc clusters create ${CLUSTER_NAME} \
 --region=${REGION} \
 --image-version=1.4 \
 --master-machine-type=n1-standard-4 \
 --worker-machine-type=n1-standard-4 \
 --bucket=${BUCKET_NAME} \
 --optional-components=ANACONDA,JUPYTER \
 --enable-component-gateway 

আপনার ক্লাস্টার তৈরি করার সময় আপনাকে নিম্নলিখিত আউটপুটটি দেখতে হবে

Waiting on operation [projects/spark-jupyter/regions/us-central1/operations/abcd123456].
Waiting for cluster creation operation...

আপনার ক্লাস্টার তৈরি করতে প্রায় 90 সেকেন্ড সময় লাগবে এবং এটি প্রস্তুত হয়ে গেলে আপনি Dataproc Cloud কনসোল UI থেকে আপনার ক্লাস্টার অ্যাক্সেস করতে সক্ষম হবেন৷

যখন আপনি অপেক্ষা করছেন তখন আপনি gcloud কমান্ডে ব্যবহৃত পতাকা সম্পর্কে আরও জানতে নীচে পড়া চালিয়ে যেতে পারেন।

ক্লাস্টার তৈরি হয়ে গেলে আপনার নিম্নলিখিত আউটপুট করা উচিত:

Created [https://dataproc.googleapis.com/v1beta2/projects/project-id/regions/us-central1/clusters/spark-jupyter] Cluster placed in zone [us-central1-a].

gcloud dataproc-এ ব্যবহৃত পতাকা কমান্ড তৈরি করে

এখানে gcloud dataproc create কমান্ডে ব্যবহৃত পতাকাগুলির একটি ভাঙ্গন রয়েছে

--region=${REGION}

যেখানে ক্লাস্টার তৈরি করা হবে তার অঞ্চল এবং অঞ্চল নির্দিষ্ট করে৷ আপনি এখানে উপলব্ধ অঞ্চলের তালিকা দেখতে পারেন।

--image-version=1.4

আপনার ক্লাস্টারে ব্যবহার করার জন্য ছবির সংস্করণ। আপনি এখানে উপলব্ধ সংস্করণগুলির তালিকা দেখতে পারেন।

--bucket=${BUCKET_NAME}

ক্লাস্টারের জন্য ব্যবহার করার জন্য আপনি আগে তৈরি করা Google ক্লাউড স্টোরেজ বাকেটটি নির্দিষ্ট করুন৷ আপনি যদি একটি GCS বালতি সরবরাহ না করেন তবে এটি আপনার জন্য তৈরি করা হবে।

GCS বাকেট মুছে না যাওয়ায় আপনি আপনার ক্লাস্টার মুছে দিলেও আপনার নোটবুকগুলি এখানেই সংরক্ষিত হবে৷

--master-machine-type=n1-standard-4
--worker-machine-type=n1-standard-4

আপনার Dataproc ক্লাস্টারের জন্য ব্যবহার করার জন্য মেশিনের ধরন। আপনি এখানে উপলব্ধ মেশিন প্রকারের একটি তালিকা দেখতে পারেন।

ডিফল্টরূপে, 1টি মাস্টার নোড এবং 2টি কর্মী নোড তৈরি করা হয় যদি আপনি পতাকা -সংখ্যা-কর্মী সেট না করেন

--optional-components=ANACONDA,JUPYTER

ঐচ্ছিক উপাদানগুলির জন্য এই মানগুলি সেট করা আপনার ক্লাস্টারে Jupyter এবং Anaconda (যা Jupyter নোটবুকের জন্য প্রয়োজনীয়) এর জন্য সমস্ত প্রয়োজনীয় লাইব্রেরি ইনস্টল করবে।

--enable-component-gateway

কম্পোনেন্ট গেটওয়ে সক্ষম করা Apache Knox এবং Inverting Proxy ব্যবহার করে একটি অ্যাপ ইঞ্জিন লিঙ্ক তৈরি করে যা Jupyter এবং JupyterLab ওয়েব ইন্টারফেসে সহজ, নিরাপদ এবং প্রমাণীকৃত অ্যাক্সেস দেয় যার অর্থ আপনাকে আর SSH টানেল তৈরি করতে হবে না।

এটি ইয়ার্ন রিসোর্স ম্যানেজার এবং স্পার্ক হিস্ট্রি সার্ভার সহ ক্লাস্টারে অন্যান্য সরঞ্জামগুলির জন্য লিঙ্ক তৈরি করবে যা আপনার কাজের পারফরম্যান্স এবং ক্লাস্টার ব্যবহারের ধরণগুলি দেখার জন্য দরকারী।

6. একটি Apache Spark নোটবুক তৈরি করুন

JupyterLab ওয়েব ইন্টারফেস অ্যাক্সেস করা

ক্লাস্টার প্রস্তুত হয়ে গেলে আপনি Dataproc Clusters - Cloud console- এ গিয়ে, আপনার তৈরি করা ক্লাস্টারে ক্লিক করে এবং ওয়েব ইন্টারফেস ট্যাবে গিয়ে JupyterLab ওয়েব ইন্টারফেসের কম্পোনেন্ট গেটওয়ে লিঙ্কটি খুঁজে পেতে পারেন।

afc40202d555de47.png

আপনি লক্ষ্য করবেন যে আপনার কাছে জুপিটার অ্যাক্সেস রয়েছে যা ক্লাসিক নোটবুক ইন্টারফেস বা জুপিটারল্যাব যা প্রজেক্ট জুপিটারের পরবর্তী প্রজন্মের UI হিসাবে বর্ণনা করা হয়েছে।

JupyterLab-এ অনেকগুলি দুর্দান্ত নতুন UI বৈশিষ্ট্য রয়েছে এবং তাই আপনি যদি নোটবুকগুলি ব্যবহার করার জন্য নতুন হন বা সাম্প্রতিক উন্নতিগুলি খুঁজছেন তবে JupyterLab ব্যবহার করার পরামর্শ দেওয়া হচ্ছে কারণ এটি অবশেষে অফিসিয়াল ডক্স অনুসারে ক্লাসিক জুপিটার ইন্টারফেসকে প্রতিস্থাপন করবে।

পাইথন 3 কার্নেল দিয়ে একটি নোটবুক তৈরি করুন

a463623f2ebf0518.png

Python 3 কার্নেল (PySpark কার্নেল নয়) দিয়ে একটি নোটবুক তৈরি করতে লঞ্চার ট্যাব থেকে পাইথন 3 নোটবুক আইকনে ক্লিক করুন যা আপনাকে নোটবুকে স্পার্কসেশন কনফিগার করতে এবং BigQuery স্টোরেজ ব্যবহার করার জন্য প্রয়োজনীয় স্পার্ক-বিগকুয়েরি-সংযোগকারী অন্তর্ভুক্ত করতে দেয়। এপিআই

নোটবুকের নাম পরিবর্তন করুন

196a3276ed07e1f3.png

বাম দিকে বা উপরের নেভিগেশনের সাইডবারে নোটবুকের নামের উপর রাইট ক্লিক করুন এবং নোটবুকের নাম পরিবর্তন করে "BigQuery Storage & Spark DataFrames.ipynb" রাখুন।

নোটবুকে আপনার স্পার্ক কোড চালান

fbac38062e5bb9cf.png

এই নোটবুকে, আপনি spark-bigquery-connector ব্যবহার করবেন যা BigQuery এবং Spark এর মধ্যে BigQuery স্টোরেজ API ব্যবহার করে ডেটা পড়া এবং লেখার একটি টুল।

BigQuery স্টোরেজ API একটি RPC-ভিত্তিক প্রোটোকল ব্যবহার করে BigQuery-এ ডেটা অ্যাক্সেস করার ক্ষেত্রে উল্লেখযোগ্য উন্নতি নিয়ে আসে। এটি সমান্তরালভাবে ডেটা পড়া এবং লেখার পাশাপাশি বিভিন্ন সিরিয়ালাইজেশন ফরম্যাট যেমন Apache Avro এবং Apache Arrow সমর্থন করে। উচ্চ-স্তরে, এটি উল্লেখযোগ্যভাবে উন্নত কর্মক্ষমতা, বিশেষ করে বড় ডেটা সেটগুলিতে অনুবাদ করে।

প্রথম কক্ষে আপনার ক্লাস্টারের স্কালা সংস্করণটি পরীক্ষা করুন যাতে আপনি স্পার্ক-বিগকুয়েরি-সংযোজক জারটির সঠিক সংস্করণ অন্তর্ভুক্ত করতে পারেন।

ইনপুট [1]:

!scala -version

আউটপুট [1]: f580e442576b8b1f.png একটি স্পার্ক সেশন তৈরি করুন এবং spark-bigquery-connector প্যাকেজ অন্তর্ভুক্ত করুন।

আপনার স্কালা সংস্করণ 2.11 হলে নিম্নলিখিত প্যাকেজটি ব্যবহার করুন।

com.google.cloud.spark:spark-bigquery-with-dependencies_2.11:0.15.1-beta

আপনার স্কালা সংস্করণ 2.12 হলে নিম্নলিখিত প্যাকেজটি ব্যবহার করুন।

com.google.cloud.spark:spark-bigquery-with-dependencies_2.12:0.15.1-beta

ইনপুট [2]:

from pyspark.sql import SparkSession
spark = SparkSession.builder \
 .appName('BigQuery Storage & Spark DataFrames') \
 .config('spark.jars.packages', 'com.google.cloud.spark:spark-bigquery-with-dependencies_2.11:0.15.1-beta') \
 .getOrCreate()

repl.eagerEval সক্ষম করুন

এটি df.show() দেখানোর নতুন প্রয়োজন ছাড়াই প্রতিটি ধাপে DataFrames-এর ফলাফল আউটপুট করবে এবং আউটপুটের ফর্ম্যাটিংও উন্নত করবে।

ইনপুট [৩]:

spark.conf.set("spark.sql.repl.eagerEval.enabled",True)

স্পার্ক ডেটাফ্রেমে BigQuery টেবিল পড়ুন

একটি পাবলিক BigQuery ডেটাসেট থেকে ডেটা পড়ে একটি স্পার্ক ডেটাফ্রেম তৈরি করুন৷ এটি স্পার্ক ক্লাস্টারে ডেটা লোড করতে স্পার্ক-বিগকুয়েরি-সংযোগকারী এবং বিগকুয়েরি স্টোরেজ API ব্যবহার করে।

একটি স্পার্ক ডেটাফ্রেম তৈরি করুন এবং Wikipedia পৃষ্ঠা দর্শনের জন্য BigQuery পাবলিক ডেটাসেট থেকে ডেটা লোড করুন। আপনি লক্ষ্য করবেন যে আপনি ডেটাতে একটি ক্যোয়ারী চালাচ্ছেন না কারণ আপনি স্পার্ক-বিগকুয়েরি-সংযোগকারী ব্যবহার করছেন স্পার্ক-এ ডেটা লোড করার জন্য যেখানে ডেটা প্রক্রিয়াকরণ ঘটবে। যখন এই কোডটি চালানো হয় তখন এটি আসলে টেবিলটি লোড করবে না কারণ এটি স্পার্কের একটি অলস মূল্যায়ন এবং পরবর্তী ধাপে কার্যকর করা হবে।

ইনপুট [৪]:

table = "bigquery-public-data.wikipedia.pageviews_2020"

df_wiki_pageviews = spark.read \
  .format("bigquery") \
  .option("table", table) \
  .option("filter", "datehour >= '2020-03-01' AND datehour < '2020-03-02'") \
  .load()

df_wiki_pageviews.printSchema()

আউটপুট [৪]:

c107a33f6fc30ca.png

প্রয়োজনীয় কলামগুলি নির্বাচন করুন এবং where() ব্যবহার করে একটি ফিল্টার প্রয়োগ করুন যা filter() এর একটি উপনাম।

এই কোডটি চালানো হলে এটি একটি স্পার্ক অ্যাকশন ট্রিগার করে এবং এই সময়ে BigQuery স্টোরেজ থেকে ডেটা পড়া হয়।

ইনপুট [৫]:

df_wiki_en = df_wiki_pageviews \
  .select("datehour", "wiki", "views") \
  .where("views > 1000 AND wiki in ('en', 'en.m')") \

df_wiki_en

আউটপুট [৫]:

ad363cbe510d625a.png

শীর্ষ পৃষ্ঠাগুলি দেখতে পৃষ্ঠার ভিউ অনুসারে শিরোনাম এবং ক্রম অনুসারে গ্রুপ করুন

ইনপুট [6]:

import pyspark.sql.functions as F

df_datehour_totals = df_wiki_en \
  .groupBy("datehour") \
  .agg(F.sum('views').alias('total_views'))

df_datehour_totals.orderBy('total_views', ascending=False)

আউটপুট [6]: f718abd05afc0f4.png

7. নোটবুকে পাইথন প্লটিং লাইব্রেরি ব্যবহার করুন

আপনি আপনার স্পার্ক কাজের আউটপুট প্লট করতে পাইথনে উপলব্ধ বিভিন্ন প্লটিং লাইব্রেরি ব্যবহার করতে পারেন।

স্পার্ক ডেটাফ্রেমকে পান্ডাস ডেটাফ্রেমে রূপান্তর করুন

স্পার্ক ডেটাফ্রেমকে পান্ডাস ডেটাফ্রেমে রূপান্তর করুন এবং তারিখের সময়কে সূচক হিসাবে সেট করুন। আপনি যদি পাইথনে সরাসরি ডেটা নিয়ে কাজ করতে চান এবং অনেকগুলি উপলব্ধ পাইথন প্লটিং লাইব্রেরি ব্যবহার করে ডেটা প্লট করতে চান তবে এটি কার্যকর।

ইনপুট [7]:

spark.conf.set("spark.sql.execution.arrow.enabled", "true")
pandas_datehour_totals = df_datehour_totals.toPandas()

pandas_datehour_totals.set_index('datehour', inplace=True)
pandas_datehour_totals.head()

আউটপুট [7]:

3df2aaa2351f028d.png

পান্ডাস ডেটাফ্রেম প্লট করা

ম্যাটপ্লটলিব লাইব্রেরি আমদানি করুন যা নোটবুকে প্লট প্রদর্শনের জন্য প্রয়োজন

ইনপুট [8]:

import matplotlib.pyplot as plt

পান্ডাস ডেটাফ্রেম থেকে একটি লাইন চার্ট তৈরি করতে পান্ডাস প্লট ফাংশন ব্যবহার করুন।

ইনপুট [9]:

pandas_datehour_totals.plot(kind='line',figsize=(12,6));

আউটপুট [9]: bade7042c3033594.png

নোটবুকটি জিসিএস-এ সংরক্ষিত হয়েছে তা পরীক্ষা করুন

আপনার এখন আপনার প্রথম জুপিটার নোটবুক আপ এবং আপনার ডেটাপ্রোক ক্লাস্টারে চালু থাকা উচিত। আপনার নোটবুকের একটি নাম দিন এবং এটি ক্লাস্টার তৈরি করার সময় ব্যবহৃত GCS বালতিতে স্বয়ংক্রিয়ভাবে সংরক্ষিত হবে।

আপনি ক্লাউড শেলে এই gsutil কমান্ড ব্যবহার করে এটি পরীক্ষা করতে পারেন

BUCKET_NAME=<your-bucket-name>
gsutil ls gs://${BUCKET_NAME}/notebooks/jupyter

আপনি নিম্নলিখিত আউটপুট দেখতে হবে

gs://bucket-name/notebooks/jupyter/
gs://bucket-name/notebooks/jupyter/BigQuery Storage & Spark DataFrames.ipynb

8. অপ্টিমাইজেশান টিপ - মেমরিতে ক্যাশে ডেটা

এমন পরিস্থিতিতে হতে পারে যেখানে আপনি প্রতিবার BigQuery স্টোরেজ থেকে পড়ার পরিবর্তে মেমরিতে ডেটা চান।

এই কাজটি BigQuery থেকে ডেটা পড়বে এবং ফিল্টারটিকে BigQuery-এ পুশ করবে। তারপর Apache Spark এ সমষ্টি গণনা করা হবে।

import pyspark.sql.functions as F

table = "bigquery-public-data.wikipedia.pageviews_2020"

df_wiki_pageviews = spark.read \
 .format("bigquery") \
 .option("table", table) \
 .option("filter", "datehour >= '2020-03-01' AND datehour < '2020-03-02'") \
 .load()

df_wiki_en = df_wiki_pageviews \
 .select("title", "wiki", "views") \
 .where("views > 10 AND wiki in ('en', 'en.m')")

df_wiki_en_totals = df_wiki_en \
.groupBy("title") \
.agg(F.sum('views').alias('total_views'))

df_wiki_en_totals.orderBy('total_views', ascending=False)

আপনি টেবিলের একটি ক্যাশে অন্তর্ভুক্ত করতে উপরের কাজটি পরিবর্তন করতে পারেন এবং এখন উইকি কলামের ফিল্টারটি অ্যাপাচি স্পার্ক দ্বারা মেমরিতে প্রয়োগ করা হবে।

import pyspark.sql.functions as F

table = "bigquery-public-data.wikipedia.pageviews_2020"

df_wiki_pageviews = spark.read \
 .format("bigquery") \
 .option("table", table) \
 .option("filter", "datehour >= '2020-03-01' AND datehour < '2020-03-02'") \
 .load()

df_wiki_all = df_wiki_pageviews \
 .select("title", "wiki", "views") \
 .where("views > 10")

# cache the data in memory
df_wiki_all.cache()

df_wiki_en = df_wiki_all \
 .where("wiki in ('en', 'en.m')")

df_wiki_en_totals = df_wiki_en \
.groupBy("title") \
.agg(F.sum('views').alias('total_views'))

df_wiki_en_totals.orderBy('total_views', ascending=False)

তারপরে আপনি BigQuery স্টোরেজ থেকে আবার ডেটা পড়ার পরিবর্তে ক্যাশে করা ডেটা ব্যবহার করে অন্য উইকি ভাষার জন্য ফিল্টার করতে পারেন এবং তাই অনেক দ্রুত চলবে।

df_wiki_de = df_wiki_all \
 .where("wiki in ('de', 'de.m')")

df_wiki_de_totals = df_wiki_de \
.groupBy("title") \
.agg(F.sum('views').alias('total_views'))

df_wiki_de_totals.orderBy('total_views', ascending=False)

আপনি রান করে ক্যাশে অপসারণ করতে পারেন

df_wiki_all.unpersist()

9. আরও ব্যবহারের ক্ষেত্রে নোটবুকের উদাহরণ

ক্লাউড ডেটাপ্রোক গিটহাব রেপোতে ডেটা লোড করা, ডেটা সংরক্ষণ করা এবং বিভিন্ন Google ক্লাউড প্ল্যাটফর্ম পণ্য এবং ওপেন-সোর্স সরঞ্জামগুলির সাথে আপনার ডেটা প্লট করার জন্য সাধারণ Apache স্পার্ক প্যাটার্ন সহ জুপিটার নোটবুক রয়েছে:

10. পরিষ্কার করুন

এই কুইকস্টার্টটি সম্পূর্ণ করার পরে আপনার GCP অ্যাকাউন্টে অপ্রয়োজনীয় চার্জ এড়াতে:

  1. আপনার তৈরি করা পরিবেশের জন্য ক্লাউড স্টোরেজ বালতি মুছুন
  2. Dataproc পরিবেশ মুছুন

আপনি যদি এই কোডল্যাবের জন্য একটি প্রকল্প তৈরি করেন তবে আপনি ঐচ্ছিকভাবে প্রকল্পটি মুছে ফেলতে পারেন:

  1. GCP কনসোলে, প্রকল্প পৃষ্ঠায় যান।
  2. প্রকল্প তালিকায়, আপনি যে প্রকল্পটি মুছতে চান সেটি নির্বাচন করুন এবং মুছুন ক্লিক করুন।
  3. বাক্সে, প্রজেক্ট আইডি টাইপ করুন এবং তারপরে প্রজেক্ট মুছে ফেলতে শাট ডাউন ক্লিক করুন।

লাইসেন্স

এই কাজটি ক্রিয়েটিভ কমন্স অ্যাট্রিবিউশন 3.0 জেনেরিক লাইসেন্স এবং Apache 2.0 লাইসেন্সের অধীনে লাইসেন্সপ্রাপ্ত।