1. ওভারভিউ - Google Dataproc
Dataproc হল Apache Spark, Apache Flink, Presto, এবং অন্যান্য অনেক ওপেন সোর্স টুলস এবং ফ্রেমওয়ার্ক চালানোর জন্য একটি সম্পূর্ণরূপে পরিচালিত এবং অত্যন্ত পরিমাপযোগ্য পরিষেবা। ডেটা লেক আধুনিকীকরণ, ETL/ELT, এবং গ্রহের স্কেলে নিরাপদ ডেটা বিজ্ঞানের জন্য Dataproc ব্যবহার করুন। Dataproc এছাড়াও BigQuery , ক্লাউড স্টোরেজ , Vertex AI , এবং Dataplex সহ বেশ কয়েকটি Google ক্লাউড পরিষেবার সাথে সম্পূর্ণরূপে একত্রিত।
Dataproc তিনটি স্বাদে পাওয়া যায়:
- ডেটাপ্রোক সার্ভারলেস আপনাকে অবকাঠামো এবং অটোস্কেলিং কনফিগার করার প্রয়োজন ছাড়াই PySpark কাজগুলি চালানোর অনুমতি দেয়। Dataproc সার্ভারলেস PySpark ব্যাচের কাজের চাপ এবং সেশন/নোটবুক সমর্থন করে।
- গুগল কম্পিউট ইঞ্জিনে ডেটাপ্রোক আপনাকে ফ্লিঙ্ক এবং প্রেস্টোর মতো ওপেন সোর্স টুল ছাড়াও ইয়ার্ন-ভিত্তিক স্পার্ক ওয়ার্কলোডের জন্য একটি হ্যাডুপ ইয়ার্ন ক্লাস্টার পরিচালনা করতে দেয়। আপনি আপনার ক্লাউড-ভিত্তিক ক্লাস্টারগুলিকে অটোস্কেলিং সহ যতটা চান উল্লম্ব বা অনুভূমিক স্কেলিং দিয়ে তৈরি করতে পারেন।
- Google Kubernetes Engine-এ Dataproc আপনাকে Spark, PySpark, SparkR বা Spark SQL জব জমা দেওয়ার জন্য আপনার GKE পরিকাঠামোতে Dataproc ভার্চুয়াল ক্লাস্টার কনফিগার করতে দেয়।
এই কোডল্যাবে, আপনি বিভিন্ন উপায়ে শিখবেন যে আপনি ডেটাপ্রোক সার্ভারলেস ব্যবহার করতে পারেন।
Apache Spark মূলত Hadoop ক্লাস্টারে চালানোর জন্য তৈরি করা হয়েছিল এবং এর রিসোর্স ম্যানেজার হিসাবে YARN ব্যবহার করেছিল। Hadoop ক্লাস্টারগুলি বজায় রাখার জন্য একটি নির্দিষ্ট দক্ষতার প্রয়োজন এবং ক্লাস্টারগুলিতে বিভিন্ন নবগুলি সঠিকভাবে কনফিগার করা হয়েছে তা নিশ্চিত করা। এটি একটি পৃথক নব সেট ছাড়াও স্পার্কের জন্য ব্যবহারকারীকে সেট করতে হবে। এটি এমন অনেক পরিস্থিতির দিকে পরিচালিত করে যেখানে বিকাশকারীরা স্পার্ক কোডে কাজ করার পরিবর্তে তাদের পরিকাঠামো কনফিগার করতে বেশি সময় ব্যয় করছে।
Dataproc সার্ভারলেস হ্যাডোপ ক্লাস্টার বা স্পার্ক ম্যানুয়ালি কনফিগার করার প্রয়োজনীয়তা দূর করে। Dataproc সার্ভারলেস Hadoop এ চলে না এবং অটোস্কেলিং সহ তার সংস্থান প্রয়োজনীয়তা নির্ধারণ করতে নিজস্ব গতিশীল সম্পদ বরাদ্দ ব্যবহার করে। স্পার্ক বৈশিষ্ট্যগুলির একটি ছোট উপসেট এখনও ডেটাপ্রোক সার্ভারলেস এর সাথে কাস্টমাইজযোগ্য, তবে বেশিরভাগ ক্ষেত্রে আপনাকে এগুলিকে টুইক করতে হবে না।
2. সেট আপ করুন
আপনি এই কোডল্যাবে ব্যবহৃত আপনার পরিবেশ এবং সংস্থানগুলি কনফিগার করে শুরু করবেন।
একটি Google ক্লাউড প্রকল্প তৈরি করুন । আপনি একটি বিদ্যমান ব্যবহার করতে পারেন.
ক্লাউড কনসোল টুলবারে ক্লিক করে ক্লাউড শেল খুলুন।
ক্লাউড শেল একটি রেডি-টু-ব্যবহারযোগ্য শেল পরিবেশ প্রদান করে যা আপনি এই কোডল্যাবের জন্য ব্যবহার করতে পারেন।
ক্লাউড শেল ডিফল্টরূপে আপনার প্রকল্পের নাম সেট করবে। echo $GOOGLE_CLOUD_PROJECT
চালিয়ে দুবার চেক করুন। আপনি যদি আউটপুটে আপনার প্রকল্প আইডি দেখতে না পান তবে এটি সেট করুন।
export GOOGLE_CLOUD_PROJECT=<your-project-id>
আপনার সম্পদের জন্য একটি কম্পিউট ইঞ্জিন অঞ্চল সেট করুন, যেমন us-central1
বা europe-west2
।
export REGION=<your-region>
এপিআই সক্ষম করুন
কোডল্যাব নিম্নলিখিত API ব্যবহার করে:
- BigQuery
- ডেটাপ্রোক
প্রয়োজনীয় API সক্রিয় করুন। এটি প্রায় এক মিনিট সময় নেবে এবং সম্পূর্ণ হলে একটি সাফল্যের বার্তা প্রদর্শিত হবে৷
gcloud services enable bigquery.googleapis.com gcloud services enable dataproc.googleapis.com
নেটওয়ার্ক অ্যাক্সেস কনফিগার করুন
Dataproc সার্ভারলেস-এর জন্য Google প্রাইভেট অ্যাক্সেস সক্ষম করা প্রয়োজন যেখানে আপনি আপনার স্পার্ক কাজগুলি চালাবেন কারণ স্পার্ক ড্রাইভার এবং নির্বাহকদের শুধুমাত্র ব্যক্তিগত আইপি রয়েছে৷ default
সাবনেটে সক্রিয় করতে নিম্নলিখিতটি চালান।
gcloud compute networks subnets update default \ --region=${REGION} \ --enable-private-ip-google-access
আপনি যাচাই করতে পারেন যে Google প্রাইভেট অ্যাক্সেস নিম্নলিখিতটির মাধ্যমে সক্রিয় করা হয়েছে যা True
বা False
আউটপুট করবে।
gcloud compute networks subnets describe default \ --region=${REGION} \ --format="get(privateIpGoogleAccess)"
একটি স্টোরেজ বালতি তৈরি করুন
একটি স্টোরেজ বালতি তৈরি করুন যা এই কোডল্যাবে তৈরি সম্পদ সংরক্ষণ করতে ব্যবহার করা হবে।
আপনার বালতি জন্য একটি নাম চয়ন করুন. বালতির নাম সকল ব্যবহারকারীর জন্য বিশ্বব্যাপী অনন্য হতে হবে।
export BUCKET=<your-bucket-name>
আপনি আপনার স্পার্ক কাজগুলি চালাতে চান এমন অঞ্চলে বালতি তৈরি করুন।
gsutil mb -l ${REGION} gs://${BUCKET}
আপনি দেখতে পাচ্ছেন যে আপনার বালতিটি ক্লাউড স্টোরেজ কনসোলে উপলব্ধ। আপনি আপনার বালতি দেখতে gsutil ls
চালাতে পারেন।
একটি স্থায়ী ইতিহাস সার্ভার তৈরি করুন
স্পার্ক UI ডিবাগিং টুলের একটি সমৃদ্ধ সেট এবং স্পার্ক কাজের অন্তর্দৃষ্টি প্রদান করে। সম্পূর্ণ করা Dataproc সার্ভারলেস কাজের জন্য Spark UI দেখতে, আপনাকে একটি স্থায়ী ইতিহাস সার্ভার হিসাবে ব্যবহার করার জন্য একটি একক নোড Dataproc ক্লাস্টার তৈরি করতে হবে।
আপনার ক্রমাগত ইতিহাস সার্ভারের জন্য একটি নাম সেট করুন।
PHS_CLUSTER_NAME=my-phs
নিম্নলিখিত চালান.
gcloud dataproc clusters create ${PHS_CLUSTER_NAME} \ --region=${REGION} \ --single-node \ --enable-component-gateway \ --properties=spark:spark.history.fs.logDirectory=gs://${BUCKET}/phs/*/spark-job-history
স্পার্ক UI এবং ক্রমাগত ইতিহাস সার্ভার পরবর্তীতে কোডল্যাবে আরও বিস্তারিতভাবে অন্বেষণ করা হবে।
3. Dataproc ব্যাচের সাথে সার্ভারহীন স্পার্ক কাজ চালান
এই নমুনায়, আপনি New York City (NYC) Citi Bike Trips পাবলিক ডেটাসেট থেকে ডেটার একটি সেট নিয়ে কাজ করবেন। NYC সিটি বাইক হল NYC-এর মধ্যে একটি পেইড বাইক শেয়ারিং সিস্টেম৷ আপনি কিছু সাধারণ রূপান্তর করবেন এবং শীর্ষ দশটি সর্বাধিক জনপ্রিয় সিটি বাইক স্টেশন আইডি প্রিন্ট করবেন। এই নমুনাটি উল্লেখযোগ্যভাবে ওপেন সোর্স স্পার্ক-বিগকুয়েরি-কানেক্টর ব্যবহার করে স্পার্ক এবং বিগকুয়েরির মধ্যে নির্বিঘ্নে ডেটা পড়তে এবং লিখতে।
citibike.py
ফাইল ধারণকারী ডিরেক্টরিতে নিম্নলিখিত Github রেপো এবং cd
ক্লোন করুন।
git clone https://github.com/GoogleCloudPlatform/devrel-demos.git cd devrel-demos/data-analytics/next-2022-workshop/dataproc-serverless
citibike.py
import sys
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
from pyspark.sql.types import BooleanType
if len(sys.argv) == 1:
print("Please provide a GCS bucket name.")
bucket = sys.argv[1]
table = "bigquery-public-data:new_york_citibike.citibike_trips"
spark = SparkSession.builder \
.appName("pyspark-example") \
.config("spark.jars","gs://spark-lib/bigquery/spark-bigquery-with-dependencies_2.12-0.26.0.jar") \
.getOrCreate()
df = spark.read.format("bigquery").load(table)
top_ten = df.filter(col("start_station_id") \
.isNotNull()) \
.groupBy("start_station_id") \
.count() \
.orderBy("count", ascending=False) \
.limit(10) \
.cache()
top_ten.show()
top_ten.write.option("header", True).csv(f"gs://{bucket}/citibikes_top_ten_start_station_ids")
ডিফল্টরূপে ক্লাউড শেলে উপলব্ধ ক্লাউড SDK ব্যবহার করে সার্ভারলেস স্পার্ক-এ কাজটি জমা দিন। আপনার শেলে নিম্নলিখিত কমান্ডটি চালান যা সার্ভারলেস স্পার্ক জব জমা দিতে ক্লাউড SDK এবং Dataproc Batches API ব্যবহার করে।
gcloud dataproc batches submit pyspark citibike.py \ --batch=citibike-job \ --region=${REGION} \ --deps-bucket=gs://${BUCKET} \ --jars=gs://spark-lib/bigquery/spark-bigquery-with-dependencies_2.12-0.26.0.jar \ --history-server-cluster=projects/${GOOGLE_CLOUD_PROJECT}/regions/${REGION}/clusters/${PHS_CLUSTER_NAME} \ -- ${BUCKET}
এটি ভেঙে ফেলার জন্য:
-
gcloud dataproc batches submit
রেফারেন্স জমা Dataproc ব্যাচ API . -
pyspark
বোঝায় যে আপনি একটি PySpark কাজ জমা দিচ্ছেন। -
--batch
চাকরির নাম। যদি প্রদান না করা হয়, একটি এলোমেলো উৎপন্ন UUID ব্যবহার করা হবে। -
--region=${REGION}
হল ভৌগলিক অঞ্চল যেখানে কাজটি প্রক্রিয়া করা হবে৷ -
--deps-bucket=${BUCKET}
হল যেখানে সার্ভারহীন পরিবেশে চলার আগে আপনার স্থানীয় পাইথন ফাইল আপলোড করা হয়। -
--jars=gs://spark-lib/bigquery/spark-bigquery-with-dependencies_2.12-0.26.0.jar
স্পার্ক রানটাইম পরিবেশে spark-bigquery-connector- এর জন্য জার অন্তর্ভুক্ত করে। -
--history-server-cluster=projects/${GOOGLE_CLOUD_PROJECT}/regions/${REGION}/clusters/${PHS_CLUSTER}
হল স্থায়ী ইতিহাস সার্ভারের সম্পূর্ণ যোগ্য নাম। এখানেই স্পার্ক ইভেন্ট ডেটা (কনসোল আউটপুট থেকে আলাদা) সংরক্ষণ করা হয় এবং স্পার্ক UI থেকে দেখা যায়। - ট্রেলিং
--
বোঝায় যে এর বাইরে যে কোনো কিছু হবে প্রোগ্রামের জন্য রানটাইম আর্গস। এই ক্ষেত্রে, আপনি আপনার বালতির নাম জমা দিচ্ছেন, চাকরির প্রয়োজন অনুসারে।
ব্যাচ জমা দিলে আপনি নিম্নলিখিত আউটপুট দেখতে পাবেন।
Batch [citibike-job] submitted.
কয়েক মিনিট পর আপনি কাজ থেকে মেটাডেটা সহ নিম্নলিখিত আউটপুট দেখতে পাবেন।
+----------------+------+ |start_station_id| count| +----------------+------+ | 519|551078| | 497|423334| | 435|403795| | 426|384116| | 293|372255| | 402|367194| | 285|344546| | 490|330378| | 151|318700| | 477|311403| +----------------+------+ Batch [citibike-job] finished.
পরবর্তী বিভাগে, আপনি এই কাজের জন্য লগগুলি কীভাবে সনাক্ত করবেন তা শিখবেন।
অতিরিক্ত বৈশিষ্ট্য
স্পার্ক সার্ভারলেস সহ, আপনার কাজ চালানোর জন্য আপনার কাছে অতিরিক্ত বিকল্প রয়েছে।
- আপনি একটি কাস্টম ডকার ইমেজ তৈরি করতে পারেন যাতে আপনার কাজ চলে। এটি পাইথন এবং আর লাইব্রেরি সহ অতিরিক্ত নির্ভরতা অন্তর্ভুক্ত করার একটি দুর্দান্ত উপায়।
- Hive মেটাডেটা অ্যাক্সেস করতে আপনি আপনার কাজের সাথে একটি Dataproc Metastore উদাহরণ সংযোগ করতে পারেন।
- অতিরিক্ত নিয়ন্ত্রণের জন্য, Dataproc Serverless Spark বৈশিষ্ট্যের একটি ছোট সেটের কনফিগারেশন সমর্থন করে।
4. ডেটাপ্রোক মেট্রিক্স এবং পর্যবেক্ষণযোগ্যতা
Dataproc ব্যাচেস কনসোল আপনার সমস্ত Dataproc সার্ভারহীন কাজের তালিকা করে। কনসোলে, আপনি প্রতিটি কাজের ব্যাচ আইডি, অবস্থান, স্থিতি , তৈরির সময়, অতিবাহিত সময় এবং প্রকার দেখতে পাবেন। এটি সম্পর্কে আরও তথ্য দেখতে আপনার কাজের ব্যাচ আইডিতে ক্লিক করুন।
এই পৃষ্ঠায়, আপনি মনিটরিংয়ের মতো তথ্য দেখতে পাবেন যা দেখায় যে আপনার কাজটি সময়ের সাথে কতগুলি ব্যাচ স্পার্ক এক্সিকিউটর ব্যবহার করেছে (এটি কতটা অটোস্কেল হয়েছে তা নির্দেশ করে)।
বিশদ ট্যাবে আপনি কাজের সাথে জমা দেওয়া যেকোন আর্গুমেন্ট এবং প্যারামিটার সহ কাজের সম্পর্কে আরও মেটাডেটা দেখতে পাবেন।
আপনি এই পৃষ্ঠা থেকে সমস্ত লগ অ্যাক্সেস করতে পারেন। যখন Dataproc সার্ভারহীন কাজ চালানো হয়, লগের তিনটি ভিন্ন সেট তৈরি হয়:
- সেবা-স্তর
- কনসোল আউটপুট
- স্পার্ক ইভেন্ট লগিং
পরিষেবা-স্তর , লগ অন্তর্ভুক্ত করে যেগুলি Dataproc সার্ভারলেস পরিষেবা তৈরি করেছে৷ এর মধ্যে ডেটাপ্রোক সার্ভারলেস অটোস্কেলিংয়ের জন্য অতিরিক্ত সিপিইউ অনুরোধ করার মতো জিনিসগুলি অন্তর্ভুক্ত রয়েছে। আপনি View logs এ ক্লিক করে এগুলো দেখতে পারেন যা Cloud Logging খুলবে।
কনসোল আউটপুট আউটপুট অধীনে দেখা যাবে. এটি কাজের দ্বারা উত্পন্ন আউটপুট, যার মধ্যে মেটাডেটা সহ যেটি স্পার্ক একটি কাজ শুরু করার সময় প্রিন্ট করে বা চাকরিতে অন্তর্ভুক্ত করা যেকোনো প্রিন্ট স্টেটমেন্ট।
স্পার্ক ইভেন্ট লগিং স্পার্ক UI থেকে অ্যাক্সেসযোগ্য। যেহেতু আপনি একটি স্থায়ী ইতিহাস সার্ভারের সাথে আপনার স্পার্ক কাজ প্রদান করেছেন, আপনি স্পার্ক হিস্ট্রি সার্ভার দেখুন ক্লিক করে স্পার্ক UI অ্যাক্সেস করতে পারেন, যাতে আপনার পূর্বে চালানো স্পার্ক কাজের তথ্য রয়েছে৷ আপনি অফিসিয়াল স্পার্ক ডকুমেন্টেশন থেকে স্পার্ক UI সম্পর্কে আরও জানতে পারেন।
5. Dataproc টেমপ্লেট: BQ -> GCS
Dataproc টেমপ্লেট হল ওপেন সোর্স টুল যা ইন-ক্লাউড ডেটা প্রসেসিং কাজগুলিকে আরও সহজ করতে সাহায্য করে। এগুলি ডেটাপ্রোক সার্ভারলেস এর জন্য একটি মোড়ক হিসাবে কাজ করে এবং অনেকগুলি ডেটা আমদানি এবং রপ্তানি কাজের জন্য টেমপ্লেটগুলি অন্তর্ভুক্ত করে, যার মধ্যে রয়েছে:
-
BigQuerytoGCS
এবংGCStoBigQuery
-
GCStoBigTable
-
GCStoJDBC
এবংJDBCtoGCS
-
HivetoBigQuery
-
MongotoGCS
এবংGCStoMongo
সম্পূর্ণ তালিকা README-এ উপলব্ধ।
এই বিভাগে, আপনি BigQuery থেকে GCS-এ ডেটা এক্সপোর্ট করতে Dataproc টেমপ্লেট ব্যবহার করবেন।
রেপো ক্লোন করুন
রেপো ক্লোন করুন এবং python
ফোল্ডারে পরিবর্তন করুন।
git clone https://github.com/GoogleCloudPlatform/dataproc-templates.git cd dataproc-templates/python
পরিবেশ কনফিগার করুন
আপনি এখন পরিবেশ ভেরিয়েবল সেট করবেন। Dataproc টেমপ্লেট আপনার প্রকল্প আইডির জন্য পরিবেশ পরিবর্তনশীল GCP_PROJECT
ব্যবহার করে, তাই এটিকে GOOGLE_CLOUD_PROJECT.
export GCP_PROJECT=${GOOGLE_CLOUD_PROJECT}
আপনার অঞ্চলটি আগে থেকেই পরিবেশে সেট করা উচিত। যদি না হয়, এখানে সেট করুন.
export REGION=<region>
Dataproc টেমপ্লেটগুলি BigQuery কাজগুলি প্রক্রিয়া করার জন্য spark-bigquery-conector ব্যবহার করে এবং URI-কে একটি পরিবেশ পরিবর্তনশীল JARS
এ অন্তর্ভুক্ত করতে হবে। JARS
ভেরিয়েবল সেট করুন।
export JARS="gs://spark-lib/bigquery/spark-bigquery-with-dependencies_2.12-0.26.0.jar"
টেমপ্লেট পরামিতি কনফিগার করুন
পরিষেবাটি ব্যবহারের জন্য একটি স্টেজিং বাকেটের নাম সেট করুন৷
export GCS_STAGING_LOCATION=gs://${BUCKET}
এর পরে, আপনি কিছু কাজ-নির্দিষ্ট ভেরিয়েবল সেট করবেন। ইনপুট টেবিলের জন্য, আপনি আবার BigQuery NYC Citibike ডেটাসেট উল্লেখ করবেন।
BIGQUERY_GCS_INPUT_TABLE=bigquery-public-data.new_york_citibike.citibike_trips
আপনি csv
, parquet
, avro
বা json
যেকোনো একটি বেছে নিতে পারেন। এই কোডল্যাবের জন্য, CSV বেছে নিন - পরবর্তী বিভাগে ফাইলের ধরন রূপান্তর করতে Dataproc টেমপ্লেটগুলি কীভাবে ব্যবহার করবেন।
BIGQUERY_GCS_OUTPUT_FORMAT=csv
overwrite
করতে আউটপুট মোড সেট করুন। আপনি overwrite
, append
, ignore
বা errorifexists.
BIGQUERY_GCS_OUTPUT_MODE=overwrite
আপনার বালতিতে একটি পথ হিসাবে GCS আউটপুট অবস্থান সেট করুন।
BIGQUERY_GCS_OUTPUT_LOCATION=gs://${BUCKET}/BQtoGCS
টেমপ্লেট চালান
BIGQUERYTOGCS
টেমপ্লেটটি নিচে উল্লেখ করে এবং আপনার সেট করা ইনপুট প্যারামিটার প্রদান করে চালান।
./bin/start.sh \ -- --template=BIGQUERYTOGCS \ --bigquery.gcs.input.table=${BIGQUERY_GCS_INPUT_TABLE} \ --bigquery.gcs.output.format=${BIGQUERY_GCS_OUTPUT_FORMAT} \ --bigquery.gcs.output.mode=${BIGQUERY_GCS_OUTPUT_MODE} \ --bigquery.gcs.output.location=${BIGQUERY_GCS_OUTPUT_LOCATION}
আউটপুট মোটামুটি গোলমাল হবে কিন্তু প্রায় এক মিনিট পরে আপনি নিম্নলিখিত দেখতে পাবেন।
Batch [5766411d6c78444cb5e80f305308d8f8] submitted. ... Batch [5766411d6c78444cb5e80f305308d8f8] finished.
আপনি যাচাই করতে পারেন যে ফাইলগুলি নিম্নলিখিত চালানোর মাধ্যমে তৈরি করা হয়েছে।
gsutil ls ${BIGQUERY_GCS_OUTPUT_LOCATION}
ডিফল্টভাবে স্পার্ক ডেটার পরিমাণের উপর নির্ভর করে একাধিক ফাইলে লেখে। এই ক্ষেত্রে, আপনি প্রায় 30 টি জেনারেট করা ফাইল দেখতে পাবেন। স্পার্ক আউটপুট ফাইলের নামগুলি part
দিয়ে ফর্ম্যাট করা হয় - তারপরে একটি পাঁচ অঙ্কের সংখ্যা (অংশ সংখ্যা নির্দেশ করে) এবং একটি হ্যাশ স্ট্রিং। প্রচুর পরিমাণে ডেটার জন্য, স্পার্ক সাধারণত বিভিন্ন ফাইলে লিখবে। একটি উদাহরণ ফাইলের নাম হল part-00000-cbf69737-867d-41cc-8a33-6521a725f7a0-c000.csv
।
6. Dataproc টেমপ্লেট: CSV to parquet
আপনি এখন ডেটাপ্রোক টেমপ্লেট ব্যবহার করবেন GCS-এর ডেটা GCSTOGCS ব্যবহার করে এক ফাইল টাইপ থেকে অন্য ফাইলে রূপান্তর করতে। এই টেমপ্লেটটি SparkSQL ব্যবহার করে এবং অতিরিক্ত প্রক্রিয়াকরণের জন্য রূপান্তরের সময় প্রক্রিয়া করার জন্য একটি SparkSQL কোয়েরি জমা দেওয়ার বিকল্পও প্রদান করে।
পরিবেশ ভেরিয়েবল নিশ্চিত করুন
নিশ্চিত করুন যে GCP_PROJECT
, REGION
, এবং GCS_STAGING_BUCKET
পূর্ববর্তী বিভাগ থেকে সেট করা আছে৷
echo ${GCP_PROJECT} echo ${REGION} echo ${GCS_STAGING_LOCATION}
টেমপ্লেট পরামিতি সেট করুন
আপনি এখন GCStoGCS
এর জন্য কনফিগারেশন প্যারামিটার সেট করবেন। ইনপুট ফাইলের অবস্থান দিয়ে শুরু করুন। মনে রাখবেন যে এটি একটি ডিরেক্টরি এবং একটি নির্দিষ্ট ফাইল নয় কারণ ডিরেক্টরির সমস্ত ফাইল প্রক্রিয়া করা হবে। এটিকে BIGQUERY_GCS_OUTPUT_LOCATION
এ সেট করুন।
GCS_TO_GCS_INPUT_LOCATION=${BIGQUERY_GCS_OUTPUT_LOCATION}
ইনপুট ফাইলের বিন্যাস সেট করুন।
GCS_TO_GCS_INPUT_FORMAT=csv
পছন্দসই আউটপুট বিন্যাস সেট করুন। আপনি parquet, json, avro বা csv বেছে নিতে পারেন।
GCS_TO_GCS_OUTPUT_FORMAT=parquet
overwrite
করতে আউটপুট মোড সেট করুন। আপনি overwrite
, append
, ignore
বা errorifexists.
GCS_TO_GCS_OUTPUT_MODE=overwrite
আউটপুট অবস্থান সেট করুন।
GCS_TO_GCS_OUTPUT_LOCATION=gs://${BUCKET}/GCStoGCS
টেমপ্লেট চালান
GCStoGCS
টেমপ্লেট চালান।
./bin/start.sh \ -- --template=GCSTOGCS \ --gcs.to.gcs.input.location=${GCS_TO_GCS_INPUT_LOCATION} \ --gcs.to.gcs.input.format=${GCS_TO_GCS_INPUT_FORMAT} \ --gcs.to.gcs.output.format=${GCS_TO_GCS_OUTPUT_FORMAT} \ --gcs.to.gcs.output.mode=${GCS_TO_GCS_OUTPUT_MODE} \ --gcs.to.gcs.output.location=${GCS_TO_GCS_OUTPUT_LOCATION}
আউটপুট মোটামুটি গোলমাল হবে কিন্তু প্রায় এক মিনিট পরে আপনি নীচের মত একটি সফল বার্তা দেখতে পাবেন।
Batch [c198787ba8e94abc87e2a0778c05ec8a] submitted. ... Batch [c198787ba8e94abc87e2a0778c05ec8a] finished.
আপনি যাচাই করতে পারেন যে ফাইলগুলি নিম্নলিখিত চালানোর মাধ্যমে তৈরি করা হয়েছে।
gsutil ls ${GCS_TO_GCS_OUTPUT_LOCATION}
এই টেমপ্লেটটির সাথে, আপনার কাছে টেমপ্লেটে gcs.to.gcs.temp.view.name
এবং gcs.to.gcs.sql.query
পাস করে SparkSQL কোয়েরি সরবরাহ করার বিকল্প রয়েছে, একটি SparkSQL কোয়েরি আগে ডেটাতে চালানোর জন্য সক্ষম করে GCS-এ লেখা।
7. সম্পদ পরিষ্কার করুন
এই কোডল্যাবটি সম্পূর্ণ করার পরে আপনার GCP অ্যাকাউন্টে অপ্রয়োজনীয় চার্জ এড়াতে:
- আপনি যে পরিবেশ তৈরি করেছেন তার জন্য ক্লাউড স্টোরেজ বালতি মুছুন ।
gsutil rm -r gs://${BUCKET}
- আপনার ক্রমাগত ইতিহাস সার্ভারের জন্য ব্যবহৃত Dataproc ক্লাস্টার মুছুন ।
gcloud dataproc clusters delete ${PHS_CLUSTER_NAME} \ --region=${REGION}
- ডেটাপ্রোক সার্ভারহীন কাজগুলি মুছুন। ব্যাচেস কনসোলে যান, আপনি মুছে ফেলতে চান এমন প্রতিটি কাজের পাশের বাক্সে ক্লিক করুন এবং মুছুন ক্লিক করুন।
আপনি যদি এই কোডল্যাবের জন্য একটি প্রকল্প তৈরি করেন তবে আপনি ঐচ্ছিকভাবে প্রকল্পটি মুছে ফেলতে পারেন:
- GCP কনসোলে, প্রকল্প পৃষ্ঠায় যান।
- প্রকল্প তালিকায়, আপনি যে প্রকল্পটি মুছতে চান সেটি নির্বাচন করুন এবং মুছুন ক্লিক করুন।
- বাক্সে, প্রজেক্ট আইডি টাইপ করুন এবং তারপরে প্রজেক্ট মুছে ফেলতে শাট ডাউন ক্লিক করুন।
8. পরবর্তী কি
নিম্নলিখিত সংস্থানগুলি অতিরিক্ত উপায় সরবরাহ করে যা আপনি সার্ভারলেস স্পার্কের সুবিধা নিতে পারেন:
- ক্লাউড কম্পোজার ব্যবহার করে কিভাবে Dataproc সার্ভারলেস ওয়ার্কফ্লো অর্কেস্ট্রেট করতে হয় তা শিখুন।
- Kubeflow পাইপলাইনের সাথে Dataproc সার্ভারলেস কিভাবে সংহত করতে হয় তা শিখুন।