Tentang codelab ini
1. Ringkasan
Big
Dalam codelab ini,
Yang akan Anda pelajari
- Cara menggunakan Big
Query - Cara memuat {i>dataset<i} dunia nyata ke dalam Big
Query - Cara menulis kueri untuk mendapatkan insight tentang {i>dataset<i} yang besar
Yang Anda butuhkan
- Project Google Cloud
- Browser,
seperti Google Chrome atau Firefox
Survei
Bagaimana Anda akan menggunakan tutorial ini?
Bagaimana penilaian Anda terhadap pengalaman Anda menggunakan Google Cloud?
2. Penyiapan dan persyaratan
Mengaktifkan BigQuery
Jika belum memiliki Akun Google,
- Login ke Konsol Google Cloud,
lalu buka Big Query. Anda juga dapat membuka UI web Big Query secara langsung dengan memasukkan URL berikut di browser Anda.
https://console.cloud.google.com/bigquery
- Setujui persyaratan layanan.
- Sebelum dapat menggunakan Big
Query, Anda harus membuat proyek. Ikuti petunjuk untuk membuat project baru.
Pilih nama project dan catat ID project-nya.
ID Project adalah nama unik di semua project Google Cloud.PROJECT_
.
Codelab ini menggunakan resource Big
Anda memuat {i>dataset <i}Wikipedia di bagian selanjutnya.
3. Membuat set data
Pertama,
- Untuk membuat set data,
klik nama project di bawah panel resource, lalu klik Create dataset:
- Masukkan
lab
sebagai ID Set Data:
- Klik Create dataset untuk membuat set data kosong.
4. Memuat data dengan program command line bq
Mengaktifkan Cloud Shell
- Dari Cloud Console,
klik Aktifkan Cloud Shell .
Jika belum pernah memulai Cloud Shell,
Perlu waktu beberapa saat untuk penyediaan dan terhubung ke Cloud Shell.
Mesin virtual ini dimuat dengan semua alat pengembangan yang Anda butuhkan.
Setelah terhubung ke Cloud Shell,
- Jalankan perintah berikut di Cloud Shell untuk mengonfirmasi bahwa Anda telah diautentikasi:
gcloud auth list
Output perintah
Credentialed Accounts ACTIVE ACCOUNT * <my_account>@<my_ domain. com> To set the active account, run: $ gcloud config set account `ACCOUNT`
- Jalankan perintah berikut di Cloud Shell untuk mengonfirmasi bahwa perintah gcloud mengetahui project Anda:
gcloud config list project
Output perintah
[core] project = <PROJECT_ID>
Jika tidak,
gcloud config set project <PROJECT_ID>
Output perintah
Updated property [core/project].
Memuat data ke BigQuery
Untuk memudahkan Anda,gs:/
.bq
.
bq load \
--source_format CSV \
--field_delimiter " " \
--allow_jagged_rows \
--quote "" \
--max_bad_records 3 \
$GOOGLE_CLOUD_PROJECT :lab. pageviews_20190410_140000 \
gs://cloud-samples-data/third-party/wikimedia/pageviews/pageviews-20190410-140000.gz \
wiki, title, requests:integer, zero:integer
Anda menggunakan beberapa opsi lanjutan untuk memuat file kunjungan halaman:
- Tetapkan
--source_
untuk menunjukkan bahwa file harus diurai sebagai file CSV.format CSV Langkah ini opsional karena CSV adalah format default. - Setel
--field_
untuk menunjukkan bahwa satu spasi digunakan untuk membatasi kolom.delimiter " " - Tetapkan
--allow_
untuk menyertakan baris dengan jumlah kolom yang lebih sedikit dan mengabaikan error saat memuat file CSV.jagged_ rows - Setel
--quote ""
untuk menunjukkan bahwa string tidak diberi tanda kutip. - Setel
--max_
untuk mengabaikan maksimal 3 error saat mengurai file CSV.bad_ records 3
Anda dapat mempelajari lebih lanjut command line bq dalam dokumentasi.
5. Melihat pratinjau Set data
Di konsol Big
- Memperluas project.
- Luaskan set data.
- Pilih tabel.
Anda dapat melihat skema tabel di tab Schema.
- Buka tab Preview untuk melihat pilihan baris dari tabel.
6. Menulis kueri
- Klik Compose new query:
Tindakan ini akan menampilkan Query editor:
- Temukan jumlah total tampilan Wikimedia antara pukul 14.
00 dan 15. 00 pada 10 April 2019, dengan menulis kueri ini:
SELECT SUM(requests) FROM `lab. pageviews_ 20190410_ 140000`
- Klik Run:
Dalam beberapa detik,
Kueri ini memproses 123,
7. Kueri lanjutan lainnya
Menemukan kunjungan halaman Wikipedia
Set data Wikimedia berisi kunjungan halaman untuk semua project Wikimedia (termasuk Wikipedia,WHERE
:
SELECT SUM(requests), wiki FROM `lab. pageviews_ 20190410_ 140000` WHERE wiki = "en" GROUP BY wiki
Perhatikan bahwa,wiki
,
BigCONTAINS
,GROUP BY,
ORDER BY
,
SELECT title,SUM( requests) requests FROM `lab. pageviews_ 20190410_ 140000` WHERE wiki = "en" AND REGEXP_CONTAINS( title, 'Red. *t') GROUP BY title ORDER BY requests DESC
Membuat kueri di beberapa tabel
Anda dapat memilih rentang tabel untuk membentuk gabungan menggunakan tabel karakter pengganti.
- Pertama,
buat tabel kedua untuk dikueri dengan memuat tayangan halaman dari jam berikutnya ke tabel baru:
bq load \
--source_format CSV \
--field_delimiter " " \
--quote "" \
$GOOGLE_CLOUD_PROJECT :lab. pageviews_20190410_150000 \
gs://cloud-samples-data/third-party/wikimedia/pageviews/pageviews-20190410-150000.gz \
wiki, title, requests:integer, zero:integer
- Di Editor kueri,
buat kueri pada kedua tabel yang Anda muat dengan membuat kueri tabel dengan " pageviews_
" sebagai awalan:2019
SELECT title,SUM( requests) requests FROM `lab. pageviews_ 2019*` WHERE wiki = "en" AND REGEXP_CONTAINS( title, 'Red. *t') GROUP BY title ORDER BY requests DESC
Anda dapat memfilter tabel secara lebih selektif dengan kolom pseudo _
SELECT title,SUM( requests) requests FROM `lab. pageviews_ 2019*` WHERE _ TABLE_ SUFFIX BETWEEN '0410' AND '0410_ 9999999' AND wiki = "en" AND REGEXP_CONTAINS( title, 'Red. *t') GROUP BY title ORDER BY requests DESC
8. Pembersihan
Secara opsional,bq rm
.-r
untuk menghapus tabel yang ada di dalamnya.
bq rm -r lab
9. Selamat!
Anda telah menggunakan Big
Pelajari lebih lanjut
- Lihat subreddit Big
Query untuk mengetahui cara orang lain menggunakan BigQuery saat ini. - Temukan set data publik yang tersedia di Big
Query . - Pelajari cara memuat data ke Big
Query .