1. Pengantar
BigQuery adalah database analisis berharga murah yang terkelola sepenuhnya dari Google. Dengan BigQuery, Anda dapat membuat kueri data berukuran terabyte tanpa memerlukan administrator database atau infrastruktur apa pun untuk dikelola. BigQuery menggunakan SQL yang sudah dikenal dan model pengisian daya bayar sesuai penggunaan. Dengan BigQuery, Anda dapat berfokus pada analisis data untuk menemukan insight yang bermakna.
Dalam codelab ini, Anda akan melihat cara membuat kueri set data publik GitHub, salah satu dari banyak set data publik yang tersedia di BigQuery.
Yang akan Anda pelajari
- Cara menggunakan BigQuery
- Cara menulis kueri untuk mendapatkan insight tentang {i>dataset<i} yang besar
Yang Anda butuhkan
2. Memulai persiapan
Mengaktifkan BigQuery
Jika belum memiliki Akun Google (Gmail atau Google Apps), Anda harus membuatnya.
- Login ke konsol Google Cloud Platform ( console.cloud.google.com) dan buka BigQuery. Anda juga dapat membuka UI web BigQuery secara langsung dengan memasukkan URL berikut di browser Anda.
https://console.cloud.google.com/bigquery
- Setujui persyaratan layanan.
- Sebelum dapat menggunakan BigQuery, Anda harus membuat proyek. Ikuti petunjuk untuk membuat project baru.
Pilih nama project dan catat ID project-nya.
ID Project adalah nama unik di semua project Google Cloud. Project ID tersebut selanjutnya akan dirujuk di codelab ini sebagai PROJECT_ID
.
Codelab ini menggunakan resource BigQuery bersama batas sandbox BigQuery. Akun penagihan tidak diperlukan. Jika nanti Anda ingin menghapus batas sandbox, Anda dapat menambahkan akun penagihan dengan mendaftar ke uji coba gratis Google Cloud Platform.
3. Melihat pratinjau data GitHub
Buka set data GitHub di UI web BigQuery.
Dapatkan pratinjau cepat tentang tampilan data.
4. Membuat kueri data GitHub
Buka editor kueri.
Masukkan kueri berikut untuk menemukan pesan commit yang paling umum di set data publik GitHub:
SELECT subject AS subject,
COUNT(*) AS num_duplicates
FROM `bigquery-public-data.github_repos.sample_commits`
GROUP BY subject
ORDER BY num_duplicates DESC
LIMIT 100
Mengingat set data GitHub berukuran besar, sebaiknya gunakan set data sampel yang lebih kecil saat bereksperimen untuk menghemat biaya. Gunakan byte yang diproses di bawah editor untuk memperkirakan biaya kueri.
Kilk tombol Run.
Dalam beberapa detik, hasilnya akan tercantum di bagian bawah, dan Anda akan diberi tahu berapa banyak data yang diproses dan berapa lama waktu yang dibutuhkan.
Meskipun tabel sample_commits berukuran 2,49 GB, kueri hanya memproses 35,8 MB. BigQuery hanya memproses byte dari kolom yang digunakan dalam kueri, sehingga jumlah total data yang diproses bisa jauh lebih kecil daripada ukuran tabel. Dengan pengelompokan dan partisi, jumlah data yang diproses dapat dikurangi lebih lanjut.
5. Data publik lainnya
Sekarang, coba lakukan kueri untuk set data lain, seperti salah satu set data publik lainnya.
Misalnya, kueri berikut menemukan project populer yang tidak digunakan lagi atau tidak dikelola dalam set data publik Libraries.io yang masih digunakan sebagai dependensi dalam project lain:
SELECT
name,
dependent_projects_count,
language,
status
FROM
`bigquery-public-data.libraries_io.projects_with_repository_fields`
WHERE status IN ('Deprecated', 'Unmaintained')
ORDER BY dependent_projects_count DESC
LIMIT 100
Organisasi lain juga telah membuat data mereka tersedia untuk publik di BigQuery. Misalnya, set data Arsip GH GitHub dapat digunakan untuk menganalisis peristiwa publik di GitHub, seperti permintaan pull, bintang repositori, dan masalah yang terbuka. Set data PyPI dari Python Software Foundation dapat digunakan untuk menganalisis permintaan download untuk paket Python.
6. Selamat!
Anda telah menggunakan BigQuery dan SQL untuk membuat kueri {i>dataset<i} publik GitHub. Anda memiliki kemampuan untuk membuat kueri set data berskala petabyte!
Yang telah Anda bahas
- Menggunakan sintaksis SQL untuk membuat kueri catatan commit GitHub
- Menulis kueri untuk mendapatkan wawasan tentang {i>dataset<i} yang besar
Pelajari lebih lanjut
- Pelajari SQL dengan Pengantar SQL Kaggle.
- Pelajari dokumentasi BigQuery.
- Lihat cara orang lain menggunakan set data GitHub di postingan blog ini.
- Jelajahi data cuaca, data kejahatan, dan lainnya di TIL dengan BigQuery.
- Pelajari cara memuat data ke BigQuery menggunakan alat command line BigQuery.
- Lihat subreddit BigQuery untuk mempelajari bagaimana orang lain menggunakan BigQuery saat ini.