Criar modelos do Spark ML com o Google Dataproc

1. Introdução

Um dos componentes principais do Apache Spark é o Spark ML, uma biblioteca para criar modelos e pipelines de machine learning com base no mecanismo do Apache Spark. No site, você encontra ferramentas como:

  • Algoritmos de ML: algoritmos de aprendizado comuns, como classificação, regressão, clustering e filtragem colaborativa
  • Criação de atributos: extração, transformação, redução de dimensionalidade e seleção de atributos
  • Pipelines: ferramentas para construir, avaliar e ajustar pipelines de ML
  • Persistência: salvar e carregar algoritmos, modelos e pipelines
  • Utilitários: álgebra linear, estatística, tratamento de dados etc.

Neste codelab, você vai aprender a criar um modelo de ML do Spark usando um notebook.

2. Ativar APIs

Para este codelab, você precisa ativar as seguintes APIs:

Clique neste link para ativar essas APIs no seu projeto. Quando solicitado, confirme se as APIs serão ativadas no projeto correto.

3. Criar e se conectar a uma instância do Vertex AI Workbench

Nesta seção, você vai criar uma instância do Vertex AI Workbench. Em seguida, você vai se conectar a ele, clonar um repositório do GitHub e executar um notebook.

Para criar a instância do Vertex AI Workbench, siga as instruções ou as etapas abaixo.

  1. Acesse a página do console Notebooks gerenciados.
  2. Clique em NOVO NOTEBOOK.
  3. Dê um nome e escolha uma região, como us-central1 (Iowa). O ideal é que ela corresponda à região selecionada anteriormente no codelab, mas isso não é obrigatório.
  4. Em Permissão, selecione Somente usuário único.
  5. Abra o menu suspenso Configurações avançadas.
  6. Em Segurança, selecione Ativar nbconvert e Ativar terminal.
  7. Clique em CRIAR.

A instância deve ser provisionada em cerca de cinco minutos. Uma marca de seleção verde vai aparecer ao lado do nome do notebook quando a instância estiver pronta.

Quando a instância estiver pronta, clique em ABRIR JUPYTERLAB. Autentique quando solicitado e ative todas as permissões.

4. Criar modelos com o Spark ML em um notebook

Depois que a instância do JupyterLab for carregada, você estará na guia Acesso rápido. Nessa guia, em Outros, clique em Terminal para abrir um novo terminal.

No terminal, clone o repositório Exemplos da Vertex AI.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

Na guia Navegador de arquivos, acesse vertex-ai-samples/notebooks/official/workbench/spark. Clique duas vezes no notebook spark_ml.ipynb para abrir. Quando for solicitado a selecionar um kernel, escolha Python (local).

Siga as etapas do notebook executando cada célula. Siga as instruções nas células.

5. Limpar recursos

Para evitar cobranças desnecessárias na sua conta do GCP após a conclusão deste codelab:

  1. Exclua a instância do Workbench. No console, marque a caixa ao lado da instância e clique em EXCLUIR.

Se você criou um projeto apenas para este codelab, também é possível excluir o projeto:

  1. No Console do GCP, acesse a página Projetos.
  2. Na lista de projetos, selecione o que você quer excluir e clique em "Excluir".
  3. Na caixa, digite o ID do projeto e clique em "Encerrar" para excluí-lo.