Criar modelos do Spark ML com o Google Dataproc

1. Introdução

Um dos principais componentes do Apache Spark é o Spark ML, uma biblioteca para criar modelos e pipelines de machine learning com base no mecanismo do Apache Spark. No site, ele contém ferramentas como:

  • Algoritmos de ML: algoritmos de aprendizado comuns, como classificação, regressão, clustering e filtragem colaborativa
  • Featurização: extração, transformação, redução de dimensionalidade e seleção de recursos
  • Pipelines: ferramentas para construir, avaliar e ajustar pipelines de ML
  • Persistência: salvar e carregar algoritmos, modelos e pipelines
  • Utilitários: álgebra linear, estatísticas, processamento de dados etc.

Neste codelab, você vai aprender a criar um modelo do Spark ML usando um notebook.

2. Ativar APIs

Para este codelab, ative as seguintes APIs:

Clique neste link para ativar essas APIs no seu projeto. Quando solicitado, confirme que as APIs serão ativadas no projeto correto.

3. Criar e conectar a uma instância do Vertex AI Workbench

Nesta seção, você vai criar uma instância do Vertex AI Workbench. Em seguida, conecte-se a ela, clone um repositório do GitHub e execute um notebook.

Para criar a instância do Vertex AI Workbench, siga as instruções abaixo.

  1. Acesse a página do console Notebooks gerenciados.
  2. Clique em NOVO NOTEBOOK.
  3. Forneça um nome e escolha uma região, como us-central1 (Iowa). O ideal é que ela corresponda à região selecionada anteriormente no codelab, embora não seja obrigatório.
  4. Em Permissão , selecione Somente um usuário.
  5. Abra o menu suspenso Configurações avançadas.
  6. Em Segurança , selecione Ativar nbconvert e Ativar terminal.
  7. Clique em CRIAR.

O provisionamento da instância deve levar cerca de cinco minutos. Uma marca de seleção verde vai aparecer ao lado do nome do notebook quando a instância estiver pronta.

Quando a instância estiver pronta, clique em ABRIR O JUPYTERLAB. Autentique-se quando solicitado e ative todas as permissões.

4. Criar modelos com o Spark ML de um notebook

Depois que a instância do JupyterLab for carregada, você estará na guia Acesso rápido. Nessa guia, em Outros , clique em Terminal para abrir um novo terminal.

No terminal, clone o repositório de amostras da Vertex AI.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

Na guia Navegador de arquivos, acesse vertex-ai-samples/notebooks/official/workbench/spark. Clique duas vezes no notebook spark_ml.ipynb para abrir. Quando solicitado a selecionar um kernel, selecione Python (local).

Percorra as etapas do notebook executando cada célula. Siga as instruções nas células.

5. Limpar recursos

Para evitar cobranças desnecessárias na sua conta do GCP após a conclusão deste codelab:

  1. Exclua a instância do Workbench. No console, marque a caixa ao lado da instância e clique em EXCLUIR.

Se você criou um projeto apenas para este codelab, também poderá excluir o projeto:

  1. No Console do GCP, acesse a página Projetos.
  2. Na lista de projetos, selecione um e clique em Excluir.
  3. Na caixa, digite o ID do projeto e clique em desligar para excluir o projeto.