Curso Online

Web Scraping

Trilha de Formação em Data Science

Web scraping é a tarefa de extrair (raspar) dados da internet de forma automatizada. A dificuldade de acesso e processamento de dados públicos torna essa prática uma etapa essencial para profissionais da Ciência de Dados. Nessa trilha, você vai aprender diversas ferramentas que o R nos proporciona para importação e faxina de dados. A importação de dados começa com a leitura de simples arquivos de texto, passa pela utilização de bancos de dados e é finalizada com ferramentas de raspagem de páginas estáticas e dinâmicas (web scraping). Já a faxina de dados envolve todas as ferramentas para transformar dados brutos em dados organizados, preparado-os para visualização e modelagem. Não se engane: importação e faxina são as tarefas que mais demandam tempo de profissionais da ciência de dados. Fazer isso de forma eficiente é um grande diferencial de mercado.

08 de maio à 07 de julho, com aulas às segundas, quintas e sábados
As aulas são ao vivo. Você terá contato direto com as(os) prefessoras(es)!
Confira abaixo o calendário de aulas de cada curso.
9 aulas, 30 horas de curso

de R$950,00 por:

R$855,00

Ao se inscrever na trilha, você declara estar de acordo com os nossos Termos de uso.

Habilidades adquiridas na trilha

Organizar projetos de web scraping
Acessar dados de APIs
Trabalhar com páginas estáticas e dinâmicas
Ler e estruturar dados de arquivos .xml, .html, .json e .pdf
Faxina de dados
Detecção inconsistências nos dados
tidyverse avançado

Programa da trilha

A trilha é separada em 2 cursos, encapsulando os conteúdos em jornadas que amplificam a construção do conhecimento. O curso de Web Scraping acontecerá às segundas e quintas das 19h00 às 22h00, com exceção de feriados e emendas. O curso de Faxina de Dados acontecerá aos sábados.

O que vou receber?

Certificado

Entrega por e-mail após conclusão

Cursos 100% on-line

As aulas são ao vivo, mas ficam gravadas e a disposição por 1 ano

Nível intermediário

Conhecimento prévio recomendado:

Português

Cursos da trilha

curso

1

FAXINA DE DADOS

08 e 15 e 22 de maio, três sábados, das 9h00 às 13h00
3 aulas, 12 horas de curso

A prática demonstra que entre **60% e 80%** do trabalho da pessoa que trabalha com ciência de dados é voltada à **leitura e arrumação de bases de dados**. Então por que não discutir esse assunto com seriedade? O objetivo deste curso é mostrar, através de diversos exemplos práticos, o incrível arsenal de ferramentas que o R nos proporciona para fazer a faxina de dados. Vamos mostrar melhores práticas na estruturação de um projeto de faxina de dados, focando na reprodutibilidade e facilidade de compartilhar o trabalho realizado. O curso partirá de exemplos mais simples, como empilhar diversas bases de dados, até exemplos mais complexos, envolvendo rotinas de correção e validação de dados.

Leia mais sobre este curso.


  • O que são bases bagunças e arrumadas?
  • Organizando projetos de faxina de dados
  • Resolvendo problemas de importação
  • Melhores práticas para organização das colunas
  • Identificação de inconsistências nos dados

curso

2

WEB SCRAPING

21 de junho a 08 de julho, às segundas e quintas, das 19h00 às 22h00
6 aulas, 18 horas de curso

O objetivo deste workshop é apresentar as principais ferramentas e estratégias para baixar e organizar dados da internet utilizando o R. Para isso, abordaremos as noções básicas de como um site é construído, como funcionam as requisições web e como descobrir o caminho até um conteúdo específico de uma página. Também abordaremos o uso de APIs e o que fazer quando o fluxo usual de raspagem não funciona.

Leia mais sobre este curso.


  • Introdução
    • O que é e quando fazer web scraping
    • O ciclo do web scraping
    • Utilizando o Inspetor do navegador
  • Utilizando APIs
    • Acessando dados de APIs
    • APIs escondidas em sites
    • APIs com autenticação simples
    • Acessar APIs com OAuth2
  • Baixando dados em HTML ou XML
    • Imitando a requisição do inspetor
    • O pacote httr
    • Requisições GET e POST
  • Construindo um parser
    • O pacote xml2
    • Introdução ao XPath
    • Estruturando os dados brutos
  • Aprimorando seu algoritmo
    • Como iterar algoritmos no R
    • Tratamento de erros
    • Paralelização
  • Raspagem de páginas complexas
    • View states
    • Páginas dinâmicas com Selenium
    • Lidando com Captchas

Como será a trilha?

  • Aulas online, em tempo real, com um(a) professor(a) e um(a) monitor(a).
  • Diversos exercícios “para casa” para praticar e tirar dúvidas.
  • Projeto de análise de dados para aplicar o conteúdo aprendido.
  • Gravação das aulas disponíveis por pelo menos 1 ano.

Pré-requisitos

  • O conteúdo do curso R para Ciência de Dados 1.
  • Interesse por Ciência de Dados.
  • Noções de sistemas operacionais (Linux, Mac ou Windows).
  • Conhecimentos básicos de computação: criação de arquivos e pastas, instalação de programas, navegação na internet.
  • Uma conta de e-mail Google para acessar o Google Classroom.
  • Últimas versões do R e do RStudio instaladas.

Professores

Caio Lente

Mestrando em Ciência da Computação no IME-USP e cientista de dados na Terranova Consultoria. Programador desde os 15 anos, começou a se apaixonar pelo R em 2016 e agora não fala em outra coisa. Metido a designer, maníaco da organização e metade texano.

Fernando Corrêa

Bacharel e mestrando em Estatística pelo IME-USP. Diretor-técnico na Associação Brasileira de Jurimetria. Usa R para tudo, mas tem interesse especial em web scraping, visualização de dados e modelagem bayesiana.

Julio Trecenti

Faxineiro de dados. Doutorando em Estatística pelo IME-USP. Secretário-geral da Assoc. Brasileira de Jurimetria (ABJ). Conselheiro do CONFE. Trabalha com web scraping, arrumação de dados, construção de modelos preditivos, APIs e dashboards em Shiny.

Perguntas Frequentes - FAQ

Sim! Basta acessar a página individual de cada curso, clicando no nome ou em "Leia mais sobre este curso". Mas ressaltamos que os preços promocionais dessa página só se aplicam aos pacotes completos.

Sim, você receberá o certificado ao final do curso (sujeito à entrega de atividades solicitadas pelos professores), com a carga horária específica delimitada na página do curso. O certificado é individual e terá o mesmo nome que você utilizou na compra.

Sim, as aulas são gravadas e disponibilizadas para os alunos inscritos por pelo menos 1 ano.

Após a confirmação da compra, você receberá um e-mail de nossa equipe com a confirmação de sua inscrição, com as informações para entrar na turma pelo google classroom.

Caso você não receba email de confirmação antes do curso começar, primeiramente dê uma olhada na sua caixa de spam. Caso não esteja lá, basta nos enviar um e-mail para contato@Curso-R.com.

Depende do curso, todas as informações necessárias para ingressar em qualquer curso da Curso-R pode ser encontrada na sua respectiva página. As trilhas são pacotes promocionais de cursos com grandes descontos. O preço das trilhas pode ser encontrado também nas suas páginas.

Nós trabalhamos com cartão de crédito, boleto e transferência bancária.