Web scraping com R

Card image cap

Em Web scraping em R, você aprenderá a baixar e estruturar dados diretamente da web. Passaremos pelos princípios básicos de requisições web, como controlá-las por intermédio do R e como obter informações estruturadas de páginas da web.

Oferecimento: 23/06/2018

Ementa

Web scraping é a tarefa de extrair dados de sites da internet de forma automatizada, sendo direta (usando o protocolo HTTP) ou por meio de um browser. Para construir um web scraper geralmente é necessário estudar

  • como o site a ser acessado foi construído, se tem limites de requisições, utilização de cookies, sessões etc;
  • como e com que frequência o site é atualizado, tanto em relação à sua interface como em relação aos dados que queremos extrair;
  • qual o caminho percorrido para acessar uma página específica.

O curso aborda os seguintes tópicos:

  • Noções de protocolo HTTP e acesso a páginas web.
  • Pacotes httr e curl para fazer requisições HTTP e baixar arquivos com o R.
  • Pacotes xml2, rvest e jsonlite para obter informações estruturadas de arquivos .xml, .html e .json.
  • Pacote pdftools para extrair informações de PDFs.

Público Alvo

Estudantes e profissionais com conhecimento intermediário de programação de R que tenham interesse em aprender a extrair dados de sites da internet.

Requisitos

Softwares

O curso utiliza extensivamente os softwares a seguir. Instale-os nessa ordem:

Essa área de comentários também serve para tirar dúvidas sobre os cursos! Responderemos assim que possível.

comments powered by Disqus