Shower Presentation Engine

Yours Truly, Famous Inc.

Raspagem de dados Web com Python

Lidiane Taquehara

Tecnóloga em Análise e Desenvolvimento de Sistemas pela FATEC Jundiaí
Desenvolvedora de Software na Love Mondays <> Glassdoor

Raspagem de Dados

Exemplos

Google

Como funciona a pesquisa

Mais informações: Como funciona a pesquisa

Love Mondays

Serenata de Amor

Python

Beautiful Soup

Show me the code

script.py

      from urllib.request import urlopen
      from bs4 import BeautifulSoup
      url = 'http://www.exemplo.com.br'
      html = urlopen(url)
      soup = BeautifulSoup(html.read(), 'html.parser')

fatec_bp01.py

      from urllib.request import urlopen
      from bs4 import BeautifulSoup
      url = 'http://www.fatecbpaulista.edu.br/eventos/'
      html = urlopen(url)
      soup = BeautifulSoup(html.read(), 'html.parser')
      lista_divs = soup.findAll('div', {'class': 'content__event'})
      for div in lista_divs:
          print(div.text.strip())

World Bank Open Data

Indicadores de Educação

Quanto os países investem em educação?
Qual a distribuição de quantidade de alunos por professor em cada país?

Código-fonte no GitHub

World Atlas

Faturamento das 25 maiores empresas de internet no mundo

Qual o faturamento anual do Twitter?

Código-fonte no GitHub

Visualização dos dados agrupados por setor

Os 100 filmes mais populares no IMDB

Código-fonte no GitHub

E a lei?

Onde aprender?

Muito obrigada! :)

Slides disponíveis em: lidimayra.github.io/raspagem-slides