Web scraping para seres humanos
Mesmo sem saber nada sobre o assunto, com umas oito horas de trabalho, eu fiz um código no R que: 1) leu milhares de páginas na internet; 2) selecionou as informações que eu precisava; 3) pôs tudo em formato de tabela.
Acreditem: você não precisa ter menos de 25 anos para aprender isso, nem ser um gênio da computação. É moleza, desde que você tenha as ferramentas certas. As duas que eu usei foram:
- rvest: todas as funções necessárias em um só pacote;
- selectorgagdet: ele te mostra onde pescar a informação que você deseja nos arquivos html.
Esse post e o próprio demo do rvest explicam o básico.
Em breve, eu postarei aqui alguns resultados do processo. (Ainda falta gastar umas 20 horas limpando os dados...)
Nenhum comentário:
Postar um comentário