Dois pacotes essenciais para ansiosos que precisam ler 50 milhões de observações no R
- data.table: é muito rápido que a concorrência e - melhor ainda - indica o percentual do progresso na leitura do arquivo;
- beepr: faz um beep quando o script termina.
2 comentários:
Esse benchmark dah uma idea de quantas milhoes de vezes o fread() eh mais rapido que os concorrentes. :) https://rpubs.com/dpastoor/benchmark-nm-read
O data.table tem um sintaxe simples e eh de longe o pacote mais rapido para tudo que eh tipo de manipulacao da base de dados (criar variave, recodificar, filtrar, merge, etc).
Um tutorial legal aqui: http://blog.yhathq.com/posts/fast-summary-statistics-with-data-dot-table.html
Valeu!
Eu não sabia que a diferença era tão grande. Agora vou ter que trocar tudo (ou quase) de dplyr para data.table... Ó vida, ó dor.
Postar um comentário