Dois pacotes essenciais para ansiosos que precisam ler 50 milhões de observações no R

  • data.table: é muito rápido que a concorrência e - melhor ainda - indica o percentual do progresso na leitura do arquivo;
  • beepr: faz um beep quando o script termina.

2 comentários:

Rafael H M Pereira disse...

Esse benchmark dah uma idea de quantas milhoes de vezes o fread() eh mais rapido que os concorrentes. :) https://rpubs.com/dpastoor/benchmark-nm-read

O data.table tem um sintaxe simples e eh de longe o pacote mais rapido para tudo que eh tipo de manipulacao da base de dados (criar variave, recodificar, filtrar, merge, etc).

Um tutorial legal aqui: http://blog.yhathq.com/posts/fast-summary-statistics-with-data-dot-table.html

Leo Monasterio disse...

Valeu!
Eu não sabia que a diferença era tão grande. Agora vou ter que trocar tudo (ou quase) de dplyr para data.table... Ó vida, ó dor.

Tecnologia do Blogger.