Home Software Dois pacotes essenciais para ansiosos que precisam ler 50 milhões de observações no R

Dois pacotes essenciais para ansiosos que precisam ler 50 milhões de observações no R

setembro 27, 2015

data.table: é muito rápido que a concorrência e - melhor ainda - indica o percentual do progresso na leitura do arquivo;
beepr: faz um beep quando o script termina.

Rafael H M Pereira disse...: Esse benchmark dah uma idea de quantas milhoes de vezes o fread() eh mais rapido que os concorrentes. :) https://rpubs.com/dpastoor/benchmark-nm-read

O data.table tem um sintaxe simples e eh de longe o pacote mais rapido para tudo que eh tipo de manipulacao da base de dados (criar variave, recodificar, filtrar, merge, etc).

Um tutorial legal aqui: http://blog.yhathq.com/posts/fast-summary-statistics-with-data-dot-table.html; 28/09/2015, 07:32
Leo Monasterio disse...: Valeu!
Eu não sabia que a diferença era tão grande. Agora vou ter que trocar tudo (ou quase) de dplyr para data.table... Ó vida, ó dor.; 28/09/2015, 15:59

Blog do Leo Monasterio