Páginas

27/09/2015

Dois pacotes essenciais para ansiosos que precisam ler 50 milhões de observações no R

  • data.table: é muito rápido que a concorrência e - melhor ainda - indica o percentual do progresso na leitura do arquivo;
  • beepr: faz um beep quando o script termina.

2 comentários:

  1. Esse benchmark dah uma idea de quantas milhoes de vezes o fread() eh mais rapido que os concorrentes. :) https://rpubs.com/dpastoor/benchmark-nm-read

    O data.table tem um sintaxe simples e eh de longe o pacote mais rapido para tudo que eh tipo de manipulacao da base de dados (criar variave, recodificar, filtrar, merge, etc).

    Um tutorial legal aqui: http://blog.yhathq.com/posts/fast-summary-statistics-with-data-dot-table.html

    ResponderExcluir
  2. Valeu!
    Eu não sabia que a diferença era tão grande. Agora vou ter que trocar tudo (ou quase) de dplyr para data.table... Ó vida, ó dor.

    ResponderExcluir