Pular para o conteúdo principal

Dois pacotes essenciais para ansiosos que precisam ler 50 milhões de observações no R

  • data.table: é muito rápido que a concorrência e - melhor ainda - indica o percentual do progresso na leitura do arquivo;
  • beepr: faz um beep quando o script termina.

Comentários

Esse benchmark dah uma idea de quantas milhoes de vezes o fread() eh mais rapido que os concorrentes. :) https://rpubs.com/dpastoor/benchmark-nm-read

O data.table tem um sintaxe simples e eh de longe o pacote mais rapido para tudo que eh tipo de manipulacao da base de dados (criar variave, recodificar, filtrar, merge, etc).

Um tutorial legal aqui: http://blog.yhathq.com/posts/fast-summary-statistics-with-data-dot-table.html
Valeu!
Eu não sabia que a diferença era tão grande. Agora vou ter que trocar tudo (ou quase) de dplyr para data.table... Ó vida, ó dor.

Postagens mais visitadas deste blog

Capitalismo de compadrio não é um problema cultural

Eu costumo dizer -  um pouco brincando- que "cultura não importa". No caso da discussão sobre o crony capitalism, no entanto, eu falo a sério: a chave está nos incentivos econômicos.
O historiador econômico Stephen Haber resume isso bem na introdução de um livro jóia sobre o assunto. A lógica é a seguinte: em termos ideais, quando há boas instituições, os empresários sabem que não serão expropriados pelo governo. Este taxa todo mundo, ganha o seu, mas não distribui privilégios. Logo, não há sentido em ser amigo do governo,  nem financiar campanhas.
Agora, quando as instituições são ruins e o poder discricionário do governo é grande, surge um dilema. Como o empresário vai investir se sabe que uma hora qualquer as regras podem mudar contra si? Sem investimento, não há o que tributar.  A solução mútua é transformar o governo em sócio de alguns empresários. Assim, cria-se um compromisso crível: o governo não vai passar a perna nas empresas de quem é "amigo" pois tem u…

A regra dos dois desvios

Ao que parece, a regra será a minha maior (e única) contribuição ao Saber Universal. Eu a reproduzi no verbete "Brigas, críticas e debates" do meu magnum opus "Manual de sobrevivência na universidade: da graduação ao pós-doutorado" ( Atualização 2017: O livro está fora do ar porque uma segunda edição, expandida, será publicada em breve). Aí vai:

" "Nunca brigue se o adversário estiver a mais de dois desvios padrãode você em qualquer dimensão: conhecimento, ideologia, inteligência ou porte físico." Se você não sabe o que é desvio padrão, nenhum problema. Traduzindo: nunca brigue se o adversário for muito melhor ou pior do que você em qualquer dimensão: conhecimento, ideologia, inteligência ou porte físico. Se o adversário é muito mais inteligente ou conhece muito melhor o assunto, ouça-o com atenção, faça as perguntas relevantes e aprenda. Não é vergonha. Agora, se o sujeito é burro ou ignorante no assunto, o melhor é desconsiderar. Afinal, qual é a…

Colistete e o atraso educacional brasileiro

Ficou ótima a matéria da Revista Piauí com o perfil do Renato Colistete e sobre sua tese de livre-docência (pdf).
Ele é um pesquisador sensacional, gente boa e orientador de 9 entre 10 dos novos pesquisadores em histórica econômica. Já estava no tempo de ele ter reconhecimento de um público mais amplo.
Aproveite e leia o seu blog . Quando a tese estiver on-line, eu aviso.