"Seu filho não é nenhum Einstein": primeiros nomes e carreiras científicas

Um pouco por curiosidade e também para aprender a trabalhar com bases grandes de nomes no R, fiz o seguinte exercício:

  • Contei os brasileiros na base do Lattes (aproximadamente 1,5 milhão de pessoas) que têm nomes de cientistas famosos (coluna Science);
  • Na Rais identificada, busquei os com nível superior (uns 6 milhões) que também tivessem nomes de cientistas (coluna General);
  • As colunas "Share Science" e "Share General" indicam o número de primeiros nomes famosos por milhão no Lattes e na Rais 
  • A coluna "ratio" é a razão entre os dois shares. Valores iguais a 1 indicam que os nomes são igualmente represntados em ambas as bases. Valores maiores que 1 indicam que o nome está sobrerepresentado na base do Lattes. Há, por exemplo, 29,5 "Arquimedes" por milhão na base Lattes; e apenas 24,2 na população em geral. Isso resulta na razão de 1,2.

O resultado é que- de fato - existe mesmo mais gente com nome de cientista na base do Lattes do que seria esperado. Contudo, o efeito não é lá grande coisa. Em outras palavras, talvez mesmo pais apaixonados por Ciência (a ponto de batizar o filho com nome de Darwin!) são incapazes de transmitir suas preferências para as próximas gerações.

Obviamente, há dezenas de restrições e ressalvas nessa minha interpretação dos resultados. Comentários, de qualquer forma, são bem-vindos.

7 comentários:

p disse...

Tentou Tesla?

Leonardo Monasterio disse...

Não testei, mas chuto que os primeiros Tesla devem estar nascendo agora.
(Coitado do moleque que tem nome de carro :-))

Rafael H M Pereira disse...

A alta razao de pessoas com nome `Washington` no Brasil se deve a forte identificacao do povo brasileiro com os valores da democracia norte americana ;) soh enchendo seu saco.

E faz sentido voce fazer uma 'media' desse ration para diferentes nomes? Tem uma variancia consideranvel de ratio entre os diferentes nomes

Outra coisa eh corririr para erros de digitacao/variacoes do escriturario, tipo Galileu e Galileo, ou Galilleu etc

Leonardo Monasterio disse...

"A alta razao de pessoas com nome `Washington` no Brasil se deve a forte identificacao do povo brasileiro com os valores da democracia norte americana ;) soh enchendo seu saco."
Mentira! Quem é federalista mesmo escreve "Uóxton". (Deve ter um monte de Edison dos pais que tentaram batizar de Pelé, mas a mãe- sensatamente- não cedeu)

Eu usei só a versão aportuguesada mesmo. O próximo passo é usar o fuzzy matching.



Duany Rambo disse...
Este comentário foi removido pelo autor.
Lucas Carvalho disse...

Como você obteve acesso à RAIS identificada?

Leonardo Monasterio disse...

Eu tenho acesso no servidor do Ipea.

Tecnologia do Blogger.