Um pouco por curiosidade e também para aprender a trabalhar com bases grandes de nomes no R, fiz o seguinte exercício:
O resultado é que- de fato - existe mesmo mais gente com nome de cientista na base do Lattes do que seria esperado. Contudo, o efeito não é lá grande coisa. Em outras palavras, talvez mesmo pais apaixonados por Ciência (a ponto de batizar o filho com nome de Darwin!) são incapazes de transmitir suas preferências para as próximas gerações.
Obviamente, há dezenas de restrições e ressalvas nessa minha interpretação dos resultados. Comentários, de qualquer forma, são bem-vindos.
- Contei os brasileiros na base do Lattes (aproximadamente 1,5 milhão de pessoas) que têm nomes de cientistas famosos (coluna Science);
- Na Rais identificada, busquei os com nível superior (uns 6 milhões) que também tivessem nomes de cientistas (coluna General);
- As colunas "Share Science" e "Share General" indicam o número de primeiros nomes famosos por milhão no Lattes e na Rais
- A coluna "ratio" é a razão entre os dois shares. Valores iguais a 1 indicam que os nomes são igualmente represntados em ambas as bases. Valores maiores que 1 indicam que o nome está sobrerepresentado na base do Lattes. Há, por exemplo, 29,5 "Arquimedes" por milhão na base Lattes; e apenas 24,2 na população em geral. Isso resulta na razão de 1,2.
O resultado é que- de fato - existe mesmo mais gente com nome de cientista na base do Lattes do que seria esperado. Contudo, o efeito não é lá grande coisa. Em outras palavras, talvez mesmo pais apaixonados por Ciência (a ponto de batizar o filho com nome de Darwin!) são incapazes de transmitir suas preferências para as próximas gerações.
Obviamente, há dezenas de restrições e ressalvas nessa minha interpretação dos resultados. Comentários, de qualquer forma, são bem-vindos.
Tentou Tesla?
ResponderExcluirNão testei, mas chuto que os primeiros Tesla devem estar nascendo agora.
ResponderExcluir(Coitado do moleque que tem nome de carro :-))
A alta razao de pessoas com nome `Washington` no Brasil se deve a forte identificacao do povo brasileiro com os valores da democracia norte americana ;) soh enchendo seu saco.
ResponderExcluirE faz sentido voce fazer uma 'media' desse ration para diferentes nomes? Tem uma variancia consideranvel de ratio entre os diferentes nomes
Outra coisa eh corririr para erros de digitacao/variacoes do escriturario, tipo Galileu e Galileo, ou Galilleu etc
"A alta razao de pessoas com nome `Washington` no Brasil se deve a forte identificacao do povo brasileiro com os valores da democracia norte americana ;) soh enchendo seu saco."
ResponderExcluirMentira! Quem é federalista mesmo escreve "Uóxton". (Deve ter um monte de Edison dos pais que tentaram batizar de Pelé, mas a mãe- sensatamente- não cedeu)
Eu usei só a versão aportuguesada mesmo. O próximo passo é usar o fuzzy matching.
Este comentário foi removido pelo autor.
ResponderExcluirComo você obteve acesso à RAIS identificada?
ResponderExcluirEu tenho acesso no servidor do Ipea.
ResponderExcluir