Paixão por Dados

Transparência (7): Os famosos Cargos Comissionados

Wed, 03 Feb 2016 00:00:00 +0000

Transparência (7): Os famosos Cargos Comissionados

No quarto post da minha série sobre dados do Portal da Transparência, eu introduzi um tema interessante a ser olhado a fundo: os servidores cujo vínculo com o Estado é descrito como cargo comissionado. Vimos que, no Ceará, o salário médio de um servidor é muito alto. E nos outros estados?

library(ggplot2)
library(dplyr)
library(ggthemes)
library(ggrepel)
library(reshape2)
df <- read.csv2("/home/sillas/R/data/transparenciaComSalarios.csv", stringsAsFactors = FALSE, fileEncoding = "ISO-8859-15")

cor1 <- "#C10534" #cor das barras

Para começar, quais são os 10 tipos de vínculo mais comuns?

df %>%
  group_by(SITUACAO_VINCULO) %>%
  summarise(servidores = n()) %>%
  arrange(desc(servidores)) %>%
  top_n(10)

## Source: local data frame [10 x 2]
## 
##        SITUACAO_VINCULO servidores
##                   (chr)      (int)
## 1      ATIVO PERMANENTE     461963
## 2   CONTRATO TEMPORARIO      11946
## 3  CONT.PROF.SUBSTITUTO      10512
## 4  NOMEADO CARGO COMIS.       7445
## 5           REQUISITADO       6459
## 6           SEM VINCULO       4117
## 7  EXERC DESCENT CARREI       3870
## 8  EXERC.÷7º ART93 8112       2475
## 9            APOSENTADO       2294
## 10 REQ.DE OUTROS ORGAOS       1570

Felizmente, a maioria é composta por servidores ativos, enquanto que cargo comissionado é o quarto vínculo mais comum.

Antes de adentrarmos a questão dos CCs, vamos ver qual o tipo de vínculo que possui os maiores salários:

df %>%
  group_by(SITUACAO_VINCULO) %>%
  summarise(servidores = n(),
            salario = median(SALARIO)) %>%
  arrange(desc(salario)) %>%
  top_n(10, salario)

## Source: local data frame [10 x 3]
## 
##        SITUACAO_VINCULO servidores  salario
##                   (chr)      (int)    (dbl)
## 1     NATUREZA ESPECIAL         40 30934.70
## 2  QUADRO ESPEC.-QE/MRE         44 21961.89
## 3  EXERC DESCENT CARREI       3870 20429.09
## 4                CEDIDO        102 19946.32
## 5            APOSENTADO       2294 17923.85
## 6      RESERVA CBM / PM          1 17348.72
## 7  APOSENTADO TCU733/94          1 11650.25
## 8   EXCEDENTE A LOT/MRE          8 11005.08
## 9   CELETISTA/EMPREGADO        408 10796.80
## 10      COLABORADOR ICT         46 10208.36

Temos algumas surpresas aqui. Alguns termos são novos para mim, por isso postei a definição deles abaixo:

NATUREZA ESPECIAL: Cargo de Natureza Especial (CNE) são cargos públicos que dispensam concursos públicos para sua efetivação. No Brasil estes cargos estão vinculados a entidades públicas que têm o direito de contratar funcionários de sua confiança, podendo os salários variarem de 1.200 reais a mais de 8.000 reais. Segue um exemplo: o Presidente da Câmara dos Deputados do Congresso Nacional tem o direito a contratar 46 pessoas na forma de CNE, e cada um dos 7 membros da mesa diretora da Câmara tem direito a 33 cargos, além de 11 cargos para cada um dos 4 suplentes da mesa, perfazendo um total de 321 CNEs. Com base neste exemplo fica evidente a importância da sociedade fiscalizar os critérios de nomeação, a justificativa dos gastos e o desempenho dos CNEs, pois infelizmente ainda são muito utilizados para atender a interesses restritos de quem nomeia e do pequeno grupo favorecido, ao invés de suprirem alguma demanda técnica da administração pública.
QUADRO ESPEC.-QE/MRE: Não encontrei uma definição precisa mas aparentam ser algo relacionados a diplomacia.
EXERC DESCENT CARREI: Servidores das carreiras típicas de Estado vinculadas aos Ministérios do Planejamento, Orçamento e Gestão e Ministério da Fazenda que exercem as suas atividades na UJ mediante exercício descentralizado de atividade.
CEDIDO: O servidor da Administração Pública Federal poderá ser cedido a outro órgão ou entidade de qualquer ente federativo, incuindo as empresas públicas e sociedades de economia mista, para o exercício de cargo em comissão ou função de confiança e, ainda, nos termos de leis específicas.
COLABORADOR ICT: Também não encontrei informações sobre, mas parece estar relacionado à Inovação, Ciência e Tecnologia.

Voltando aos nossos CCs: existe diferença na distribuição de salários entre CCs e servidores ativos?

df2 <- filter(df, SITUACAO_VINCULO %in% c("ATIVO PERMANENTE", "NOMEADO CARGO COMIS."))
  
ggplot(df2, aes(SALARIO)) +
  geom_histogram(binwidth = 1000, fill = cor1) +
  facet_grid(SITUACAO_VINCULO ~ ., scales = "free_y") +
  xlim(0, 35000) +
  labs(title = "Distribuição dos salários de acordo com o vínculo", x = "Salário", y = "Frequência") +
  theme_bw()

O interessante aqui é que, sob nenhuma hipótese, é possível afirmar que a distribuição dos salários para os CCs é normal.

Próxima pergunta: existe uma relação entre o número de cargos comissionados e o número total de servidores por estado?

df2 %>%
  group_by(UF_EXERCICIO, SITUACAO_VINCULO) %>%
  summarise(quantidade = n()) %>%
  ggplot(aes(x = UF_EXERCICIO, y = quantidade)) +
    geom_bar(stat = "identity", fill = cor1) +
    facet_grid(SITUACAO_VINCULO ~ ., scales = "free_y") +
    labs(title = "Quantidade de servidores por estado e por vínculo", x = "", y = "Quantidade de servidores")

Deu para perceber a aberração que existe no Distrito Federal, não deu? O DF possui mais de 5000 CCs, enquanto que o segundo estado com mais servidores do tipo, o RJ, tem cerca de 500.

E em relação aos salários?

df2 %>%
  group_by(REGIAO, UF_EXERCICIO, SITUACAO_VINCULO) %>%
  summarise(salario = median(SALARIO)) %>%
  ggplot(aes(x = UF_EXERCICIO, y = salario, fill = REGIAO)) +
    geom_bar(stat = "identity") +
    facet_grid(SITUACAO_VINCULO ~ ., scales = "free_y") +
    labs(title = "Salário mediano por estado\n e vínculo do servidor", x = "", y = "Salário (R$)") +
    theme_bw() +
    theme(legend.position = "bottom", legend.title = element_blank())

Como já havia comentado no terceiro post da série, a situação dos CCs no Ceará é estranha: lá, eles têm o maior salário mediano (R$ 8554, 70) dentre os CCs do Brasil, mais de R$ 3000,00 de diferença para o segundo lugar, Sergipe.

Por hoje é só!

Transparência (6): Quem são os 1% do funcionalismo público?

Sun, 24 Jan 2016 00:00:00 +0000

Transparência (6): Quem são os 1% mais ricos do funcionalismo público?

Para quem não entendeu a referência.

library(ggplot2)
library(dplyr)
library(reshape2)
library(lubridate)
library(htmlTable)
df <- read.csv2("/home/sillas/R/data/transparenciaComSalarios.csv", stringsAsFactors = FALSE, fileEncoding = "ISO-8859-15")

Você já teve curiosidade em saber quem são os funcionários públicos mais ricos do Brasil? O sexto post da série de artigos sobre dados do Portal da Transparência será dedicado a eles.

Primeiramente, quantos servidores compõem o 1%?

paste0("O número total de servidores é: ", nrow(df))

## [1] "O número total de servidores é: 518270"

paste0("A quantidade de servidores do 1% é: ", round(nrow(df)*0.01))

## [1] "A quantidade de servidores do 1% é: 5183"

Temos, então, que classificar os servidores em ordem decrescente de salário e criar um data frame separado para os servidores do 1% selecionando as primeiras 5183 linhas.

umPorCento <- df[order(-df$SALARIO),]
umPorCento <- umPorCento[1:5183,]

Todo o movimento do Occupy Wall Street começou baseado no fato que 1% da população americana detem cerca de 25% da massa salarial dos Estados Unidos. Quanto deve ser esse valor tomando no contexto do funcionalismo federal?

# Salário dos 1%
sum(umPorCento$SALARIO)

## [1] 146524625

# Salário total
sum(df$SALARIO)

## [1] 4377796333

# Porcentagem
round(100*(sum(umPorCento$SALARIO)/sum(df$SALARIO)),2)

## [1] 3.35

Os 1% dos servidores mais ricos detem 3,35% dos salários somados de todos os servidores federais. Comparado com a população americana, estamos mais distribuídos.

Estados Unidos a parte, quem são os 1%? Para traçar o perfil médio dos servidores do grupo, vamos analisar:

1. Onde eles estão?

temp <- umPorCento %>%
  group_by(UF_EXERCICIO, REGIAO) %>%
  summarise(quantidade = n())

ggplot(temp, aes(x = reorder(UF_EXERCICIO, -quantidade), y = quantidade, fill = REGIAO)) +
    geom_bar(stat = "identity") +
    labs(title = "Quantidade de\n servidores por estado", x = "", y = "") +
   theme(legend.position = "bottom", legend.title = element_blank())

Melhor do que apresentar esses resultados isolados é comparar com os resultados apresentados no primeiro post desta série. Para isso, ao invés de trabalhar com quantidade, veremos o porcentual de servidores que está alocado em cada UF.

temp2 <- df %>%
  group_by(UF_EXERCICIO, REGIAO) %>%
  summarise(quantidadeNormal = n())

# transformar quantidade em porcentagem do total
temp$quantidade <- 100*temp$quantidade/sum(temp$quantidade)
temp2$quantidadeNormal <- 100*temp2$quantidadeNormal/sum(temp2$quantidadeNormal)


comparacao <- merge(temp, temp2, by = "UF_EXERCICIO")


temp3 <- select(comparacao, UF_EXERCICIO, REGIAO = REGIAO.x, quantidade1 = quantidade, quantidadeNormal)

temp3 <- melt(temp3, id.vars = c("UF_EXERCICIO", "REGIAO"))

#mudar nome do fator para aparecer bonito no gráfico
levels(temp3$variable) <- c("Grupo dos 1%", "Total geral")

ggplot(temp3, aes(x = UF_EXERCICIO, y = value, fill = variable)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Porcentual da quantidade de\n servidores por estado", x = "", y = "%") +
  theme(legend.position = "bottom", legend.title = element_blank())

Mais uma vez o DF desponta como anomalia, onde mais de 35% dos servidores mais ricos estão alocados.

2. Em quais cargos trabalham?

temp <- umPorCento %>%
  group_by(ORG_LOTACAO) %>%
  summarise(quantidade = n())


temp2 <- df %>%
  group_by(ORG_LOTACAO) %>%
  summarise(quantidadeNormal = n())
  


# transformar quantidade em porcentagem do total
temp$quantidade <- 100*temp$quantidade/sum(temp$quantidade)
temp2$quantidadeNormal <- 100*temp2$quantidadeNormal/sum(temp2$quantidadeNormal)

# filtrar 20 maiores de cada
temp <- temp %>%
  top_n(20)

temp2 <- temp2 %>%
  top_n(20)

comparacao <- merge(temp, temp2, by = "ORG_LOTACAO")
temp3 <- select(comparacao, ORG_LOTACAO, quantidade1 = quantidade, quantidadeNormal)

temp3 <- melt(temp3, id.vars = "ORG_LOTACAO")

#mudar nome do fator para aparecer bonito no gráfico
levels(temp3$variable) <- c("Grupo dos 1%", "Total geral")

ggplot(temp3, aes(x = ORG_LOTACAO, y = value, fill = variable)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Porcentual da quantidade de\n servidores por órgão", x = "", y = "%") +
  coord_flip() +
  theme(legend.position = "bottom", legend.title = element_blank())

Também há uma discrepância notável aqui: Enquanto que apenas 1,5% dos servidores federais trabalha na AGU, no grupo dos 1% esse percentual sobe para 9%.

3. Qual cargo desempenham?

umPorCento %>%
  group_by(DESCRICAO_CARGO) %>%
  summarise(quantidade = n()) %>%
  mutate(percentual = 100*quantidade/sum(quantidade)) %>%
  na.omit() %>%
  top_n(20) %>%
  ggplot(aes(x = reorder(DESCRICAO_CARGO, percentual), y = percentual)) +
    labs(title = "Porcentual da quantidade de\n servidores por cargo", x = "", y = "%") +
    coord_flip() +
    geom_bar(stat = "identity")

Curiosamente, a maioria dos 1% são professores de universidades federais. Pelo visto não é todo professor que ganha pouco…

4. A quanto tempo estão no cargo?

CalcAnos <- function(t0, t=today()) {
    x <- interval(t0, t)
    x <- as.period(x)
    x <- ceiling(year(x) + month(x)/12)
    return(x)
}


umPorCento$anos <- umPorCento$DATA_DIPLOMA_INGRESSO_SERVICOPUBLICO %>% dmy() %>% CalcAnos
df$anos <- df$DATA_DIPLOMA_INGRESSO_SERVICOPUBLICO %>% dmy() %>% CalcAnos

par(mfrow=c(2,2))
hist(umPorCento$anos, main = "Tempo trabalhando para o Estado\n(Grupo dos 1%)", xlab = "Anos")
hist(df$anos, main = "Tempo trabalhando para o Estado\n(Geral)", xlab = "Anos")
boxplot(umPorCento$anos, main = "Tempo trabalhando para o Estado\n(Grupo dos 1%)", ylab = "Anos")
boxplot(df$anos, main = "Tempo trabalhando para o Estado\n(Geral)", ylab = "Anos")

Aqui temos o esperado: O tempo médio e mediano no funcionalismo público é maior para os 1% do que para o geral.

5. Qual a natureza de seus vínculos com o Estado?

temp <- umPorCento %>%
  group_by(SITUACAO_VINCULO) %>%
  summarise(quantidade = n()) 


temp2 <- df %>%
  group_by(SITUACAO_VINCULO) %>%
  summarise(quantidadeNormal = n())
  


# transformar quantidade em porcentagem do total
temp$quantidade <- 100*temp$quantidade/sum(temp$quantidade)
temp2$quantidadeNormal <- 100*temp2$quantidadeNormal/sum(temp2$quantidadeNormal)

# filtrar 20 maiores de cada
temp <- temp %>%
  top_n(20)

temp2 <- temp2 %>%
  top_n(20)

comparacao <- merge(temp, temp2, by = "SITUACAO_VINCULO")
temp3 <- select(comparacao, SITUACAO_VINCULO, quantidade1 = quantidade, quantidadeNormal)

temp3 <- melt(temp3, id.vars = "SITUACAO_VINCULO")

#mudar nome do fator para aparecer bonito no gráfico
levels(temp3$variable) <- c("Grupo dos 1%", "Total geral")

ggplot(temp3, aes(x = SITUACAO_VINCULO, y = value, fill = variable)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Porcentual da quantidade de\n servidores por situação do vínculo", x = "", y = "%") +
  coord_flip() +
  theme(legend.position = "bottom", legend.title = element_blank())

Mais uma grande descoberta: O porcentual de servidores das categorias “APOSENTADO”, “EXERC DESCENT CARREI” (que são servidores das carreiras típicas de Estado vinculadas aos Ministérios do Planejamento, Orçamento e Gestão e Ministério da Fazenda que exercem as suas atividades na UJ mediante exercício descentralizado de atividade) e “REQUISITADO” (servidores que exercem atividades na UJ em razão de haverem sido requisitados conforme previsão do art. 93, inciso II, da Lei n.º 8.¹¹²⁄₉₀) é muito maior no grupo dos 1% do que no geral.

É só ver o resultado acima para o grupo dos aposentados para saber o que tem de errado com nossa previdência.

6. Afinal de contas, quem é o que ganha mais?

umPorCento %>% select(-ID_SERVIDOR_PORTAL, -V1, -x) %>% top_n(1, SALARIO) %>% t %>% htmlTable()

UF_EXERCICIO	DF
NOME	MANOEL DIAS
DESCRICAO_CARGO	MINISTRO DE ESTADO
ATIVIDADE
UORG_LOTACAO	MINISTERIO DO TRABALHO E EMPREGO
ORG_LOTACAO	MINISTERIO DO TRABALHO E EMPREGO
ORGSUP_LOTACAO	MINISTERIO DO TRABALHO E EMPREGO
UORG_EXERCICIO	MINISTERIO DO TRABALHO E EMPREGO
ORG_EXERCICIO	MINISTERIO DO TRABALHO E EMPREGO
ORGSUP_EXERCICIO	MINISTERIO DO TRABALHO E EMPREGO
SITUACAO_VINCULO	NATUREZA ESPECIAL
REGIME_JURIDICO	NATUREZA ESPECIAL
JORNADA_DE_TRABALHO	40 HORAS SEMANAIS
DATA_INGRESSO_CARGOFUNCAO	16/03/2013
DATA_INGRESSO_ORGAO	15/03/2013
DATA_DIPLOMA_INGRESSO_SERVICOPUBLICO	15/03/2013
REGIAO	Centro-Oeste
SALARIO	52808.24
anos	3

Por hoje, é só!

Transparência (5): Trabalhando com datas

Mon, 18 Jan 2016 00:00:00 +0000

Transparência (5): Trabalhando com datas

O dataset do Portal da Transparência traz três colunas relacionadas com datas: DATA_INGRESSO_CARGOFUNCAO, DATA_INGRESSO_ORGAO e DATA_DIPLOMA_INGRESSO_SERVICOPUBLICO, as quais geram umas análises curiosas, principalmente se relacionadas com a variável salário.

library(treemap)
library(dplyr)
library(ggplot2)
library(ggrepel)
library(ggthemes)
library(lubridate)
df <- read.csv2("/home/sillas/R/data/transparenciaComSalarios.csv", stringsAsFactors = FALSE, fileEncoding = "ISO-8859-15")

Primeiro, as datas vêm neste formato:

df %>%
  select(DATA_INGRESSO_CARGOFUNCAO, DATA_INGRESSO_ORGAO, DATA_DIPLOMA_INGRESSO_SERVICOPUBLICO) %>%
  head()

##   DATA_INGRESSO_CARGOFUNCAO DATA_INGRESSO_ORGAO
## 1                01/07/2006          01/01/1984
## 2                22/10/2014          20/10/2014
## 3                      <NA>          01/08/2015
## 4                30/11/2014          03/09/2014
## 5                19/05/2010          19/05/2010
## 6                02/02/2009          30/12/2008
##   DATA_DIPLOMA_INGRESSO_SERVICOPUBLICO
## 1                           01/06/1984
## 2                           17/02/2010
## 3                           01/08/2015
## 4                           28/06/2006
## 5                           19/05/2010
## 6                           30/12/2008

O R, nativamente, não reconhece este formato como data e sim como texto. O formato de datas que o R aceita é o americano, YYYYMMDD. Felizmente, o package lubridate torna muito fácil converter as datas:

df <- df %>%
  mutate(dataCargo = dmy(DATA_INGRESSO_CARGOFUNCAO),
         dataOrgao = dmy(DATA_INGRESSO_ORGAO),
         dataServico = dmy(DATA_DIPLOMA_INGRESSO_SERVICOPUBLICO))

Essas três variáveis nos dão o dia em que os servidores começaram a trabalhar. Para termos a quantidade de tempo que se passou desde então, criei duas funções que fazem esse cálculo:

CalcMeses <- function(t0, t=today()) {
    x <- interval(t0, t)
    x <- as.period(x)
    x <- year(x)*12 + month(x)
    return(x)
}

CalcAnos <- function(t0, t=today()) {
    x <- interval(t0, t)
    x <- as.period(x)
    x <- ceiling(year(x) + month(x)/12)
    return(x)
}

df$meses.no.cargo <- CalcMeses(df$dataCargo)
df$meses.no.orgao <- CalcMeses(df$dataOrgao)
df$meses.como.servidor <- CalcMeses(df$dataServico)

df$anos.no.cargo <- CalcAnos(df$dataCargo)
df$anos.no.orgao <- CalcAnos(df$dataOrgao)
df$anos.como.servidor <- CalcAnos(df$dataServico)

Agora podemos começar a fazer algumas perguntas aos nossos dados:

1. Qual o tempo médio (em meses) dos servidores no Brasil?

ggplot(df, aes(x=anos.como.servidor)) +
  geom_histogram(binwidth=1) +
  scale_x_continuous(breaks=c(1, seq(5, max(df$anos.como.servidor, na.rm=T)+1, by=5))) +
  theme_bw() +
  labs(title = "Tempo em que os servidores federais estão trabalhando no Estado",
       x = "Tempo no serviço público em anos", y = "Número de servidores")

Observações:
* A maioria dos servidores tomou posse há 3 anos.
* Existe um número absurdamente grande de servidores com mais de 30 anos no serviço público. Na verdade, é mais comum encontrar um servidor que tenha mais de 30 anos de serviço do que entre 15 a 25.
* Existem alguns outliers que têm mais de 55 anos que causaram a distorção do histograma.

Separado por região e excluindo os outliers:

escala = c(1, seq(5, max(df$anos.como.servidor, na.rm=T)+1, by=5))

ggplot(subset(df, anos.como.servidor <= 50), aes(x=anos.como.servidor)) +
  geom_histogram(binwidth=1) +
  scale_x_continuous(breaks = escala) +
  facet_grid(REGIAO~., scales="free") +
  theme_bw() +
  labs(title = "Tempo em que os servidores federais estão trabalhando no Estado",
       x = "Tempo no serviço público em anos", y = "Número de servidores")

Fica muito fácil detectar a anomalia nos dados: o número de servidores que são funcionários do governo há mais de 35 anos na região Norte é assustador. São mais de 6000, muito mais do que em qualquer região. Na verdade, essa é a faixa de idade com mais pessoas dessa região.

Separado por região, mas mostrado por boxplots:

#Boxplot
# Regiões
ggplot(data=df, aes(x=REGIAO, y=anos.como.servidor, fill=REGIAO)) +
    geom_boxplot() +
    scale_fill_brewer(palette="Set1") +
    guides(fill=FALSE) +
    scale_y_continuous(breaks=escala) +
    labs(title = "Distribuição do tempo no serviço público de acordo com a região", x = "Região", y = "Anos como servidor") +
    theme_bw()

Depois do gráfico acima, acredito que não restam mais dúvidas que o Boxplot é uma ferramenta muito superior ao histograma quando o objetivo é comparar a distribuição de uma mesma variável numérica de acordo com outra variável categórica. Aqui, é muito mais fácil detectar que existe algo muito estranho no Norte: Os servidores de lá têm, em média, 25 anos de serviço público. A diferença para as outras regiões é colossal.

As diferenças ficam ainda mais gritantes quando se faz a estratificação por estado. A linha verde horizontal representa a mediana geral do tempo em que as pessoas do dataset estão trabalhando para o governo:

#: Agrupar estados por região
 
#Vetor de cores:
coresEstados <- c(
  #Norte
  "AM" = "#8dd3c7", "AP"="#ffffb3", "AC" = "#bebada",
  "PA" = "#fb8072", "RO" = "#80b1d3", "RR" = "#fdb462",
  #Nordeste
  "AL" = "#8dd3c7", "BA" = "#ffffb3", "CE" = "#bebada",
  "MA" = "#fb8072", "PB" = "#80b1d3", "PE" = "#fdb462",
  "PI" = "#b3de69", "RN" = "#fccde5", "SE" = "#d9d9d9", "TO" = "#bc80bd",
  #CO
  "DF" = "#8dd3c7", "GO" = "#ffffb3", "MS" = "#bebada", "MT" = "#fb8072",
  #SUDESTE
  "SP" = "#8dd3c7", "RJ" = "#ffffb3", "ES" = "#bebada", "MG" = "#fb8072",
  #SUL
  "PR" = "#b3de69", "SC" = "#fccde5", "RS" = "#d9d9d9"
  )


ggplot(data=df, aes(x=UF_EXERCICIO, y=anos.como.servidor, fill=UF_EXERCICIO)) +
  geom_boxplot() +
  facet_grid(. ~ REGIAO, scales="free") +
  scale_y_continuous(breaks=escala) +
  labs(title="Tempo médio dos servidores no\n funcionalismo público por estado", x="Estado", y="Tempo como servidor em anos") +
  scale_fill_manual(values= coresEstados) +
  guides(fill=FALSE) + 
  geom_hline(aes(yintercept = median(df$anos.como.servidor, na.rm = TRUE)), color = "green") +
  theme(axis.text.x=element_text(angle=45)) +
  theme_bw()

Parem e percebam o quão absurda é a situação em Amapá, que merece dois comentários a parte:
* A mediana é igual a cerca de 37 anos. Na verdade, a distribuição é tão bagunçada que a mediana deixa de fazer sentido aqui nesse contexto.
* Os servidores com menos de 11 anos, que é a mediana geral, são considerados anomalia no estado.
* Em comparação, Tocantins parece ser uma situação oposta ao estado do Norte.

Transparência(4): Análise de salários usando Treemaps

Sun, 17 Jan 2016 00:00:00 +0000

Transparência(4): Análise de salários usando Treemaps

library(treemap)
library(dplyr)
library(ggplot2)
library(ggrepel)
library(ggthemes)
df <- read.csv2("/home/sillas/R/data/transparenciaComSalarios.csv", stringsAsFactors = FALSE, fileEncoding = "ISO-8859-15")

Para este post, continuaremos analisando os salários dos servidores federais, mas agora usando uma visualização chamada Treemap ou Mapa de árvores.

Por exemplo, o gráfico abaixo compara diferentes órgãos públicos de acordo com a quantidade de servidores e o salário médio dos mesmos.

aggSetor <-df %>%
  group_by(ORG_LOTACAO) %>%
  summarise(quantidade = n(),
            salarioMedio = median(SALARIO))

aggSetor$escala <- scale(aggSetor$salarioMedio) #necessário para criar valores negativos para deixar as disparidades mais evidentes

x <- treemap(aggSetor, index = "ORG_LOTACAO", vSize = "quantidade", vColor = "escala",
        type = "value", palette = "-RdGy", lowerbound.cex.labels = 0.3,
        title  =  "Treemap dos salários dos órgãos federais brasileiros")

Interpretação: Com o gráfico acima, aprendemos que:
* O Ministério da Saúde tem muitos servidores mas salários muito baixos.
* O Ministério da Fazenda, a Advocacia-Geral da União e o Banco Central do Brasil são os que possuem os maiores salários.

O treemap é chamado assim por permitir uma visualização fácil de hierarquias, isto é, de variáveis categóricas e seus respectivos subníveis. Além disso, ele é excelente para representar visualmente relações entre duas ou mais variáveis categóricas. Por exemplo, será que existe alguma relação interessante entre o UF e o vínculo do servidor?

treemap(df, index = c("UF_EXERCICIO", "SITUACAO_VINCULO"), vSize = "x")

Aparentemente, tem sim! O número de servidores de Contrário Temporário no RJ e de Cargo Comissionado no DF parecem ser muito grandes. Podemos ratificar isso filtrando fora os servidores ativos:

treemap(subset(df, SITUACAO_VINCULO != "ATIVO PERMANENTE"), index = c("UF_EXERCICIO", "SITUACAO_VINCULO"), vSize = "x")

Vamos conferir essa informação com um gráfico de dispersão:

df %>%
  filter(SITUACAO_VINCULO == "NOMEADO CARGO COMIS.") %>%
  group_by(UF_EXERCICIO) %>%
  summarise(servidores = n(),
            salario = median(SALARIO))  %>%
  ggplot(aes(servidores, salario)) +
    geom_point() +
    geom_text_repel(aes(label = UF_EXERCICIO)) +
    labs(title = "Cargos comissionados de cada estado", x = "Quantidade de servidores", y = "Salário médio") +
    theme_few()

Duas grandes descobertas aqui:
* O DF tem um número assustadoramente grande de CCs (5384), tanto que chega a distorcer o gráfico.
* Os CCs do CE tem um salário médio assustadoramente alto (R$8554,70).

Por hoje é só!

Transparência (3): Em quais estados os salários são mais mal distribuídos?

Mon, 11 Jan 2016 00:00:00 +0000

library(ggplot)
library(ggrepel)
library(ggthemes)
library(dplyr)

Aviso

Este post funciona como um adendo ao anterior, portanto recomendo o ler antes de prosseguir com a leitura.

Assim que eu publiquei o último post, percebi que perdi a oportunidade de analisar o quão diferente são as distribuições dos salários nos estados brasileiros e não só nas regiões. Voltando ao nosso dataset, que dessa vez carrego apenas as colunas de salários e UFs:

df <- read.csv2("/home/sillas/R/data/transparenciaComSalarios.csv", stringsAsFactors = FALSE) %>%
  select(uf = UF_EXERCICIO, salario = SALARIO)

Quais são, então, os estados com as maiores assimetria e curtoses em sua distribuição de salário?

temp <- df %>%
  group_by(uf) %>%
  summarise(assimetria = skewness(salario),
            curtose = kurtosis(salario))

ggplot(temp, aes(x = assimetria, y = curtose)) +
  geom_point() +
  geom_text_repel(aes(label = uf)) +
  theme_few()

Do gráfico de cima tiramos duas conclusões:
* A disparidade do Amapá e, principalmente, de Roraima em relação aos outros estados é colossal. * Existe uma correlação linear entre assimetria e curtose, algo que eu não esperava muito. Podemos checar este dado:

cor(temp$assimetria, temp$curtose)

## [1] 0.9850373

Realmente, a correlação é muito alta.

Voltando aos estados, nada melhor do que plotar uma comparação entre os estados mais díspares e os que a distribuição mais se aproxima do normal (SP e DF):

temp <- filter(df, uf %in% c("RR", "AP", "DF", "SP"))

# Necessário para mudar a ordem dos estados no gráfico
temp$uf <- factor(temp$uf, levels = c("RR", "AP", "DF", "SP"))  


ggplot(temp, aes(salario)) +
  geom_histogram() +
  facet_grid(uf ~., scales = "free") +
  scale_x_continuous(breaks=seq(0, 50000, by=5000)) +
  theme_few() +
  labs(title = "Distribuição do salário dos servidores em certas UFs", x = "Faixa salarial", y = "Frequência")

Agora fica tudo muito claro: Existe uma concentração estranhamente grande de pessoas que ganham cerca de R$5000,00 mensais em comparação com o resto dos servidores do estado.

A presença de outliers que ganha mais de 25000 reais distorce o gráfico, então vale a pena olhar para a mesma distribuição sem eles:

ggplot(subset(temp, salario <= 25000), aes(salario)) +
  geom_histogram(binwidth = 1000) +
  facet_grid(uf ~., scales = "free") +
  scale_x_continuous(breaks=seq(0, 50000, by=5000))  +
  theme_few() +
  labs(title = "Distribuição do salário dos servidores em certas UFs", x = "Faixa salarial", y = "Frequência")

Temos agora ainda mais evidência de um fenômeno muito interessante: os salários em RR e AP são muito mais distribuídos. Na verdade, o que acontece é que a grande maioria dos servidores roraimenses e amapaenses ganham até R$5000,00 e muito poucos ganham mais de R$15000,00.

Transparência (2): Qual o salário médio dos servidores federais?

Sun, 10 Jan 2016 00:00:00 +0000

Transparência (2): Qual o salário médio dos servidores federais?

Este é o segundo post da série de artigos sobre dados do Portal Transparência relativos a de servidores federais. Agora, o foco são os salários.
Outra pequena mudança é que, para os gráficos deste post, ao invés de usar o tema theme_economist(), usarei o theme_wsj(), também incluso no package ggthemes.

library(ggplot2)
library(stringr)
library(ggthemes)
library(dplyr)
library(ggrepel)

Por alguma razão além do meu entendimento, o Portal da Transparência arquiva os dados de salários em um arquivo separado do principal. Iremos agora importá-lo e juntá-lo com o data frame principal, criado no post anterior.

# Basicamente as únicas colunas que importam são a 3ª (ID do servidor) e a 6ª (remuneração bruta)
df <- read.csv2("/home/sillas/R/data/transparencia.csv", fileEncoding = "ISO-8859-15")

salarios <- read.csv2("/home/sillas/Downloads/20150831_Remuneracao.csv",
                      sep="\t", stringsAsFactors=FALSE) %>%  select(3, 6) 


names(salarios) <- c("ID_SERVIDOR_PORTAL", "SALARIO")

names(df) <- str_to_upper(names(df))
df <- merge(df, salarios, by="ID_SERVIDOR_PORTAL")
df$x <- 1


rm(salarios)

Primeiramente, vamos olhar como é a distribuição dos salários dos servidores federais.

ggplot(data=df, aes(x=SALARIO)) +
    geom_histogram(binwidth=1000) +
    scale_x_continuous(breaks=seq(0, 50000, by=5000)) +
    labs(title="Histograma dos salários\n dos servidores",
         x="Salário", y="Quantidade de servidores") +
  theme_wsj()

Com o gráfico acima, é possível aprender que: * Estranhamente, existe uma quantidade anormal (fora da curva) de servidores que ganham aproximadamente entre R$22.000 a RS$24.000,00.
* Percebeu que existe um “breu” após a faixa dos 35000? É porque existem alguns poucos servidores que ganham acima disso, o que distorce o gráfico. Eles são nossos outliers.
* Os salários dos servidores não seguem uma distribuição normal (ver comparação abaixo);

ggplot(data=df, aes(x=SALARIO)) +
    geom_histogram(binwidth=1000, aes(y=..density..)) +
    scale_x_continuous(breaks=seq(0, 50000, by=5000)) +
    labs(title="Distribuição dos salários\n dos servidores",
         x="Salário", y="Proporção") +
    stat_function(fun=dnorm, color="red", arg=list(mean=mean(df$SALARIO), sd=sd(df$SALARIO)))+
    theme_wsj()

Será que os salários variam de acordo com a região? Existem diferentes visualizações que podem ser usadas para fazer essa comparação.

Histogramas

ggplot(data=df, aes(x=SALARIO)) +
  geom_histogram(binwidth=1000) +
  facet_grid(REGIAO~., scales = "free_y") +  #TESTE
  scale_x_continuous(breaks=seq(0, 50000, by=5000)) +
  theme_wsj() +
  labs(title = "Distribuição dos salários\n por região")

ggplot(data=df, aes(x=SALARIO)) +
    geom_histogram(binwidth=1000, aes(y=..density..)) +
    facet_grid(REGIAO~., scales = "free_y") + 
    scale_x_continuous(breaks=seq(0, 50000, by=5000)) +
    stat_function(fun=dnorm, color="red", arg=list(mean=mean(df$SALARIO), sd=sd(df$SALARIO)))+
    scale_y_continuous(breaks=NULL) +
    theme_wsj()

Com os gráficos acima, é possível inferir que: * A diferença entre as distribuições dos salários se mantém constante nas diferentes faixas salariais.
* Na região Norte, existe uma quantidade anormalmente alta de pessoas que ganham por volta de 5000 reais.
* No geral, os salários no Norte são bem baixos. A proporção de servidores que ganham acima de 10000 reais nessa região é muito menor que nas outras.

A distribuição dos salários da região Norte aparenta ser a que mais difere de uma distribuição normal. É possível quantificar essa diferença por meio de duas métricas:

Assimateria (skewness)

De acordo com Fonseca (2011) dá-se a nomenclatura de assimetria ao grau de afastamento de uma distribuição da unidade de assimetria. Uma Distribuição é Simétrica quando seus valores de Média, Mediana e Moda coincidem. A comparação entre o valor da Média e o valor da Moda, dá, portanto, uma indicação da inclinação da distribuição.

Curtose (kurtoses).

Dá-se o nome de curtose ao grau de achatamento da distribuição: (a) Quando a distribuição apresenta uma curva de frequência mais fechada (mais aguda em sua parte superior), ela é denominada Leptocúrtica (Lepto = Delgado, Alongado, Magro, etc.) (b) A distribuição de referência (Distribuição Normal) é denominada Mesocúrtica (Meso = Meio, Central, etc.). © Quando a distribuição apresenta uma curva de frequência mais aberta (mais achatada em sua parte superior), ela é denominada Platicúrtica (Plato = Chato, Plano, Largo, etc.).

Gráfico ou Diagrama de caixas (Boxplots)

Outra maneira de visualizar a variação da distribuição de uma variável contínua em diferentes categorias é por meio de gráficos de caixas.

O diagrama de caixa é uma ferramenta para localizar e analisar a variação de uma variável dentre diferentes grupos de dados. O diagrama de caixa procura obter as seguintes informações:
* Calcular a mediana e os quartis ( o quartil inferior contém 25% ( ¹⁄₄) das menores medidas e o quartil superior contém 75 ( ³⁄₄) de todas as medidas);
* Plotar um símbolo onde se localiza a mediana e uma caixa, daí o nome de diagrama de caixas, onde a base representa o quartil inferior ( 25% ou ¹⁄₄) dos menores valores), e o topo da caixa o quartil superior (75% ou ³⁄₄) dos valores observados. A caixa portanto representa 50% de todos os os valores observados ,concentrados na tendência central dos valores, eliminando os 25% menores valores e 25% maiores valores ( 75% - 25% = 50%);
* Um segmento de reta vertical conecta o topo da caixa ao maior valor observado e outro segmento conecta a base da caixa ao menor valor observado, este segmento denomina-se Whisker, ou fio de bigode.

Fonte

Vamos analisar a distribuição de salários dos servidores de acordo com as regiões e os estados.

#1: Regiões
ggplot(data=df, aes(x=REGIAO, y=SALARIO, fill=REGIAO)) +
  geom_boxplot() +
  scale_fill_brewer(palette="Set1") +
  guides(fill=FALSE) +
  theme_wsj() +
  labs(title = "Distribuição dos salários por região")

#2: Agrupar estados por região
# Defini um vetor de cores para cada estado para facilitar a visualização
coresEstados <- c(#Norte
                  "AM" = "#8dd3c7", "AP"="#ffffb3", "AC" = "#bebada",
                  "PA" = "#fb8072", "RO" = "#80b1d3", "RR" = "#fdb462",
                   #Nordeste
                  "AL" = "#8dd3c7", "BA" = "#ffffb3", "CE" = "#bebada",
                  "MA" = "#fb8072", "PB" = "#80b1d3", "PE" = "#fdb462",
                  "PI" = "#b3de69", "RN" = "#fccde5", "SE" = "#d9d9d9",
                  "TO" = "#bc80bd",
                  #CO
                  "DF" = "#8dd3c7", "GO" = "#ffffb3", "MS" = "#bebada", "MT" = "#fb8072",
                  #SUDESTE
                  "SP" = "#8dd3c7", "RJ" = "#ffffb3", "ES" = "#bebada", "MG" = "#fb8072",
                  #SUL
                  "PR" = "#b3de69", "SC" = "#fccde5", "RS" = "#d9d9d9"
                  )

ggplot(data=df, aes(x=UF_EXERCICIO, y=SALARIO, fill=UF_EXERCICIO)) + geom_boxplot() + facet_grid(. ~ REGIAO, scales="free_x") +
    scale_y_continuous(breaks=seq(0, 50000, by=5000)) + 
    scale_fill_manual(values= coresEstados) +
  theme_wsj() +
  labs(title = "Distribuição dos salários por estado") +
  guides(fill = FALSE)

Por meio dos dois gráficos acima, aprendemos que:
* A grande maioria dos outliers pertence ao Centro-Oeste, onde estão os três maiores salários de servidores do Brasil.
* A “caixa” referente ao Norte é a mais achatada, o que mostra, mais uma vez, o quão anormalmente concentrada é a distribuição dos salários na região.
* São Paulo aparenta ter o maior salário médio (calculado pela mediana), enquanto que Roraima e Amapá possuem os menores. Além disso, o salário médio paulista difere muito do observado em outros estados no Sudeste. De fato:

df %>%
  group_by(UF_EXERCICIO, REGIAO) %>%
  summarise(salarioMedio = round(median(SALARIO),0)) %>%
  ggplot(aes(x = salarioMedio, y = reorder(UF_EXERCICIO, salarioMedio))) +
  geom_point() +
  geom_segment(aes(yend = UF_EXERCICIO, xend = 0)) +
  facet_grid(REGIAO ~., drop = TRUE, scales = "free_y") +
  geom_text(aes(label = salarioMedio, hjust = -0.3)) +
  labs(title = "Salário médio por UF") +
  theme_wsj()

Será que existe alguma correlação entre o salário médio e o número de servidores do estado? Vamos tentar responder isso com um gráfico de dispersão comum, onde eu uso um recurso do package recém criado ggrepel:

temp <- df %>%
  group_by(UF_EXERCICIO) %>%
  summarise(salarioMedio = round(median(SALARIO),2),
            numeroDeServidores = n())

ggplot(temp, aes(numeroDeServidores, salarioMedio)) +
  geom_point() +
  geom_text_repel(aes(label = UF_EXERCICIO)) +
  geom_vline(xintercept = median(temp$numeroDeServidores)) +
  geom_hline(yintercept = median(df$SALARIO)) +
  labs(title = "Salário médio e número\n de servidores\n por estado", x = "Número de Servidores", y = "Salário Médio") +
  theme_wsj()

Não é possível detectar nenhum padrão muito significativo.

Nos vemos no próximo post!

Transparência (1): Qual estado brasileiro tem o maior número de servidores federais?

Sun, 15 Nov 2015 00:00:00 +0000

Transparência (1): Qual estado brasileiro tem o maior número de servidores federais?

1 - Introdução

Alguns dos datasets brasileiros mais interessantes podem ser encontrados no Portal da Transparência, no qual é possível obter dados sobre:

gastos diretos do Governo Federal (desde 2004 - exceto Cartão de Pagamentos - desde 2002)
transferências de recursos a Estados e Municípios (desde 2004)
convênios com pessoas físicas, jurídicas ou entes governamentais (desde 1996)
previsão e arrecadação de receitas (desde 2009)
servidores do Governo Federal.

É por esse último item que mais me interessei no momento e sobre o qual publicarei uma série de posts nos próximos dias.

Os dados foram baixados deste endereço e correspondem ao mês de Agosto, que era a opção mais recente disponível até então.

A pasta zipada baixada contém cinco arquivos, dentre os quais só usaremos dois: 20150831-Cadastro.csv e 20150831-Remuneracao.csv. Ambos contem 44 variáveis e cerca de 700 mil linhas, mais a maioria delas não são muito importantes neste contexto.

2. Importação e limpeza dos dados

Após carregar as bibliotecas que serão usadas, hora de carregar os dados. Essa foi a primeira vez que eu trabalhei com um dataset tão grande no R. O arquivo pesa mais de 370 MB e demorou mais de um minuto para ser carregado. Imagina se fosse no Excel..

Ao notar que o carregamento dos dados demorava muito, usei uma solução que aprendi em fóruns sobre o R: importar apenas as colunas necessárias usando dplyr. Menos da metade das colunas presentes no arquivo csv original serão usadas na análise e o ato de filtrá-las fora agiliza em muito a importação para o R. Confira a comparação:

# Teste 1: Importar tudo
system.time(df <- read.csv("C:/R/data/201508_Servidores/20150831_Cadastro.csv", sep="\t", stringsAsFactors = FALSE))

##    user  system elapsed 
##   42.68    0.70   43.93

# Teste 2: importar apenas colunas importantes
system.time(df <- read.csv("C:/R/data/201508_Servidores/20150831_Cadastro.csv",
                           sep="\t", stringsAsFactors = FALSE) %>%
              select(-DIPLOMA_INGRESSO_CARGOFUNCAO, -DATA_NOMEACAO_CARGOFUNCAO,
             -REFERENCIA_CARGO, -COD_AFASTAMENTO, -COD_GRUPO_AFASTAMENTO,
             -NIVEL_CARGO, -COD_UORG_EXERCICIO, -COD_UORG_LOTACAO, -OPCAO_PARCIAL,
             -DIPLOMA_INGRESSO_SERVICOPUBLICO, -DIPLOMA_INGRESSO_ORGAO,
             -DOCUMENTO_INGRESSO_SERVICOPUBLICO, -DATA_INICIO_AFASTAMENTO,
             -DATA_TERMINO_AFASTAMENTO, -TIPO_VINCULO, -COD_ORGSUP_EXERCICIO,
             -COD_ORG_EXERCICIO, -COD_ORGSUP_LOTACAO, -COD_ORG_LOTACAO,
             -CPF, -MATRICULA, -FUNCAO, -CLASSE_CARGO, -PADRAO_CARGO,
             -SIGLA_FUNCAO, -NIVEL_FUNCAO, -CODIGO_ATIVIDADE)
)

##    user  system elapsed 
##   37.34    0.56   38.31

Cada linha do df corresponde a um servidor e cada uma das variáveis corresponde a um atributo do mesmo.

Primeiro ponto a ser analisado: qual a qualidade dos dados? Quantas variáveis tem muitos valores vazios ou nulos?

##                   Id_SERVIDOR_PORTAL                                 NOME 
##                                    0                                    0 
##                        ORG_EXERCICIO                     ORGSUP_EXERCICIO 
##                                    4                                    4 
##                     SITUACAO_VINCULO                      REGIME_JURIDICO 
##                                    4                                    4 
##                  JORNADA_DE_TRABALHO DATA_DIPLOMA_INGRESSO_SERVICOPUBLICO 
##                                    4                                    4 
##                          ORG_LOTACAO                       ORGSUP_LOTACAO 
##                                   14                                   14 
##                  DATA_INGRESSO_ORGAO            DATA_INGRESSO_CARGOFUNCAO 
##                                 2799                                47192 
##                         UORG_LOTACAO                      DESCRICAO_CARGO 
##                               120819                               154017 
##                       UORG_EXERCICIO                         UF_EXERCICIO 
##                               165589                               189437 
##                            ATIVIDADE 
##                               688290

Visto que é possível que um mesmo servidor tenha mais de um cargo público (por exemplo, uma pessoa pode ser professora de universidade federal e chefe de seu departamento), é necessário excluir os servidores repetidos.

length(df$Id_SERVIDOR_PORTAL) #Quantidade de IDs de servidores no arquivo

## [1] 795107

length(unique(df$Id_SERVIDOR_PORTAL)) #Quantidade de IDs únicas

## [1] 681266

100 * length(unique(df$Id_SERVIDOR_PORTAL)) / 605670 # Porcentual de IDs únicas

## [1] 112.4814

df <- df[!duplicated(df$Id_SERVIDOR_PORTAL), ]

Uma informação não presente no relatório é a região do Servidor. Isso é facilmente inserido manualmente pelo R (aliás, um bom exercício seria a criação de uma library com datasets brasileiros).

UF_EXERCICIO = sort(unique(na.omit(df$UF_EXERCICIO)))
br <- data.frame(UF_EXERCICIO)
br$REGIAO <- c('Norte', 'Nordeste', 'Norte', 'Norte', 'Nordeste', 'Nordeste', 'Centro-Oeste', 'Sudeste', 'Centro-Oeste', 'Nordeste', 'Sudeste', 'Centro-Oeste', 'Centro-Oeste', 'Norte', 'Nordeste', 'Nordeste', 'Nordeste', 'Sul', 'Sudeste', 'Nordeste', 'Norte', 'Norte', 'Sul', 'Sul', 'Nordeste', 'Sudeste', 'Nordeste')

df <- merge(df, br, by="UF_EXERCICIO")

Observação: notei um comportamento estranho do R. Ao fazer o merge(), ele automaticamente deleta todas as linhas onde o valor da variável UF_EXERCÍCIO é nulo. Como isso não implica um grande prejuízo para a análise, iremos proseguir mesmo assim.

Vamos agora à exploração básica de dados. Primeira pergunta: qual estado tem o maior número de servidores públicos?

temp <- df %>%
    select(UF_EXERCICIO, REGIAO) %>%
    mutate(Estado = UF_EXERCICIO) %>%
    group_by(Estado, REGIAO) %>%
    summarise(numero.servidores = n())

    ggplot(data=temp, aes(x=reorder(Estado, numero.servidores), y=numero.servidores, fill=REGIAO)) +
        geom_bar(stat="identity") + coord_flip() +
        labs(title="Número de servidores por Estado", x="", y="Número de servidores") +
        theme_economist() +
        scale_fill_economist()

#Gráfico por região
df %>%
    select(REGIAO) %>%
    group_by(REGIAO) %>%
    summarise(numero.servidores = n()) %>%
     ggplot(aes(x=reorder(REGIAO, numero.servidores) , y=numero.servidores)) +
        geom_bar(stat="identity") + coord_flip() +
        labs(title="Número de servidores por Estado", x="", y="Número de servidores") +
        theme_economist()

É claro que a população de cada estado tem uma grande influência no resultado anterior… será? Para tirar a dúvida, aqui vai um gráfico de proporção de servidores em cada estado. A tabela com a população de cada estado foi extraída manualmente da Wikipedia.

pop <- read.csv2("C:/R/data/201508_Servidores/populacao.csv", stringsAsFactors = FALSE)
names(pop) <- c("Estado", "População")
temp <- merge(temp, pop, by="Estado")
temp$Proporcao = round(1000*(temp$numero.servidores/temp$População),2)

    ggplot(data=temp, aes(x=reorder(Estado, temp$Proporcao), y=temp$Proporcao, fill=REGIAO)) +
        geom_bar(stat="identity") + coord_flip() +
        labs(title="Proporção de servidores por Estado", x="Estado", y="Proporção da população \n que é funcionário público") +
        theme_economist()

Os resultados são muito interessantes. Mais de um quarto dos habitantes do Distrito Federal são funcionários públicos. Roraima, Amapá e Rio de Janeiro também parecem ter máquinas públicas inchadas.

Para finalizar, vou salvar o data frame criado para posteriores análises.

df %>% as.data.frame() %>% write.csv2(file = "C:/R/data/201508_Servidores/transparencia.csv", row.names = FALSE)

O novo arquivo tem 191 MB, 48% a menos que o original.