Paixão por Dados

Mapeando a abertura de escolas municipais em São Paulo ao longo dos anos com um GIF

Mon, 14 May 2018 00:00:00 +0000

Pessoas adoram mapas. Sempre que puder fazer mapas para representar visualmente uma determinada informação, faça!

Suponha que você deseja fazer uma visualização da taxa de homicídio por estados brasileiros. Nada te impede de fazer um gráfico de barras, onde cada UF seria representado por uma barra cujo tamanho seria dependente do valor da taxa, mas teria um impacto visual menor em que cada estado estaria colorido de acordo com essa variável.

Contudo, em algumas situações, um mapa é a única maneira possível de transmitir com clareza uma ideia. Esta é a ideia deste post: mostrar como um mapa pode ser útil para mostrar a evolução das abertudas de escolas municipais na cidade de São Paulo.

Coleta e limpeza dos dados

Eu já tive a oportunidade de participar de uma palestra do pessoal da Secretaria Municipal de Educação de São Paulo, onde conheci suas iniciativas de dados abertos. Esses projetos são benéficos não só para a população como um todo, por toda a questão da transparência, mas especialmente para quem deseja desenvolver projetos para praticar análise de dados, ganhando assim experiência real para lidar com tarefas de limpeza, manuseio e visualização de dados.

O dataset de interesse deste post é o Cadastro de escolas municipais, conveniadas e privadas.

# pacotes
library(tidyverse)
library(ggmap)
library(gganimate)
library(lubridate)

# definir locale para lidar com caracteres especiais
lcl <- locale(encoding = "ISO-8859-1")
df <- read_csv2("/home/sillas/R/Projetos/paixaopordados-blogdown/data/escolasr34dez2017.csv",
                locale = lcl)

# dimensoes do dataset
dim(df)

## [1] 6878   53

O dataset possui 53 colunas, mas só precisamos de realmente 3: as colunas de coordenadas geográficas e a de data de fundação das escolas.

df <- df %>% 
  select(DATA = DT_CRIACAO, LAT = LATITUDE, LON = LONGITUDE)

knitr::kable(head(df))

DATA	LAT	LON
13-jun-88	-23553905	-46398452
04-jul-88	-23489728	-46670198
05-jul-88	-23478312	-46427344
27-mai-88	-23612237	-46749888
22-jun-88	-23486142	-46733901
07-jun-88	-23611929	-46750176

O output acima revela a necessidade de alguns ajustes de limpeza: converter a coluna DATA para a classe Date e dividir as colunas de latitude e longitude por um milhão para obter os valores corretos.

A transformação da coluna DATA poderia ser feita por funções automáticas, como a strptime, mas isso dependeria de algumas configurações internas do seu sistema operacional. Por isso, eu uso uma solução mais manual:

converter_mes <- function(x){
  nomes <- c("jan", "fev", "mar", "abr", "mai", "jun",
             "jul", "ago", "set", "out", "nov", "dez")
  
  numeros <- str_pad(1:12, width = 2, pad = "0")
  
  x <- str_replace_all(x, nomes[1], numeros[1])
  x <- str_replace_all(x, nomes[2], numeros[2])
  x <- str_replace_all(x, nomes[3], numeros[3])
  x <- str_replace_all(x, nomes[4], numeros[4])
  x <- str_replace_all(x, nomes[5], numeros[5])
  x <- str_replace_all(x, nomes[6], numeros[6])
  x <- str_replace_all(x, nomes[7], numeros[7])
  x <- str_replace_all(x, nomes[8], numeros[8])
  x <- str_replace_all(x, nomes[9], numeros[9])
  x <- str_replace_all(x, nomes[10], numeros[10])
  x <- str_replace_all(x, nomes[11], numeros[11])
  x <- str_replace_all(x, nomes[12], numeros[12])
  
  x
  
}

Escrita a função, passo para a transformação das colunas:

df <- df %>% 
  mutate(DATA_CLEAN = dmy(converter_mes(DATA)),
         LAT = LAT/1e6,
         LON = LON/1e6
         ) %>% 
  mutate(ANO = year(DATA_CLEAN)) %>% 
  # remover linhas onde LAT ou LON é NA
  na.omit()

summary(df)

##      DATA                LAT              LON           DATA_CLEAN        
##  Length:4576        Min.   :-23.89   Min.   :-47.05   Min.   :1969-01-30  
##  Class :character   1st Qu.:-23.63   1st Qu.:-46.71   1st Qu.:2004-10-24  
##  Mode  :character   Median :-23.57   Median :-46.63   Median :2011-10-23  
##                     Mean   :-23.57   Mean   :-46.60   Mean   :2008-10-17  
##                     3rd Qu.:-23.51   3rd Qu.:-46.48   3rd Qu.:2015-05-08  
##                     Max.   :-22.89   Max.   :-46.37   Max.   :2068-12-12  
##       ANO      
##  Min.   :1969  
##  1st Qu.:2004  
##  Median :2011  
##  Mean   :2008  
##  3rd Qu.:2015  
##  Max.   :2068

Surgiu um novo erro: a coluna ANO possui valores acima do ano atual (2018). Isso provavelmente foi causado na conversão de datas como 30/08/68, que o R retornou 2068 ao invés de 1968. Sinceramente, não parei para investigar o motivo disso, até porque é facilmente consertado:

df <- df %>% 
  mutate(ANO = if_else(ANO > year(today()), ANO - 100, ANO))

Apresentação dos dados

Primeiramente, qual a distribuição da abertura de novas escolas por ano?

df %>% 
  count(ANO) %>% 
  ggplot(aes(x = ANO, y = n)) + 
  geom_col(fill = "darkorange1") + 
  theme_minimal() +
  labs(x = NULL, y = NULL,
       title = "Quantidade de escolas fundadas por ano em São Paulo") +
  scale_x_continuous(breaks = scales::pretty_breaks(n = 10))

A grande maioria das escolas foi criada a partir do ano de 2005. Confesso que esperava uma distribuição mais uniforme.

Criando o mapa

Existem diversas maneiras de criar um mapa no R. O melhor método depende basicamente do tipo de dados que se tem em mãos. Caso seja necessário, por exemplo, plotar polígonos, áreas e fronteiras, o indicado é o combo do pacote sf e da função ggplot2::geom_sf. No nosso caso, como estamos interessados em plotar pontos e já possuímos os dados das coordenadas geográficas, uma das melhores opções é usar o pacote ggmap.

Para criar um mapa, são necessários dois parâmetros iniciais: um ponto central e um nível de zoom, que define a escala do gráfico.

# para o centro de sp, usei as coordenadas da praca da se, que peguei no google maps
praca_se <- c(lon = -46.634123, lat = -23.548408)
# o zoom é calculado pela funcao calc_zoom do ggmap
zoom_sp <- calc_zoom(lon = LON, lat = LAT, data = df)

Apenas com esses dois parâmetros, já é possível plotar um mapa base:

mapa_sp <- get_map(location = praca_se,
                   zoom = zoom_sp,
                   maptype = "toner-lite")

ggmap(mapa_sp) +
  # plotar praça da sé
  geom_point(x = praca_se[1], y = praca_se[2], color = "red")

Vamos então adicionar um pouco de vida ao gráfico e plotar todas as escolas presentes no dataset:

ggmap(mapa_sp) +
  geom_point(data = df, aes(x = LON, y = LAT),
             color = "red", alpha = 0.1)

Aparantemente existe uma concentração de escolas perto, entre outras, da área de Itaquaquecetuba. Uma maneira de visualizar densidade de pontos é por meio do geom_density2d:

ggmap(mapa_sp) +
  geom_density2d(data = df, aes(x = LON, y = LAT),
                 color = "red")

Acrescentando o elemento tempo no mapa

Ainda não mostrei como representar o fator tempo na visualização. Penso que isto pode ser feito de três maneiras: colorir as escolas de acordo com o ano de fundação, separar o gráfico em facets por ano ou, minha preferida, criar um gif composto por uma série de gráficos sobrepostos. Fazer isso é muito fácil com o auxílio do pacote gganimate:

Para criar uma sobreposição de gráficos ggplot com o pacote gganimate, basta setar a aesthetic especial frame com o nome da variável que você deseja usar para separar os gráficos em unidades individuais. O argumento cumulative é usado para que as escolas de anos mais recentes permaneçam no gráfico ao longo dos anos:

p <- ggmap(mapa_sp) +
  geom_point(data = df,
             aes(x = LON, y = LAT, frame = ANO,
                 cumulative  = TRUE), color = "red", alpha = 0.1) + 
  labs(x = NULL, y = NULL, title = "Escolas em São Paulo em ")

# o argumento interval define o intervalo de transição do gif em segundos
gganimate(p = p, interval = .075)

Taí! Com o auxílio do gráfico, é possível perceber (pelo menos foi o que vi, vai que é uma miragem) que, de acordo com o dataset, nas primeiras décadas foram priorizadas as áreas mais periféricas de São Paulo. A região mais central aparenta ter recebido mais escolas apenas a partir das últimas duas décadas.

Sobre gráficos e a mensagem que eles querem transmitir

Sun, 26 Nov 2017 00:00:00 +0000

Recentemente, quando estava no trabalhando lendo uma revista de negócios sobre o varejo, me deparei com o seguinte gráfico:

knitr::include_graphics("https://i.imgur.com/f1dh4uw.jpg")

Mesmo sem contexto, é possível perceber que essa visualização foi criada para mostrar a divergência de opiniões sobre a importância dada a fatores de compra pelos executivos de varejo e pelos consumidores. Imediatamente, eu pensei que o jornalista perdeu uma ótima oportunidade de representar melhor a informação desejada.

Primeiramente, a ordem dos fatores no gráfico não segue uma ordem clara. Se o gráfico foi feito para enfatizar essa divergência de opiniões, teria sido melhor que os fatores fossem ordenados no gráfico pela diferença numérica entre executivos e consumidores. Veja que o ponto onde há maior disparidade, Acesso a informações, venda e serviços, aparece no canto inferior direito, fazendo com que os olhos do leitor tenham de percorrer o gráfico quase que até seu final para extrair sua informação mais importante. Além disso, o fator de compra que apresenta maior uniformidade, Informações em tempo real sobre inventário e disponibilidade de informações, aparece logo ao lado da que apresenta mais divergência.

Outra oportunidade perdida é que não é dada uma ênfase ao que os consumidores, os responsáveis pela empresa existir, preferem. Como esta é uma revista voltada para o segmento de varejo, seu público-alvo são executivos do setor, que estão sedentos por saber o que os clientes pensam. Contudo, os fatores que os consumidores mais preferem, Pagamento simples e fluido e Acesso a informaçoes, venda e serviços, aparecem em ordem aleatória no gráfico (em quinto e em oitavo lugar, respectivamente).

Por isso, este post é dedicado a propor uma nova versão dessa visualização de dados, de maneira que atenda aos pontos citados acima. Ou seja, um gráfico que:

Ordene os fatores de acordo com o grau de divergência entre consumidores e executivos;
Destaque de alguma maneira os fatores que os consumidores consideram mais importantes que os executivos.

library(tidyverse)

Recriando o dataset do gráfico:

df <- tribble(
  ~fator, ~Executivos, ~Consumidores,
  "Experiência personalizada", 43, 27,
  "Experiência fluida em todos os canais", 42, 26,
  "Pagamento simples e fluido", 41, 50,
  "Tecnologia em loja", 38, 18,
  "Informações em tempo real sobre inventário e disponibilidade de informações", 37, 38,
  "Plataformas mobile e aplicativos de compra", 36, 19,
  "Habilidade de customizar produtos e serviços", 35, 24,
  "Engajamento e presença em redes sociais", 35, 14,
  "Pagamento digital e opções de câmbio", 34, 31,
  "Acesso a informações, venda e serviços", 31, 50,
  "Gamificação e experiência digital interativa", 21, 9
)

Em seguida, calculamos a diferença entre as duas colunas numéricas e usamos a funçao forcats::fct_reorder() para ordenar os fatores de acordo com essa diferença.

df <- df %>% 
  mutate(diferenca = abs(Executivos - Consumidores),
         # Quebrar o string do fator em parágrafos e reordenar
         fator = str_wrap(fator, 40),
         fator = fct_reorder(fator, diferenca, .desc = FALSE)) %>% 
  # criar colunas para armazenar os valores maximo e minimo entre executivos e consumidores 
  rowwise() %>% 
   mutate(maior_percentual = max(Executivos, Consumidores),
          menor_percentual = min(Executivos, Consumidores))

# criar coluna para identificar

O código desse gráfico é um pouco mais complexo do que o usual. Como eu queria que o label de cada ponto ficasse à esquerda no caso do menor número e à direita do maior, é necessário criar duas camadas de geom_text() separadamente, uma para o valor mínimo de cada fator e outra para o valor máximo, sendo que cada possui um valor diferente de hjust.

df.long <- df %>% 
  # transformar para formato tidy (long)
  gather(fonte_opiniao, valor, 2:3)

p <- ggplot(df.long, aes(x = valor, y = fator)) +
  geom_point(aes(color = fonte_opiniao), size = 3) +
  # ajustar pontos
  scale_x_continuous(limits = c(0, 55), breaks = seq(0, 50, 10)) +
  # mudar aparencia. isso é opcional.
  theme_minimal() + 
  # adicionar manualmente o label do valor que cada ponto representa
  geom_text(data = df, aes(x = maior_percentual, label = maior_percentual), hjust = -0.3) +
  geom_text(data = df, aes(x = menor_percentual, label = menor_percentual), hjust = 1.4) +
  # mudar titulos dos eixos e do grafico
  labs(x = "%", y = NULL, color = NULL, title = "Quais fatores influenciam a compra?") +
  theme(legend.position = "bottom")

p

Com este gráfico, creio que atendemos ao primeiro ponto. Veja que, além dos objetivos listados anteriormente, o gráfico apresenta outras melhorias em relação ao original. Uma delas é que é possível descobrir muito mais facilmente quais são os fatores que os consumidores menos se lembram (Gamificação).

Para atender à segunda melhoria proposta, a de destacar de alguma maneira os fatores considerados mais importantes pelos consumidores, decidi usar o seguinte método: plotar um segmento ligando os pontos em cada fator, sendo que, nos fatores de compra que foram mais lembrados por consumidores do que por executivos, o segmento fosse mais destacado (ou menos transparente) no gráfico.

Para isso, vamos criar uma coluna onde o valor do alpha do segmento, que correspondência ao seu nível de opacidade, seja definido manualmente:

# criar coluna para identificar quem da mais importancia ao fator
df <- df %>% 
  mutate(alpha_segmento = if_else(Executivos - Consumidores > 0, 0.2, 1))

Vamos então adicionar esse novo elemento no gráfico.

p + 
  # para não fazer que o segmento fique em cima do ponto, eu removo 0,3 de cada lado dele
  geom_segment(data = df, aes(x = maior_percentual-0.3, xend = menor_percentual+0.3,
                              y = fator, yend = fator,
                              alpha = alpha_segmento),
               inherit.aes = FALSE, show.legend = FALSE) +
  scale_alpha_identity()

Acredito que, com essa visualização, as mensagens que o gráfico da revista foi criado para mostrar são transmitidas mais claramente.