sexta-feira, 5 de outubro de 2018

Algo a mais

Em reportagem sobre o desafio do setor elétrico para o próximo presidente, o Valor publicou uma matéria com o gráfico abaixo.


Notou algo de estranho? Dica: está no eixo horizontal.

Os intervalos não são regulares. Até o penúltimo dado segue um intervalo de um ano, de repente usa-se um intervalo de 30 dias para apresentar a previsão para o final de outubro.
Só que antes de comentar as escolhas feitas no desenho do gráfico, pode-se discutir algo sobre os dados do gráfico. Por que a data de 1º de outubro como referência para o nível dos reservatórios? A única explicação que me ocorre é que era o último dado disponível para 2018 e se quis mostrar como estava na mesma data nos anos anteriores, pois não há nenhuma menção explícita na matéria à alguma peculiaridade do dia. Há menção ao final do período seco, que termina em novembro. Portanto, faria mais sentido usar essa data como referência. Todavia, na falta de previsão do ONS (Operador nacional do Sistema) para o final de novembro, poder-se-ia usar o final de outubro como uma referência, até mesmo porque não raro já há o início da recomposição dos níveis dos reservatórios da região Sudeste,(responsável pela maior parte do armazenamento, durante novembro.
Assim o gráfico foi refeito utilizando o final de outubro como referência.


Mudanças: 
  • a primeira e mais visível é que o gráfico está mais estreito. Economiza-se espaço sem perda da informação. 
  • O intervalo é constante: um ano entre cada dado. 
  • Não foi incluído o dado do nível dos reservatórios no início de outubro, último dado real. Poderia ter incluído junto com a estimativa para o final do mês, mas as diferenças são pequenas e representaria mais um acréscimo de sujeira do que de informação.
  • A ordem das regiões foi modificada, com os dois grandes blocos (Sul;Sudeste e Norte/Nordeste) juntos.
  • Utilizou-se apenas uma casa decimal para representar os valores.
  • Como já comentado, os dados se referem ao final do mês |(dia 31) em vez do início (dia 1º). Chama atenção a diferença entre os dados de um gráfico para o outro. o motivo é o  esvaziamento dos reservatórios durante o período (ou enchimento, no caso do Sul), exceto em relação aos dados do Nordeste de 2017: parece que o gráfico original utilizou um dado equivocado, pois na base de dados do ONS consta outro valor para àquela data.





terça-feira, 21 de agosto de 2018

Gráfico do dia: ordem em gráficos

O jornal Valor publicou uma matéria sobre os gastos estaduais com o Judiciário e o MP, acompanhado do gráfico abaixo. Os estados aparecem por ordem alfabética. Seria esta a melhor forma de ordená-los?


Há uma vantagem da ordem alfabética: fica fácil localizar um elemento na lista. Contudo, há a desvantagem de dificultar a identificação de quais são os maiores ou menores no quesito.
No gráfico refeito, os estados foram ordenados pela maior despesa com o Judiciário. Fica mais fácil ver que Paraíba, Tocantins e Rondônia são aqueles que aparecem com os maiores gastos (em proporção da receita corrente líquida), enquanto Amazonas, Goiás e Acre estão na situação oposta.
Como são dois itens (gastos com o pessoal do Judiciário e do MP), teve de se optar por um para a ordem. Uma alternativa seria fazer o gráfico do MP com a sua ordem, porém às custas de ficar mais difícil ver a situação de cada estado.
 
Outras modificações feitas no gráfico: ampliação da área dos dados,  as legendas de dados passaram para dentro das barras e inclusão de linhas indicando os limites prudenciais e teto de gastos, de forma a tornar visível os estados que estão em situação mais crítica.
Há uma outra coisa que chama a atenção no gráfico original: dois estados com os mesmos percentuais de gastos (Santa Catarina e Sergipe), curiosamente dois estados em sequência. É uma coincidência ou houve uma repetição na entrada dos dados? Infelizmente não consegui encontrar os dados originais para sanar a dúvida, mas apostaria na segunda hipótese.

segunda-feira, 13 de agosto de 2018

Gráfico do dia: porcentagens versus proporções

Um outro gráfico usado na matéria "Crise faz crescer diferenca salarial por anos de estudo" mostrava a diferença percentual de remuneração dos salários em comparação com aqueles de nível superior completo ao longo do tempo.




Fora a comparação dos "sem anos de estudo", as demais categorias dependem de se observar os valores para constatar se houve ou não alteração da diferença salarial.

Para responder a mesma questão, o gráfico foi refeito, só que utilizando a proporção dos salários em relação ao das pessoas com ensino superior completo (equivalente a 100%), com cada categoria ao longo do tempo.


Ao observar este gráfico, concordaria com a afirmação de que a crise fez crescer a diferença salarial por nível de escolaridade? Se compararmos o início e o final da série, isto só seria verdadeiro para aqueles com superior incompleto. Se a comparação for feita a partir de 2014, mais categorias se enquadrariam, ainda que com variações pouco expressivas.

Gráfico do dia: áreas de círculos

O site G1 publicou uma matéria com o título "Crise faz crescer diferença salarial por anos de estudo" ilustrada por vários gráficos, entre eles um com áreas de círculos para mostrar os salários por nível de escolaridade. Consegue dizer quantas vezes mais alguém com ensino superior completo recebe em comparação com alguém sem estudo só de olhar a figura?


Fez sua estimativa? E na comparação entre ensino superior incompleto e ensino superior completo? É fácil dizer que é mais; difícil dizer quantas vezes mais. O cérebro humano não é muito bom para calcular proporções de áreas visualmente, assim dificilmente terá respondido os valores corretos (5,7 e 2,2, respectivamente). 
Por isso o gráfico vinha com os valores para ajudar o leitor.

Compare com a versão abaixo, um convencional gráfico de colunas. Pode não ter o mesmo apelo estético dos círculos, mas permite que só de bater o olho se possa ter uma noção mais clara das proporções - e é para isto que um gráfico serve, transmitir informações visualmente. 




quinta-feira, 9 de agosto de 2018

Gráfico do dia: cores para quê?

As cores em um gráfico servem para adicionar informação e não meramente um capricho para deixá-lo bonitinho. É um princípio básico para sua confecção, embora nem sempre seguido.
Uma matéria do G1 sobre a violência no Brasil foi ilustrada, em sua primeira versão, pelo gráfico abaixo. Além das legenda do eixo horizontal inclinada, o que dificulta a leitura, a parcimônia de dados (apresenta apenas os três estados com maior taxa), há o uso indevido de variação de cores. O gráfico trata de apenas uma coisa - a taxa de mortes violentas - logo não há motivo para variar as cores.


Com os dados colhidos diretamente na fonte (o Anuário do Fórum Brasileira de Segurança Pública), o gráfico foi refeito, com os dados de todas unidades da federação. Além dos dados de 2017, em vermelho mais escuro, estão apresentados os dados do ano anterior, em um tom mais claro, para comparação. Na legenda dos estados foram adotadas duas cores: vermelho par aos estados que pioraram suas taxas, cinza para os estados que melhoraram. Adicionalmente a média do país para 2017 está representada pela linha vermelha pontilhada. O eixo horizontal indica os valores extremos em vermelho. Uma versão interativa poderia apresentar os dados individuais com a passagem do mouse sobre os dados. Um pouco mais de informação, sem usar mais espaço.


Como o gráfico foi feito: há uma variedade de pequenos truques utilizados para chegar neste resultado. 
1. Os dados de cada UF foram ordenados de forma crescente. 
2. Em uma nova coluna foram  atribuídos números de 1 a 27 para cada unidade. 
3. A primeira série de dados é composta por x (valores de 2016) e y (número de cada unidade, atribuído de forma crescente); a segunda série, com os valores de 2017. 
4. Cada série foi formatada com o padrão escolhido (tamanho, cor de borda e cor de preenchimento).
5. Para conectar os pontos com o eixo vertical para facilitar a identificação de cada UF, foi usada a barra de erros horizontal (valor 100% para menos).
6. Para criar as legendas das UFs em duas cores, foram cridas duas novas séries: uma para os estados que tiveram aumento na taxa, outra para diminuição, nas quais x = 0 e y = posição de cada estado no ranking decrescente. Os pontos que indicam as séries estão sem marcador.
7. A linha do Brasil foi acrescida com uma nova série, de apenas um ponto (x = dado de 2017, y = 13,5 - o ponto médio), e barra de erro vertical de 100%.
8. Por fim, o eixo horizontal foi substituído por uma nova série, com x = mínimo e máximo dos valores de 2017 e y = 0. Acrescenta-se a legenda e voilá.

Trabalhoso? Um pouco.

A matéria do G1 foi atualizada ao longo do dia e o gráfico que deu origem ao post, suprimido. Acrescentaram novos gráficos, inclusive o abaixo - que dispensa comentários. O leitor que chegou até aqui é capaz de apontar seus problemas.


quarta-feira, 8 de agosto de 2018

Gráfico do dia:cortando o eixo

O gráfico abaixo é uma reconstituição de um publicado na revista Exame de 07/2018. A única alteração foi a retirada da legenda dos dados.


Parece que houve uma queda gigantesca dos investimentos das empresas no período de 2012 a 2018.
Compare com o próximo gráfico.


Uma queda expressiva, sem dúvida, mas menos dramática que a evidenciada na figura anterior. Se são os mesmos números, por que há esta discrepância? O que mudou de um gráfico para o outro?
Simplesmente no segundo gráfico o eixo vertical não foi cortado, começando em zero, enquanto no primeiro ele foi cortado e começa em 100.
No gráfico original (abaixo), há a legenda dos dados com os valores aportados em cada ano. Só que a primeira impressão é de uma diminuição muito maior do que a da realidade, que o leitor só perceberia se atentasse aos números na figura.


Um bom gráfico não precisa repetir todos os valores para passar sua mensagem - que no caso é distorcida pelo corte da escala do eixo vertical, ponto já foi abordado em posts anteriores.
Porém, no post anterior havia um exemplo de um gráfico de linhas em que o eixo vertical estava cortado e não começava no zero. Naquele caso, a mensagem era a ultrapassagem do número de mulheres aptas a votar em relação aos homens, que ficaria pouca nítida se fosse mostrada sem o corte do eixo. Além disso, há a indicação no eixo do intervalo mostado. De qualquer forma, na dúvida não corte. 

terça-feira, 7 de agosto de 2018

Gráfico do dia: quando o autor não confia em gráficos

É curioso, mas muitas pessoas fazem gráficos sem confiar neles. Um indício é quando colocam todos os números, como se não confiassem na capacidade do observador de perceber a mensagem sem eles. Se a precisão dos números é tão importante assim é melhor usar uma tabela. A função primordial dos gráficos é consolidar muitas informações para que padrões (ou suas ausências) possam ser identificados visualmente.
Uma matéria publicada pela revista Época sobre o eleitorado feminino foi acompanhada por três gráficos. Repare que a maior parte da área dos gráficos é ocupada por legendas, com pouco espaço destinado à informação visual propriamente dita.
 Os gráficos foram refeitos (ver abaixo). O primeiro foi substituído por um gráfico de linhas, com o eixo vertical cortado para facilitar a visualização, com o eleitorado feminino ultrapassando o masculino. Nos outros dois gráficos foi mantido o padrão de barras, mas enfatizando a informação visual - e em ambos foram acrescidas barras para a categoria "não informado".
O gráfico por faixa etária tem um problema de intervalos irregulares nas categorias, que variam de um a quinze anos, sem considerar a categoria de maiores de 79 anos. Assim, a categoria que aparece com a maior proporção (45 a 59 anos) é a que abrange o maior intervalo. Isso se manteria se fosse adotada uma escala mais regular? Definitivamente não.

sábado, 4 de agosto de 2018

Gráfico do dia:nada como a simplicidade

O simples é efetivo, como mostra este gráfico do New York Times: o título resume a mensagem, o subtítulo dá detalhes da história, séries longas, legendas aplicadas diretamente no gráfico, o último dado destacado.
Compare com o post anterior sobre o desemprego no Brasil e veja a diferença.



Reaching Fuller Employment

Unemployment among the least educated, the group hit hardest in the recession, has been cut by two-thirds since its peak of almost 16 percent in 2010.


16
%
14
Less than high school
12
10
8
6
5.1%
Bachelor’s degree or higher
4
2
2.2%
0
’06
’08
’10
’12
’14
’16
’18

Source: Bureau of Labor Statistics | By The New York Times

quinta-feira, 2 de agosto de 2018

Gráfico do dia: Solução para seca

Os leitores devem ter percebido que os textos costumam criticar gráficos publicados. É verdade e um dos motivos é que a maior parte deles costuma ter problemas, alguns mais gritantes, outros menos. Porém bons trabalhos também são dignos de nota, como este gráfico publicado pelo jornal Folha de S. Paulo ontem (01/08/2018) que ocupou as seis colunas do alto da página B1.


Como ele foi scaneado e reduzido alguns detalhes se perderam, mas o principal se mantém: a história da crise de abastecimento de água no sistema Cantareira, o principal reservatório para abastecimento da cidade de São Paulo, desde 2014. A linha mostra o nível do reservatório e os principais eventos estão assinalados, com duas projeções para 2019.
Digno de nota.

Gráfico do dia: poluição e limpeza

Em uma matéria do relatório "The Energy Transition" aparece um gráfico sobre a evolução das emissões de dióxido de carbono no mundo, por região.
É um gráfico de áreas empilhadas, cada uma representando uma região, simples e claro.



No entanto, observando o gráfico fica difícil perceber quais regiões, além da Ásia-Pacífico, foram responsáveis pelo aumento das emissões. Esta, por sinal, é uma crítica comum a gráficos deste tipo.
Uma forma de resolver este problema seria o uso de um slopegraph, como o abaixo.


Percebe-se que a Europa e a América do Norte reduziram suas emissões, enquanto as demais regiões tiveram um incremento. Perde-se o detalhe da evolução anual, mas em troca há um ganho de informação.
Uma outra versão mostra a evolução anual, em um misto de slopegraph com um gráfico de linhas. Neste caso pode ser uma opção, mas se houvesse muitas variações e cruzamentos de linhas poderia virar um spaghetti intragável.

Gráfico do dia: desocupação em duas versões

A divulgação da taxa de desocupação pelo IBGE é notícia garantida em várias publicações. Abaixo vemos gráficos que duas publicações distintas utilizaram para ilustrar as matérias.



O site G1 usou um gráfico de colunas cobrindo um intervalo de 12 meses, enquanto o Valor preferiu um de linha com um período de tempo mais amplo. Outras diferenças são que o G1 preferiu indicar o valor de cada mês e distinguiu o dado mais recente com um tom mais escuro, enquanto o Valor adotou em sua versão na internet um gráfico em que os valores aparecem quando se posiciona o mouse sobre o dado. Nota-se que as escolhas do Valor permitem uma visão mais clara da tendência, uma vantagem de se apresentar séries com períodos mais longos.
Os dois gráficos, porém, falham no eixo horizontal. Como os dados são apresentados por trimestre móvel (isto é, contemplam dados coletados em três meses), ambos veículos optaram por colocar as abreviações dos meses aos quais se referem (ex: jan-fev-mar) e, para tal, tiveram de inclinar a legenda. No caso do G1, há uma inconsistência maior, pois alguns dados não mostram o ano aos quais se referem, outro adota a notação curta (18) e outros a longa (2018). Seria mais fácil simplesmente indicar o último mês do trimestre em questão e assim ter uma figura mais clara, como mostram as versões refeitas.




Gráfico do dia: algarismos significativos

O jornal Valor Econômico publicou matéria sobre a redução dos desembolsos do BNDES para a indústria. Para ilustrar a queda, acompanhava um gráfico com o valor acumulado em doze meses de consultas e desembolsos.


A escolha de linhas e da série completa (os dados do BNDES começam em dezembro de 1995) foi boa, mas peca em apresentar a legenda do eixo vertical com duas casas decimais. Tirá-las não tiraria nenhuma informação e ficaria mais limpo. As legendas de dados com duas casas decimais também agrega pouco e polui a figura.
No eixo horizontal, utilizar dois níveis (um para mês e outro para o ano) costuma ser uma boa solução, só que o veitor tem de adivinhar os eventos, pois há um intervalo grande entre as marcas.
No gráfico refeito buscou-se deixá-lo mais limpo.


As linhas estão um pouco mais finas e suas legendas foram aplicadas diretamente na figura. Foi adicionada uma explicação para setembro de 2010, ausente no original.

Uma versão comprimida é apresentada abaixo. Tem a vantagem de economizar espaço para mais informações no texto.



quarta-feira, 1 de agosto de 2018

Gráfico do dia: como representar?

No estudo com a projeção da população brasileira, o IBGE estimou quando a população maior de 65 anos ou mais ultrapassará a população de menores de 15 anos em cada unidade da federação. O resultado foi apresentado em um gráfico, reproduzido em matéria do G1.

O gráfico tem como pontos positivos apresentar o tempo no eixo horizontal e as UFs no eixo vertical de forma que estejam legíveis. No entanto não achei a solução satisfatória. Talvez usar uma inspiração do passado ajude na busca de alternativas, mais precisamente em um gráfico criado um século atrás.
Em 1919, Leonard Ayres publicou  The War with Germany: a statistical summary. Entre as dezenas de figuras estava uma que mostrava as divisões do exército americano na França em cada mês no intervalo entre junho de 1917 e outubro de 1918. A forma utilizada permite visualizar não só o crescimento, mas também cada divisão individualmente, de forma simples e elegante, tendo como único recurso uma máquina de escrever.

Abaixo, uma solução inspirada por Ayres. Cada unidade da federação é representada por sua sigla.

Gráfico do dia: Intervalos irregulares


O site G1 publicou uma matéria sobre a projeção do IBGE para a população brasileira até 2060 e, para ilustrá-la, utilizou vários gráficos, como o reproduzido abaixo.



Nota algo de estranho? Observe o eixo horizontal – os intervalos são irregulares. Quando se utiliza tempo como base para o eixo os intervalos devem ser constantes, para se ter uma impressão apurada da evolução da variável. Este princípio é violado no gráfico.
Pode-se imaginar os motivos que levaram à tal. Provavelmente o seu autor tentou destacar o ano corrente e o anterior, que assim como o primeiro ano da série, que estão em um tom mais escuro. Em 2047, a população brasileira deverá atingir o seu máximo, motivo pelo qual o ano foi incluído na série, quebrando os intervalos de dez anos e 2048, presumo, está presente para mostrar que a partir daí ela começa a diminuir.
Há outros problemas no gráfico. A legenda do eixo horizontal está inclinada, o que dificulta a leitura, assim como a legenda do eixo vertical inclui um “M” depois dos algarismos, indicando se tratar de milhões, mas sem estar explícito. Por fim, a legenda dos dados está por extenso – faz sentido essa precisão?
Uma alternativa seria utilizar um gráfico de linha, distinguindo o que é projeção com uma linha pontilhada. A população projetada para o último ano de cada década é indicada (em milhões), com call-outs para duas datas relevantes: a população estimada atual e o pico em 2047.