segunda-feira, 13 de outubro de 2014

Jogo dos (quase) sete erros

O site da Veja publicou um conjunto de gráficos para retratar o legado de Dilma . Em oito gráficos, pode-se brincar de jogo dos sete erros.
Alguns gráficos estão corretos, no sentido de que a forma de apresentação não distorce os dados. Ainda que algumas escolhas possam ser questionadas (como o excesso de linhas de grade, a dependência de apresentação dos valores, etc.), ao menos o que se vê é o que existe. Nessa categoria estão quatro gráficos: desempenho do PIB, salário mínimo, população na linha da pobreza e desmatamento na Amazônia. Note que não se está questionando o fato da evolução do salário mínimo apresentada ser nominal em vez de real (ou seja, o gráfico desconsidera a inflação) ou o uso de um gráfico de pizza.
Os outros quatro gráficos apresentam problemas mais graves.
- taxa de desemprego: foram utilizadas bolhas para a comparação. Há dois erros sérios no gráfico. Um é pela forma escolha, pois sem o número estampado não haveria a menor idéia de quais eram as taxas, ou seja, o gráfico em si é nulo em termos de passar alguma informação ao veitor. O outro é que no subtítulo está "variação (%)", quando na realidade se trata da taxa em si e não de sua variação.
- Índice Big Mac: mais um gráfico com dois erros. Novamente a escolha feita de mostrar um indicador utilizando uma figura, o mais precisamente a sua área, no caso, o tamanho do sanduíche (que nem é um Big Mac, que como todos sabem, é composto por "DOIS hambúrgueres, alface, queijo, molho especial, cebola, picles em um pão com gergelim"). Há um problema em se usar áreas , pois o olho humano não é bom para fazer a comparação de forma adequada. Só que nem a área de ambos é proporcional à variação dos valores. Medi o tamanho dos dois sanduíches: a área do segundo é aproximadamente 40% maior do que o do primeiro, enquanto a variação do preço foi de 49%. O outro erro se refere à forma com que o índice foi utilizado: o Índice Big Mac serve para comparar as moedas e verificar se estão distorcidas (ver sua descrição aqui) e não se refere simplesmente ao preço do Big Mac em uma localidade.
- Valor de mercado da Petrobras: a escolha do poço de petróleo para representar o valor da empresa cai no mesmo problema comentado acima, do uso de figuras para representar variações. No caso, porém, não dá para saber se a área em questão é da torre mais o petróleo jorrando ou sem o óleo, mas em qualquer caso não corresponde à variação do valor da empresa.
- Número de bilionários brasileiros:  nesse gráfico, a altura corresponde ao número de bilionários, porém, o dado de 2013 está com uma coluna mais larga, o que induz à percepção de que o aumento do número de bilionários foi maior. A coluna de 2013 tem uma área que corresponde a cerca de 3,2 vezes á da coluna de 2010, enquanto o crescimento foi de apenas 2,2 vezes.
Em suma, para se fazer os gráficos optou-se pela variação de formas, com o uso de bolhas, linhas, áreas, colunas e figuras, às custas da acurácia na representação dos dados.






quarta-feira, 8 de outubro de 2014

Eleições e gráficos

Abertas as urnas, os resultados foram apresentados de diversas formas pelos meios de comunicação. Alguns gráficos mostraram de forma eficiente a voz das urnas, outros nem tanto.
Seguem alguns exemplos publicados no site G1.

A comparação dos votos por unidade da federação entre os dois candidatos que passaram ao segundo turno em um gráfico de barras foi uma solução simples e eficiente (original aqui). O único senão é a apresentação dos valores com duas casas decimais, uma precisão desnecessária que mais suja o gráfico do que contribui para o seu entendimento.

Para a composição da Câmara dos Deputados resultante das urnas o G1 optou por um semi-círculo em arco-íris.  



O efeito visual é bonito, mas é funcional? Parte da resposta está na necessidade dos números junto à legenda. E da dificuldade de identificar os partidos com as cores.
A disposição dos partidos também parece aleatória. Não se pode dizer que é por ideologia (o PSOL aparece ao lado do PR, cuja bancada foi inflada pelos votos do Tiririca, e no extremo oposto do PT, partido do qual se originou), tampouco por coligação na disputa presidencial (o PR está no canto oposto do PT embora estivessem coligados, o PPS está longe do PSB, etcetera e etcetera).
Os recursos de interatividade tampouco foram bem explorados. No gráfico original (ver aqui) aparece o nome de cada deputado, mas não indica nem o partido (ao veitor cabe tentar adivinhar pela cor da legenda) e tampouco que unidade da federação representa.

Por fim, o G1 apresentou um gráfico sobre a evolução do número de deputados que declararam patrimônio superior a um milhão de reais (ver aqui).



Provavelmente acharam que era muito banal fazer um gráfico de colunas e resolveram adicionar a terceira dimensão: um típico exemplo de agregar dificuldade para a sua compreensão.

quarta-feira, 17 de setembro de 2014

Bons exemplos

Se os últimos posts foram críticos, este vai no sentido contrário. Os exemplos são do site pollingdata.com.br, uma iniciativa similar ao FiveThirtyEight. [É o site de Nate Silver (vide posts anteriores) no qual fazia previsões dos resultados das eleições norte-americanas a partir das pesquisas divulgadas. O nome é uma referência ao número de cadeiras do colégio eleitoral do país. Atualmente as previsões abrangem muitos outros campos.]
O primeiro exemplo mostra que até mesmo "reloginhos" ou coisas similares podem ser usados de forma prática e útil.


Mas por que os reloginhos antes foram tão criticados e agora são elogiados? Vários motivos. Neste caso há um mínimo e um máximo absoluto. Não há como a probabilidade de um evento ser inferior a zero nem mais do que 100%. Além disso, o desenho utilizado lembra os mostradores de combustível no tanque, com a associação imediata do que está "cheio" ou "vazio".

O segundo exemplo é o gráfico com os dados das pesquisas da eleição presidencial e as previsões do PollingData.

Os pontos são os dados das pesquisas de vários institutos, as linhas representam o resultado do modelo e as áreas em volta são o intervalo da previsão. [Observação: para as pesquisas em que não havia o nome de Marina Silva foram imputados dados.]
O gráfico é claro, legível e de fácil compreensão, apesar da quantidade de informações que apresenta. Se todos gráficos tivessem estas características tudo seria bem mais claro.

segunda-feira, 15 de setembro de 2014

É difícil fazer o simples?

O Estadão publicou uma matéria sobre a queda de produção e o aumento de preços de cerveja. Para acompanhá-la, dois gráficos: um com a participação de cada região na produção (com um erro no título que se refere á "participação por estado") e um com a "inflação da cerveja" x "inflação geral" em cinco cidades.
Faltou, como se nota, o gráfico sobre a evolução da produção de cerveja para que o leitor tivesse alguma idéia de como foi a queda. Seria uma tendência? Efeito da sazonalidade?
Pelo que se lê na matéria, porém, há um aumento da produção no acumulado do ano, o que contradiz a premissa do segundo parágrafo de que "a explicação para essa queda parece estar no bolso do consumidor". A não ser que o preço da cerveja tivesse disparado nos últimos meses, mas é meramente uma hipótese que não encontra elementos na matéria para se sustentar ou ser desmentida.
O autor se preocupou mais em bancar o ascensorista do que informar porque o preço da cerveja subiu tanto.
O gráfico que compara a inflação da cerveja com a inflação geral não prima pela facilidade de leitura.


 Consegue identificar cada cidade no gráfico? Para saber, é preciso passar com o mouse sobre a imagem e daí aparecem call-outs com a identificação da cidade e o valor.
Não seria melhor fazer algo mais simples? Recursos da tecnologia deveriam ser utilizados para auxiliar o leitor e não dificultar sua vida.
Abaixo, uma nova versão para o gráfico. Pelo menos dá para identificar cada cidade.

Gráficos e sua ausência II

Por algum estranho motivo muitos jornalistas pensam que são ascensoristas. Em vez de reportar os fatos e explicá-los preferem falar "sobe" e "desce". Plotar os dados em um gráfico eliminaria as "matérias de elevador", que teriam de ser substituídas por conteúdo mais relevante.
Em uma matéria sobre a divulgação do Índice de Atividade Econômica do Banco Central (IBC) publicada pelo o Globo (ver aqui) destacava-se o desempenho positivo e era acompanhada por outra que explicava as diferenças de metodologia entre o índice do Bacen e o PIB calculado pelo IBGE. No entanto, faltava o essencial: comparar o histórico dos dois.
Se partissem de um gráfico não seria mais informativo? O autor teria ao menos de explicar o porquê das divergências entre os indicadores.


sexta-feira, 12 de setembro de 2014

Gráficos e sua ausência

Gráficos medíocres são colaboram para o entendimento do assunto em pauta, mas a sua ausência pode ser ainda pior. Em posts anteriores foram criticados alguns gráficos publicados. Desta vez a crítica vai para os gráficos não publicados.
Um exemplo é a matéria do Valor sobre a queda do faturamento do varejo em junho. Ela é baseada no resultado da Pesquisa Conjuntural do Comércio Varejista (PCCV) da FecomercioSP, que apontou uma redução de 7,2% do faturamento do varejo paulista em junho em comparação com o mesmo mês  do anterior e aponta os principais segmentos que contribuíram para a queda e aqueles que tiveram aumento de vendas no período. No entanto, não há gráficos. Na edição impressa, poderia-se justificar por escassez de espaço, embora uma figura pudesse poupar muitas palavras. Na internet, contudo, não há esse tipo de restrição. Será que os dois exemplos abaixo não ajudariam a compreensão?









 

terça-feira, 9 de setembro de 2014

Há regras para se fazer um bom gráfico?

Regras eu não sei; princípios com certeza.
Cada autor do tema tem sua própria lista e definições, com nuances.

Eu adoto os  princípios ACE, que encontrei em um texto sem autor. São eles:

Acurácia: refletir os dados de maneira acurada, precisa, sem distorções.
Clareza: o gráfico deve ser tão fácil quanto possível de ser interpretado.
Economia: incluir apenas os elementos que mostram os dados e aqueles necessários para entendê-los, isto é, sem chart junk.

São outras palavras, com ênfases distintas, dos tradicionais Auto-suficiência (o gráfico requer nenhuma (ou minima) explicação adicional) e Alta densidade de dados (o máximo de informação por gota de tinta. Há até uma medida para tal: dpi - dots per squared inch ou pontos por polegada quadrada).

Um aviso importante: os gráficos padrão do Excel costumam violar estes princípios. Era mais grave nas versões anteriores (até o Excel 2010 no Windows), mas mesmo a versão mais recente (Excel 2013) não escapa impune.

Fazer gráficos não é jogo de tênis, mas sempre busque um ACE.

O que é importante em um gráfico?

A resposta é simples: a mensagem. Um gráfico existe para passar uma mensagem para o veitor. Se não há mensagem a ser transmitida, qual o motivo de se fazer um gráfico? A pergunta ronda a tautologia, embora muitos gráficos por aí ou deixam mais dúvidas do que respostas ou parecem não ter mensagem alguma.
É importante destacar a dupla função de um gráfico. Na fase de análise não se sabe o que os dados revelarão. Ao transformar os dados em um gráfico, eles poderão confirmar a hipótese original, por mais trivial que seja (por exemplo, que as vendas estão crescendo), desmenti-la, revelar padrões insuspeitos ("será que há sazonalidade nas vendas?") ou gerar novas perguntas. É um trabalho de exploração, em que se brinca com os dados de várias maneiras, até se extrair as conclusões. Um padrão pouco perceptível em um gráfico de linhas pode ficar patente ao se usar colunas empilhadas ou o contrário. Algo que não estava nítido ao se usar barras torna-se evidente em um gráfico de dispersão. Ou que os gráficos não ajudam a explicar nada e é melhor nem utilizá-los
Uma vez definida a mensagem, como desenhar o gráfico para torná-la clara? Linhas ou colunas? Pizzas ou barras? Que cores? Como fazer os eixos? Legenda? As respostas dependem de como o gráfico será utilizado, seguindo os princípios para se fazer gráficos (ver próximo post).
Um gráfico não é uma entidade que existe no vazio. Faz parte de um relatório, de um artigo, de uma apresentação, de um dashboard, etc. Pode ser o centro de uma argumentação ou usado para ilustrar uma questão acessória; o único da espécie ou um de uma série; inédito ou visto todo mês como parte do monitoramento. Seja como for, o gráfico tem um propósito - ou deveria ter. Antes de começar a fazer seu próximo gráfico, pense qual é a sua mensagem e o seu propósito. Se não estiver claro, será que vale a pena usar um?

sexta-feira, 5 de setembro de 2014

Retas e degraus

Mais uma reunião do Copom, sem nenhuma surpresa. O Banco Central manteve a Selic em 11% ao ano, como esperado por 11 de cada 10 analistas do mercado.
Igualmente sem surpresa, o G1 publicou uma vez mais o seu infográfico que viola vários princípios de como se fazer um gráfico.


O primeiro problema do gráfico do G1está no eixo vertical. Ele começa em cinco, em vez de zero. Com isso, as quedas parecem mais acentuadas do que são de fato.
O segundo problema é ainda mais grave. A linha desenhada conecta os pontos em segmentos de reta, isto é, como se existissem valores intermediários entre um ponto e outro. No entanto, a taxa em 7 de junho de 2011 não era um valor entre o definido na reunião anterior (12%) e o que foi deliberado no dia 8 de junho (12,25%). Era ainda a taxa de 12% a.a. Em casos assim, nos quais os valores se mantém em um patamar entre duas datas (ou dois intervalos de tempo qualquer), isso deve se refletir no gráfico. No caso, teria de ser um gráfico em degraus, como a versão redesenhada.



Foi mantido o estilo geral do infográfico, com algumas alterações. A principal, a mudança das retas para os degraus. O eixo vertical começa do zero, para não causar distorções. Estão assinalados o valor inicial da série (na verdade, o valor da primeira reunião de 2006), do valor final (correspondendo à reunião mais recente) e os "pontos de inflexão" (máximos e mínimos locais), isto é, as reuniões que interromperam séries de elevação ou redução das taxas. Esses pontos de inflexão estão destacados de forma distinta, no caso de elevação (com texto em vermelho) ou redução (com texto em cinza). Foi mantido o mesmo número de algarismos significantes nos valores destacados (duas casas decimais).
Fazer um gráfico em degraus dá mais trabalho do que fazer com segmentos (que são o padrão). Não há no Excel esta opção por default, o que requer que se refaça a série de dados, mas a precisão requer o esforço.
Compare os dois gráficos e notará outra coisa: por duas vezes o gráfico original do G1 destaca pontos que não foram os de mudança na trajetória das taxas de juros. São eles: 18/07/07, com o valor de 11,50% (chegou a 11,25% em setembro daquele ano) e 8/6/2011, com 11,25%, o que aparenta ser o máximo daquela escalada (subiu mais 0,25%na reunião seguinte). Além disso, pelo gráfico parece que o patamar atual de 11% foi atingido em 28/05/2014, quando na realidade se deu na reunião anterior de 2/4/14. Os dados que utilizei para fazer o gráfico foram retirados do site do Banco Central. Não sei de onde o G1 tirou seus dados para apresentar seu gráfico.

quinta-feira, 4 de setembro de 2014

Quando o vazio é mais do que o cheio

Mais um exemplo do livro "O sinal e o ruído", de Nate Silver. Como mencionado em outro post, o livro é de leitura recomendada, mas não prima pelos gráficos.
Há muitos gráficos de dispersão no livro, uma forma simples apropriada de mostrar relações entre variáveis.
Um exemplo do livro com a relação entre consumo de calorias e taxas de obesidade (figura 12-1 no original) foi refeito (procurei as mesmas bases, não garanto que tenha encontrado os mesmos dados) e está mostrado abaixo.


No entanto, como é comum ocorrer nesse tipo de gráfico, vários pontos se sobrepõe ou ocupam posições próximas, o que dificulta a sua identificação. Há algumas soluções para este problema. Outra forma, mais simples, é não preencher o interior dos pontos. Os círculos vazados permitem ver se há outros pontos quase coincidentes. Os países identificados por legenda foram deixados com o interior preenchido para se destacarem.


Como se vê, o vazio pode ser mais do que o cheio.

P.S: Outra maneira é usar pontos transparentes, de forma as sobreposição são realçadas por ficarem mais escuras. Todavia requer impressão (ou projeção) de alta resolução para que fique nítido.
P.S. 2: na figura refeita a legenda do eixo vertical foi colocada na posição horizontal para facilitar a leitura. Não foi modificado o eixo horizontal, apesar de não começar em zero - tema para posts futuros.

Por que simplificar se é possível complicar?

Um gráfico deve ser tão simples quanto possível para comunicar os dados. É um princípio quase que tautológico. No entanto, alguns preferem ser "criativos" e com isso prejudicam a clareza.
Os dois exemplos deste post são do livro "O sinal e o ruído - por que tantas previsões falham e outras não", de Nate Silver. O livro é muito interessante, aborda a questão de previsões em diversos campos, do basebol aos terremotos, passando por previsão de tempo, pôquer, eleições e aquecimento global, trata da velha disputa entre bayesianos e frequentistas (o autor alinha-se com os primeiros) e é uma leitura recomendada. No entanto, apesar de estatística ser um tema embutido no livro, os seus gráficos de forma geral deixam muito a desejar. Há as limitações do meio, com a impressão em preto e branco, mas nada que justifique algumas falhas.

Há uma figura sobre o tempo médio que uma ação é mantida pelos investidores nos Estados Unidos, refeita abaixo, mantendo as características da original.
 O autor da figura deve ter pensado que, como se referia a tempo, seria adequado usar algo que lembrasse relógios. O resultado é um conjunto de pizzas cujas fatias escuras representam o tempo médio.
Havia soluções muito mais simples e efetivas, como usar um gráfico de linhas ou colunas (como a figura abaixo). Por que simplificar quando se pode ser inventivo?


No mesmo capítulo há uma outra figura, uma vez mais com pizzas. Abaixo há a versão refeita, mantendo-se as características da original. Ao ver o gráfico, sem consultar os números, é capaz de ter uma idéia de quanto foi o incremento no valor das ações em posse dos investidores individuais? Multiplicou-se por três, cinco, dez, vinte? E dos investidores institucionais? E do bolo como um todo? Tente adivinhar antes do próximo parágrafo.

As respostas são, de forma arredondada, 3 para os investidores individuais, 14 para os institucionais  e 7 para o bolo. Se suas estimativas passaram longe, não se sinta frustrado: é difícil estimar a olho. Mas com o gráfico abaixo seria mais simples.


terça-feira, 2 de setembro de 2014

É tão difícil fazer um gráfico simples?

Fazer um gráfico é muito simples. Bastam alguns cliques no Excel e lá está ele pronto. mas se é tão fácil, por que complicam?
Foi publicado hoje o resultado da pesquisa do IBGE sobre produção industrial. No site do Estadão, a matéria sobre o tema veio acompanhado do seguinte gráfico:

Um gráfico simples, de uma variável ao longo do tempo. Só que embora a tarefa fosse simples, o resultado apresenta uma coleção de problemas. Qual a unidade do gráfico? Percentual? É, mas isso não é indicado nem no título, nem o eixo vertical. Quando o gráfico começa? As legendas do eixo horizontal são pouco esclarecedoras, pois estão entre as marcas da grade e ocultas parcialmente pela linha.
Um pouco de cuidado na elaboração resultaria em um gráfico mais claro.

As principais mudanças: as unidades passaram a ser mostradas em porcentagem no eixo vertical; o eixo horizontal foi feito com uma linha mais espessa, para ficar mais nítido se a oscilação foi positiva ou negativa, foram retiradas as suas linhas de grade e a legenda com as datas passou para baixo, sem se misturar com a linha dos dados.
 Só que essa solução é suficiente? Os gráficos acima apresentam poucos dados - apenas 12. Seria o adequado para ilustrar a variação da produção industrial ou uma série mais longa seria mais informativa? A principal vantagem dos gráficos é poder condensar um grande volume de informação em pouco espaço. Acrescentar mais 12 meses á série dá outra perspectiva aos dados.

segunda-feira, 1 de setembro de 2014

Reloginhos que nada dizem

Uma das piores características dos dashboards são os "reloginhos" (gauges). Esses mostradores circulares raramente agregam algo de útil. Não se pode dizer que não agregam inutilidades.
Os dashboards procuram imitar os painéis dos automóveis. Se para conduzir um veículo, posso me basear em mostradores circulares, por que não utilizar o mesmo formato na condução de uma empresa? Os usuários já estão familiarizados com o visual e podemos fazer com que se sinta no comando de uma nave ao utilizar os nossos programas sofisticados de B.I. (Business Intelligence).
Essa é a lógica dos desenvolvedores dos softwares. No entanto, embora possam entender de processamento de grandes bases de dados, integração de sistemas e que tais, escondem seus conhecimentos sobre informação e comunicação. [Há quem diga que o mesmo ocorre sobre a parte de business e de intelligence, mas isto é outra discussão.] Programas caríssimos e de instalação complexa se escondem por trás de cockpits que vão do bizarro ao cômico. Se alguém acha que estou exagerando, consulte, por exemplo, a galeria de horrores apresentada no livro Business Dashboards, de Rasmussen, Chen & Bansal (John Wiley & Sons, 2009). Há um agravante: os autores mostram dashboards de vários fornecedores e sugerem que o leitor se inspire neles. Eles não devem ter lido Information dashboard design de Stephen Few (O'Reilly, 2006) no qual o autor pega exemplos similares e mostra onde e porque falham.
Um dos problemas dos "reloginhos" em sua canhestra imitação dos painéis dos carros é que os propósitos são distintos que um mesmo instrumento não é capaz atender. Ao dirigir, o condutor precisa da informação da velocidade naquele instante, para calcular se é adequada às manobras que precisa fazer, ao tráfego local e para atender os limites da via. Não importa a velocidade que estava um segundo antes ou um minuto antes: apenas a informação instantânea é relevante. O conta-giros tem função similar: não interessa a quantas rpm o motor estava há um segundo, somente o giro no momento é importante para a decisão do motorista. Da mesma forma, o que é importa é saber quanto combustível resta no tanque, para decidir se precisar parar para reabastecer ou não. Ou se o motor está prestes a ferver e, portanto, é prudente parar o veículo ou se está na normalidade.
Para dirigir uma empresa, porém, a informação instantânea é de pouca relevância, exceto em algumas atividades operacionais - o que não é, por definição, função da direção da empresa, que delega a tarefa para as áreas de operação. Como agravante, os reloginhos não mostram um dado instantâneo e sim um evento passado. Mas o que um dado isolado revela sobre o desempenho de uma empresa? Saber que a receita líquida no trimestre anterior foi de $ 387.535.442,61 com margem bruta de 25,8% indica o que? Foi um bom trimestre? Não se pode dizer nada sem saber como é o histórico ou com o estimado. Se nos trimestres anteriores a receita não chegava a $ 300 milhões, poderia se dizer que foi um bom resultado, mas se passava dos $ 500 milhões, é um número pavoroso.
A estética (ou a falta dela) dos dashboards e seus "reloginhos" transborda para outros meios, como os relatórios que as empresas utilizam internamente ou para se comunicar com os públicos externos. As gracinhas visuais se repetem e a informação fica prejudicada.
A figura a seguir foi retirada de um relatório enviado por uma empresa de capital aberto a seus acionistas.
O que se pode avaliar a partir dela? Nada além do que um texto diria. Ou menos do que um tetxo diria, pois pelas escalas apresentadas, a margem bruta de 32,0% está no meio do caminho, assim como a margem líquida de 11,5% e a margem EBITDA atinge apenas um quarto da escala. Será que para estar em linha com a s demais ela deveria ser de 30%?
Veja, porém, os dados colocados em perspectiva. A figura abaixo mostra a evolução dos indicadores nos últimos oito trimestres (em milhões de reais), de forma que se pode avaliar inclusive se há sazonalidade nas vendas e resultados.
Com o mesmo espaço ocupado, muitos dados a mais e uma visão mais nítida de seu desempenho.     Pode-se avaliar com uma passada de olhos ou gastar mais tempo verificando com mais detalhe. Inclusive perceber que a empresa inseriu no relatório para os acionistas o gráfico com os dados do primeiro trimestre em vez do segundo trimestre, algo que ficaria patente ao mostrar a série histórica.

Cores

O uso de cores é uma maneira simples de adicionar informação em gráficos. Basta atribuir um significado a cada cor e se pode transmitir a mensagem de forma imediata por meio de uma imagem. Ou não, dependendo de como são usadas as cores.

A mapa abaixo foi publicado pelo jornal "O Globo" (veja o original aqui) e mostra a situação nas pesquisas dos governadores que lutam pela reeleição (ou candidatos que apóiam). O título é "govvernadores em risco eleitoral". Sem legenda, é capaz de dizer em quais estados os governadores atuais estão com risco de não se reelegerem? Por exemplo, diria que o governador de Santa Catarina encaminha-se para a reeleição? E o do Pará? E o do Amapá


A resposta é provavelmente não.

O que seria o vermelho? E o vermelho claro? Deve haver alguma relação entre os dois. Vermelho é ruim para os governadores ou é bom? No trânsito significa que se deve parar. E o azul? É bom para o governador atual? Se está "tudo azul", deve ser bom. Mas e o verde? Significa que ele deve seguir?  Amarelo é "atenção", como nos semáforos, um indício que estaria equilibrado? Os estados em cinza claro devem estar em situação similar.

Compare com o mapa refeito, no qual houve outra atribuição das cores.



Ficou mais fácil? Qual seria sua suposição sobre o futuro eleitoral dos governadores de Santa Catarina, Pará e Amapá?

Há vermelho escuro e vermelho claro, assim como verde escuro e verde claro. Assim, pode-se imaginar que as gradações de uma cor tenham um significado. Verde, amarelo e vermelho? Seria um como no trânsito? Se for, os estados em cinza devem ser alguma forma de exceção.

Foi adotada uma escala semafórica. Verde é seguir, vermelho é parar. Assim, os estados em verde são aqueles nos quais os atuais governadores estão na frente nas pesquisa; nos estados em vermelho, eles param, isto é, não se reelegem, A gradação se refere aos estados em que os governadores são candidatos (escuro) e aqueles em que não são, apoiando outro candidato (claro). Em amarelo, estados em que há empate. Os cinzas são as exceções: cinza claro são os estados em que não pesquisa Ibope ou DataFolha; o cinza escuro foi reservado ao Rio Grande do Norte, onde a governadora atual não é candidata e nem apóia nenhum nome.

Mais simples do que com cores escolhidas aparentemente ao acaso?

sexta-feira, 29 de agosto de 2014

Quem lhe ensinou a fazer gráficos?

A resposta em geral é: ninguém. Embora gráficos sejam ubíquos no mundo atual, presentes em todos os cantos, raramente alguém aprende a fazê-los de modo distinto da tentativa e erro.
Fazer um gráfico se tornou muito fácil desde a popularização de planilhas eletrônicas. Bastam alguns cliques e lá está uma imagem pronta. Mais alguns cliques, mais gráficos. Tão fácil que são produzidos às dúzias. Linhas ou colunas? Pizzas ou barras? Por que não um gráfico de dispersão? Ou de bolhas? Ou talvez uma teia?
A facilidade trouxe benefícios, como poder escolher entre as opções e encontrar relações que ficariam escondidas, mas não veio sem um custo. A abundância trouxe a banalização e como se pode fazê-los de forma automática, sem reflexão prévia, nem posterior, não faltam exemplos de gráficos irrelevantes, sem propósito, distorcidos, além de aberrações estéticas.

segunda-feira, 18 de agosto de 2014

Nova pesquisa, novas imprecisões

Foi divulgado hoje o resultado de uma nova pesquisa do Datafolha para as eleições presidenciais e, com isso, novos gráficos para ilustrar os resultados.

O gráfico publicado na Folha da simulação do segundo turno entre Dilma Rousseff e Aécio Neves chama a atenção. Ao contrário do gráfico divulgado na pesquisa anterior, preferiram mostrar apenas as pesquisas de maio para cá. Além disso, o corte no eixo vertical distorce a variação nas intenções de votos dos dois candidatos.

Compare o gráfico publicado com o gráfico refeito e diga: a história contada é a mesma?


sexta-feira, 18 de julho de 2014

Copa 2014 - o placar mais comum - e a moda de gols por jogo.

2x1 - este foi o placar mais comum na Copa, números finais repetidos 15 vezes.

E 3x1? E 4x2? Para saber, basta olhar a tabela.

Na intersecção coluna-linha aparece o número de partidas que terminou com o placar. Placar com número em vermelho significa empate. Exemplo: placares de 2x1 são encontrados na intersecção da linha “2” com  a coluna “1”.



E 2x1 significam três gols, que foi o número de gols que mais se repetiu (a "moda"). Curiosamente, houve mais jogos que terminaram com um ou três gols do que com dois, como se poderia esperar.




Qual foi o

Copa 2014 - o funil - ou o desempenho por continente.

A Copa é um funil e o gráfico mostra o desempenho dos países por confederação.



Concacaf é a confederação que reúne os países da América do Norte, Central, Caribe e, não me pergunte porque, Guiana e Suriname. A Austrália se classificou via eliminatórias da Ásia e, portanto, é considerada um país desse continente.

A primeira fase terminou com um prognóstico pouco alvissareiro para os europeus - mais da metade das seleções do velho continente voltou bem cedo para casa - e estimulante para os países das Américas, com apenas um representante da Concacaf e outro da América do Sul eliminados.

Na segunda fase houve uma regra: duas seleções de cada região foram barradas. Para os africanos, foi o fim da linha.

Nas quartas-de-final, um panorama esperado: europeus e sul-americanos, com a Costa Rica de intrusa - e uma intrusa dura de ser batida e, que como se viu, bateu muito.

No final, nada de novo: apenas europeus e sul-americanos e Argentina e Alemanha mais uma vez fazendo o jogo final.

Copa - classificação final

O desempenho dos países em um gráfico.


Copa: quem bate, leva?

Ainda no espírito de Copa do Mundo: as seleções mais faltosas acabam levando o troco?

Na figura abaixo estão plotados os países, com a média de faltas cometidas e sofridas em cada jogo. Sobre a reta de equilíbrio estariam os países que batem e apanham com igual intensidade. À direita, os países que fazem mais faltas do que sofrem; do lado esquerdo o contrário. Alguma conclusão?



Aparentemente nenhuma relação, mas nota-se a Espanha como a seleção menos faltosa, seguida, por quem diria?, a Argentina e, no lado oposto, Costa Rica, Uruguai (alguém surpreso?) e Holanda.

Na comparação entre número médio de faltas cometidas e cartões recebidos nota-se uma correlação, embora não muito forte. As seleções que cometem mais faltam são, em geral, mais admoestadas com cartões, ou seja bateu, levou cartão. Os países marcados em vermelho são aqueles que tiveram um jogador expulso na competição - nenhum teve dois ou mais jogadores enviados mais cedo para o chuveiro.


Observação sobre o gráfico: o eixo horizontal não começa em zero para facilitar a visualização. Note que há uma marca no eixo indicando que está cortado.

Por fim, será que o número de faltas de um país está relacionado com sua origem? Será que os países africanos ou sul-americanos ou de algum lugar são mais faltosos que outros? Mais um gráfico para ajudar na resposta.



Como se vê, cometer faltas independe da origem.

Imprecisão em gráficos - Pesquisa DataFolha

Hoje foi divulgada a pesquisa do DataFolha das intenções de voto para presidente. No site da Folha de S. Paulo há o gráfico abaixo:


Notou algo de estranho nele?

Ele tem dois erros que levam a distorções na interpretação.
O eixo vertical está cortado, com início distinto de zero como deveria. Começa em 10 e não há indicação disso.
O eixo horizontal trata intervalos diferentes de tempo como iguais.

Refiz o gráfico com os dados originais e tentei manter a formatação. Só não incluí as caricaturas.



Mudou sua percepção?

Veja então uma nova versão com linhas não tão espessas. 


A subida inicial do Aécio se torna menos íngreme, assim como a queda da Dilma. Na verdade, parece que os ganhos e perdas são mais ou menos constantes ao longo do tempo.

As distorções nos gráficos originais não são muito acentuadas, mas precisão é fundamental.

Pode-se achar que a distorção é intencional, mas não subscrevo a suspeita. Acho que é um mesmo um problema de desconhecimento dos princípios de como desenhar um gráfico.


segunda-feira, 14 de julho de 2014

A hora do gol

Neste gráfico, a mesma informação do gráfico do post anterior (o minuto em que os gols foram assinalados), mas em outra forma de visualização.


Em época de Copa do Mundo, nada como utilizá-la como base para falarmos de gráficos.

Em que minutos saíram os gols? Quando o primeiro gol foi marcado? E os cartões, quando foram mostrados? Estas respostas podem ser vistas em um gráfico.

Cada evento (gol e cartão) está assinalado no gráfico, no minuto em ocorreu na partida. Eventos nos acréscimos estão marcados no último minuto regulamentar. Como se nota, gols e cartões saem aos borbotões nos momentos finais.




Bem-vindo a este espaço destinado a discutir gráficos e tabelas.