quarta-feira, 17 de setembro de 2014

Bons exemplos

Se os últimos posts foram críticos, este vai no sentido contrário. Os exemplos são do site pollingdata.com.br, uma iniciativa similar ao FiveThirtyEight. [É o site de Nate Silver (vide posts anteriores) no qual fazia previsões dos resultados das eleições norte-americanas a partir das pesquisas divulgadas. O nome é uma referência ao número de cadeiras do colégio eleitoral do país. Atualmente as previsões abrangem muitos outros campos.]
O primeiro exemplo mostra que até mesmo "reloginhos" ou coisas similares podem ser usados de forma prática e útil.


Mas por que os reloginhos antes foram tão criticados e agora são elogiados? Vários motivos. Neste caso há um mínimo e um máximo absoluto. Não há como a probabilidade de um evento ser inferior a zero nem mais do que 100%. Além disso, o desenho utilizado lembra os mostradores de combustível no tanque, com a associação imediata do que está "cheio" ou "vazio".

O segundo exemplo é o gráfico com os dados das pesquisas da eleição presidencial e as previsões do PollingData.

Os pontos são os dados das pesquisas de vários institutos, as linhas representam o resultado do modelo e as áreas em volta são o intervalo da previsão. [Observação: para as pesquisas em que não havia o nome de Marina Silva foram imputados dados.]
O gráfico é claro, legível e de fácil compreensão, apesar da quantidade de informações que apresenta. Se todos gráficos tivessem estas características tudo seria bem mais claro.

segunda-feira, 15 de setembro de 2014

É difícil fazer o simples?

O Estadão publicou uma matéria sobre a queda de produção e o aumento de preços de cerveja. Para acompanhá-la, dois gráficos: um com a participação de cada região na produção (com um erro no título que se refere á "participação por estado") e um com a "inflação da cerveja" x "inflação geral" em cinco cidades.
Faltou, como se nota, o gráfico sobre a evolução da produção de cerveja para que o leitor tivesse alguma idéia de como foi a queda. Seria uma tendência? Efeito da sazonalidade?
Pelo que se lê na matéria, porém, há um aumento da produção no acumulado do ano, o que contradiz a premissa do segundo parágrafo de que "a explicação para essa queda parece estar no bolso do consumidor". A não ser que o preço da cerveja tivesse disparado nos últimos meses, mas é meramente uma hipótese que não encontra elementos na matéria para se sustentar ou ser desmentida.
O autor se preocupou mais em bancar o ascensorista do que informar porque o preço da cerveja subiu tanto.
O gráfico que compara a inflação da cerveja com a inflação geral não prima pela facilidade de leitura.


 Consegue identificar cada cidade no gráfico? Para saber, é preciso passar com o mouse sobre a imagem e daí aparecem call-outs com a identificação da cidade e o valor.
Não seria melhor fazer algo mais simples? Recursos da tecnologia deveriam ser utilizados para auxiliar o leitor e não dificultar sua vida.
Abaixo, uma nova versão para o gráfico. Pelo menos dá para identificar cada cidade.

Gráficos e sua ausência II

Por algum estranho motivo muitos jornalistas pensam que são ascensoristas. Em vez de reportar os fatos e explicá-los preferem falar "sobe" e "desce". Plotar os dados em um gráfico eliminaria as "matérias de elevador", que teriam de ser substituídas por conteúdo mais relevante.
Em uma matéria sobre a divulgação do Índice de Atividade Econômica do Banco Central (IBC) publicada pelo o Globo (ver aqui) destacava-se o desempenho positivo e era acompanhada por outra que explicava as diferenças de metodologia entre o índice do Bacen e o PIB calculado pelo IBGE. No entanto, faltava o essencial: comparar o histórico dos dois.
Se partissem de um gráfico não seria mais informativo? O autor teria ao menos de explicar o porquê das divergências entre os indicadores.


sexta-feira, 12 de setembro de 2014

Gráficos e sua ausência

Gráficos medíocres são colaboram para o entendimento do assunto em pauta, mas a sua ausência pode ser ainda pior. Em posts anteriores foram criticados alguns gráficos publicados. Desta vez a crítica vai para os gráficos não publicados.
Um exemplo é a matéria do Valor sobre a queda do faturamento do varejo em junho. Ela é baseada no resultado da Pesquisa Conjuntural do Comércio Varejista (PCCV) da FecomercioSP, que apontou uma redução de 7,2% do faturamento do varejo paulista em junho em comparação com o mesmo mês  do anterior e aponta os principais segmentos que contribuíram para a queda e aqueles que tiveram aumento de vendas no período. No entanto, não há gráficos. Na edição impressa, poderia-se justificar por escassez de espaço, embora uma figura pudesse poupar muitas palavras. Na internet, contudo, não há esse tipo de restrição. Será que os dois exemplos abaixo não ajudariam a compreensão?









 

terça-feira, 9 de setembro de 2014

Há regras para se fazer um bom gráfico?

Regras eu não sei; princípios com certeza.
Cada autor do tema tem sua própria lista e definições, com nuances.

Eu adoto os  princípios ACE, que encontrei em um texto sem autor. São eles:

Acurácia: refletir os dados de maneira acurada, precisa, sem distorções.
Clareza: o gráfico deve ser tão fácil quanto possível de ser interpretado.
Economia: incluir apenas os elementos que mostram os dados e aqueles necessários para entendê-los, isto é, sem chart junk.

São outras palavras, com ênfases distintas, dos tradicionais Auto-suficiência (o gráfico requer nenhuma (ou minima) explicação adicional) e Alta densidade de dados (o máximo de informação por gota de tinta. Há até uma medida para tal: dpi - dots per squared inch ou pontos por polegada quadrada).

Um aviso importante: os gráficos padrão do Excel costumam violar estes princípios. Era mais grave nas versões anteriores (até o Excel 2010 no Windows), mas mesmo a versão mais recente (Excel 2013) não escapa impune.

Fazer gráficos não é jogo de tênis, mas sempre busque um ACE.

O que é importante em um gráfico?

A resposta é simples: a mensagem. Um gráfico existe para passar uma mensagem para o veitor. Se não há mensagem a ser transmitida, qual o motivo de se fazer um gráfico? A pergunta ronda a tautologia, embora muitos gráficos por aí ou deixam mais dúvidas do que respostas ou parecem não ter mensagem alguma.
É importante destacar a dupla função de um gráfico. Na fase de análise não se sabe o que os dados revelarão. Ao transformar os dados em um gráfico, eles poderão confirmar a hipótese original, por mais trivial que seja (por exemplo, que as vendas estão crescendo), desmenti-la, revelar padrões insuspeitos ("será que há sazonalidade nas vendas?") ou gerar novas perguntas. É um trabalho de exploração, em que se brinca com os dados de várias maneiras, até se extrair as conclusões. Um padrão pouco perceptível em um gráfico de linhas pode ficar patente ao se usar colunas empilhadas ou o contrário. Algo que não estava nítido ao se usar barras torna-se evidente em um gráfico de dispersão. Ou que os gráficos não ajudam a explicar nada e é melhor nem utilizá-los
Uma vez definida a mensagem, como desenhar o gráfico para torná-la clara? Linhas ou colunas? Pizzas ou barras? Que cores? Como fazer os eixos? Legenda? As respostas dependem de como o gráfico será utilizado, seguindo os princípios para se fazer gráficos (ver próximo post).
Um gráfico não é uma entidade que existe no vazio. Faz parte de um relatório, de um artigo, de uma apresentação, de um dashboard, etc. Pode ser o centro de uma argumentação ou usado para ilustrar uma questão acessória; o único da espécie ou um de uma série; inédito ou visto todo mês como parte do monitoramento. Seja como for, o gráfico tem um propósito - ou deveria ter. Antes de começar a fazer seu próximo gráfico, pense qual é a sua mensagem e o seu propósito. Se não estiver claro, será que vale a pena usar um?

sexta-feira, 5 de setembro de 2014

Retas e degraus

Mais uma reunião do Copom, sem nenhuma surpresa. O Banco Central manteve a Selic em 11% ao ano, como esperado por 11 de cada 10 analistas do mercado.
Igualmente sem surpresa, o G1 publicou uma vez mais o seu infográfico que viola vários princípios de como se fazer um gráfico.


O primeiro problema do gráfico do G1está no eixo vertical. Ele começa em cinco, em vez de zero. Com isso, as quedas parecem mais acentuadas do que são de fato.
O segundo problema é ainda mais grave. A linha desenhada conecta os pontos em segmentos de reta, isto é, como se existissem valores intermediários entre um ponto e outro. No entanto, a taxa em 7 de junho de 2011 não era um valor entre o definido na reunião anterior (12%) e o que foi deliberado no dia 8 de junho (12,25%). Era ainda a taxa de 12% a.a. Em casos assim, nos quais os valores se mantém em um patamar entre duas datas (ou dois intervalos de tempo qualquer), isso deve se refletir no gráfico. No caso, teria de ser um gráfico em degraus, como a versão redesenhada.



Foi mantido o estilo geral do infográfico, com algumas alterações. A principal, a mudança das retas para os degraus. O eixo vertical começa do zero, para não causar distorções. Estão assinalados o valor inicial da série (na verdade, o valor da primeira reunião de 2006), do valor final (correspondendo à reunião mais recente) e os "pontos de inflexão" (máximos e mínimos locais), isto é, as reuniões que interromperam séries de elevação ou redução das taxas. Esses pontos de inflexão estão destacados de forma distinta, no caso de elevação (com texto em vermelho) ou redução (com texto em cinza). Foi mantido o mesmo número de algarismos significantes nos valores destacados (duas casas decimais).
Fazer um gráfico em degraus dá mais trabalho do que fazer com segmentos (que são o padrão). Não há no Excel esta opção por default, o que requer que se refaça a série de dados, mas a precisão requer o esforço.
Compare os dois gráficos e notará outra coisa: por duas vezes o gráfico original do G1 destaca pontos que não foram os de mudança na trajetória das taxas de juros. São eles: 18/07/07, com o valor de 11,50% (chegou a 11,25% em setembro daquele ano) e 8/6/2011, com 11,25%, o que aparenta ser o máximo daquela escalada (subiu mais 0,25%na reunião seguinte). Além disso, pelo gráfico parece que o patamar atual de 11% foi atingido em 28/05/2014, quando na realidade se deu na reunião anterior de 2/4/14. Os dados que utilizei para fazer o gráfico foram retirados do site do Banco Central. Não sei de onde o G1 tirou seus dados para apresentar seu gráfico.

quinta-feira, 4 de setembro de 2014

Quando o vazio é mais do que o cheio

Mais um exemplo do livro "O sinal e o ruído", de Nate Silver. Como mencionado em outro post, o livro é de leitura recomendada, mas não prima pelos gráficos.
Há muitos gráficos de dispersão no livro, uma forma simples apropriada de mostrar relações entre variáveis.
Um exemplo do livro com a relação entre consumo de calorias e taxas de obesidade (figura 12-1 no original) foi refeito (procurei as mesmas bases, não garanto que tenha encontrado os mesmos dados) e está mostrado abaixo.


No entanto, como é comum ocorrer nesse tipo de gráfico, vários pontos se sobrepõe ou ocupam posições próximas, o que dificulta a sua identificação. Há algumas soluções para este problema. Outra forma, mais simples, é não preencher o interior dos pontos. Os círculos vazados permitem ver se há outros pontos quase coincidentes. Os países identificados por legenda foram deixados com o interior preenchido para se destacarem.


Como se vê, o vazio pode ser mais do que o cheio.

P.S: Outra maneira é usar pontos transparentes, de forma as sobreposição são realçadas por ficarem mais escuras. Todavia requer impressão (ou projeção) de alta resolução para que fique nítido.
P.S. 2: na figura refeita a legenda do eixo vertical foi colocada na posição horizontal para facilitar a leitura. Não foi modificado o eixo horizontal, apesar de não começar em zero - tema para posts futuros.

Por que simplificar se é possível complicar?

Um gráfico deve ser tão simples quanto possível para comunicar os dados. É um princípio quase que tautológico. No entanto, alguns preferem ser "criativos" e com isso prejudicam a clareza.
Os dois exemplos deste post são do livro "O sinal e o ruído - por que tantas previsões falham e outras não", de Nate Silver. O livro é muito interessante, aborda a questão de previsões em diversos campos, do basebol aos terremotos, passando por previsão de tempo, pôquer, eleições e aquecimento global, trata da velha disputa entre bayesianos e frequentistas (o autor alinha-se com os primeiros) e é uma leitura recomendada. No entanto, apesar de estatística ser um tema embutido no livro, os seus gráficos de forma geral deixam muito a desejar. Há as limitações do meio, com a impressão em preto e branco, mas nada que justifique algumas falhas.

Há uma figura sobre o tempo médio que uma ação é mantida pelos investidores nos Estados Unidos, refeita abaixo, mantendo as características da original.
 O autor da figura deve ter pensado que, como se referia a tempo, seria adequado usar algo que lembrasse relógios. O resultado é um conjunto de pizzas cujas fatias escuras representam o tempo médio.
Havia soluções muito mais simples e efetivas, como usar um gráfico de linhas ou colunas (como a figura abaixo). Por que simplificar quando se pode ser inventivo?


No mesmo capítulo há uma outra figura, uma vez mais com pizzas. Abaixo há a versão refeita, mantendo-se as características da original. Ao ver o gráfico, sem consultar os números, é capaz de ter uma idéia de quanto foi o incremento no valor das ações em posse dos investidores individuais? Multiplicou-se por três, cinco, dez, vinte? E dos investidores institucionais? E do bolo como um todo? Tente adivinhar antes do próximo parágrafo.

As respostas são, de forma arredondada, 3 para os investidores individuais, 14 para os institucionais  e 7 para o bolo. Se suas estimativas passaram longe, não se sinta frustrado: é difícil estimar a olho. Mas com o gráfico abaixo seria mais simples.


terça-feira, 2 de setembro de 2014

É tão difícil fazer um gráfico simples?

Fazer um gráfico é muito simples. Bastam alguns cliques no Excel e lá está ele pronto. mas se é tão fácil, por que complicam?
Foi publicado hoje o resultado da pesquisa do IBGE sobre produção industrial. No site do Estadão, a matéria sobre o tema veio acompanhado do seguinte gráfico:

Um gráfico simples, de uma variável ao longo do tempo. Só que embora a tarefa fosse simples, o resultado apresenta uma coleção de problemas. Qual a unidade do gráfico? Percentual? É, mas isso não é indicado nem no título, nem o eixo vertical. Quando o gráfico começa? As legendas do eixo horizontal são pouco esclarecedoras, pois estão entre as marcas da grade e ocultas parcialmente pela linha.
Um pouco de cuidado na elaboração resultaria em um gráfico mais claro.

As principais mudanças: as unidades passaram a ser mostradas em porcentagem no eixo vertical; o eixo horizontal foi feito com uma linha mais espessa, para ficar mais nítido se a oscilação foi positiva ou negativa, foram retiradas as suas linhas de grade e a legenda com as datas passou para baixo, sem se misturar com a linha dos dados.
 Só que essa solução é suficiente? Os gráficos acima apresentam poucos dados - apenas 12. Seria o adequado para ilustrar a variação da produção industrial ou uma série mais longa seria mais informativa? A principal vantagem dos gráficos é poder condensar um grande volume de informação em pouco espaço. Acrescentar mais 12 meses á série dá outra perspectiva aos dados.

segunda-feira, 1 de setembro de 2014

Reloginhos que nada dizem

Uma das piores características dos dashboards são os "reloginhos" (gauges). Esses mostradores circulares raramente agregam algo de útil. Não se pode dizer que não agregam inutilidades.
Os dashboards procuram imitar os painéis dos automóveis. Se para conduzir um veículo, posso me basear em mostradores circulares, por que não utilizar o mesmo formato na condução de uma empresa? Os usuários já estão familiarizados com o visual e podemos fazer com que se sinta no comando de uma nave ao utilizar os nossos programas sofisticados de B.I. (Business Intelligence).
Essa é a lógica dos desenvolvedores dos softwares. No entanto, embora possam entender de processamento de grandes bases de dados, integração de sistemas e que tais, escondem seus conhecimentos sobre informação e comunicação. [Há quem diga que o mesmo ocorre sobre a parte de business e de intelligence, mas isto é outra discussão.] Programas caríssimos e de instalação complexa se escondem por trás de cockpits que vão do bizarro ao cômico. Se alguém acha que estou exagerando, consulte, por exemplo, a galeria de horrores apresentada no livro Business Dashboards, de Rasmussen, Chen & Bansal (John Wiley & Sons, 2009). Há um agravante: os autores mostram dashboards de vários fornecedores e sugerem que o leitor se inspire neles. Eles não devem ter lido Information dashboard design de Stephen Few (O'Reilly, 2006) no qual o autor pega exemplos similares e mostra onde e porque falham.
Um dos problemas dos "reloginhos" em sua canhestra imitação dos painéis dos carros é que os propósitos são distintos que um mesmo instrumento não é capaz atender. Ao dirigir, o condutor precisa da informação da velocidade naquele instante, para calcular se é adequada às manobras que precisa fazer, ao tráfego local e para atender os limites da via. Não importa a velocidade que estava um segundo antes ou um minuto antes: apenas a informação instantânea é relevante. O conta-giros tem função similar: não interessa a quantas rpm o motor estava há um segundo, somente o giro no momento é importante para a decisão do motorista. Da mesma forma, o que é importa é saber quanto combustível resta no tanque, para decidir se precisar parar para reabastecer ou não. Ou se o motor está prestes a ferver e, portanto, é prudente parar o veículo ou se está na normalidade.
Para dirigir uma empresa, porém, a informação instantânea é de pouca relevância, exceto em algumas atividades operacionais - o que não é, por definição, função da direção da empresa, que delega a tarefa para as áreas de operação. Como agravante, os reloginhos não mostram um dado instantâneo e sim um evento passado. Mas o que um dado isolado revela sobre o desempenho de uma empresa? Saber que a receita líquida no trimestre anterior foi de $ 387.535.442,61 com margem bruta de 25,8% indica o que? Foi um bom trimestre? Não se pode dizer nada sem saber como é o histórico ou com o estimado. Se nos trimestres anteriores a receita não chegava a $ 300 milhões, poderia se dizer que foi um bom resultado, mas se passava dos $ 500 milhões, é um número pavoroso.
A estética (ou a falta dela) dos dashboards e seus "reloginhos" transborda para outros meios, como os relatórios que as empresas utilizam internamente ou para se comunicar com os públicos externos. As gracinhas visuais se repetem e a informação fica prejudicada.
A figura a seguir foi retirada de um relatório enviado por uma empresa de capital aberto a seus acionistas.
O que se pode avaliar a partir dela? Nada além do que um texto diria. Ou menos do que um tetxo diria, pois pelas escalas apresentadas, a margem bruta de 32,0% está no meio do caminho, assim como a margem líquida de 11,5% e a margem EBITDA atinge apenas um quarto da escala. Será que para estar em linha com a s demais ela deveria ser de 30%?
Veja, porém, os dados colocados em perspectiva. A figura abaixo mostra a evolução dos indicadores nos últimos oito trimestres (em milhões de reais), de forma que se pode avaliar inclusive se há sazonalidade nas vendas e resultados.
Com o mesmo espaço ocupado, muitos dados a mais e uma visão mais nítida de seu desempenho.     Pode-se avaliar com uma passada de olhos ou gastar mais tempo verificando com mais detalhe. Inclusive perceber que a empresa inseriu no relatório para os acionistas o gráfico com os dados do primeiro trimestre em vez do segundo trimestre, algo que ficaria patente ao mostrar a série histórica.

Cores

O uso de cores é uma maneira simples de adicionar informação em gráficos. Basta atribuir um significado a cada cor e se pode transmitir a mensagem de forma imediata por meio de uma imagem. Ou não, dependendo de como são usadas as cores.

A mapa abaixo foi publicado pelo jornal "O Globo" (veja o original aqui) e mostra a situação nas pesquisas dos governadores que lutam pela reeleição (ou candidatos que apóiam). O título é "govvernadores em risco eleitoral". Sem legenda, é capaz de dizer em quais estados os governadores atuais estão com risco de não se reelegerem? Por exemplo, diria que o governador de Santa Catarina encaminha-se para a reeleição? E o do Pará? E o do Amapá


A resposta é provavelmente não.

O que seria o vermelho? E o vermelho claro? Deve haver alguma relação entre os dois. Vermelho é ruim para os governadores ou é bom? No trânsito significa que se deve parar. E o azul? É bom para o governador atual? Se está "tudo azul", deve ser bom. Mas e o verde? Significa que ele deve seguir?  Amarelo é "atenção", como nos semáforos, um indício que estaria equilibrado? Os estados em cinza claro devem estar em situação similar.

Compare com o mapa refeito, no qual houve outra atribuição das cores.



Ficou mais fácil? Qual seria sua suposição sobre o futuro eleitoral dos governadores de Santa Catarina, Pará e Amapá?

Há vermelho escuro e vermelho claro, assim como verde escuro e verde claro. Assim, pode-se imaginar que as gradações de uma cor tenham um significado. Verde, amarelo e vermelho? Seria um como no trânsito? Se for, os estados em cinza devem ser alguma forma de exceção.

Foi adotada uma escala semafórica. Verde é seguir, vermelho é parar. Assim, os estados em verde são aqueles nos quais os atuais governadores estão na frente nas pesquisa; nos estados em vermelho, eles param, isto é, não se reelegem, A gradação se refere aos estados em que os governadores são candidatos (escuro) e aqueles em que não são, apoiando outro candidato (claro). Em amarelo, estados em que há empate. Os cinzas são as exceções: cinza claro são os estados em que não pesquisa Ibope ou DataFolha; o cinza escuro foi reservado ao Rio Grande do Norte, onde a governadora atual não é candidata e nem apóia nenhum nome.

Mais simples do que com cores escolhidas aparentemente ao acaso?