O que é um gráfico estatístico?

Gráficos são técnicas de visualização de dados amplamente utilizadas em todas as áreas da pesquisa. A sua popularidade se deve à maneira como elucidam informações que estavam escondidas nas colunas do banco de dados, sendo que muitos deles podem ser compreendidos até mesmo por leigos no assunto que está sendo discutido.

Mas será que podemos definir formalmente o que é um gráfico estatístico?

Graças ao estatístico norte-americano Leland Wilkinson, a resposta é sim.

Em 2005, Leland publicou o livro The Grammar of Graphics, uma fonte de princípios fundamentais para a construção de gráficos estatísticos. No livro, ele defende que um gráfico é o mapeamento dos dados a partir de atributos estéticos (posição, cor, forma, tamanho etc) de objetos geométricos (pontos, linhas, barras, caixas etc).

Além de responder a pergunta levantada nesse post, os conceitos de Leland tiveram outra grande importância para a visualização de dados. Alguns anos mais tarde, o seu trabalho inspirou Hadley Wickham a criar o pacote ggplot2, que enterrou com muitas pás de terra as funções gráficas do R base.

Em A Layered Grammar of Graphics, Hadley sugeriu que os principais aspectos de um gráfico (dados, sistema de coordenadas, rótulos e anotações) podiam ser divididos em camadas, construídas uma a uma na elaboração do gráfico. Essa é a essência do ggplot2.

No gráfico abaixo, temos informação de 32 carros com respeito a 4 variáveis: milhas por galão de combustível, peso, transmissão e número de cilindros. O objeto geométrico escolhido para representar os dados foi o ponto. As posições dos pontos no eixo xy mapeia a associação entre o peso e a quantidade de milhas por galão. A cor dos pontos mapeia o número de cilindros de cada carro, enquanto a forma dos pontos mapeia o tipo de transmissão. Observando o código, fica claro como cada linha/camada representa um aspecto diferente do gráfico.

Os conceitos criados por Leland e Hadley defendem que essa estrutura pode ser utilizada para construir e entender qualquer tipo de gráfico, dando a eles, dessa maneira, a sua definição formal.

ggplot(mtcars) +
  geom_point(aes(x = wt, y = mpg, shape = as.factor(am), color = as.factor(cyl))) +
  labs(
    x = "Tonelagem",
    y = "Milhas por galão",
    shape = "Transmissão",
    color = "Cilindros"
  ) +
  scale_shape_discrete(labels = c("Automática","Manual")) +
  theme_minimal() +
  theme(legend.position = "bottom")

Por fim, é preciso frisar que, apesar de a gramática prover uma forte fundação para a construção de gráficos, ela não indica qual gráfico deve ser usado ou como ele deve parecer. Essas escolhas, fundamentadas na pergunta a ser respondida pela análise, nem sempre são triviais e negligenciá-las pode nos levar a gráficos mal construídos e conclusões equivocadas.

Cabe a nós, cientistas de dados, desenvolver, aprimorar e divulgar as técnicas de visualização adequadas para cada tipo de variável, assim como apontar ou denunciar os usos incorretos e mal-intencionados. Mas, em um mundo cuja veracidade das notícias é cada vez menos importante, ter senso crítico para entender e julgar as informações trazidas por um gráfico é uma tarefa para todas as pessoas.


É isso! Dúvidas, sugestões e críticas, mande aqui nos comentários.

comments powered by Disqus