Saltar para o conteúdo

Gráfico de dispersão

Origem: Wikipédia, a enciclopédia livre.
Figura 1. O tempo de espera entre erupções e a duração da erupção do Old Faithful Geyser no Yellowstone National Park, em Wyoming, nos Estados Unidos. Este gráfico sugere que geralmente há dois tipos de erupções, short wait short duration e long wait long duration. Neste caso, as variáveis são positivamente correlacionadas. Quanto mais tempo a erupção demora para ocorrer, maior a sua duração.

Os diagramas de dispersão ou gráficos de dispersão são representações de dados de duas (tipicamente) ou mais variáveis que são organizadas em um gráfico. O gráfico de dispersão utiliza coordenadas cartesianas para exibir valores de um conjunto de dados. Os dados são exibidos como uma coleção de pontos, cada um com o valor de uma variável determinando a posição no eixo horizontal e o valor da outra variável determinando a posição no eixo vertical (em caso de duas variáveis).[1]

Descrito pela primeira vez por Francis Galton, o gráfico de dispersão é usado para verificar se existe relação de causa e efeito entre duas variáveis de natureza quantitativa (variáveis que podem ser medidas ou contadas). Isto não prova que uma variável afeta outra variável, mas determina se existe relação e qual a intensidade da relação entre elas.[2] Por exemplo, o gráfico de dispersão possibilita construir uma regressão linear, determinando—se uma reta que aponta a relação entre duas variáveis e indica a função que dá o comportamento da relação entre elas.[3] Quando o valor de uma variável cai com o aumento do valor de outra variável, diz–se que as variáveis são negativamente correlacionadas. Por exemplo, a venda de carros pode ser negativamente correlacionada com o aumento do desemprego (quanto maior o desemprego, menor a venda de carros). Quando o valor de uma variável sobe com o aumento do valor de outra variável, diz–se que as variáveis são positivamente correlacionadas. Por exemplo, a venda de ventiladores pode ser positivamente correlacionada com o aumento da temperatura (quanto maior a temperatura, maior a venda de ventiladores) (ver figura 1).[4]

Figura 2. Um gráfico de dispersão 3D permite a visualização de dados multivariados. Este gráfico de dispersão tem múltiplas variáveis escalares e as utiliza para diferentes eixos no espaço de fases. As diferentes variáveis são combinadas para formar coordenadas no espaço de fasae e são exibidas usando glifos e coloridas usando outra variável escalar.[1]

As primeiras representações gráficas unidimenssionais (1D) podem ser atribuídas a William Playfair (1759 – 1823). As representações gráficas 1D incluem o gráfico de pizza, o gráfico em linha ou o gráfico de barra. Entretanto, a primeira representação gráfica bidimensional (2D) é atribuída à Francis Galton (1822 – 1911) (ver figura 2, para uma representação tridimensional do gráfico de dispersão). Em seu trabalho sobre correlação, regressão e herdabilidade, Galton foi o primeiro a mostrar a relação empírica entre duas variáveis de forma gráfica com dados reais[5]. Com a publicação de Regression towards Mediocrity in Hereditary Stature em 1886, Galton introduziu a lei da regressão e o coeficiente de correlação por meio do estudo das relações entre várias medidas (por exemplo, peso e tamanho da cabeça) e entre medidas de pais e filhos.[6]

Na época, os estatísticos ingleses estavam fascinados pela ideia de quantificar a influência da hereditariedade e reunir dados para desenvolver métodos para estudar a relação entre duas variáveis. Karl Pearson (1857 – 1936), um dos discípulos de Galton, realizou um grande trabalho na área de semelhança entre membros de uma família (Pearson mediu a altura de 1078 pais e a altura de seus filhos na maturidade). Os trabalhos de Pearson levaram à chamada correlação de Pearson.[7] Especificamente, a lei de regressão é a principal ferramenta da estatística moderna nas ciências sociais. Depois de Pearson dar continuidade ao trabalho de Galton, Émile Durkheim introduziu o uso da estatística nas ciências sociais encontrando a covariância entre suicídio e religião. Antes de Durkheim, os pesquisadores utilizavam um procedimento mais filosófico baseado no raciocínio e nos fatos da experiência.[8]

As representações gráficas de Galton eram mais ou menos próximas dos gráficos de dispersão conhecidos atualmente. As representações gráficas de Galton eram um pouco mais sofisticadas que tabelas com algumas anotações gráficas (em seu trabalho, Galton agrupava as variáveis em intervalos de classe para construir tabelas de frequência bivariada).[5] Portanto, a criação do gráfico de dispersão como conhecido atualmente pode ser atribuída à John F. W. Herschel (1792 – 1871), filho de William Herschel, o descobridor do Urano e da luz infravermelha. Em 1833, Herschel usou um gráfico de dispersão de medidas de estrelas binárias ruidosas para extrair uma tendência "trazendo a ajuda do olho e da mão para guiar o julgamento"[9]. Ao contrário de Galton, os gráficos de Herschel eram claramente gráficos de dispersão no sentido moderno.[5] De acordo com Herschel, o gráfico de dispersão permite ao espectador visualizar tendências importantes sugeridas pelos dados, e possivelmente oferecer uma teoria para explicá-los, imaginando uma linha que passa "não através de, mas entre eles".[9]

Em 1920, o gráfico de dispersão havia se tornado um instrumento muito utilizado como a ferramenta da ciência que conhecemos agora.[9] Entre todas as formas de gráficos estatísticos, o gráfico de dispersão pode ser considerado uma das invenções mais versáteis e útil da história dos gráficos estatísticos. Em The visual display of quantitative information, E. R. Tufte estimou em 1983 que entre 70% e 80% dos gráficos utilizados nas publicações científicas eram gráficos de dispersão.[5] Quase dez anos mais tarde, em 2012 cerca de um terço das figuras em JM3 e cerca de 70% de todos e gráficos de dados eram gráficos de dispersão.[9] Entre outros gráficos de dispersão notáveis estão o diagrama de Hertzsprung-Russell no início do anos 1900, a descoberta do número atômico por Henry Moseley também no início dos anos 1910 ou a curva de Phillips em meados dos anos 1950.[5]

O uso da expressão gráfico de dispersão

[editar | editar código-fonte]

Em First (?) Occurrence of Common Terms in Statistics and Probability, H. A. David (2001) credita A. K. Kurtz e H. A. Edgerton o primeiro uso da expressão gráfico de dispersão com a publicação de Statistical Dictionary of Terms and Symbols em 1939. Entretanto, o Oxford English Dictionary lista em 1935 uma citação para Kurtz e Edgerton sugerindo que a expressão gráfico de dispersão tenha aparecido anteriormente. Essa expressão também aparece no texto Elementary Statistical Method publicado em 1938 por A. E. Waugh. Uma pesquisa no JSTOR mostra que o termo aparece primeiramente em no artigo On the Relation Between the Symmetry of the Egg and the Symmetry of the Embryo in the Frog (Rana Temporaria) publicado em 1906 na Biometrika por J. W. Jenkinson (o artigo foi editado por Pearson). O termo passou a ser amplamente utilizado na década de 1920, com o aparecimento em livros didáticos. Por exemplo, Métodos Estatísticos, de F. C. Mills, de 1925.[5]

Conceitos relacionados

[editar | editar código-fonte]
Ver artigo principal: Correlação

A correlação é qualquer relação dentro de uma ampla classe de relações estatísticas que envolva dependência entre duas variáveis.[11] Por exemplo, a correlação entre a estatura dos pais e a estatura dos filhos. Embora seja comumente denotada como a medida de relação entre duas variáveis aleatórias,[11][12] correlação não implica causalidade.[13] Em termos técnicos, a correlação refere–se a qualquer um dos vários tipos específicos de relação entre os valores médios. Existem diferentes coeficientes de correlação para medir o grau de correlação. Um dos coeficientes de correlação mais conhecidos é o coeficiente de correlação de Pearson, obtido pela divisão da covariância de duas variáveis pelo produto dos seus desvios padrão[14] e sensível a uma relação linear entre duas variáveis.[15]

Ver artigo principal: Regressão (estatística)

A regressão linear estuda a relação entre muitas ou poucas variáveis. A relação entre duas variáveis é chamada de regressão linear simples. A relação entre mais de duas variáveis é chamada de regressão linear múltipla.[16] Especificamente, a regressão linear simples estuda a relação entre uma variável dependente e outra variável independente , ambas quantitativas. A regressão linear resulta em uma equação sobre o comportamento das variáveis e :

,

em que é a variável resposta associada a –ésima observação de , é a –ésima observação do valor independente e fixado para a variável independente , é o erro aleatório para –ésima observação e, e são os parâmetros que precisam ser estimados.[17]

Interpretação

[editar | editar código-fonte]

O gráfico de dispersão é uma das sete ferramentas básicas do controle de qualidade e pode ser construído na forma de gráficos de bolhas ou de linhas.[18][19]

O gráfico de dispersão pode ser usado quando uma variável contínua depende de outra variável contínua ou quando ambas as variáveis contínuas são independentes. O parâmetro sistematicamente aumentado ou diminuído por outro parâmetro é chamado de parâmetro de controle ou variável independente.[20] Normalmente o parâmetro de controle é plotado ao longo do eixo horizontal e a variável dependente é plotada ao longo do eixo horizontal.[21] Se a variável dependente não existir, qualquer tipo de variável pode ser plotada em qualquer um dos eixos (o gráfico de dispersão mostrará o grau de correlação, não o grau de causalidade entre duas variáveis).[20]

O gráfico de dispersão pode sugerir vários tipos de correlações entre variáveis como um certo intervalo de confiança. Por exemplo, peso (representado no eixo ) X altura (representada no eixo ). Estas correlações podem positivas (o valor de uma variável sobe com o aumento do valor de outra variável), negativas (o valor de uma variável cai com o aumento do valor de outra variável) ou nulas (as variáveis não são correlacionadas). Se o padrão dos pontos inclina–se da esquerda para direita, isto indica uma correlação positiva entre as variáveis. Se o padrão dos pontos inclina–se da direita para esquerda, isto indica uma correlação negativa entre as variáveis.[22] Uma linha com processo de ajuste de curvas pode ser desenhada para estudar a relação entre as variáveis.

Figura 3. O primeiro gráfico de dispersão mostra que a variável e a variável discordam entre si, pois uma é o inverso da outra. O segundo gráfico mostra o exposto no parágrafo anterior e o terceiro mostra variáveis independentes.

O gráfico de dispersão também é útil para verificar como dois conjuntos de dados comparáveis concordam entre si. Neste caso, uma linha (linha de identidade, linha ou linha ) muitas vezes é desenhada como uma referência. Quanto mais os conjuntos de dados concordarem, mais os pontos dispersos tendem a se concentrar ao redor da linha. Se os conjuntos de dados forem numericamente idênticos, os pontos dispersos caem exatamente na linha (figura 3).[20]

Entretanto, um dos aspectos mais poderosos do gráfico de dispersão é mostrar relações não lineares entre variáveis. Esta capacidade pode ser melhorada pela adição de uma linha suave como a regressão local (LOESS ou LOWESS, em inglês).[23] Se os dados forem representados por um modelo misto de relações simples, estas relações serão visualmente evidentes como padrões superpostos.[24]

Construção de um gráfico de dispersão

[editar | editar código-fonte]
Construção do ponto no gráfico de dispersão.

Para construir um gráfico de dispersão, são necessárias duas variáveis quantitativas. Por exemplo, massa corporal e altura . Estas variáveis devem ser associadas aos eixos do plano cartesiano, onde é a ordenada e é a abscissa. Então, é associada à abscissa e é associada à ordenada .[25]

Seja uma pessoa com massa corporal de 72 kg e altura de 180cm, de acordo com o ponto cartesiano na imagem ao lado. Sejam os dados da seguinte tabela.[26]

Massa corporal (kg) 72 80 60 90 100 120 82 79 78 55 71 75 130 105 60 54 58 57 60 62
Altura (cm) 180 170 175 174 185 190 182 179 165 165 170 169 177 173 172 162 163 167 171 181

Os dados da tabela são colocados no plano cartesiano para se obter vários pontos cartesianos, de acordo com a imagem abaixo:[26]

O resultado é um gráfico com vários pontos cartesianos, chamados de dispersão.[26]

Para analisar a relação entre variáveis usando gráfico de dispersão, é necessário uma quantidade suficientemente grande de dados que revela uma tendência. Por exemplo, é impossível analisar a relação entre massa corporal e altura baseando—se em dados de uma única pessoa (isto corresponderia a um único ponto no gráfico). Então, a sugestão é aumentar o tamanho de amostra, lembrando que quanto maior amostra melhor a análise final.

Exemplos práticos

[editar | editar código-fonte]
Figura 3. O gráfico de dispersão demonstra uma relação negativa entre as duas variáveis, renda bruta e porcentagem da renda gasta com saúde.

A saúde é um dos setores que mais movimenta dinheiro na sociedade. Para entender quais famílias gastam determinada porcentagem da sua renda com saúde, é possível construir o gráfico de dispersão ao lado (ver figura 3). A partir do gráfico entende—se que uma família com alta renda bruta dedica uma porcentagem menor dela para a manutenção da saúde da sua própria família. Isto é, observa—se uma proporção inversa ou uma relação negativa entre as variáveis. A tendência mostra que quanto maior a renda bruta, menor a porcentagem da renda gasta com saúde em uma família.[27]

Figura 4. O gráfico demonstra uma relação positiva entre as duas variáveis, tempo de serviço e número de clientes.

Para entender se um funcionário com muito tempo de serviço em uma determinada empresa recebe um salário maior do que outro funcionário com pouco tempo de serviço (ambos na mesma função), é possível construir o gráfico de dispersão ao lado (ver figura 4). A partir do gráfico entende—se que um funcionário com mais tempo de serviço possui uma renda maior do que outro funcionário com pouco tempo de serviço. Isto é, observa—se uma proporção direta e crescente ou uma relação positiva entre as variáveis. A tendência mostra que quanto maior o tempo de serviço, maior o número de clientes e maior a renda de um funcionário.[28]

Para um conjunto de variáveis de dados , a matriz do gráfico de dispersão mostra todos os diagramas de dispersão para cada par das variáveis em uma única visualização com os múltiplos graficos de disperção em um formato de matriz. Para variáveis, a matriz do gráfico de dispersão irá conter linhas e colunas. Um gráfico localizado na intersecção da i–ésima linha e da j–ésima coluna é um gráfico das variáveis . Isto significa que cada linha e cada coluna é uma dimensão e cada célula plota um gráfico de dispersão de duas dimensões.[29] Uma matriz generalizada de um gráfico de dispersão oferece uma série de displays de combinações emparelhadas de variáveis categóricas e quantitativas. Um mosaic plot, fluctuation diagram, ou faceted bar chart podem ser usados para exibir duas variáveis categóricas. Outros gráficos podem ser usados para exibir uma variável categórica e uma variável quantitativa (figura 5).[30]

Figura 5. Visualização dos dados em três dimensões juntamente com a matriz de gráficos de dispersão.

Ligações externas

[editar | editar código-fonte]

Referências

  1. a b Visualizations that have been created with VisIt at wci.llnl.gov. Last updated: November 8, 2007.
  2. «Scatter Plot». National Institute of Standards and Technology. Consultado em 12 de junho de 2017 
  3. Bussab & Morettin 2010, p. 450.
  4. «Interpretação do Coeficiente de Correlação». Universidade Federal do Paraná (UFPR). Consultado em 12 de junho de 2017 
  5. a b c d e f Michael, Friendly; Denis, Daniel (2005). «The Early Origins and Development of the Scatterplot» (PDF). Journal of the History of the Behavioral Sciences. 41 (2): 103 – 130 
  6. Blank, Brian E. (21 de fevereiro de 2016). «Elementary Statistics» (PDF). Washington University in St. Louis. Consultado em 24 de abril de 2017 
  7. «Measurements of Location and Position» (PDF). Bakersfield College. Consultado em 24 de abril de 2017. Arquivado do original (PDF) em 18 de setembro de 2017 
  8. Jakobsen, Tor G. (20 de março de 2013). «How Statistics is Useful in Social Science – An Example from the Kalmar War». Popular Social Science. Consultado em 24 de abril de 2017 
  9. a b c d Mack, Chris. «How to Write a Good Scientific Paper: Figures, Part 2». SPIE Digital Library. Consultado em 24 de abril de 2017 
  10. Redmond, Stephen. «7. Visualizing Data». Mastering QlikView. [S.l.: s.n.] 
  11. a b Bussab & Morettin 2010, p. 76.
  12. Mann, Prem S. (2010). Introdutory Statistics 7ª ed. [S.l.]: John Wiley & Sons. p. 592 — 593. 625 páginas 
  13. Cooper, Donald R.; Schindler, Pamela S. (2016). Métodos de Pesquisa em Administração 12ª ed. [S.l.]: AMGH. p. 480. 695 páginas 
  14. Martins, Maria Eugénia Graça (2014). «Coeficiente de Correlação Amostral» (PDF). Revista de Ciência Elementar. p. 1. Consultado em 19 de maio de 2017 
  15. Rodgers, J. L.; Nicewander, W. A. (1988). «Thirteen ways to look at the correlation coefficient». The American Statistician. 42 (1): 59-66. JSTOR 2685263. doi:10.1080/00031305.1988.10475524 
  16. Devore, Jay L. (2006). Probabilidade e Estatística para Engenharia e Ciências. [S.l.]: Cengage Learning. p. 432 — 433. 692 páginas 
  17. Filho, Luiz Medeiros de Araujo Lima. «Correlação e Regressão» (PDF). UNIVERSIDADE FEDERAL DA PARAÍBA. p. 6. Consultado em 19 de maio de 2017 
  18. Nancy R. Tague (2004). «Seven Basic Quality Tools». Milwaukee, Wisconsin: American Society for Quality. p. 15. Consultado em 5 de fevereiro de 2010 
  19. «Scatter Chart - AnyChart JavaScript Chart Documentation». AnyChart. Consultado em 3 de fevereiro de 2016 
  20. a b c van Aartsengel, Aristide; Kurtoglu, Selahattin (2013). Handbook on Continuous Improvement Transformation: The Lean Six Sigma Framework and Systematic Methodology for Implementation. [S.l.]: Springer. pp. 223 — 224. 642 páginas 
  21. Gabriel, Edgar (2014). «Big Data Analytics — Fundamental Analytics» (PDF). University of Houston. Consultado em 12 de junho de 2017 
  22. Larson, Ron; Farber, Betsy (2010). Estatística Aplicada. [S.l.]: Pearson. p. 398. 527 páginas 
  23. Cleveland, William (1993). Visualizing data. Murray Hill, N.J. Summit, N.J: At & T Bell Laboratories Published by Hobart Press. ISBN 978-0963488404 
  24. Nandi, Asoke K.; Abu-Jamous, Basel; Fa, Rui (2015). Integrative Cluster Analysis in Bioinformatics. [S.l.]: Wiley. p. 347 
  25. Shimakura, Silvia Emiko. «O Diagrama de Dispersão». UFPR. p. 1. Consultado em 19 de junho de 2017 
  26. a b c Reis, Edna Afonso (2002). «Análise Descritiva de Dados» (PDF). Universidade Federal de Minas Gerais. p. 27. Consultado em 19 de junho de 2017. Arquivado do original (PDF) em 29 de março de 2017 
  27. Bussab & Morettin 2010, p. 81.
  28. Bussab & Morettin 2010, p. 80.
  29. Scatter Plot Matrix at itl.nist.gov.
  30. Emerson, John W.; Green, Walton A.; Schoerke, Barret; Crowley, Jason (2013). «The Generalized Pairs Plot». Journal of Computational and Graphical Statistics. 22 (1): 79-91. doi:10.1080/10618600.2012.694762 
  • Bussab, Wilton de O.; Morettin, Pedro A. (2010). Estatística Básica 6ª ed. São Paulo: Saraiva. 540 páginas