Variável categórica
Em estatística, uma variável categórica é uma variável que pode assumir apenas um número limitado, e geralmente fixo, de valores possíveis, atribuindo cada indivíduo ou outra unidade de observação a um determinado grupo ou categoria nominal com base em alguma propriedade qualitativa.[1] Na ciência da computação e em alguns ramos da matemática, as variáveis categóricas são chamadas de enumerações ou tipos enumerados. É comum se referir a cada um dos valores possíveis de uma variável categórica como um nível, embora isso não seja feito neste artigo. A distribuição de probabilidade associada a uma variável categórica aleatória é chamada de distribuição categórica.
Dado categórico é o tipo de dados estatísticos que consiste em variáveis categóricas ou em dados que foram convertidos para esse formato, por exemplo, como dados agrupados. Mais especificamente, os dados categóricos podem derivar de observações feitas de dados qualitativos que são resumidos como contagens ou tabulações cruzadas, ou de observações de dados quantitativos agrupados em determinados intervalos. Frequentemente, os dados puramente categóricos são resumidos na forma de uma tabela de contingência. No entanto, particularmente ao considerar a análise de dados, é comum usar a expressão "dado categórico" para se referir a conjuntos de dados que, embora contenham algumas variáveis categóricas, também podem conter variáveis não categóricas.
Uma variável categórica que pode assumir exatamente dois valores é denominada uma variável binária ou variável dicotômica; um caso especial importante é o da variável de Bernoulli. Variáveis categóricas com mais de dois valores possíveis são chamadas de variáveis politômicas; variáveis categóricas são frequentemente consideradas politômicas, a menos que especificado de outra forma. A discretização é o tratamento de dados contínuos como se fossem categóricos. A dicotomização é o tratamento de dados contínuos ou variáveis politômicas como se fossem variáveis binárias. A análise de regressão frequentemente trata a associação à categoria com uma ou mais variáveis fictícias (dummy) quantitativas.
Exemplos de variáveis categóricas
[editar | editar código-fonte]Exemplos de valores que podem ser representados por uma variável categórica:
- O tipo sanguíneo de uma pessoa: A, B, AB ou O.
- O partido político para o qual um eleitor pode votar, por exemplo: Democrata Cristão, Social-Democrata, Partido Verde, etc.
- O tipo de uma rocha: ígnea, sedimentar ou metamórfica.
- A identidade de uma palavra específica (por exemplo, em um modelo de linguagem): uma das V opções possíveis, para um vocabulário de tamanho V.
Notação
[editar | editar código-fonte]Para facilitar o processamento estatístico, variáveis categóricas podem receber índices numéricos, por exemplo, de 1 a K para uma variável categórica que pode expressar exatamente K valores possíveis. Em geral, entretanto, os números são arbitrários e não têm significado além de simplesmente fornecer um rótulo conveniente para um valor específico. Em outras palavras, os valores em uma variável categórica existem em uma escala nominal: cada um deles representa um conceito logicamente separado, não podem ser necessariamente ordenados de forma significativa e não podem ser manipulados de outras formas como os números podem. Em vez disso, as operações válidas são equivalência, pertinência a um conjunto e outras operações relacionadas a conjuntos.
Como resultado, a tendência central de um conjunto de variáveis categóricas é dada por sua moda; nem a média nem a mediana podem ser definidas. Como exemplo, dado um conjunto de pessoas, podemos considerar o conjunto de variáveis categóricas correspondentes aos seus sobrenomes. Podemos considerar operações como equivalência (se duas pessoas têm o mesmo sobrenome), pertencimento a um conjunto (se o nome de uma pessoa está em uma determinada lista), contagem (quantas pessoas têm um determinado sobrenome) ou encontrar a moda (que nome ocorre com mais frequência). No entanto, não podemos calcular significativamente a "soma" Smith + Johnson ou perguntar se Smith é "menor que" ou "maior que" Johnson. Como resultado, não há sentido em perguntar qual é o "nome médio" (a média) ou o "nome mais ao meio" (a mediana) em um conjunto de nomes.
Observe que isso ignora o conceito de ordem alfabética, que é uma propriedade que não é inerente aos nomes em si, mas à maneira como os rótulos são construídos. Por exemplo, se os nomes forem escritos em cirílico e for considerada a ordem cirílica das letras, pode-se obter um resultado diferente ao avaliar "Smith < Johnson" do que se os nomes forem escritos no alfabeto latino padrão; e se os nomes forem escritos em caracteres chineses, sequer faz sentido avaliar "Smith < Johnson", porque nenhuma ordem consistente é definida para tais caracteres. No entanto, se forem considerados os nomes como escritos, por exemplo, no alfabeto latino, e for definida uma ordem correspondente à ordem alfabética padrão, então terá sido feita efetivamente uma conversão em variáveis ordinais definidas em uma escala ordinal.
Número de valores possíveis
[editar | editar código-fonte]Variáveis aleatórias categóricas são normalmente descritas estatisticamente por uma distribuição categórica, que permite que uma variável categórica arbitrária com K valores possíveis seja expressa com probabilidades separadas especificadas para cada um dos K resultados possíveis. Essas variáveis categóricas de múltiplas categorias são frequentemente analisadas usando uma distribuição multinomial, que conta a frequência de cada combinação possível de números de ocorrências das várias categorias. A análise de regressão em resultados categóricos é realizada por meio da regressão logística multinomial, probit multinomial ou um tipo relacionado de modelo de escolha discreta.
Variáveis categóricas que têm apenas dois resultados possíveis (por exemplo, "sim" x "não" ou "sucesso" x "falha") são conhecidas como variáveis binárias (ou variáveis de Bernoulli). Devido à sua importância, essas variáveis são frequentemente consideradas uma categoria separada, com uma distribuição separada (a distribuição de Bernoulli) e modelos de regressão separados (regressão logística, regressão probit, etc.). Como resultado, o termo "variável categórica" é frequentemente reservado para aquelas com 3 ou mais valores possíveis, às vezes denominadas de variáveis de múltiplas vias em oposição às variáveis binárias.
Também é possível considerar variáveis categóricas cujo número de categorias não é fixado antecipadamente. Por exemplo, para uma variável categórica que descreve uma palavra particular, podemos não saber com antecedência o tamanho do vocabulário e gostaríamos de permitir a possibilidade de encontrar palavras que ainda não vimos. Os modelos estatísticos padrão, como os que envolvem a distribuição categórica e a regressão logística multinomial, presumem que o número de categorias é conhecido com antecedência e que é complicado alterar o número de categorias conforme a necessidade. Nesses casos, técnicas mais avançadas devem ser usadas. Um exemplo é o processo de Dirichlet, que se enquadra no domínio das estatísticas não paramétricas. Nesse caso, é logicamente assumido que existe um número infinito de categorias, mas a qualquer momento a maioria delas (na verdade, todas exceto um número finito) nunca foi vista. Todas as fórmulas são formuladas em termos do número de categorias realmente vistas até agora, em vez do número total (infinito) de categorias potenciais existentes, e métodos são criados para atualização incremental de distribuições estatísticas, incluindo a adição de "novas" categorias.
Variáveis categóricas e regressão
[editar | editar código-fonte]Variáveis categóricas representam um método qualitativo de pontuação de dados (isto é, representam categorias ou pertencimento a grupos). Elas podem ser incluídas como variáveis independentes em uma análise de regressão ou como variáveis dependentes em regressão logística ou regressão probit, mas devem ser convertidas em dados quantitativos para tornar possível a análise dos dados. Isso é feito por meio de sistemas de codificação. As análises são conduzidas de forma que apenas g-1 (sendo g o número de grupos) sejam codificados. Isso minimiza a redundância, embora ainda represente o conjunto de dados completo, já que nenhuma informação adicional seria obtida com a codificação de todos os g grupos: por exemplo, ao codificar o sexo (em que g = 2: masculino e feminino), se apenas mulheres fossem codificadas, todos os demais seriam necessariamente homens. Em geral, o grupo para o qual não se codifica é o de menor interesse.[2]
Existem três sistemas principais de codificação normalmente usados na análise de variáveis categóricas na regressão: codificação dummy, codificação de efeitos e codificação de contraste. A equação de regressão assume a forma de Y = bX + a, onde b é a inclinação e dá o peso atribuído empiricamente a um explicador, X é a variável explicativa e a é o intercepto Y, e esses valores assumem significados diferentes com base no sistema de codificação usado. A escolha do sistema de codificação não afeta as estatísticas F ou R2. No entanto, escolhe-se um sistema de codificação com base na comparação de interesse, uma vez que a interpretação dos valores de b irá variar.[2]
Codificação dummy
[editar | editar código-fonte]A codificação dummy é usada quando se tem em mente um grupo de controle ou de comparação. Trata-se, portanto, de analisar os dados de um grupo em relação ao grupo de comparação: a representa a média do grupo controle e b é a diferença entre a média do grupo experimental e a média do grupo controle. É sugerido que três critérios sejam atendidos para especificar um grupo de controle adequado: o grupo deve ser um grupo bem estabelecido (por exemplo, não deve ser uma categoria como "outro"), deve haver uma razão lógica para selecionar este grupo como uma comparação (por exemplo, espera-se que o grupo tenha a pontuação mais alta na variável dependente) e, finalmente, o tamanho da amostra do grupo deve ser significativo e não pequeno em comparação com os outros grupos.[3]
Na codificação dummy, o grupo de referência recebe um valor de 0 para cada variável de código, o grupo de interesse para a comparação com o grupo de referência recebe um valor de 1 para sua variável de código especificada, enquanto se atribui 0 a todos os outros grupos para aquela variável de código particular.[2]
Os valores de b devem ser interpretados de forma que o grupo experimental seja comparado com o grupo de controle. Portanto, produzir um valor de b negativo implicaria que o grupo experimental tivesse pontuado menos que o grupo de controle na variável dependente. Para ilustrar isso, suponha que estejamos medindo o otimismo entre várias nacionalidades e decidimos que os franceses serviriam como um controle útil. Se estivermos comparando-os com os italianos e observarmos um valor b negativo, isso sugeriria que os italianos obtêm, em média, pontuações de otimismo mais baixas.
A tabela a seguir é um exemplo de codificação dummy tendo o francês como grupo de controle e C1, C2 e C3, respectivamente, sendo os códigos para italiano, alemão e outra (nem francês, nem italiano, nem alemão):
Nacionalidade | C1 | C2 | C3 |
Francês | 0 | 0 | 0 |
Italiano | 1 | 0 | 0 |
Alemão | 0 | 1 | 0 |
Outra | 0 | 0 | 1 |
Codificação de efeitos
[editar | editar código-fonte]No sistema de codificação de efeitos, os dados são analisados por meio da comparação de um grupo com todos os outros grupos. Ao contrário da codificação dummy, não há grupo de controle. Em vez disso, a comparação está sendo feita na média de todos os grupos combinados (a agora é a grande média). Portanto, não se olha para os dados em relação a outro grupo, mas sim em relação à grande média.[2]
A codificação de efeitos pode ser ponderada ou não. A codificação de efeitos ponderada é simplesmente o cálculo de uma grande média ponderada, levando em consideração o tamanho da amostra em cada variável. Isso é mais apropriado em situações em que a amostra é representativa da população em questão. A codificação de efeitos não ponderada é mais apropriada em situações em que as diferenças no tamanho da amostra são o resultado de fatores incidentais. A interpretação de b é diferente em cada caso: na codificação de efeitos não ponderada efeitos, b é a diferença entre a média do grupo experimental e a grande média, enquanto na situação ponderada é a média do grupo experimental menos a grande média ponderada.[2]
Na codificação de efeitos, codifica-se o grupo de interesse com 1, assim como seria feito para a codificação dummy. A principal diferença é que se codifica com -1 o grupo no qual se tem menos interesse. Uma vez que continua sendo usado um esquema de codificação g - 1, é de fato o grupo codificado -1 que não produzirá dados, daí o fato de que estamos menos interessados nesse grupo. Um código 0 é atribuído a todos os outros grupos.
Os valores de b devem ser interpretados de forma que o grupo experimental esteja sendo comparado com a média de todos os grupos combinados (ou grande média ponderada no caso de codificação de efeitos ponderada). Portanto, a produção de um valor de b negativo implicaria no grupo codificado como tendo pontuado menos do que a média de todos os grupos na variável dependente. Usando o exemplo anterior da pontuação de otimismo entre nacionalidades, se o grupo de interesse for de italianos, a observação de um valor b negativo sugere que eles obtêm uma pontuação de otimismo mais baixa.
A tabela a seguir é um exemplo de codificação de efeitos tendo Outra como o grupo de menor interesse.
Nacionalidade | C1 | C2 | C3 |
Francês | 0 | 0 | 1 |
Italiano | 1 | 0 | 0 |
Alemão | 0 | 1 | 0 |
Outra | -1 | -1 | -1 |
Codificação de contraste
[editar | editar código-fonte]O sistema de codificação de contraste permite que um pesquisador faça perguntas específicas diretamente. Em vez de o sistema de codificação ditar a comparação feita (isto é, contra um grupo de controle como na codificação dummy, ou contra todos os grupos como na codificação de efeitos), pode-se projetar uma comparação única atendendo a uma questão de pesquisa específica. Esta hipótese adaptada geralmente é baseada em teorias e/ou pesquisas anteriores. As hipóteses propostas são geralmente as seguintes: primeiro, há a hipótese central que postula uma grande diferença entre dois conjuntos de grupos; a segunda hipótese sugere que, dentro de cada conjunto, as diferenças entre os grupos são pequenas. Por meio de suas hipóteses focadas a priori, a codificação de contraste pode produzir um aumento na potência do teste estatístico quando comparada com os sistemas de codificação anteriores menos direcionados.[2]
Certas diferenças surgem quando se comparam os coeficientes a priori entre ANOVA e regressão. Ao contrário de quando usado em ANOVA, em que fica a critério do pesquisador a escolha de valores de coeficientes ortogonais ou não ortogonais, na regressão, é essencial que os valores dos coeficientes atribuídos na codificação de contraste sejam ortogonais. Além disso, na regressão, os valores dos coeficientes devem estar na forma fracionária ou decimal. Eles não podem assumir valores intervalares.
A construção de códigos de contraste é restrita por três regras:
- A soma dos coeficientes de contraste por cada variável de código deve ser igual a zero.
- A diferença entre a soma dos coeficientes positivos e a soma dos coeficientes negativos deve ser igual a 1.
- Variáveis codificadas devem ser ortogonais.[2]
A violação da regra 2 produz valores de R2 e F precisos, indicando que chegaríamos às mesmas conclusões sobre haver ou não uma diferença significativa; no entanto, deixa de ser possível interpretar os valores de b como uma diferença média.
Para ilustrar a construção de códigos de contraste, considere a tabela a seguir. Os coeficientes foram escolhidos para ilustrar as hipóteses a priori: Hipótese 1: Franceses e italianos terão uma pontuação mais alta em otimismo do que alemães (francês = +0,33, italiano = +0,33, alemão = -0,66). Isso é ilustrado pela atribuição do mesmo coeficiente às categorias francês e italiano e outro diferente à categoria alemão. Os sinais atribuídos indicam a direção do relacionamento (portanto, dar aos alemães um sinal negativo é indicativo de suas pontuações de otimismo hipotéticas mais baixas). Hipótese 2: Espera-se que franceses e italianos difiram em suas pontuações de otimismo (francês = +0,50, italiano = -0,50, alemão = 0). Aqui, atribuir um valor zero aos alemães demonstra a sua não inclusão na análise desta hipótese. Novamente, os sinais atribuídos são indicativos da relação proposta.
Nacionalidade | C1 | C2 |
Francês | +0,33 | +0,50 |
Italiano | +0,33 | -0,50 |
Alemão | -0,66 | 0 |
Codificação sem sentido
[editar | editar código-fonte]A codificação sem sentido ocorre quando se usa valores arbitrários no lugar das designações "0"s, "1"s e "-1"s vistas nos sistemas de codificação anteriores. Embora produza valores médios corretos para as variáveis, o uso de codificação sem sentido não é recomendado, pois levará a resultados estatísticos não interpretáveis.[2]
Imersões
[editar | editar código-fonte]Imersões são codificações de valores categóricos em espaços vetoriais de alta dimensão a valores reais (às vezes a valores complexos), geralmente de tal forma que valores "semelhantes" sejam atribuídos a vetores "semelhantes", ou em relação a algum outro tipo de critério que torne os vetores úteis para a respectiva aplicação. Um caso especial comum são as imersões de palavras, em que os valores possíveis da variável categórica são as palavras de um idioma e palavras com significados semelhantes devem receber vetores semelhantes.
Interações
[editar | editar código-fonte]Uma interação pode surgir quando se considera a relação entre três ou mais variáveis, e ela descreve uma situação em que a influência simultânea de duas variáveis em uma terceira não é aditiva. As interações podem surgir com variáveis categóricas de duas maneiras: interações entre variáveis categóricas ou interações entre variáveis categóricas e contínuas.
Interações entre variáveis categóricas e categóricas
[editar | editar código-fonte]Esse tipo de interação surge quando temos duas variáveis categóricas. Para investigar esse tipo de interação, seria necessário codificar usando o sistema que aborda a hipótese do pesquisador de forma mais adequada. O produto dos códigos produz a interação. Pode-se então calcular o valor b e determinar se a interação é significativa.[2]
Interações entre variáveis categóricas e contínuas
[editar | editar código-fonte]A análise de declives simples é um teste post hoc comum usado em regressão que é semelhante à análise dos efeitos simples em ANOVA, usada para analisar interações. Neste teste, examinam-se os declives simples de uma variável independente em valores específicos da outra variável independente. Esse teste não se limita ao uso com variáveis contínuas, mas também pode ser empregado quando a variável independente é categórica. Devido à natureza nominal dos dados, não se pode simplesmente escolher valores para sondar a interação como seria feito no caso de variáveis contínuas (ou seja, no caso contínuo, pode-se analisar os dados em níveis alto, moderado e baixo atribuindo 1 desvio padrão acima da média, na média e em um desvio padrão abaixo da média, respectivamente). No caso categórico, seria usada uma equação de regressão simples para cada grupo para investigar os declives simples. É prática comum padronizar ou centralizar as variáveis para tornar os dados mais interpretáveis em análises de declives simples; entretanto, as variáveis categóricas nunca devem ser padronizadas ou centralizadas. Este teste pode ser usado com todos os sistemas de codificação.[2]
Ver também
[editar | editar código-fonte]- Nível de medição
- Lista de análises de dados categóricos
- Dados qualitativos
- Tipo de dados estatísticos
- Codificação one hot
Referências
[editar | editar código-fonte]- ↑ Yates, Daniel S.; Moore, David S; Starnes, Daren S. (2003). The Practice of Statistics. Freeman 2nd ed. New York: [s.n.] ISBN 978-0-7167-4773-4. Cópia arquivada em 9 de fevereiro de 2005
- ↑ a b c d e f g h i j Cohen, J.; Cohen, P.; West, S. G.; Aiken, L. S. (2003). Applied multiple regression/correlation analysis for the behavioural sciences (3rd ed.). Routledge. New York, NY: [s.n.]
- ↑ Hardy, Melissa (1993). Regression with dummy variables. Sage. Newbury Park, CA: [s.n.]
Leitura complementar
[editar | editar código-fonte]- Andersen, Erling B. 1980. Modelos estatísticos discretos com aplicações em ciências sociais . North Holland, 1980.
- Bishop, Y. M. M.; Fienberg, S. E.; Holland, P. W. (1975). Discrete Multivariate Analysis: Theory and Practice. MIT Press. [S.l.: s.n.] ISBN 978-0-262-02113-5. MR 381130Bishop, Y. M. M.; Fienberg, S. E.; Holland, P. W. (1975). Discrete Multivariate Analysis: Theory and Practice. MIT Press. [S.l.: s.n.] ISBN 978-0-262-02113-5. MR 381130 Bishop, Y. M. M.; Fienberg, S. E.; Holland, P. W. (1975). Discrete Multivariate Analysis: Theory and Practice. MIT Press. [S.l.: s.n.] ISBN 978-0-262-02113-5. MR 381130
- Christensen, Ronald (1997). Log-linear models and logistic regression. Springer-Verlag. Col: Springer Texts in Statistics Second ed. New York: [s.n.] pp. xvi+483. ISBN 0-387-98247-7. MR 1633357Christensen, Ronald (1997). Log-linear models and logistic regression. Springer-Verlag. Col: Springer Texts in Statistics Second ed. New York: [s.n.] pp. xvi+483. ISBN 0-387-98247-7. MR 1633357 Christensen, Ronald (1997). Log-linear models and logistic regression. Springer-Verlag. Col: Springer Texts in Statistics Second ed. New York: [s.n.] pp. xvi+483. ISBN 0-387-98247-7. MR 1633357
- Amigável, Michael . Visualizando dados categóricos . SAS Institute, 2000.
- Lauritzen, Steffen L. (2002) [1979]. Lectures on Contingency Tables (PDF) updated electronic version of the (University of Aalborg) 3rd (1989) ed. [S.l.: s.n.]
- NIST / SEMATEK (2008) Manual de métodos estatísticos