Estatística p/AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 09Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 3 de 1...
6 downloads
0 Views
Estatística p/AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 09Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 3 de 130
Olhe o que este gráfico está te mostrando! Conforme a renda cresce, o valor gasto
em consumo também cresce, mas a taxas decrescentes. Veja que, para o primeiro
indivíduo o consumo é 70% de toda sua renda, enquanto que, para o 8º indivíduo, o
consumo é 41%.
Viu que conclusão interessante você tirou a partir da análise desta amostra fictícia?
A lista de possibilidades é infinita! Vocês terão que fazer isso várias vezes no setor
público, pois a análise de muitos projetos necessita este conhecimento estatístico.
Assim, nesta aula, precisaremos estudar a forma de avaliar o comportamento
conjunto de variáveis. Entretanto, vocês devem lembrar-se de que há dois tipos de
variáveis: quantitativas e qualitativas. Assim, podemos ter 3 (três) casos de
associação entre variáveis:
1) Entre duas variáveis qualitativas;
2) Entre duas variáveis quantitativas;
3) Entre uma variável qualitativa e outra quantitativa.
Então, vamos começar!
Estatística p/AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 09Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 9 de 130
Sendo que esta expressão está te dizendo para somar, para todas as células ( ), o
quadrado das diferenças entre o valor real ( ) e o valor esperado em cada célula
( ), caso as variáveis não fossem associadas, divido pelo seu respectivo valor
esperado.
-
Olha, não precisamos entrar nisso. Esta parte fica um pouco mais complicadinha e
nunca cai em concursos que não sejam específicos para estatísticos. Assim, só saiba
calcular a estatística de teste e o coeficiente de Pearson que já basta.
Com base neste valor qui-quadrado, pode-se calcular o coeficiente de contingência
de Pearson, dado por:
Sendo o tamanho da amostra.
Surge uma pergunta natural:
-
Essa é uma pergunta sem uma única resposta! Isso muda de autor para autor. Mas,
é importante que v
valor ideal de uma amostra com base no erro amostral tolerável ( ).
Estatística p/AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 09Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 12 de 130
Com efeito, os pontos indicam que, quanto maior o PIB, menor a taxa de incidência
da doença. O traçado de uma reta que explicita esta dinâmica mostra uma reta
inclinada para baixo, ou negativamente inclinada. Este é um caso de variáveis
negativamente associadas.
Os dois casos mostram exemplos de correlação linear, ou seja, que podem ser
representados por uma linha reta. Podem existir casos de associação não linear,
entretanto não vamos entrar neste detalhe. Apenas entenda o que é uma
associação entre variáveis, que pode ser positiva (quando uma aumenta a outra
também aumenta, ou quando uma se reduz a outra também reduz) ou negativa
(quando uma aumenta a outra reduz ou quando uma reduz a outra aumenta). No
variável se movimenta é a mesma da outra variável, por outro lado, uma relação
negativa
- m não
Boa pergunta! Neste caso, não conseguiremos tirar
gráfica. A título de ilustração:
Estatística p/AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 09Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 13 de 130
Neste caso, não há uma tendência clara entre as duas variáveis! Este é um exemplo
de variáveis não associadas.
Uma medida numérica de associação pode ser obtida pelo coeficiente de correlação
( ). Para uma amostra de tamanho ( ), o coeficiente de correlação entre duas
variáveis quaisquer, e , é dado por:
Sendo e as médias e e os desvios padrões das variáveis e
respectivamente.
Em termos bem simples, cada parêntese representa a versão padronizada de cada
uma das variáveis, portanto o coeficiente de correlação é igual à média dos produtos
dos valores padronizados das variáveis em análise. Este valor vai de 1 (menos hum)
a 1 (hum):
Estatística p/AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 09Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 14 de 130
Um valor próximo de 1 indica associação positiva, enquanto
que outro próximo de -1 indica associação negativa. Um valor próximo de zero indica
não associação entre variáveis.
Outra forma de explicitar o coeficiente de correlação é por meio da covariância.
Covariância ( ) Para
uma amostra de tamanho ( ), a covariância entre duas variáveis quaisquer, e , é
dada por:
Aí fica fácil ver que:
Entendeu? Antes de passarmos para o próximo tópico, vocês precisam saber uma
coisa importante demais sobre a covariância!
A covariância entre duas variáveis é influenciada pela
associação que uma variável tem sobre a outra. Assim, se duas variáveis são
independentes, a covariância entre ambas é igual à zero. Porém, o fato de a
covariância entre duas variáveis ser igual à zero não quer dizer que elas sejam
independentes. Atenção a isso!
Estatística p/AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 09Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 16 de 130
Assim, podemos quantificar o grau de associação entre duas variáveis como o
ganho relativo na variância obtido pela introdução da variável qualitativa. Isso
é feito por meio do R² (nós a estudaremos com mais detalhes logo mais).
Para quantificarmos o R² precisamos definir ( ), a média das variâncias dentro dos
subgrupos, que chamaremos de variância média. Ao definirmos como o
produto da variância do subgrupo pelo tamanho da amostra no mesmo, a variância
média será dada por:
Assim, com base na variância total da amostra ( ), podemos definir R² como:
Então se aplicarmos esta fórmula a nosso exemplo acima:
Isso quer dizer que 41,5% da variabilidade dos salários é explicada pela variável
Beleza, terminamos a parte de correlação, vamos à regressão!
Estatística p/AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 09Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 17 de 130
5. Introdução ao método de Regressão
Pessoal, hora de forçar a memória escolar e lembrar o que é uma função, ou melhor,
uma função linear. Função é uma relação entre duas variáveis, como por exemplo:
a) Vendas de uma empresa e gastos em propaganda;
b) Aumento de peso de uma pessoa e quantidade de comida ingerida;
c) Valor da conta de energia e número de equipamentos elétricos em uma casa.
Se chamarmos a primeira variável de cada item de y e a segunda de x,
matematicamente, pode-se descrever tal relação como:
y = f(x).
y é função de x
função da quantidade investida em propaganda. Pode-se afirmar que y depende de
x, portanto, a nomenclatura usual chama y de variável dependente ou explicada e x
de variável independente ou explicativa.
Uma das formas de se expressar tal função é a partir de uma relação linear, tal como:
y = 2 + 3x.
Ou, genericamente, para qualquer valor que pudesse substituir 2 e 3 na equação
acima:
y . (1)
Este é um exemplo de uma função linear, dado que o expoente de x é 1. (lembrem-
se que qualquer variável elevada a 1 é igual à própria variável). Esta função linear
(lembrem-se da escola) é uma reta. Se x estivesse elevado ao quadrado, seria uma
parábola. Para que você tenha certeza que isso é uma reta, substitua alguns valores
na primeira equação e os coloque em um gráfico, você verá que se trata de uma
equação de reta.
Estatística p/AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 09Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 18 de 130
-
Porque, meus queridos alunos, um dos principais objetivos da análise de regressão
é encontrar uma função linear que descreva o comportamento estatístico entre duas
variáveis. Assim, com base em uma série estatística, a estimação de uma regressão
possibilitaria que você encontrasse os valores de e na equação (1).
O processo de encontrar a relação entre y e x é chamado de Regressão e, se
for uma reta, como na equação (1), é chamado de Regressão Linear. Como
a equação (1) só possui uma variável explicativa, o processo de encontrar tal
relação se chama Regressão Linear Simples.
Porém, perceba que é muito raro que uma variável do mundo real, ainda mais quando
ligada à economia ou a fenômenos sociais, consiga ser representada por uma reta.
Vamos supor que estamos tratando do exemplo (a) acima descrito para o ano de 2012
e que possuímos dados de todas as vendas de todas as empresas de um
determinado setor e de todos os gastos de propaganda efetuados por estas
empresas.1
Colocando tal relação em um gráfico:
1
Gente, só para chamar a atenção, por enquanto estamos trabalhando com dados coletados em um único
período de tempo, no caso uma única observação por empresa no ano de 2012 (pode ser a soma de todo
o ano, ou de um determinado mês, etc.) Este tipo de disposição de dados é chamado de dados em cortes
cross section
Estatística p/AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 09Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 19 de 130
A reta é representada pela equação (1) e os pontos são os valores que y assume
para cada x.
Uma propriedade importante dessa reta de regressão é que ela passa pelo ponto
, ou seja o ponto que é pela média de X e Y, simultaneamente. Essa é uma
propriedade da regressão linear simples! Isso já foi cobrado em provas anteriores e é
importante que você guarde. Não vou adentrar na prova dessa propriedade, apenas
saiba isso!
E aí pessoal, o que vocês estão vendo? Veja que a reta explica bem o comportamento
da variável, se aproximando dos valores reais, mas ainda assim não explica tudo.
Olhe o 3º ponto, nele o valor das vendas aumentou, na média, muito mais do que o
esperado para um determinado investimento em propaganda. Isso pode ser
decorrência de muitos fatores do mundo real, como o fato de que a empresa talvez
fosse muito desconhecida até então, portanto, um pequeno investimento em
propaganda teve resultados muito grandes quando comparado a empresas que já
são relativamente conhecidas. Este tipo de raciocínio pode ser aplicado para os
pontos abaixo da reta também, que apresentam, na média, retornos abaixo do
esperado para um determinado gasto em propaganda.
Assim, se uma versão linear e simples da equação de reta for a mais bem ajustada à
série de dados, pode-se inferir que a equação que representa a real dinâmica do
fenômeno em estudo, no caso, as vendas da empresa é dada por:
Estatística p/AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 09Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 20 de 130
Sendo o
relação à reta (pensem comigo, o erro é a distância da reta até cada um daqueles
i
analisadas em 2012, isto é, a empresa representada no primeiro ponto no gráfico tem
subscrito (1), a segunda subscrito (2) e assim por diante.
Vocês concordam comigo que não dá para levar em conta todas as variáveis que
afetam o comportamento das vendas de todas as empresas? Pode ser que um
gerente comercial muito bom de serviço tenha pedido demissão da empresa (4), o
que puxaria suas vendas para baixo, apesar do investimento em propaganda, etc.
Assim, o erro leva em conta estes efeitos impossíveis de se mensurar, mas que
afetam a dinâmica de y.
Bom, apesar do fato de que este erro é algo que nós temos que aprender a viver com
ele, o mesmo possui uma característica interessante que nós temos que levar em
conta:
na média.
Ou seja, estes erros são supostamente aleatórios, então a teoria nos permite inferir
que, se o modelo estiver corretamente especificado, o erro será, na média, igual à
zero.
1ª hipótese sobre o modelo de regressão linear:
Estatística p/AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 09Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 21 de 130
E aí rapaziada, que cara de sono é esta? Vamos acordando, pois um futuro servidor
público não pode dormir em serviço! Você será bem remunerado e com status, mas
com muita responsabilidade.
6. Estimação com base em amostra e Método dos Mínimos Quadrados
Ordinários (MQO)
Vamos ver se vocês estão realmente atentos: lembram-se quando eu disse que a
regressão tinha a ver com todas as empresas, todas as receitas de vendas e todos
os gastos em propaganda?
Atenção, até agora falamos de uma regressão com a população, ou universo, das
variáveis escolhidas. Mas, na maioria dos casos, não possuímos o universo. Por
exemplo, no caso de uma regressão do valor salarial obtido por um trabalhador em
função do nível de escolaridade de cada um destes, é praticamente impossível se
realizar este exercício, pois a base de dados para isto é infinitamente grande. Assim,
na maior parte das vezes, o pesquisador acaba trabalhando com uma amostra! Ao se
avaliar uma regressão para uma amostra estaremos a estimar os parâmetros de
regressão na equação (1)), ou como nós falamos no dia a dia, estimar uma
regressão.
-
Ótimo! Tente imaginar um momento: a estimativa dos parâmetros deve ser feita de
forma a garantir o que?
É isso! De forma a minimizar os erros. Isso é feito pelo método dos Mínimos
Quadrados Ordinários (MQO) que nos dá um valor estimado para , que,
chamaremos, a partir daqui, de e .
Estatística p/AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 09Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 22 de 130
Com base no fato de que a média dos erros é igual a zero, não há como se minimizar
a soma dos erros, dado que o valor sempre será zero. Assim, o objetivo do método é
minimizar a soma dos quadrados dos erros, o que é feito pelo estimador de MQO.
Gente, sejamos práticos, nunca caiu e, provavelmente, nunca vai cair a derivação do
estimador de MQO, assim, decorem:
Sendo que o travessão sobre determinada variável representa o valor médio da
mesma, define-se a média de uma variável, bem como o valor de uma variável
centrada na média:
Assim, b pode ser encontrado pelo somatório da multiplicação de cada
com seu respectivo (covariância entre x e y) dividido pela soma de todos os
elevados ao quadrado (variância de x). Gente, muita atenção mesmo, perceba que
as variáveis devem ser inseridas na fórmula acima de forma a estarem centradas na
média, ou seja, reduzidas do valor da média de sua série.
Atenção! Muitos exercícios de concursos públicos se utilizam de propriedades
estatísticas que permitem inferir que:
Estatística p/AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 09Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 25 de 130
Voltando à aula!
Pessoal, vocês estão entendendo o que representa cada coeficiente? Pense um
pouquinho, se o valor gasto em propaganda aumenta em 1 (uma unidade),
espera-se que o valor das vendas varie, na média, em b.
Cabe destacar a diferença entre erros e resíduos. Os erros são decorrentes dos
aspectos que relatamos acima, já os resíduos são os erros de ajuste após a
estimação da reta original (1), ou seja, na regressão feita com base na amostra e
não mais na população. Assim, a versão estimada de (1) é dada por:
(2)
Então, estes parâmetros são a versão estimada dos parâmetros na equação (1).
Portanto, são os resíduos da regressão com base em uma amostra n da população
N.
Meus amigos, vocês conseguem enxergar que este resíduo tem mais um problema
além dos já citados para os erros? Lembra do gerente comercial eficiente que pediu
demissão? Então, este é um desvio natural de se interpretar um comportamento
econômico, derivado de influências de infinitas variáveis, a partir de uma reta. Agora,
(1) a partir de (2). Ou seja, o fato de nós só termos uma amostra leva a desvios com
relação à estimativa dos parâmetros. Dado que, com base na nossa regressão
estimada, o valor esperado de y ( ) é:
Assim, os resíduos são:
Estatística p/AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 09Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 26 de 130
Bom pessoal, nós já temos uma estimativa de uma regressão, agora vocês podem
Nós vamos estudar isso a seguir.
Exercício 2
(FCC - ANALISTA BACEN 2005) Uma empresa com a finalidade de determinar a
relação entre os gastos anuais com propaganda (X), em R$ 1000,00, e o lucro
bruto anual (Y), em 1000,00, optou por utilizar o modelo linear simples Y(i) = a +
bX(i) + e(i), em que Y(i) é o valor do lucro bruto auferido no ano (i), X(i) é o valor
do gasto com propaganda no ano (i) e e(i) o erro aleatório com as respectivas
hipóteses consideradas para a regressão linear simples.
Considerou, para o estudo, as seguintes informações referentes às
observações dos últimos 10 anos da empresa:
Utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-
se que, caso haja um gasto anual com propaganda de 80 mil reais, a previsão
do lucro bruto anual, em mil reais, será de:
Estatística p/AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 09Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 27 de 130
a) 158
b) 128,4
c) 121
d) 102,5
e) 84
Resolução
Bom, primeiramente, não caia na armadilha! Estes valores que o exercício te deu não
estão centrados na média. Portanto, com base em propriedades estatísticas, pode-
se demonstrar que:
Assim, dadas as formas funcionais para cálculo:
Pode-se inferir as estimativas:
Estatística p/AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 09Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 28 de 130
Assim, temos a equação de reta. Substituindo X = 80, tem-se que:
7. Tabela ANOVA
Vamos lá pessoal, de olho na aprovação!
Agora vamos falar sobre o grau de ajustamento de uma regressão. Isso é, quanto
uma reta explica dos dados?
Bom, é fácil pensar que há uma parcela da variação explicada pela regressão, ou
seja, aqueles parâmetros que nós estimamos devem explicar parte da variação real
nas observações da amostra, excluída a parte explicada pelos resíduos.
-
Ok. Acho que esta parte que fica mais intuitiva com a matemática. E aí, qual a
expressão que vocês acham que representa a parcela explicada por uma regressão
realizada com base em uma amostra? Claro que é:
Dado que é constante, ela não compõe a parte da variância explicada. Assim, com
o intuito de se definir uma expressão para a variância explicada pode-se descartá-la:
Portanto, trata-se da parte estimada da reta que dá o valor previsto de y para cada x,
que é costumeiramente descrita como a variável dependente com um acento
circunflexo em cima.
E a parte não explicada?
Estatística p/AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 09Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 29 de 130
É evidente que a soma de ambas as equações geram a equação de reta original, com
a soma do comportamento dos resíduos com a parte explicada. Assim, precisaríamos
somar tais expressões para encontrar o total e, a partir daí, tentar entender como cada
uma destas parcelas participam da formação do resultado.
Mas, sabendo-se que os resíduos têm soma igual à zero, o estudo será feito com
base na soma dos quadrados dos resíduos e, por conseqüência, com base na soma
dos quadrados explicados e na soma dos quadrados totais.
Vamos, primeiro, pelo mais fácil. A soma dos quadrados totais (SQT) é:
Segue-se a Soma dos Quadrados Explicados (SQE):
E a Soma dos Quadrados dos Resíduos (SQR):
Vocês estão entendendo o que nós estamos fazendo? Em termos bem leigos, nós
estamos decompondo o quanto uma regressão consegue explicar de quanto ela não
Estatística p/AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 09Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 30 de 130
consegue! Será que você consegue pensar em um jeito de dizer, em termos
percentuais, o quanto uma regressão consegue explicar de uma série de dados, ou
seja, o quanto a regressão estimada se aproxima do real processo gerador de dados
(equação (1))?
Beleza! A resposta é fácil mesmo e é dada por:
Este é o famoso R² ou coeficiente de determinação
Assim, a regressão será bem ajustada qu...