Estatística p/ AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 07Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 2 de ...
7 downloads
0 Views
Estatística p/ AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 07Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 2 de 74
1. Introdução à inferência estatística
1.1 Amostragem e estimador
Inferência é o processo através do qual uma pessoa tira conclusões sobre a
população com base em uma amostra. Só para lembrar:
O exemplo mais clássico é o da cozinheira que prova uma colher do seu preparo a
fim de determinar se o mesmo está muito salgado. Ora, a colher que ela experimentou
é só uma parte de seu cozido, mas, com base nesta amostra, ela irá inferir como
está toda a panela.
Entendeu? Ela não precisa provar a panela toda para tirar suas conclusões, ela irá se
basear somente em parte dela, isso é inferência! Na estatística é a mesma coisa,
muitas vezes não temos dados sobre toda uma população, mas precisamos tirar
conclusões a respeito da mesma, assim necessitaremos de inferência estatística. Isso
é comum no dia a dia de um pesquisador!
A primeira pergunta que um pesquisador faria é: como obter uma determinada
amostra? Ou seja, como realizar uma amostragem. Quando se realiza uma pesquisa
com todos os elementos de uma população, chama-se a tal pesquisa de Censo.
A amostragem pode ser realizada de duas formas diferentes:
População = conjunto de todos os elementos que
possuem determinada característica.
Amostra = parte não nula da população, mas menor
do que esta última.
Estatística p/ AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 07Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 3 de 74
Amostragem probabilística ou casual: é uma técnica puramente científica com uma
seleção puramente aleatória, na qual podemos calcular a probabilidade de que um
determinado elemento vá fazer parte da amostra. A título de exemplo, podemos citar
a Amostragem Aleatória Simples, a Amostragem Estratificada, a Amostragem
por Conglomerados e a Amostragem Sistemática.
Amostragem não probabilística ou não casual: Escolha deliberada de elementos
da amostra, dependendo de julgamento de valor. A título de exemplo, podemos citar
a amostragem por cotas, a amostragem intencional e a amostragem por
conveniência.
Há diversas formas de obter uma amostra com base em uma extração de elementos
de uma população. Tais métodos têm muitas particularidades e formalismos que vão
além do escopo deste curso. Porém, precisamos saber alguns dos métodos mais
conhecidos em amostragem. Vamos a eles!
Amostragem Aleatória Simples (AAS)
Este é o tipo mais famoso de amostragem e o mais utilizado na demonstração de
Teoremas. Neste tipo de amostragem, dada uma população, todas as amostras
possíveis de um determinado tamanho têm a mesma probabilidade de serem obtidas.
Não entendeu? Suponha que queiramos encontrar uma amostra de 10 elementos de
Realizar uma AAS seria semelhante a escrever o nome completo de todas essas
pessoas em um papel e sortearmos 10 nomes deste total. Perceba que, neste caso,
todas as amostras têm a mesma chance de ocorrência.
Uma AAS pode ser realizada com e sem reposição.
Estatística p/ AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 07Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 4 de 74
Amostragem Aleatória Estratificada (AAE)
Neste caso, a população seria dividida em estratos, seguindo-se a aplicação de uma
AAS em cada um destes.
bastante semelhantes entre si.
Quer um exemplo? Suponha que tenhamos uma população com a renda de diversos
para obtermos nossa amostra. A ideia deste procedimento é diminuir a variância
dentro das amostras para cada estrato. Perceba que qualquer estatística a ser
aplicada à amostra deve ser ponderada pelo tamanho do estrato.
Atenção, a amostra de cada estrato será proporcional ao tamanho de cada uma de
suas populações no caso de uma AAE proporcional. Porém, este não é o único tipo
de AAE, pois poderíamos ter o caso de uma AAE uniforme, na qual as amostra de
cada estrato tenham o mesmo tamanho.
A forma de distribuir o tamanho da amostra entre os estratos pode ser feita de duas
formas: uniforme e proporcional.
Quando a amostragem estratificada é uniforme o mesmo número de elementos é
sorteado de cada estrato. Assim, por exemplo, se formos trabalhar com uma amostra
de 20 unidades para dois estratos, serão selecionadas 10 unidades de cada estrato.
Quando a amostragem estratificada for proporcional, a proporção entre os estratos
que existe na população será preservada na amostra. Por exemplo, em uma
população com 2 estratos e uma divisão tal que 100 unidades esteja no estrato 1 e
200 no estrato 2, uma amostra estratificada proporcional de 30 unidades deverá ser
alocada de forma que sejam selecionadas 10 unidades do estrato 1 e 20 do estrato
2.
Estatística p/ AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 07Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 5 de 74
Amostragem Aleatória por Conglomerado
Agora, vamos tratar de um caso muito parecido com o anterior. Neste caso, a AAS
será aplicada sobre os subgrupos e não mais sobre os indivíduos da população.
Por exemplo, suponha que há diversos bairros em uma cidade com variabilidade
interna significativ
amostragem sobre conglomerados, entende? Segue-se, então, uma análise de todos
os indivíduos nos conglomerados escolhidos.
Amostragem Sistemática
Nessa técnica supõe-se que temos uma listagem das unidades populacionais. Para
um valor fixado, sorteamos um elemento entre os primeiros da listagem. Depois
observamos, sistematicamente, indivíduos separados por unidades. Por exemplo,
se e sorteamos o oitavo elemento, observamos depois o décimo oitavo, o
vigésimo oitavo, etc.
Amostragem por Conveniência
Neste caso, o pesquisador só realiza amostragem com os casos que ele tem a sua
disposição. Assim, acaba-se por realizar uma pesquisa com somente uma parcela da
população, o que pode, inclusive, gerar vieses em sua conclusão. Não é possível
generalizar os resultados encontrados para a população, contudo este tipo de
amostragem pode ser útil no início de uma pesquisa, testar questionários, por
exemplo.
Amostragem por quotas
A participação de uma determinada característica na população é utilizada para fins
de geração da amostra. Por exemplo, suponha que esteja sendo feita uma pesquisa
com os usuários de drogas e sabe-se que, na população, 60% dos indivíduos do que
Estatística p/ AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 07Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 6 de 74
usam drogas são homens e 40% são mulheres. Assim, em uma amostra de 1000
indivíduos, a amostra será feita de tal forma que 60% dela (600) sejam homens e 40%
(400) sejam mulheres.
Amostragem Intencional
O pesquisador seleciona intencionalmente os elementos que irão compor sua
amostra por acreditar que estes são os que melhor representam o fenômeno que se
quer estudar. Por exemplo, qual a aprovação de um partido entre os seus afiliados,
isso pode ser feito em bairros ou domicílios eleitorais ligados ao mesmo.
-
Um exemplo bacana seria se estivéssemos analisando a altura média de uma
população com base em uma amostra. O que estamos fazendo é avaliar uma
estimativa de um parâmetro populacional.
Não entendeu? Veja, se nós tivéssemos toda a população de elementos e
quiséssemos calcular a média seria fácil, pois bastaria somar todas estas
observações e dividir pelo total:
Sendo ( ) o somatório de todos os elementos da população ( ). No caso, a média
seria um parâmetro populacional, no nosso exemplo, chamado de .
Porém, raramente isso ocorre, pois quase nunca temos toda a população, mas
somente uma amostra. Nesse caso, a média calculada com base na amostra seria
um estimador do parâmetro populacional. Assim:
Estatística p/ AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 07Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 7 de 74
Sendo ( ) o tamanho da amostra e o chapéu sobre ( ) um indicativo de que
estaríamos trabalhando com um estimador do parâmetro populacional
correspondente.
-
ao cálculo da estatística
Isso está aproximadamente correto, mas nem sempre a mesma fórmula que
utilizamos para o cálculo de uma estatística na população é a que devemos usar na
amostra. Isso deriva do fato de que o estimador que iremos utilizar na amostra deve
ser não viesado.
Se eu digo para vocês que um estimador não é viesado, eu estou dizendo que, na
, ou seja, dá o valor real do parâmetro. Ou seja:
Sendo o operador esperança.
Esperança matemática é um conceito intimamente relacionado com a média
aritmética. No caso, para um dado conjunto de valores ( ) que vai de a ,
sua esperança é dada por:
Sendo a frequência relativa de .
em termos bem simples, a média do que pode acontecer com esta variável.
Estatística p/ AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 07Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 8 de 74
Entendeu? A esperança do estimador de um parâmetro populacional é igual ao seu
O que você quer é que sua estimativa esteja certa, na média!
Vou ressaltar uma coisa que confunde muita gente. Você
consegue perceber que se você realizar o experimento de cálculo da média amostral
para diferentes amostras dentro de uma população, você terá estimativas diferentes?
Olhe, os valores que estarão contidos em sua amostra provavelmente serão
diferentes para cada vez que você realizar uma amostragem diferente, mesmo
sabendo que estes valores pertencem à mesma população. Então, com certeza, sua
média amostral será diferente. O que você quer é que, na média destas estatísticas
calculadas, você acerte o valor populacional. Ou seja, a média amostral pode ser
considerada como uma variável aleatória. Esta variável, como é um estimador
não viesado da média populacional, significa que a média das médias amostrais
é igual à média populacional.
Pode-se provar que:
Ou seja, a esperança do estimador da média amostral é igual à média populacional.
(vamos mostrar isso no exercício 18)
Portanto, se um exercício de concurso te pedir a média de
uma determinada amostra, basta calcular a média como sempre fizemos para a
população ( ), pois este é um estimador não viesado para a média populacional.
Outra estatística que é comumente cobrada em concursos é a variância (por
consequência, o desvio padrão também).
Estatística p/ AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 07Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 9 de 74
Só que agora o buraco é mais embaixo! A estatística que aprendemos para calcular
a variância de uma população é dada por:
E, por consequência:
Entretanto, pode-se provar que:
E:
-
Precisamente!
Olha pessoal, não vou ficar fazendo demonstração de cada uma destas afirmações
porque isso não é importante para seu concurso! Se vocês quiserem saber como se
faz, a título de curiosidade, eu indico bibliografias para vocês.
Voltando ao problema em questão, a nossa estatística para cálculo da variância
populacional (bem como no caso do desvio padrão) gera um estimador viesado para
a variância amostral.
Estatística p/ AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 07Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 10 de 74
Assim, pode-se provar que, para obtermos estimadores não viesados para a variância
e desvio padrão amostrais, devemos nos utilizar das seguintes estatísticas:
- ) e passa a ser (
Exato!
Portanto, se um exercício de concurso te pedir a variância ou
desvio padrão de uma determinada amostra, calcule o numerador como sempre, mas
divida este valor por ( )!
Apesar de estas não serem as únicas estatísticas que podem ser avaliadas em termos
da comparação parâmetro\estimador, para fins de concurso, estas são as mais
cobradas.
1.2 Variância de estimadores
-
Pense comigo, não basta que um estimador acerte na média, mas também é
desejável que os seus resultados apresentem baixa variância ao redor do valor
populacional que se esta tentando estimar.
Estatística p/ AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 07Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 12 de 74
Veja, não precisamos abordar necessariamente o conceito de eficiência absoluta.
Suponha dois estimadores não viesados para um determinado parâmetro, a saber,
e , é dito mais eficiente que se:
Entendeu? Isso é muito importante na hora de decidirmos qual estimador usar. Você
não precisa conhecer a variância de todos os tipos de estimadores possíveis (até
porque são infinitos), mas esta é uma forma importante de avaliarmos o quanto um
eficiência de alguns estimadores não
viesados por meio de análise de suas variâncias.
Um ponto importante! Como foi dito, vocês não precisam conhecer as propriedades
de uma infinidade de estimadores, podendo compará-los no caso concreto diante de
vocês. Entretanto, há um estimador importante em termos de prova: o estimador da
média amostral. Com base neste estimador, vocês vão ver, podemos chegar a várias
conclusões importantes que podem ser estendidas a qualquer distribuição de
probabilidade.
Então, vamos aprofundar nosso estudo sobre o estimador da média amostral. Pode-
se provar que:
Sendo o tamanho da amostra.
Ou seja, o a variância do estimador da média amostral é dado pela variância
populacional dividida pelo tamanho da amostra.
Com base na variância da média amostral, se você tirar a raiz quadrada dessa
expressão, essa estatística é chamada de erro padrão.
Estatística p/ AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 07Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 13 de 74
Então, você consegue perceber que, conforme a amostra aumenta ( aumenta de
valor), o valor da variância da média amostral tende para zero! Claro, pois, neste
caso, a média amostral irá coincidir com a média populacional.
Bom, a pergunta natural seria: então o estimador é um estimador eficiente?
Não é possível responder isso a não ser se comparamos a variância deste último com
a variância de todos os estimadores não viesados possíveis da média populacional.
Pode-se demonstrar, entretanto, que, quando a variável para a qual está sendo
calculada a média seguir uma distribuição normal, a média amostral é um estimador
eficiente da média populacional.
Porém, se quisermos comparar este estimador com qualquer outro estimador
possível, viesado ou não, podemos fazê-lo por meio do conceito de erro quadrático
médio ( ). Para o caso do estimador , o seu erro quadrático médio seria dado
por:
Perceba que o primeiro membro é a variância do estimador e o segundo é a diferença
entre seu valor esperado e o seu valor populacional, que é conhecida como o valor
do viés do estimador (o valor do viés é considerado ao quadrado, pois o viés
pode ser negativo, assim, com este ajuste, seria possível comparar o viés de
).
Isso é intuitivo, pois quanto menor o valor combinado da variância e do viés de um
Estatística p/ AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 07Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 14 de 74
1.3 Consistência e distribuição amostral
Muitas vezes não conseguiremos encontrar estimadores que tenham propriedades
desejáveis, tais como eficiência e inexistência de viés. Porém, muitos deles
apresentam propriedades assintóticas desejáveis.
-
Em termos bem simples, trata-se do comportamento do estimador conforme a
amostra tende para o infinito.
Um estimador assintoticamente não viesado é aquele que, conforme a amostra tende
ao infinito, o viés tende a zero. Este tipo de estimador é dito com propriedades
desejáveis em grandes amostras!
Veja, em termos bem simples, conforme a sua amostra aproxima-se do tamanho
da população, o estimador teria o seu viés diminuído até chegar a zero.
É fácil perceber que o nosso estimador é assintoticamente não viesado, pois ele
não é viesado! Entretanto, a recíproca não é verdadeira, pois há vários estimadores
que são viesados e assintoticamente não viesados. Assim:
Para quem não é da área de exatas, o que esta simbologia está dizendo é que, no
limite, quando a amostra tende ao infinito ( ), a esperança da média amostral é
igual à média populacional.
O mesmo raciocínio pode ser estendido para o caso da variância do estimador.
Podemos avaliar como seria o comportamento assintótico da variância de um
estimador, isso é, como se dá sua variância conforme sua amostra cresce.
Estatística p/ AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 07Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 15 de 74
Com base neste conceito, define-se um estimador consistente como aquele em
que:
Essa é uma propriedade desejável de um estimador em grandes amostras. Veja, o
estimador da média amostral é consistente, pois:
Isso é verdade, pois, conforme o tamanho da amostra vai aumentando, a variância
deste estimador tende a zero (o denominador, , fica com valor muito grande).
O que também é interessante é avaliar como é o comportamento da distribuição
amostral do estimador conforme a amostra aumenta de tamanho.
Um teorema importante que trata sobre o nosso caso concreto da média amostral
define que, dada uma variável , é possível demonstrar que a sua média amostral, ,
assumirá uma distribuição normal conforme a amostra aumenta. Este é o famoso
Teorema do Limite Central (TLC).
Teorema do Limite Central: Para uma amostra aleatória simples
( ), retirada de uma população com média e variância
finita, a distribuição da média amostral ( ) aproxima-se, para
grande, de uma distribuição normal, com média e variância .
Se a variável tiver distribuição normal, terá distribuição exata
normal!
Estatística p/ AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 07Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 16 de 74
O que isso está dizendo é que, conforme a amostra aumenta, a distribuição da média
amostral converge para uma distribuição normal! Percebe a importância disso? A
distribuição normal é uma antiga conhecida nossa e nós sabemos muita coisa sobre
ela (já aprendemos algumas em aulas anteriores e iremos aprender ainda mais em
aulas futuras). Isso é muito útil em várias ocasiões, pois como sabemos do TLC,
podemos nos basear nisso para entendermos o comportamento assintótico da média
amostral de qualquer variável!
Bom, chega de um papo tão teórico, vamos estudar alguns estimadores
importantes! O principal é o Estimador de Mínimos Quadrados Ordinários
(MQO), mas ele é tão importante que teremos uma aula inteiramente dedicada a
ele A estimação por intervalo será dada na aula de
Nesta aula, vamos conhecer o
estimador de Máxima Verossimilhança.
2. Estimador de Máxima Verossimilhança
Este é um assunto muito pouco cobrado em provas, exceto no caso do concurso do
IPEA, que é mais específico. Além disso, é bem difícil! Porém, vai saber, se cair
você estará pronto.
Antes de começarmos, preciso ensinar mais uma coisinha sobre cálculo diferencial.
OBS. Conceito de derivada ponto extremo
Bom, o porquê de tudo isso é ensinar a vocês como encontrar o ponto máximo ou
mínimo de uma função, isso é, um ponto extremo.1
Como você encontra um ponto extremo de uma função? Simples! Derive a função
(você já aprendeu) e iguale a zero. Por exemplo, suponha a função:
1
Para quem entende de matemática, saiba que estamos tratando de pontos extremos locais e não
globais. É só uma introdução mesmo.
Estatística p/ AFRFB 2017
Teoria e exercícios comentados
Prof. Jeronymo Marcondes Aula 07Prof. Jeronymo Marcondes www.estrategiaconcursos.com.br 17 de 74
Neste caso, é fácil chegar à derivada (é só derivar cada membro separadamente):
Agora, é só igualar a zero e resolver em função de :
Assim, este ponto é o extremo local da função, ou seja, um ponto de mínimo ou
máximo. Pode-se provar que se trata de um ponto de mínimo, mas não precisam se
preocupar, pois, na prova de Estatística, o ponto extremo sempre será o que o
enunciado pede. Daqui a pouco vocês vão entender.
Alé...