
Estatística Aplicada
(Professor - André Luiz Araújo Cunha)
Conceitos:
Média
A média é o valor que aponta para onde mais se concentram os dados de uma distribuição. Pode ser considerada o ponto de equilíbrio das frequências.
Moda
É definida pelo elemento com a maior representatividade, valor mais comum que tenha maior frequência entre os elementos mesmo que sejam 2 ou mais elementos estes são a moda representativa do intervalo.
Medidas de dispersão
As medidas de dispersão verificam o grau de afastamento dos elementos em relação a média.
Variância
Dado um conjunto de dados, a Variância é uma medida de dispersão que mostra o quão distante cada valor desse conjunto está do valor central. Quanto menor é a variância, mais próximos os valores estão da média; mas quanto maior ela é, mais os valores estão distantes da média.
Coeficiente de Variação
O coeficiente de variação é uma medida de dispersão relativa empregada para estimar a precisão de uma amostra. É independente da unidade de medida utilizada, sendo que a unidade dos dados observados pode ser diferente que seu valor não será alterado. Um baixo coeficiente de variação indica que os dados tendem a estar próximos da média; um coeficiente de variação alto indica que os dados estão espalhados por uma gama de valores.
Desvio Padrão
O desvio padrão é a medida mais comum da dispersão estatística. Ele mostra o quanto de variação ou "dispersão" existe em relação à média. O desvio padrão define-se como a raiz quadrada da variância, de forma que represente uma medida da dispersão que:
- Seja um número não-negativo;
- Use a mesma unidade de medida dos dados fornecidos inicialmente.
Análise Estatística do Log de acesso gerado pelo Servidor Web Apache a partir do arquivo "request_gti2m.log"
Introdução
Os dados a seguir foram gerados no período de 3 dias;
Foram analisadas informações referentes à: Número de acessos por usuário e por dia, IP, Navegador e Sistemas Operacionais utilizados.
Essa analise permiti acompanhar os dados gerados durante o acesso ao site; Possibilitando, por exemplo, verificar quais navegadores de internet os usuários mais utilizaram para, se for o caso, adequar o site as suas necessidades. Também permiti inferir quantos acessos o site poderá ter durante um período ou mesmo a probabilidade de uma determinada pessoa voltara a acessar o site.
Metodologia
No Servidor Web Apache, para que alguém tivesse acesso ao conteúdo era necessário ter cadastro, para fazer login com usuário e senha. Foram cadastrados 4 usuários (ezio, denis, deborah, gabriel).
Os dados gerados durante o acesso ao servidor web apache foi armazenado no arquivo de log do servidor (request_gti2m.log).
Segue abaixo a análise dos dados gerados:
Este gráfico mostra a quantidade de acessos que cada usuário fez no período analisado:
Gráfico 1
Durante esse período foi verificado uma média de 282 acessos por dia com desvio padrão de 140 e um coeficiente de variação alto, chegando a quase 50%.
Cálculo da média e medidas de dispersão:
Todos os usuários tiveram uma média de acessos diários relativamente alta, e também um alto coeficiente de variação, que evidencia o grau de distanciamento que os elementos estão da média. Se observarmos o gráfico 1, fica claro o motivo de termos um alto coeficiente de variação; todos os usuários possuem altos e baixos números de acessos no decorrer dos 3 dias.
IPs que acessaram o site:
O site foi acessado de vários dispositivos, computadores e mobile, por esse motivo foram armazenados diversos IPs.
Dados do Sistema
Gráfico 2
O navegador web mais utilizado foi o Google Chrome, com 58%, seguido pelo Firefox que tem 23%. Os outros navegadores, não identificados, foram em grande parte, utilizados por meio de dispositivos mobile e representam 19% do total. O acesso pelo Google Chrome foi feito, em sua maioria, usando smartphones.
Gráfico 3
O sistema operacional mais utilizado neste período foi o Linux com cerca de 54%, Windows e IOS foram os menos utilizados, ficando com menos de 10%. Percebe-se também uma grande utilização de dispositivos mobile; Android e IOS, que somados chegam a pouco mais de 40% do total.
A relação do sistema operacional com o navegador utilizado não é muito forte, no entanto, o usuário que utilizou o Windows como sistema operacional fez apenas 4 acessos por meio do navegador Firefox; e no restante dos acessos utilizou o Google Chrome.
Modelos teóricos de Probabilidade
Distribuição Binomial:
A distribuição binominal é distribuição de probabilidade discreta do número de sucessos numa sequência de n tentativas; cada tentativa resulta apenas em duas possibilidades, sucesso ou fracasso; a probabilidade de cada tentativa, permanece constante.
P = probabilidade;
k = quantas vezes quero que ocorra certa atividade;
n = número de elementos;
p = sucesso;
q = fracasso;
Distribuição Poisson:
A distribuição de Poisson é uma distribuição de probabilidade de variável aleatória discreta, que expressa a probabilidade de uma série de eventos ocorrer num certo período de tempo se estes eventos ocorrem independentemente de quando ocorreu o último evento. É utilizada quando o número de elementos n é grande para o cálculo da função binomial.
media de ocorrência;
e ≈ 2,71828 (constante natural);
Elementos n > 30 e com probabilidade de sucesso p pequeno;
Distribuição Normal:
É inteiramente descrita por seus parâmetros de média e desvio padrão, ou seja, conhecendo-se estes valores consegue-se determinar qualquer probabilidade em uma distribuição Normal.
Ainda com Base na análise dos dados, foram feitas alguns cálculos de Probabilidade:
Para verificar a probabilidade de algum evento ocorrer, será utilizada a distribuição normal. No exemplo abaixo verifica-se a probabilidade de um usuário voltar a acessar o site;
Este usuário teve o menor número de acessos durante os 3 dias, tem uma média de 56 acessos diários, e um desvio padrão de 41,38.
A probabilidade desse usuário voltar a acessar o site novamente é de 90%.
Para saber a probabilidade de o usuário Gabriel acessar o site mais de 15 vezes em um mesmo dia, tendo como média de acesso 60,33 e desvio padrão de 63,69 temos:




















