top of page

 

Estatística Aplicada

(Professor - André Luiz Araújo Cunha)

 

Conceitos:

Média

A média é o valor que aponta para onde mais se concentram os dados de uma distribuição. Pode ser considerada o ponto de equilíbrio das frequências.

 

Moda

É definida pelo elemento com a maior representatividade, valor mais comum que tenha maior frequência entre os elementos mesmo que sejam 2 ou mais elementos estes são a moda representativa do intervalo.

 

Medidas de dispersão

As medidas de dispersão verificam o grau de afastamento dos elementos em relação a média.

 

Variância

Dado um conjunto de dados, a Variância é uma medida de dispersão que mostra o quão distante cada valor desse conjunto está do valor central. Quanto menor é a variância, mais próximos os valores estão da média; mas quanto maior ela é, mais os valores estão distantes da média.

 

Coeficiente de Variação

O coeficiente de variação é uma medida de dispersão relativa empregada para estimar a precisão de uma amostra. É independente da unidade de medida utilizada, sendo que a unidade dos dados observados pode ser diferente que seu valor não será alterado. Um baixo coeficiente de variação indica que os dados tendem a estar próximos da média; um coeficiente de variação alto indica que os dados estão espalhados por uma gama de valores.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Desvio Padrão

O desvio padrão é a medida mais comum da dispersão estatística. Ele mostra o quanto de variação ou "dispersão" existe em relação à média. O desvio padrão define-se como a raiz quadrada da variância, de forma que represente uma medida da dispersão que:

 

- Seja um número não-negativo;

- Use a mesma unidade de medida dos dados fornecidos inicialmente.

 

 

 

 

Análise Estatística do Log de acesso gerado pelo Servidor Web Apache a partir do arquivo "request_gti2m.log"

 

Introdução

 

Os dados a seguir foram gerados no período de 3 dias;

 

Foram analisadas informações referentes à: Número de acessos por usuário e por dia, IP, Navegador e Sistemas Operacionais utilizados.

Essa analise permiti acompanhar os dados gerados durante o acesso ao site; Possibilitando, por exemplo, verificar quais navegadores de internet os usuários mais utilizaram para, se for o caso, adequar o site as suas necessidades. Também permiti inferir quantos acessos o site poderá ter durante um período ou mesmo a probabilidade de uma determinada pessoa voltara a acessar o site.

 

Metodologia

 

No Servidor Web Apache, para que alguém tivesse acesso ao conteúdo era necessário ter cadastro, para fazer login com usuário e senha. Foram cadastrados 4 usuários (ezio, denis, deborah, gabriel).

Os dados gerados durante o acesso ao servidor web apache foi armazenado no arquivo de log do servidor (request_gti2m.log).

 

Segue abaixo a análise dos dados gerados:

 

Este gráfico mostra a quantidade de acessos que cada usuário fez no período analisado:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Gráfico 1

 

Durante esse período foi verificado uma média de 282 acessos por dia com desvio padrão de 140 e um coeficiente de variação alto, chegando a quase 50%.

 

Cálculo da média e medidas de dispersão:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Todos os usuários tiveram uma média de acessos diários relativamente alta, e também um alto coeficiente de variação, que evidencia o grau de distanciamento que os elementos estão da média. Se observarmos o gráfico 1, fica claro o motivo de termos um alto coeficiente de variação; todos os usuários possuem altos e baixos números de acessos no decorrer dos 3 dias.

 

IPs que acessaram o site:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

O site foi acessado de vários dispositivos, computadores e mobile, por esse motivo foram armazenados diversos IPs.

 

Dados do Sistema

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Gráfico 2

 

O navegador web mais utilizado foi o Google Chrome, com 58%, seguido pelo Firefox que tem 23%. Os outros navegadores, não identificados, foram em grande parte, utilizados por meio de dispositivos mobile e representam 19% do total. O acesso pelo Google Chrome foi feito, em sua maioria, usando smartphones.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Gráfico 3

 

 

O sistema operacional mais utilizado neste período foi o Linux com cerca de 54%, Windows e IOS foram os menos utilizados, ficando com menos de 10%. Percebe-se também uma grande utilização de dispositivos mobile; Android e IOS, que somados chegam a pouco mais de 40% do total.

A relação do sistema operacional com o navegador utilizado não é muito forte, no entanto, o usuário que utilizou o Windows como sistema operacional fez apenas 4 acessos por meio do navegador Firefox; e no restante dos acessos utilizou o Google Chrome.

 

 

Modelos teóricos de Probabilidade

 

Distribuição Binomial:

 

A distribuição binominal é distribuição de probabilidade discreta do número de sucessos numa sequência de n tentativas; cada tentativa resulta apenas em duas possibilidades, sucesso ou fracasso; a probabilidade de cada tentativa, permanece constante.

 

P = probabilidade;

k = quantas vezes quero que ocorra certa atividade;

n = número de elementos;

p = sucesso;

q = fracasso;

 

Distribuição Poisson:

 

A distribuição de Poisson é uma distribuição de probabilidade de variável aleatória discreta, que expressa a probabilidade de uma série de eventos ocorrer num certo período de tempo se estes eventos ocorrem independentemente de quando ocorreu o último evento. É utilizada quando o número de elementos n é grande para o cálculo da função binomial.

 

      media de ocorrência;

e ≈ 2,71828 (constante natural);

 

 

 

Elementos n > 30 e com probabilidade de sucesso p pequeno;

 

 

 

 

 

 

 

 

Distribuição Normal:

 

É inteiramente descrita por seus parâmetros de média e desvio padrão, ou seja, conhecendo-se estes valores consegue-se determinar qualquer probabilidade em uma distribuição Normal.

 

 

 

 

 

 

Ainda com Base na análise dos dados, foram feitas alguns cálculos de Probabilidade:

 

Para verificar a probabilidade de algum evento ocorrer, será utilizada a distribuição normal. No exemplo abaixo verifica-se a probabilidade de um usuário voltar a acessar o site; 

 

Este usuário teve o menor número de acessos durante os 3 dias, tem uma média de 56 acessos diários, e um desvio padrão de 41,38.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A probabilidade desse usuário voltar a acessar o site novamente é de 90%.

 

Para saber a probabilidade de o usuário Gabriel acessar o site mais de 15 vezes em um mesmo dia, tendo como média de acesso 60,33 e desvio padrão de 63,69 temos:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

bottom of page