Estatísticas para Big Data For Dummies

Medidas de tendência central mostrar o centro de um conjunto de dados. Três das medidas mais usadas de tendência central são a média, mediana e moda.

Significar

Significar é outra palavra para média. Aqui é a fórmula para calcular a média de uma amostra:

image0.jpg

Com esta fórmula, calcular a média da amostra por simples adição de todos os elementos presentes na amostra e, em seguida, dividindo-se pelo número de elementos na amostra.

Aqui é a fórmula correspondente para calcular a média de uma população:

image1.jpg

Embora a notação é ligeiramente diferente, o processo para calcular uma média da população é o mesmo que o processo para calcular uma média da amostra.

letras gregas são usadas para descrever populações, enquanto letras romanas são usados ​​para descrever as amostras.

Mediana

o mediana de um conjunto de dados é um valor que divide os dados em duas metades iguais. Em outras palavras, a metade dos elementos de um conjunto de dados são menos que a mediana, e a metade restante são Melhor que a mediana. O procedimento para o cálculo da média é a mesma para ambas as amostras e as populações.

Modo

O modo de um conjunto de dados é o valor mais vulgarmente observadas no conjunto de dados. Você determina o modo da mesma forma para uma amostra e uma população.

Medidas de dispersão Central

Medidas de dispersão central de mostrar como "espalhar-se" os elementos de um conjunto de dados são da média. Três das medidas mais frequentemente utilizadas de dispersão central incluem o seguinte:

  • Alcance

  • variação

  • Desvio padrão

Alcance

o alcance de um conjunto de dados é a diferença entre o valor maior e o menor valor. Você computá-lo da mesma forma para ambas as amostras e populações.

variação

Você pode pensar da variância como a média quadrado diferença entre os elementos de um conjunto de dados e a média. As fórmulas para o cálculo de uma variação da amostra e uma variância da população são ligeiramente diferentes.

Aqui está a fórmula para calcular variância da amostra:

image0.jpg

E aqui é a fórmula para calcular variância da população:

image1.jpg

Desvio padrão

O desvio padrão é simplesmente a raiz quadrada da variância. É mais comumente utilizada como uma medida de dispersão do que a variância porque é medida nas mesmas unidades como os elementos do conjunto de dados, enquanto que a variância é medido em quadrado unidades.

Medidas de Associação

Medidas de associação quantificar a força e a direcção da relação entre dois conjuntos de dados. Aqui estão as duas medidas mais comumente usadas de associação:

  • covariance

  • Correlação

Ambas as medidas são utilizadas para mostrar como estreitamente dois conjuntos de dados são relacionados uns aos outros. A principal diferença entre eles é a unidades em que são medidos. A medida da correlação é definido para assumir valores entre 1 e -1, o que torna muito fácil interpretação.

covariance

o covariância entre duas amostras é calculada como segue:

image0.jpg

A covariância entre duas populações é calculado da seguinte forma:

image1.jpg

Correlação

o correlação entre duas amostras é calculada assim:

image2.jpg

A correlação entre duas populações é calculado da seguinte forma:

image3.jpg

menu