Como gravar dados numéricos para Bioestatística

Para dados numéricos, a principal questão é o quanto de precisão para gravar. Gravando uma variável numérica para tantas casas decimais como você tem disponível é geralmente melhor.

Por exemplo, se uma escala pode medir o peso corporal, com uma aproximação de 1/10 de um quilograma, gravá-lo na base de dados para que o grau de precisão. Você sempre pode terminar o dia ao quilograma mais tarde, se você quiser, mas você nunca pode "não arredondar" um número para recuperar dígitos não tenha registado em primeiro lugar.

Mas não exagere nesse sentido - não registram índice de massa corporal de uma pessoa (IMC) como 28.648832 kg / metro quadrado, mesmo que a calculadora produziu o resultado de tal precisão ridículo.

Na mesma linha, faça dados numéricos não grupo em intervalos quando gravar. Se você conhece uma pessoa da idade em anos, em seguida, gravá-lo como o número real de anos- não gravá-lo em intervalos de 10 anos (0 a 9, 10 a 19, e assim por diante). Você sempre pode ter o computador fazer esse tipo de agrupamento intervalo mais tarde, mas você nunca pode recuperar a idade em anos, se tudo o que você gravou foi a década.

Alguns programas permitem que você escolha entre várias formas de representar internamente o número no computador. O programa pode referir-se a estes diferentes modos de armazenamento usando termos arcanos como curto, longo ou muito longo inteiros (números inteiros) ou de precisão simples (Short) ou dupla precisão (longo) ponto flutuante (fracionários) números. Cada tipo tem seus próprios limites, que podem variar de um programa para outro ou de um tipo de computador para outro.

Por exemplo, um inteiro curto pode ser capaz de representar apenas números inteiros dentro do intervalo -32.768-32.767, ao passo que o número de ponto flutuante de precisão dupla poderia facilmente lidar com um número como 1,23456789012345 x 10250.

Nos velhos tempos, a escolha criteriosa dos modos de armazenagem para suas variáveis ​​poderia produzir arquivos menores e deixar que o programa funcione com mais disciplinas ou mais variáveis. Hoje em dia, o armazenamento é muito menos de um problema do que costumava ser, então beliscar tostões desta forma oferece pouco benefício.

Ir para a representação mais geral numérica disponível - normalmente de precisão dupla de ponto flutuante, o que pode representar praticamente qualquer número que você sempre pode encontrar na sua investigação.

Aqui estão algumas coisas para estar atento ao digitar os dados numéricos em Excel:

  • Não coloque dois números (como uma leitura da pressão arterial de 135/85 mmHg) em uma coluna de dados. Excel não vai reclamar sobre isso, mas ele vai tratá-lo como texto por causa do incorporado "/", em vez de dados como numéricos. Em vez disso, crie duas variáveis ​​separadas - como as pressões sistólica e diastólica (talvez chamados BPS para pressão arterial sistólica e BPD para pressão arterial diastólica) - E entre cada número na variável apropriada.

  • Em um banco de dados obstétrico, não insira 6w2d para uma idade gestacional de 6 semanas e 2 dias- ainda piores, não insira-o como 6.2, qual o computador iria interpretar como 6.2 semanas. Quer inseri-lo como 44 dias, ou criar duas variáveis ​​(talvez gawks para semanas de idade gestacional e GAdays para dias a idade gestacional), Para manter os valores 6 e 2, respectivamente.

    O computador pode facilmente combiná-las depois para o número de dias, ou o número de semanas (e fracções de uma semana).

Há uma exceção importante a esta "não empinar duas coisas em uma coluna" regra - Se você estiver gravando tanto a data e hora de um único evento (como "nascido em 15 de Fevereiro de 2006, às 8:56 da noite" ), então você devemos gravar a data e o tempo como uma única variável! Veja o artigo sobre introdução da data e horário dados para obter mais detalhes.

Faltando dados numéricos requer um pouco mais pensamento do que perder dados categóricos. Alguns pesquisadores utilizam os 99 (ou 999, ou 9999) para indicar um valor em falta. Se você usar essa técnica, você tem que se certificar de que todas as suas análises ignorar esses valores. Felizmente, muitos programas de estatísticas permitem que você especifique o que o indicador de valor em falta é para cada variável, e os programas de excluir os valores de todas as análises.

Mas você também pode realmente ter certeza que você vai Nunca ter esse valor aparecer como um valor real para algum assunto muito atípica? (Algumas pessoas são 99 anos de idade, e algumas pessoas posso tem um valor de glicose no sangue de 999 mg / dL). Basta deixar a célula em branco pode ser best- quase todos os programas de tratamento de células em branco como os dados em falta e ignorá-los nos cálculos.

menu