Python para a Ciência Dados For Dummies

Desenvolvedores em todos os lugares cometer erros, às vezes. No entanto, você pode ser capaz de poupar algum tempo e funciona se você sabe sobre os tipos mais frequentes de erros de programação que as pessoas fazem com Python. A lista a seguir fala sobre estes erros comuns:

  • Tendo o recuo incorreto: Muitos recursos Python confiar em recuo. Por exemplo, quando você cria uma nova classe, tudo nessa classe é recuada abaixo da declaração da classe. O mesmo é verdadeiro para decisão, loop, e outras declarações estruturais. Se você achar que seu código está executando uma tarefa quando ele realmente não deve, começar a rever o recuo que você está usando.

  • Usando o operador de atribuição em vez do operador de igualdade: Ao realizar uma comparação entre dois objetos ou valor, basta usar o operador de igualdade (==), não o operador de atribuição (=). O operador de atribuição coloca um objeto ou valor dentro de uma variável e não se compara nada.

  • função de colocar chamadas na ordem errada ao criar instruções complexas: Python sempre executa funções da esquerda para a direita. Assim, a declaração MyString.strip (). Centro (21, "*") produz um resultado diferente do que MyString.center (21, "*"). Tira (). Quando se deparar com uma situação em que a saída de uma série de funções concatenadas é diferente do que você esperava, você precisa verificar fim função para garantir que cada função está no lugar correto.

  • Extravio de pontuação: É possível colocar a pontuação no lugar errado e criar um resultado completamente diferente. Lembre-se que você deve incluir dois pontos no final de cada declaração estrutural. Além disso, os parênteses colocação é crítica. Por exemplo, (1 + 2) * (3 + 4), 1 + ((2 * 3) + 4), e 1 + (2 * (3 + 4)) todos produzem resultados diferentes.

  • Usando o operador lógico incorreto: A maioria dos operadores fazer os desenvolvedores não apresentam problemas, mas os operadores lógicos fazer. Lembre-se de usar e para determinar quando ambos os operadores devem estar Verdade e ou quando um dos operandos pode ser Verdade.

  • Criação de contagem por-um erros em loops de: Lembre-se que um loop não conta o último número que você especificar em um intervalo. Então, se você especificar o intervalo [01:11], você realmente obter uma saída para valores entre 1 e 10.

  • Tendo a capitalização errado: Python é case sensitive, então MyVar é diferente de myvar e MYVAR. Sempre verifique a capitalização quando você achar que você não pode acessar um valor que você espera-se que o acesso.

  • Soletrando algo errado: Mesmo desenvolvedores experientes sofrem de erros de ortografia, às vezes. Garantir que você use uma abordagem comum para nomear variáveis, classes e funções de ajuda. No entanto, mesmo um esquema de nomes consistente não será sempre impedi-lo de digitação minhaver quando você significou para digitar MyVar.

Estilos enredo

Sempre que você criar um gráfico em Python, você precisa identificar as fontes de informação a utilizar mais do que apenas as linhas. Criar um gráfico que usa tipos de linhas diferentes e símbolos de pontos de dados faz com que o enredo muito mais fácil para outras pessoas usarem. A tabela a seguir lista os estilos enredo.

CorMarcadorEstilo
CódigoColor LineCódigomarcador EstiloCódigoEstilo da linha
bazul.ponto-Sólido
gverdeocírculo:Pontilhado
rvermelhoxx-mark-.dot traço
cciano+mais--Tracejadas
mmagenta*estrela(Nenhum)nenhuma linha
yamarelosquadrado
kpretoddiamante
Wbrancovpara baixo triângulo
^-se triângulo
lt;triângulo esquerdo
>triângulo retângulo
pestrela de 5 pontos
hestrela de 6 pontos

Lembre-se que você também pode usar esses estilos com outros tipos de terrenos. Por exemplo, um gráfico de dispersão pode usar esses estilos para definir cada um dos pontos de dados. Em caso de dúvida, tente os estilos, para ver se eles vão trabalhar com o seu enredo particular.

Comuns Funções IPython mágicas

É uma espécie de incrível pensar que IPython fornece-lhe com a magia, mas isso é exatamente o que você obtém com as funções mágicas. A função mágica começa com um% ou %% sinal. Aqueles com uma obra% sinal dentro do ambiente, e aqueles com uma obra sinal %% no nível da célula.

A lista a seguir fornece algumas das funções mágicas mais comuns e sua finalidade. Para obter uma lista completa, tipo % QuickRef e pressione Enter no console IPython ou confira o listagem completa.

Função mágicaDigite Sozinho fornece o status?Descrição
%% timeit NãoCalcula o melhor desempenho de tempo para todo o instructionsin uma célula, além do um colocado na mesma linha de células como thecell mágico (que pode, portanto, ser uma initializationinstruction).
%% writefileNãoGrava o conteúdo de uma célula para o arquivo especificado.
% de aliassimAtribui ou exibe um alias para um comando do sistema.
% autocallsimTorna possível chamar funções sem incluir theparentheses. As configurações são Off, inteligente (padrão) e completa. definição theSmart aplica os parênteses somente se você incluir anargument com a chamada.
% automagicsimTorna possível ligar para a linha funções mágicas withoutincluding o sinal%. As configurações são False (padrão) andTrue.
%CDsimMuda diretório para um novo local de armazenamento. Você também pode usethis comando para percorrer o histórico de diretório ou para changedirectories para um marcador.
% clsNãoLimpa a tela.
cores%NãoEspecifica as cores usadas para exibir withprompts texto associados, o sistema de informação, e manipuladores de exceção. Você canchoose entre nocolor (preto e branco), Linux (padrão), andLightBG.
% de configuraçãosimTorna possível configurar IPython.
% dhistsimExibe uma lista de diretórios visitados durante a currentSession.
%Arquivo NãoEmite o nome do arquivo que contém o código-fonte forthe objeto.
% histsimExibe uma lista de comandos de função mágica emitidas durante a atual sessão.
% install_extNãoInstala a extensão especificada.
%cargaNãoCargas código da aplicação de outra fonte, como um onlineexample.
% load_extNãoCarrega uma extensão do Python usando seu nome de módulo.
% lsmagicsimExibe uma lista dos magicfunctions atualmente disponíveis.
% matplotlibsimDefine o processador back-end utilizado para parcelas. Usando o inlinevalue exibe a trama dentro da célula para um IPython Notebookfile. Os valores possíveis são: gtk ',' GTK3 ',' inline ',' nbagg ',' OSX ',' ',' qt4 qt ',' qt5 "," tk "e" wx '.
%colarNãoCola o conteúdo da área de transferência na IPythonenvironment.
% pdefNãoMostra como chamar o objeto (supondo que o objeto iscallable).
% pDocNãoExibe a docstring para um objeto.
% pinfo NãoExibe informações detalhadas sobre o objeto (muitas vezes mais thanprovided por ajuda sozinho).
% pinfo2 NãoExibe informações adicionais detalhadas sobre o objeto (whenavailable).
% reload_extNãoRecarrega uma extensão instalada anteriormente.
%fonte NãoExibe o código-fonte para o objeto (assumindo que thesource está disponível).
% timeitNãoCalcula o melhor tempo de desempenho de uma instrução.
% unaliasNãoRemove um nome alternativo criado anteriormente na lista.
% unload_extNãoDescarrega a extensão especificada.

Scikit-learn Method Summary

Scikit-learn é um ponto focal para o trabalho da ciência de dados com Python, então vale a pena saber quais os métodos que você mais precisa. A lista a seguir dá-lhe uma breve visão geral dos métodos mais importantes utilizados para análise dos dados.

  • feature_extraction.FeatureHasher

    Uso: Preparando seus dados

    Descrição: O truque hashing, o que lhe permite acomodar um grande número de recursos no seu conjunto de dados

  • preprocessing.Binarizer

    Uso: Preparando seus dados

    Descrição: Criar variáveis ​​binárias (valores apresentam a 0 ou 1)

  • preprocessing.Imputer

    Uso: Preparando seus dados

    Descrição: Os valores em falta de imputação

  • preprocessing.MinMaxScaler

    Uso: Preparando seus dados

    Descrição: Criar variáveis ​​ligadas por um valor mínimo e máximo

  • preprocessing.OneHotEncoder

    Uso: Preparando seus dados

    Descrição: Transformar recursos inteiros categóricas para os binários

  • preprocessing.StandardScaler

    Uso: Preparando seus dados

    Descrição: padronização variável, removendo a média e escala para unidade de variância

  • feature_extraction.text.CountVectorizer

    Uso: Preparando seus dados

    Descrição: Converter documentos de texto em uma matriz de dados de contagem

  • feature_extraction.text.HashingVectorizer

    Uso: Preparando seus dados

    Descrição: Diretamente converta o texto usando o truque hashing

  • feature_extraction.text.TfidfVectorizer

    Uso: Preparando seus dados

    Descrição: Cria um conjunto de dados de recursos TF-IDF.

  • feature_selection.RFECV

    Uso: seleção de recurso

    Descrição: selecção recurso automático

  • decomposition.PCA

    Uso: redução de dimensionalidade

    Descrição: Análise de Componentes Principais (PCA)

  • decomposition.RandomizedPCA

    Uso: redução de dimensionalidade

    Descrição: Análise de Componentes Principais (PCA) utilizando SVD randomizados

  • cross_validation.cross_val_score

    Uso: fase de validação cruzada

    Descrição: Estimar a pontuação de validação cruzada

  • cross_validation.KFold

    Uso: fase de validação cruzada

    Descrição: Dividir o conjunto de dados em dobras k para validação cruzada

  • cross_validation.StratifiedKFold

    Uso: fase de validação cruzada

    Descrição: validação estratificada que leva em conta a distribuição das classes que predizem

  • cross_validation.train_test_split

    Uso: fase de validação cruzada

    Descrição: Dividir os dados em conjuntos de treinamento e teste

  • grid_search.GridSearchCV

    Uso: Optimization

    Descrição: busca exaustiva a fim de maximizar um algoritmo de aprendizado de máquina

  • linear_model.LinearRegression

    Uso: Predição

    Descrição: Regressão linear

  • linear_model.LogisticRegression

    Uso: Predição

    Descrição: Linear Regressão Logística

  • neighbors.KNeighborsClassifier

    Uso: Predição

    Descrição: classificação K-Vizinhos

  • naive_bayes.MultinomialNB

    Uso: Predição

    Descrição: Multinomial Na Nº 239-ve Bayes

  • metrics.accuracy_score

    Uso: avaliação Solution

    Descrição: pontuação de classificação de precisão.

  • metrics.f1_score

    Uso: avaliação Solution

    Descrição: Calcular a pontuação F1, equilibrando precisão e recordação

  • metrics.mean_absolute_error

    Uso: avaliação Solution

    Descrição: A média de erro de regressão erro absoluto

  • metrics.mean_squared_error

    Uso: avaliação Solution

    Descrição: A média de erro de regressão erro quadrado

  • metrics.roc_auc_score

    Uso: avaliação Solution

    Descrição: Calcule Área Sob a Curva (AUC) de pontuações de predição

menu