Introdução

01.O que é Pandas

01.a.Descrição sobre Pandas

  • Pandas é uma biblioteca em Python para trabalhar com dados, como por exemplo nas seguintes etapas do roteiro de um projeto de dados:

_images/projeto_de_dados.png

Compreender os dados

  • Explorar

  • Analisar

Preparar os dados para algoritmos de aprendizagem

  • Limpar

  • Adequar

01.b.Importando o Pandas

Para importarmos o Pandas para o Jupyter Notebook usamos o comando import. Como iremos escrever a palavra Pandas muitas vezes ao longo do código, é muito comum apelidarmos a biblioteca para um nome menor pd com o uso do comando as. Como importar o Pandas para o Jupyter Notebook e apelidar de pd.

1import pandas as pd

02.DataFrame

02.a.O que é um DataFrame

  • É um objeto da biblioteca Pandas.

  • É uma estrutura de dados em forma de tabela composta por linhas e colunas.

  • Traduzindo para a português DataFrame seria um “Quadro de dados”.

02.b.Anatomia de um DataFrame

_images/anatomia_dataframe.png

DATASET (conjunto de dados)

  • É o conjunto de dados que compõe o DataFrame.

Linhas

  • São as linhas com os dados das respectivas colunas.

  • Também podem ser chamada de:

  • Entrada, instância e observação.

Colunas

  • São as colunas com os dados das características do dataset.

  • Também pode ser chamada de:

  • Variáveis ou atributos.

Índice

  • É uma espécie de coluna criada junto com o DataFrame para indicar a posição de cada linha. Repare que o índice começa a sua contagem a partir do 0 (zero) e não a partir do 1.

Observação: repare que em uma linha podemos ter diferentes tipos de dados, mas em uma coluna geralmente temos apenas um tipo de dado.

03.Criando um DataFrame

Basicamente há duas formas de se criar um DataFrame, uma a partir de poucos dados e outra com muitos dados.

03.a.Criando um DataFrame com poucos dados

Para isso usamos o comando DataFrame( ) do Pandas, junto com os dados, para criar o objeto DataFrame. Como por exemplo usar uma estrutura de dados como o dicionário.

Criar o dicionário

1dados_da_corrida = {'Distância':[4,3,5,7],'Duração':[38,27,46,65]}

Criar o DataFrame

1df_dic = pd.DataFrame(dados_da_corrida)

Imprimir o DataFrame

1print(df_dic)

Este é o resultado:

_images/df_dic.png

03.b.Criando um DataFrame a partir de um dataset

Para criar um (objeto) DataFrame a partir de um dataset (conjunto de dados) precisamos seguir os seguintes passos:

Primeiro: colocar o dataset no projeto

  • Ir em arquivos na aba lateral do Google Colaboratory.

_images/arquivos_colaboratory.png
  • Arrastar o dataset para a parte de arquivos.

_images/arrastar_planilha.png
  • Clicar com o botão direito em cima da planilha e depois em “copiar caminho” ou “copy path”.

_images/copiar_caminho.png
  • Substituir o “endereço do arquivo” pelo caminho copiado.

_images/copiar_caminho_resultado.png

Segundo: usar os métodos do Pandas para ler o arquivo

  • read_excel("endereço do arquivo") -> para ler arquivos do tipo planilha Excel.

  • read_csv("endereço do arquivo") -> para ler arquivos do tipo csv.

  • Criar o objeto a partir do operador de atribuição -> =

Exemplo:

1df = pd.read_excel(“endereço do arquivo”)
1print(df)

Este é o resultado:

_images/print_df.png

04.Comandos básicos com DataFrame

04.a.Visualizando o DataFrame

A forma mais comum de visualizar o DataFrame é usar o comando head() que nos mostra as primeiras linhas do DataFrame. Por padrão, o método head() mostra as primeiras cinco linhas, mas caso desejamos mais, basta informar a quantidade dentro dos parênteses do método. Exemplo:

1df.head()

Este é o resultado:

_images/df_head.png

Para visualizarmos somente os dados de uma coluna específica do DataFrame basta indicar o nome da coluna como a seguir.

Exemplo:

Quando o nome da coluna possui espaços entre palavras.

1df[‘HORA RETIRADA’].head()

Este é o resultado:

0

5

1

5

2

5

3

5

4

5

Quando não há espaços entre as palavras do nome da coluna.

1df.HORA_RETIRADA.head()

Este é o resultado:

0

5

1

5

2

5

3

5

4

5

04.b.Formato do DataFrame

Para entendermos o formato do DataFrame, ou seja, a quantidade de linhas e colunas, usamos a propriedade shape. Exemplo:

1df.shape

Este é o resultado:

>>> (23759, 9)