python_e_pandas.py

# -*- coding: utf-8 -*-
"""python_e_pandas.ipynb

Automatically generated by Colaboratory.

Original file is located at
    https://colab.research.google.com/drive/1ty69qlKW6OcgtgR_JWqEWXn64B_23zlO

Neste caderno aprenderemos a trabalhar com arquivos do tipo csv e excel, que são bastante comuns em ciência de dados. Inicialmentr trabalharemos com cav, um exemplo é o dataset sobre vinhos em https://archive.ics.uci.edu/dataset/109/wine.
"""

import numpy as np
import pandas as pd #biblioteca para trabalhar com os arquivos

df = pd.read_csv('/content/sample_data/california_housing_test.csv')
print(df)

print("\n\n\n\n")

#carrega os dados do arquivo em formato csv para um dataframe
#usamos header=None quando o arquivo não tem nome para as colunas
df = pd.read_csv('wine.data',header=None)
print(df.columns)
print(df)

"""Uma boa forma de trabalhar com os dados é transformá-los em uma matriz do numpy já que muitos métodos de ciência de dados trabalham com o numpy."""

#transformando o dataframe df em uma matriz numpy M
M=df.to_numpy()
print(M[0:3,0:3])

"""Para criar um dataframe basta criar um dicionário com os nomes das colunas e a cada coluna associar a lista de valores. Depois é possível exportar o dataframe para um arquivo do formato desejado."""

#cria um dicionário
dados={}
#cria dados para duas colunas
dados["tempo (s)"]=[0,5,10,15,20,25]
dados["temperatura (°C)"]=[20,25.3,28.4,31.9,32.5,32.9]
df_dados=pd.DataFrame(dados)
print(df_dados)
df_dados.to_csv("dados.csv")

"""Os mesmos métodos usados podem ser empregados para trabalhar com outros tipos de arquivos, como Excel, por exemplo."""

#carrega o dataframe do excel
df=pd.read_excel('cartao.xlsx')
print(df)
#shape[0] é o numero de linhas e shape[1] é o numero de colunas
total=0
soma=[]
for i in range(df.shape[0]):
  #o comando .loc acessa a linha e a coluna do dataframe
  linha=df.loc[i,:]
  #cada linha é um dicionário com os valores de cada coluna
  total=total+(linha['valor'])
  print(linha['distância'])
  soma.append(total)

#podemos adicionar mais uma coluna do dataframe
df["soma"]=soma
print(df)
#podemos também salvar no formato excel
df.to_excel('cartao2.xlsx')