-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathpython_e_pandas.py
63 lines (49 loc) · 2.13 KB
/
python_e_pandas.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
# -*- coding: utf-8 -*-
"""python_e_pandas.ipynb
Automatically generated by Colaboratory.
Original file is located at
https://colab.research.google.com/drive/1ty69qlKW6OcgtgR_JWqEWXn64B_23zlO
Neste caderno aprenderemos a trabalhar com arquivos do tipo csv e excel, que são bastante comuns em ciência de dados. Inicialmentr trabalharemos com cav, um exemplo é o dataset sobre vinhos em https://archive.ics.uci.edu/dataset/109/wine.
"""
import numpy as np
import pandas as pd #biblioteca para trabalhar com os arquivos
df = pd.read_csv('/content/sample_data/california_housing_test.csv')
print(df)
print("\n\n\n\n")
#carrega os dados do arquivo em formato csv para um dataframe
#usamos header=None quando o arquivo não tem nome para as colunas
df = pd.read_csv('wine.data',header=None)
print(df.columns)
print(df)
"""Uma boa forma de trabalhar com os dados é transformá-los em uma matriz do numpy já que muitos métodos de ciência de dados trabalham com o numpy."""
#transformando o dataframe df em uma matriz numpy M
M=df.to_numpy()
print(M[0:3,0:3])
"""Para criar um dataframe basta criar um dicionário com os nomes das colunas e a cada coluna associar a lista de valores. Depois é possível exportar o dataframe para um arquivo do formato desejado."""
#cria um dicionário
dados={}
#cria dados para duas colunas
dados["tempo (s)"]=[0,5,10,15,20,25]
dados["temperatura (°C)"]=[20,25.3,28.4,31.9,32.5,32.9]
df_dados=pd.DataFrame(dados)
print(df_dados)
df_dados.to_csv("dados.csv")
"""Os mesmos métodos usados podem ser empregados para trabalhar com outros tipos de arquivos, como Excel, por exemplo."""
#carrega o dataframe do excel
df=pd.read_excel('cartao.xlsx')
print(df)
#shape[0] é o numero de linhas e shape[1] é o numero de colunas
total=0
soma=[]
for i in range(df.shape[0]):
#o comando .loc acessa a linha e a coluna do dataframe
linha=df.loc[i,:]
#cada linha é um dicionário com os valores de cada coluna
total=total+(linha['valor'])
print(linha['distância'])
soma.append(total)
#podemos adicionar mais uma coluna do dataframe
df["soma"]=soma
print(df)
#podemos também salvar no formato excel
df.to_excel('cartao2.xlsx')