Explorando Dados com Python no Google Colab: Um Guia Prático Utilizando o Dataset adult.csv
Resumo
Neste artigo, vamos explorar o processo de manipulação e visualização de dados usando o Google Colab, com foco no dataset “adult.csv”. Você aprenderá como importar bibliotecas, carregar o dataset, verificar suas informações e criar gráficos para visualizar os dados. Ao final, terá uma compreensão sólida de como explorar um dataset em Python e como o Colab facilita o trabalho com grandes conjuntos de dados.
Principais tópicos abordados:
Importação das bibliotecas essenciais
Carregamento do dataset “adult.csv”
Verificação das informações do dataset
Análise estatística básica
Identificação de valores faltantes
Visualização de dados com gráficos
Introdução
Neste artigo, vamos explorar como realizar tarefas iniciais em projetos de Machine Learning usando o Google Colab. Vamos começar com a importação das bibliotecas necessárias, seguida do carregamento do dataset “adult.csv”. Em seguida, vamos verificar as informações gerais do dataset e, por fim, visualizaremos os dados usando gráficos. O Google Colab oferece uma plataforma amigável para análise de dados, especialmente para quem está começando na área de Machine Learning. O passo inicial é salvar uma cópia do notebook no seu Google Drive e fazer o download do dataset “adult.csv”.
Passos iniciais
A primeira coisa que você deve fazer é clicar neste link para acessar o notebook criado para este projeto. Em seguida:
Clique em Arquivo e escolha Salvar uma cópia no Drive.
2. Baixe o dataset “adult.csv” aqui.
3. No notebook, você verá um ícone no canto esquerdo que permite fazer upload de arquivos. Clique no ícone conforme a primeira imagem abaixo. Em seguida clique no ícone mostrado na segunda imagem abaixo para carregar o “adult.csv” no seu ambiente de trabalho Colab.
Importação das Bibliotecas
Vamos começar com a importação das bibliotecas necessárias para manipular e visualizar os dados.
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as pltExplicação das Bibliotecas:
Pandas: Usada para manipulação de dados. Ela facilita o carregamento, limpeza e análise de grandes conjuntos de dados.
NumPy: Uma biblioteca poderosa para cálculos numéricos, essencial para manipulação de arrays e dados matemáticos.
Seaborn: Ideal para criar gráficos e visualizações esteticamente agradáveis.
Matplotlib: A biblioteca base para criar gráficos em Python.
Carregamento do Dataset
Após o upload feito anteriormente, o arquivo estará disponível no caminho /content/adult.csv. O código Python abaixo carrega o dataset na variável base_adult.
# Carregando o dataset
base_adult = pd.read_csv('/content/adult.csv')Agora que o dataset está carregado, podemos visualizar as dimensões da base de dados, ou seja, quantas linhas e colunas ele possui:
# Visualiza o número de linhas e colunas da base de dados.
base_adult.shapeO método shape retorna uma tupla com o número de linhas e colunas, nos permitindo entender o tamanho do dataset.
Para ver o conteúdo da base de dados, utilizamos o seguinte código:
# Mostra a base de dados
base_adultAnálise Estatística Básica
Um passo importante na exploração de dados é entender a distribuição e a estatística básica dos valores. Podemos fazer isso usando o método describe() do Pandas, que retorna estatísticas como média, desvio padrão, valores mínimos e máximos, entre outros.
# Retorna dados estatísticos
base_adult.describe()O código acima nos oferece uma visão geral da distribuição dos dados. Podemos ver, por exemplo, o valor médio de uma variável numérica, como idade, e como os dados estão distribuídos (mínimo, máximo e quartis).
Verificação de Valores Faltantes
Antes de prosseguir com a análise, precisamos verificar se há valores faltantes no dataset, o que poderia afetar o desempenho do nosso modelo ou a análise dos dados.
# Verifica se há valores faltantes
base_adult.isnull().sum()Se encontrarmos valores faltantes, uma abordagem comum é preencher esses dados usando a média para variáveis numéricas ou o valor mais comum para variáveis categóricas. Mas como podemos ver na imagem anterior não temos valores faltantes, isso se dá porque todas as features tem o valor zero.
Visualização dos Dados
A visualização de dados é um passo essencial em qualquer análise, pois permite identificar padrões e tendências. Vamos utilizar gráficos para explorar a distribuição das variáveis.
Por exemplo, podemos visualizar a distribuição de renda usando um gráfico de barras:
# Contagem das classes de renda
sns.countplot(x = base_adult['income'])Para visualizar a distribuição de idades, podemos usar um histograma:
# Histograma da distribuição de idades
plt.hist(x = base_adult['age'], rwidth=0.9, color='red', alpha=0.7, edgecolor='black')
plt.title('Distribuição de Idade')
plt.xlabel('Idade')
plt.ylabel('Frequência')
plt.show()Podemos também observar a distribuição de outras variáveis, como o nível educacional ou o número de horas trabalhadas por semana:
# Histograma do número de horas trabalhadas por semana
plt.hist(x = base_adult['hours-per-week'], rwidth=0.9, color='blue', alpha=0.7, edgecolor='black')
plt.title('Distribuição de Horas Trabalhadas por Semana')
plt.xlabel('Horas por Semana')
plt.ylabel('Frequência')
plt.show()Conclusão
Neste artigo, exploramos o processo inicial de manipulação e visualização de dados usando o Google Colab e o dataset “adult.csv”. Começamos com a importação das bibliotecas necessárias, carregamos o dataset e exploramos suas características estatísticas e estruturais. Em seguida, visualizamos os dados com gráficos para obter uma compreensão mais profunda. Ao entender a estrutura do dataset e realizar visualizações, você está melhor preparado para seguir com análises mais avançadas e a construção de modelos preditivos.
Livros que Indico
Estatística Prática para Cientistas de dados — neste link tem uma análise bem completa do livro.
2041: Como a Inteligência Artificial Vai Mudar Sua Vida nas Próximas Décadas — neste link tem uma análise completa do livro.
Curso Intensivo de Python — neste link tem uma análise completa do livro.
Entendendo Algoritmos. Um guia Ilustrado Para Programadores e Outros Curiosos
Novos Kindles
Fiz uma análise detalhada dos novos Kindles lançados este ano, destacando suas principais inovações e benefícios para os leitores digitais. Confira o texto completo no link a seguir: O Fascinante Mundo da Leitura Digital: Vantagens de Ter um Kindle.
Amazon Prime
Entrar no Amazon Prime oferece uma série de vantagens, incluindo acesso ilimitado a milhares de filmes, séries e músicas, além de frete grátis em milhões de produtos com entrega rápida. Os membros também desfrutam de ofertas exclusivas, acesso antecipado a promoções e benefícios em serviços como Prime Video, Prime Music e Prime Reading, tornando a experiência de compra e entretenimento muito mais conveniente e rica.
Se você tiver interesse, entre pelo link a seguir: AMAZON PRIME, que me ajuda a continuar na divulgação da inteligência artificial e programação de computadores.












