Datasets para trabajar en Python: Seaborn

La primera serie de datasets es la biblioteca seaborn, encontraremos 18 datasets listos para ser explotados al máximo y comenzar a generar visualizaciones para explorar los datos. Nada mal para los 'newsies' en el mundo del Data Science.

Para los ejemplos utilice la extensión de Jupyter Notebook en Visual Studio Code. También se puede instalar desde el sitio de https://jupyter.org/ o en *Anaconda Navigator* tiene integrada la aplicación Jupyter Notebook.

Primero debemos cargar las librerías que vamos a utilizar.

# Cargar seaborn y pandas
import seaborn as sns
import pandas as pd

# Cargar librerías para web scraping
import requests
from bs4 import BeautifulSoup
import pandas as pd
from IPython.display import display

Nuestro primer paso lo hacemos con tres líneas de código, utilizaremos la función sns.get_dataset_names(), así obtenemos el listado de datasets disponibles en la librería Seaborn.

# Cargar la lista de datasets de seaborn
df = sns.get_dataset_names()
# Convertir la lista datasets en un dataframe 
df = pd.DataFrame(df, columns=['datasets'])
df

Untitled

Ahora que ya tenemos el dataframe de los datasets extraemos un dataset sencillo, en este caso será el dataset 'diamonds', ya va tomando forma nuestro primer ejercicio de exploración de los datos y para comenzar nuestro análisis y para generar las posteriores visualizaciones.

Para cargar el dataset utilizamos la función sns.load_dataset(), con dos líneas de código ya tenemos el dataset.

# Cargamos el dataset diamonds 
df = sns.load_dataset('diamonds')
df

Untitled

Pandas nos ofrece varias formas de previsualizar los datos, con la función df.head() podemos obtener un los primeros 5 registros, en cambio, si queremos ver los últimos registros utilizamos la función df.tail()

# Muestra el encabezado del dataframe 'diamonds'
df.head()

Untitled

# Muestra las últimas filas del dataframe 'diamonds'
df.tail()

Untitled

Al imprimir el dataframe en el Paso 2 observaremos que se muestra el número de filas y columnas: 53940 filas x 10 columnas. También Pandas nos ofrece otra manera de conocer la dimensionalidad del dataframe con la propiedad df.shape

# Devuelve las dimensiones del dataframe (número filas y número de columnas)
df.shape

Untitled

Conociendo las dimensiones del dataset de 53940 filas y 10 columnas, nos da una idea global de la data a la que nos enfrentamos.