Как построить распределение pandas? 📊🐼

Чтобы построить распределение с использованием библиотеки Pandas, вам понадобится использовать метод plot.hist().


import pandas as pd

# Создаем DataFrame с данными
data = {'values': [3, 5, 8, 2, 4, 6, 9]}
df = pd.DataFrame(data)

# Построение распределения
df['values'].plot.hist(grid=True, rwidth=0.9)
    

В данном примере мы создаем DataFrame с данными в столбце 'values'. Затем мы вызываем метод plot.hist() для этого столбца, чтобы построить гистограмму распределения.

Детальный ответ

Как построить распределение pandas

Распределение данных - это одна из ключевых задач анализа данных. Оно позволяет нам понять, какие значения наиболее часто встречаются в наборе данных и как они распределены по всей выборке. В библиотеке pandas для построения распределения данных есть несколько методов, которые помогут вам справиться с этой задачей.

Метод value_counts()

Первый метод, который мы рассмотрим, - это метод value_counts(). Он позволяет нам подсчитать количество уникальных значений в столбце и представить их в виде распределения.


import pandas as pd

data = {'Name': ['John', 'Emma', 'John', 'Alice', 'Emma'],
        'Age': [25, 28, 30, 22, 28]}

df = pd.DataFrame(data)

value_counts = df['Name'].value_counts()
print(value_counts)

В результате выполнения кода мы получим следующий вывод:


John     2
Emma     2
Alice    1
Name: Name, dtype: int64

Этот вывод показывает, что в столбце 'Name' у нас есть два значения 'John', два значения 'Emma' и одно значение 'Alice'.

Метод hist()

Если у нас имеются числовые значения и мы хотим построить график распределения, мы можем использовать метод hist(). Он позволяет нам создать гистограмму, которая покажет, как значения распределены по определенным диапазонам.


import pandas as pd
import matplotlib.pyplot as plt

data = {'Name': ['John', 'Emma', 'John', 'Alice', 'Emma'],
        'Age': [25, 28, 30, 22, 28]}

df = pd.DataFrame(data)

df['Age'].hist()
plt.show()

Выполнив этот код, мы получим график распределения возраста:

График распределения возраста

Метод plot()

Если у нас есть числовые значения, и мы хотим построить график распределения в виде линии или точек, мы можем использовать метод plot().


import pandas as pd
import matplotlib.pyplot as plt

data = {'Name': ['John', 'Emma', 'John', 'Alice', 'Emma'],
        'Age': [25, 28, 30, 22, 28]}

df = pd.DataFrame(data)

df['Age'].plot(kind='line')
plt.show()

Выполнив этот код, мы получим график распределения возраста в виде линии:

График распределения возраста в виде линии

Также можно использовать различные параметры метода plot(), чтобы настроить внешний вид графика.

Заключение

В данной статье мы рассмотрели несколько методов библиотеки pandas для построения распределения данных. Метод value_counts() позволяет подсчитать количество уникальных значений, а методы hist() и plot() помогают визуализировать распределение данных в виде гистограммы, линии или точек. Используйте эти методы в своей работе с pandas, чтобы получить более глубокое понимание ваших данных.

Видео по теме

01-10 Эмпирическое распределение в python

Основы Matplotlib | Построение Графиков На Python

Pandas Базовый №1. Создание DataFrame и запись в CSV

Похожие статьи:

Как построить распределение pandas? 📊🐼