pandas describe: что это и как использовать для анализа данных 🐼💻

"pandas describe что это" Функция describe() в библиотеке pandas используется для получения сводной статистической информации о числовых колонках в DataFrame. Результат включает в себя количество, среднее значение, стандартное отклонение, минимум, максимум и квартили. Пример использования:

import pandas as pd

# Создаем DataFrame
data = {'Name': ['John', 'Alice', 'Bob'],
        'Age': [25, 30, 35],
        'Height': [175, 160, 180]}

df = pd.DataFrame(data)

# Используем describe()
description = df.describe()

print(description)
Результат:

             Age      Height
count   3.000000    3.000000
mean   30.000000  171.666667
std     5.000000   10.408330
min    25.000000  160.000000
25%    27.500000  167.500000
50%    30.000000  175.000000
75%    32.500000  177.500000
max    35.000000  180.000000
Надеюсь, это помогло вам понять, что такое describe() в pandas.

Детальный ответ

Что такое describe в Pandas?

Метод describe() в библиотеке Pandas используется для предоставления сводной статистической информации о числовых столбцах в DataFrame.

Когда мы вызываем describe() на DataFrame, он выводит несколько основных статистических показателей для каждого числового столбца:

  • count: количество непустых значений в столбце.
  • mean: среднее значение столбца.
  • std: стандартное отклонение значений столбца.
  • min: минимальное значение в столбце.
  • 25%: первый квартиль (25-й процентиль).
  • 50%: медиана (50-й процентиль).
  • 75%: третий квартиль (75-й процентиль).
  • max: максимальное значение в столбце.

Кроме того, метод describe() может быть вызван с параметром include='all', чтобы включить все столбцы, включая нечисловые.

Примеры использования метода describe()

Рассмотрим пример использования метода describe() на DataFrame:

import pandas as pd

# Создаем DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 32, 18, 45],
        'Salary': [50000, 70000, 30000, 90000]}

df = pd.DataFrame(data)

# Вызываем метод describe()
description = df.describe()

print(description)

Результат выполнения кода:

             Age         Salary
count   4.000000       4.000000
mean   30.000000   60000.000000
std    11.547005   25714.888124
min    18.000000   30000.000000
25%    22.500000   45000.000000
50%    28.500000   60000.000000
75%    36.000000   75000.000000
max    45.000000   90000.000000

Из полученных результатов видно, что:

  • для столбца "Age" существуют 4 непустых значения;
  • среднее значение возраста равно 30;
  • стандартное отклонение возраста равно 11.55;
  • минимальный возраст равен 18;
  • 25% людей имеют возраст до 22.5;
  • медиана возраста равна 28.5;
  • 75% людей имеют возраст до 36;
  • максимальный возраст равен 45.

Аналогично для столбца "Salary".

Использование метода describe() позволяет быстро получить общую информацию о распределении данных в DataFrame.

Видео по теме

Забудь Excel. Привет Pandas! Базовые функций, read_csv, describe, columns, info, filter.

Основы Pandas Python | Series, DataFrame И Анализ Данных

Что такое группировка, агрегация, сортировка данных? | Аналитик данных | karpov.courses

Похожие статьи:

pandas describe: что это и как использовать для анализа данных 🐼💻