pandas describe: что это и как использовать для анализа данных 🐼💻
"pandas describe что это"
Функция
describe()
в библиотеке pandas используется для получения сводной статистической информации о числовых колонках в DataFrame. Результат включает в себя количество, среднее значение, стандартное отклонение, минимум, максимум и квартили.
Пример использования:
import pandas as pd
# Создаем DataFrame
data = {'Name': ['John', 'Alice', 'Bob'],
'Age': [25, 30, 35],
'Height': [175, 160, 180]}
df = pd.DataFrame(data)
# Используем describe()
description = df.describe()
print(description)
Результат:
Age Height
count 3.000000 3.000000
mean 30.000000 171.666667
std 5.000000 10.408330
min 25.000000 160.000000
25% 27.500000 167.500000
50% 30.000000 175.000000
75% 32.500000 177.500000
max 35.000000 180.000000
Надеюсь, это помогло вам понять, что такое describe()
в pandas.
Детальный ответ
Что такое describe в Pandas?
Метод describe()
в библиотеке Pandas используется для предоставления сводной статистической информации о числовых столбцах в DataFrame.
Когда мы вызываем describe()
на DataFrame, он выводит несколько основных статистических показателей для каждого числового столбца:
- count: количество непустых значений в столбце.
- mean: среднее значение столбца.
- std: стандартное отклонение значений столбца.
- min: минимальное значение в столбце.
- 25%: первый квартиль (25-й процентиль).
- 50%: медиана (50-й процентиль).
- 75%: третий квартиль (75-й процентиль).
- max: максимальное значение в столбце.
Кроме того, метод describe()
может быть вызван с параметром include='all'
, чтобы включить все столбцы, включая нечисловые.
Примеры использования метода describe()
Рассмотрим пример использования метода describe()
на DataFrame:
import pandas as pd
# Создаем DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 32, 18, 45],
'Salary': [50000, 70000, 30000, 90000]}
df = pd.DataFrame(data)
# Вызываем метод describe()
description = df.describe()
print(description)
Результат выполнения кода:
Age Salary
count 4.000000 4.000000
mean 30.000000 60000.000000
std 11.547005 25714.888124
min 18.000000 30000.000000
25% 22.500000 45000.000000
50% 28.500000 60000.000000
75% 36.000000 75000.000000
max 45.000000 90000.000000
Из полученных результатов видно, что:
- для столбца "Age" существуют 4 непустых значения;
- среднее значение возраста равно 30;
- стандартное отклонение возраста равно 11.55;
- минимальный возраст равен 18;
- 25% людей имеют возраст до 22.5;
- медиана возраста равна 28.5;
- 75% людей имеют возраст до 36;
- максимальный возраст равен 45.
Аналогично для столбца "Salary".
Использование метода describe()
позволяет быстро получить общую информацию о распределении данных в DataFrame.