Описание pandas df: как использовать метод describe для анализа данных
df.describe()
method in pandas is used to generate descriptive statistics of a DataFrame. It provides a summary of the central tendency, dispersion, and shape of the distribution of a dataset.
Here's a quick breakdown of the output:
1. Count: the number of non-null values in each column
2. Mean: the average value of each column
3. Std: the standard deviation of each column
4. Min: the minimum value of each column
5. 25%: the 25th percentile value of each column
6. 50%: the median (50th percentile) value of each column
7. 75%: the 75th percentile value of each column
8. Max: the maximum value of each column
Let's see an example:import pandas as pd
# Create a DataFrame
data = {'Name': ['John', 'Emma', 'Lisa', 'Jack'],
'Age': [25, 28, 22, 35],
'Height': [170, 165, 180, 175],
'Weight': [70, 65, 75, 80]}
df = pd.DataFrame(data)
# Use df.describe() to generate summary statistics
summary = df.describe()
print(summary)
This code will output the following result:
Age Height Weight
count 4.000000 4.000000 4.000000
mean 27.500000 172.500000 72.500000
std 5.590169 6.454972 6.454972
min 22.000000 165.000000 65.000000
25% 24.250000 168.750000 68.750000
50% 26.500000 172.500000 72.500000
75% 29.750000 176.250000 76.250000
max 35.000000 180.000000 80.000000
In the output, you can see the count, mean, standard deviation, minimum value, and quartile values for the numerical columns (Age, Height, and Weight) in the DataFrame.
Детальный ответ
Введение в pandas df describe
В статье мы рассмотрим полезный метод в библиотеке pandas - df.describe(). Этот метод позволяет получить быстрый обзор основной статистической информации о числовых столбцах в DataFrame.
Как использовать df.describe()
Чтобы воспользоваться методом df.describe(), вы должны иметь pandas DataFrame, содержащий числовые данные. Например:
import pandas as pd
data = {'Name': ['John', 'Emma', 'Sam', 'Lisa'],
'Age': [25, 30, 20, 35],
'Salary': [40000, 50000, 30000, 60000]}
df = pd.DataFrame(data)
Итак, теперь у нас есть DataFrame с именем, возрастом и зарплатой в качестве столбцов. Чтобы использовать метод df.describe(), просто вызовите его на DataFrame:
df.describe()
Метод df.describe() вернет новый DataFrame, содержащий основную статистическую информацию. Этот DataFrame будет иметь следующие столбцы информации:
- count: количество непропущенных значений
- mean: среднее значение
- std: стандартное отклонение
- min: минимальное значение
- 25%: первый квартиль
- 50%: медиана (второй квартиль)
- 75%: третий квартиль
- max: максимальное значение
Теперь, давайте рассмотрим каждый из этих столбцов информации и как они могут помочь вам в анализе данных.
Столбцы информации
count
Столбец count дает информацию о количестве непропущенных значений для каждого числового столбца. Это полезная метрика для понимания, имеет ли столбец пропущенные значения или нет.
mean
Столбец mean представляет среднее значение числового столбца. Он помогает понять среднюю величину данных и может быть полезен для сравнения разных столбцов.
std
Столбец std показывает стандартное отклонение значения столбца. Стандартное отклонение измеряет разброс данных относительно среднего значения и помогает оценить вариативность данных в столбце.
min и max
Столбцы min и max показывают минимальное и максимальное значения числового столбца соответственно. Эти значения могут быть полезны при определении диапазона значений столбца.
25%, 50%, 75%
Столбцы 25%, 50% и 75% соответствуют первому, второму и третьему квартилю данных. Квартили позволяют оценить распределение данных и помочь выявить наличие выбросов или необычных значений.
Пример использования df.describe()
Давайте рассмотрим пример использования метода df.describe() на нашем DataFrame:
df.describe()
Результат должен быть следующим:
Age Salary
count 4.000000 4.000000
mean 27.500000 45000.000000
std 6.454972 12909.944487
min 20.000000 30000.000000
25% 23.750000 37500.000000
50% 27.500000 45000.000000
75% 31.250000 52500.000000
max 35.000000 60000.000000
Из результатов видно:
- Возраст имеет среднее значение 27.5, с минимальным значением 20 и максимальным значением 35. Стандартное отклонение равно 6.45.
- Зарплата имеет среднее значение 45000, с минимальным значением 30000 и максимальным значением 60000. Стандартное отклонение равно 12909.94.
Также видны значения первого, второго и третьего квартилей для каждого столбца.
Заключение
Метод df.describe() в библиотеке pandas предоставляет удобный способ получить основную статистическую информацию о числовых столбцах в DataFrame. Через count, mean, std, min, 25%, 50%, 75% и max вы можете получить представление о распределении данных и легко сравнить различные столбцы. При использовании метода df.describe() важно понимать, что он работает только с числовыми данными и игнорирует все остальные столбцы.