Описание pandas df: как использовать метод describe для анализа данных

The df.describe() method in pandas is used to generate descriptive statistics of a DataFrame. It provides a summary of the central tendency, dispersion, and shape of the distribution of a dataset. Here's a quick breakdown of the output: 1. Count: the number of non-null values in each column 2. Mean: the average value of each column 3. Std: the standard deviation of each column 4. Min: the minimum value of each column 5. 25%: the 25th percentile value of each column 6. 50%: the median (50th percentile) value of each column 7. 75%: the 75th percentile value of each column 8. Max: the maximum value of each column Let's see an example:
import pandas as pd

# Create a DataFrame
data = {'Name': ['John', 'Emma', 'Lisa', 'Jack'],
        'Age': [25, 28, 22, 35],
        'Height': [170, 165, 180, 175],
        'Weight': [70, 65, 75, 80]}

df = pd.DataFrame(data)

# Use df.describe() to generate summary statistics
summary = df.describe()

print(summary)
This code will output the following result:
            Age      Height     Weight
count   4.000000    4.000000   4.000000
mean   27.500000  172.500000  72.500000
std     5.590169    6.454972   6.454972
min    22.000000  165.000000  65.000000
25%    24.250000  168.750000  68.750000
50%    26.500000  172.500000  72.500000
75%    29.750000  176.250000  76.250000
max    35.000000  180.000000  80.000000
In the output, you can see the count, mean, standard deviation, minimum value, and quartile values for the numerical columns (Age, Height, and Weight) in the DataFrame.

Детальный ответ

Введение в pandas df describe

В статье мы рассмотрим полезный метод в библиотеке pandas - df.describe(). Этот метод позволяет получить быстрый обзор основной статистической информации о числовых столбцах в DataFrame.

Как использовать df.describe()

Чтобы воспользоваться методом df.describe(), вы должны иметь pandas DataFrame, содержащий числовые данные. Например:

import pandas as pd

data = {'Name': ['John', 'Emma', 'Sam', 'Lisa'],
        'Age': [25, 30, 20, 35],
        'Salary': [40000, 50000, 30000, 60000]}
df = pd.DataFrame(data)

Итак, теперь у нас есть DataFrame с именем, возрастом и зарплатой в качестве столбцов. Чтобы использовать метод df.describe(), просто вызовите его на DataFrame:

df.describe()

Метод df.describe() вернет новый DataFrame, содержащий основную статистическую информацию. Этот DataFrame будет иметь следующие столбцы информации:

  • count: количество непропущенных значений
  • mean: среднее значение
  • std: стандартное отклонение
  • min: минимальное значение
  • 25%: первый квартиль
  • 50%: медиана (второй квартиль)
  • 75%: третий квартиль
  • max: максимальное значение

Теперь, давайте рассмотрим каждый из этих столбцов информации и как они могут помочь вам в анализе данных.

Столбцы информации

count

Столбец count дает информацию о количестве непропущенных значений для каждого числового столбца. Это полезная метрика для понимания, имеет ли столбец пропущенные значения или нет.

mean

Столбец mean представляет среднее значение числового столбца. Он помогает понять среднюю величину данных и может быть полезен для сравнения разных столбцов.

std

Столбец std показывает стандартное отклонение значения столбца. Стандартное отклонение измеряет разброс данных относительно среднего значения и помогает оценить вариативность данных в столбце.

min и max

Столбцы min и max показывают минимальное и максимальное значения числового столбца соответственно. Эти значения могут быть полезны при определении диапазона значений столбца.

25%, 50%, 75%

Столбцы 25%, 50% и 75% соответствуют первому, второму и третьему квартилю данных. Квартили позволяют оценить распределение данных и помочь выявить наличие выбросов или необычных значений.

Пример использования df.describe()

Давайте рассмотрим пример использования метода df.describe() на нашем DataFrame:

df.describe()

Результат должен быть следующим:

             Age         Salary
count   4.000000      4.000000
mean   27.500000  45000.000000
std     6.454972  12909.944487
min    20.000000  30000.000000
25%    23.750000  37500.000000
50%    27.500000  45000.000000
75%    31.250000  52500.000000
max    35.000000  60000.000000

Из результатов видно:

  • Возраст имеет среднее значение 27.5, с минимальным значением 20 и максимальным значением 35. Стандартное отклонение равно 6.45.
  • Зарплата имеет среднее значение 45000, с минимальным значением 30000 и максимальным значением 60000. Стандартное отклонение равно 12909.94.

Также видны значения первого, второго и третьего квартилей для каждого столбца.

Заключение

Метод df.describe() в библиотеке pandas предоставляет удобный способ получить основную статистическую информацию о числовых столбцах в DataFrame. Через count, mean, std, min, 25%, 50%, 75% и max вы можете получить представление о распределении данных и легко сравнить различные столбцы. При использовании метода df.describe() важно понимать, что он работает только с числовыми данными и игнорирует все остальные столбцы.

Видео по теме

Learn Python Pandas| Video 6 - the describe() function

Pandas Describe | pd.DataFrame.describe()

Describe Function In Python Pandas | Neeraj Sharma

Похожие статьи:

Коэффициент корреляции в numpy: основы, примеры, использование

Описание pandas df: как использовать метод describe для анализа данных