Как посчитать корреляцию Пирсона в Pandas? 📊🤔

Как посчитать корреляцию Пирсона в pandas?

import pandas as pd

# Создаем DataFrame с данными для расчета корреляции
data = {'A': [1, 2, 3, 4, 5],
        'B': [5, 4, 3, 2, 1]}

df = pd.DataFrame(data)

# Используем метод .corr() для расчета корреляции
correlation = df['A'].corr(df['B'], method='pearson')

correlation

Для расчета корреляции Пирсона в библиотеке pandas, вы можете использовать метод .corr(). Вам нужно передать столбцы, между которыми вы хотите найти корреляцию, как аргументы в метод .corr(). Метод автоматически расчитает корреляцию и вернет результат.

Если вам нужно использовать конкретный метод для расчета корреляции, например метод Пирсона, вы можете указать его в аргументе method='pearson'. По умолчанию используется метод Пирсона, поэтому его можно не указывать, если вам он подходит.

В результате выполнения кода, вы получите значение корреляции Пирсона между указанными столбцами.

Детальный ответ

Привет студент!

Сегодня я объясню тебе, как посчитать корреляцию Пирсона в библиотеке Pandas.

Что такое корреляция Пирсона?

Корреляция Пирсона - это статистическая мера, которая показывает силу и направление линейной связи между двумя случайными переменными. Она может принимать значения от -1 до 1, где -1 означает полную отрицательную корреляцию, 1 - положительную корреляцию, и 0 - отсутствие корреляции.

Использование функции corr()

В Pandas для подсчета корреляции Пирсона между столбцами DataFrame используется функция corr(). После вызова этой функции, она вернет новый DataFrame с коэффициентами корреляции между всеми парами столбцов.


    # Импортируем необходимые библиотеки
    import pandas as pd

    # Создаем DataFrame
    df = pd.DataFrame({
        'Столбец1': [1, 2, 3, 4, 5],
        'Столбец2': [5, 4, 3, 2, 1],
        'Столбец3': [1, 2, 1, 2, 1]
    })

    # Посчитаем корреляцию Пирсона
    corr_matrix = df.corr()

    # Выведем результат
    print(corr_matrix)
    

В данном примере мы создали DataFrame с тремя столбцами. Затем мы вызываем функцию corr() для DataFrame, что позволяет нам посчитать корреляцию Пирсона между столбцами. Результат сохраняется в матрицу корреляции corr_matrix.

Интерпретация результатов

Матрица корреляции corr_matrix представляет собой квадратную таблицу, где значения на пересечении столбцов показывают коэффициент корреляции между соответствующими парами столбцов. Значения на главной диагонали всегда равны 1, так как корреляция переменной с самой собой всегда равна 1.

Теперь, когда у нас есть матрица корреляции, мы можем проанализировать результаты. Если значение коэффициента корреляции близко к 1 или -1, это означает, что между переменными существует сильная линейная связь. Значение, близкое к 0, указывает на отсутствие линейной связи.

Применение на реальных данных

Давайте посмотрим, как применить данную функцию на реальных данных. Возьмем данные о росте и весе студентов:


    # Импортируем необходимые библиотеки
    import pandas as pd

    # Загружаем данные из CSV файла
    data = pd.read_csv('students.csv')

    # Посчитаем корреляцию Пирсона между ростом и весом студентов
    corr_matrix = data[['Рост', 'Вес']].corr()

    # Выведем результат
    print(corr_matrix)
    

В данном примере мы загрузили данные из CSV файла с помощью функции read_csv() и сохранили их в переменной data. Затем мы вызываем функцию corr() для столбцов 'Рост' и 'Вес' и выводим результат.

Таким образом, мы успешно посчитали корреляцию Пирсона в Pandas. Не забывай применять эту функцию для анализа данных и подсчета корреляций между переменными.

Удачи в изучении!

Видео по теме

Коэффициент корреляции Пирсона в Excel

02-03 Корреляции в python

Коэффициент корреляции Пирсона, 2 способа вычисления

Похожие статьи:

🐼 Как преобразовать серию core series pandas в словарь: подробная инструкция 📚

Как посчитать корреляцию Пирсона в Pandas? 📊🤔