Что такое pandas dataframe и как им пользоваться?

Очень просто! Pandas DataFrame - это основная структура данных в библиотеке Pandas. Он представляет собой двумерную таблицу со строками и столбцами, похожую на электронную таблицу или базу данных.

Давайте рассмотрим пример:


import pandas as pd

# Создаем DataFrame из списка словарей
data = [
    {'Имя': 'Анна', 'Возраст': 25, 'Город': 'Москва'},
    {'Имя': 'Иван', 'Возраст': 30, 'Город': 'Санкт-Петербург'},
    {'Имя': 'Елена', 'Возраст': 35, 'Город': 'Казань'}
]

df = pd.DataFrame(data)

print(df)
    

В этом примере мы создаем DataFrame из списка словарей. Каждый словарь представляет одну строку в таблице, а ключи словаря являются названиями столбцов. После создания DataFrame, мы просто выводим его, и получаем следующий результат:


     Имя  Возраст             Город
0  Анна       25            Москва
1  Иван       30  Санкт-Петербург
2  Елена      35            Казань
    

Таким образом, Pandas DataFrame - это удобная структура данных для работы с табличными данными в Python. Он предоставляет множество функций и методов для манипуляции и анализа данных.

Детальный ответ

Что такое pandas DataFrame?

В мире анализа данных на языке Python, библиотека pandas является одной из наиболее популярных. Внутри pandas есть особый тип объекта, который называется DataFrame. DataFrame представляет собой двухмерную структуру данных, аналогичную таблице или электронной таблице.

Создание DataFrame

Для создания DataFrame есть несколько способов. Один из них - использовать словарь, где ключи служат названиями столбцов, а значения - данными в столбцах.


    import pandas as pd
    
    data = {'Имя': ['Анна', 'Борис', 'Валерия'],
            'Возраст': [25, 32, 27],
            'Город': ['Москва', 'Санкт-Петербург', 'Екатеринбург']}
    
    df = pd.DataFrame(data)
    

Вот как будет выглядеть DataFrame:

Имя Возраст Город
Анна 25 Москва
Борис 32 Санкт-Петербург
Валерия 27 Екатеринбург

Индексация DataFrame

DataFrame имеет два основных способа индексации: по столбцам и по строкам.

Индексация по столбцам

Для доступа к отдельным столбцам DataFrame можно использовать квадратные скобки и название столбца в кавычках. Например, чтобы получить столбец "Имя" из нашего DataFrame, мы можем использовать следующий код:


    names = df['Имя']
    

Индексация по строкам

Для доступа к отдельным строкам DataFrame можно использовать методы loc[ ] или iloc[ ]. Метод loc[ ] используется для индексации по меткам строк, а метод iloc[ ] - по числовым индексам.


    # Индексация по меткам строк
    row = df.loc[0]
    
    # Индексация по числовым индексам строк
    row = df.iloc[0]
    

Операции с DataFrame

DataFrame предоставляет множество методов и операций для удобной работы с данными.

Добавление столбца

Чтобы добавить новый столбец в DataFrame, вы можете просто присвоить ему значения:


    df['Зарплата'] = [50000, 60000, 55000]
    

Удаление столбца

Чтобы удалить столбец из DataFrame, вы можете использовать метод drop( ):


    df = df.drop('Город', axis=1)
    

Фильтрация данных

Вы можете фильтровать данные в DataFrame, используя логические условия:


    filtered_df = df[df['Возраст'] > 30]
    

Группировка данных

С помощью метода groupby( ) вы можете группировать данные по определенным столбцам и выполнять агрегирующие операции, такие как сумма или среднее:


    grouped_df = df.groupby('Город').mean()
    

Заключение

В этой статье мы рассмотрели основы pandas DataFrame. DataFrame - мощный инструмент для анализа и обработки данных. Он позволяет легко работать со структурированными данными, выполнять различные операции и получать необходимую информацию.

Видео по теме

Основы Pandas Python | Series, DataFrame И Анализ Данных

Pandas Базовый №1. Создание DataFrame и запись в CSV

Фильтрация данных в Pandas | Анатолий Карпов | karpov.courses

Похожие статьи:

Что такое pandas dataframe и как им пользоваться?