📊 Какие типы данных существуют в pandas: руководство для начинающих

В библиотеке Pandas существуют следующие основные типы данных:

  • Series: Одномерный массив с метками индекса. Пример:
import pandas as pd

data = [10, 20, 30, 40, 50]
s = pd.Series(data)
print(s)
  • DataFrame: Двумерная структура данных, состоящая из рядов и столбцов. Пример:
import pandas as pd

data = {'Имя': ['Алиса', 'Боб', 'Чарли'],
        'Возраст': [25, 30, 35]}
df = pd.DataFrame(data)
print(df)
  • Index: Метки индекса для доступа к данным в Series или DataFrame. Пример:
import pandas as pd

data = [10, 20, 30, 40, 50]
index = ['A', 'B', 'C', 'D', 'E']
s = pd.Series(data, index=index)
print(s)
  • MultiIndex: Многомерный индекс для создания иерархической структуры данных. Пример:
import pandas as pd

data = {'Имя': ['Алиса', 'Боб', 'Чарли'],
        'Возраст': [25, 30, 35]}
index = pd.MultiIndex.from_arrays([['A', 'B', 'C'], [1, 2, 3]])
df = pd.DataFrame(data, index=index)
print(df)

Детальный ответ

Какие типы данных существуют в pandas

При работе с библиотекой pandas в Python, вы столкнетесь с различными типами данных, которые помогут вам эффективно хранить и обрабатывать табличные данные. Ниже перечислены основные типы данных в pandas:

1. DataFrame (Таблица данных)

DataFrame является одной из главных структур данных в pandas. Он представляет собой двумерную таблицу с рядами и столбцами. Можно представить DataFrame как эквивалент таблицы в Excel или базы данных, где каждый столбец представляет собой отдельное поле, а каждая строка - отдельную запись.


import pandas as pd

# Создание DataFrame из словаря
data = {'Имя': ['Алиса', 'Боб', 'Кэрол'],
        'Возраст': [25, 30, 35],
        'Зарплата': [50000, 60000, 70000]}

df = pd.DataFrame(data)
print(df)
    

2. Series (Столбец данных)

Series - это одномерный массив, который представляет собой отдельный столбец данных в DataFrame. Series содержит значения определенного типа данных, индекс и имя столбца.


import pandas as pd

# Создание Series из списка
data = [10, 20, 30, 40, 50]
series = pd.Series(data)
print(series)
    

3. Index (Индекс)

Index используется для маркировки каждой строки в DataFrame или каждого элемента в Series. Он представляет собой неизменяемый массив, который позволяет быстро и эффективно получать доступ к данным по их меткам.


import pandas as pd

# Создание DataFrame с произвольным индексом
data = {'Имя': ['Алиса', 'Боб', 'Кэрол'],
        'Возраст': [25, 30, 35],
        'Зарплата': [50000, 60000, 70000]}

df = pd.DataFrame(data, index=['a', 'b', 'c'])
print(df)
    

4. DateTime (Дата и время)

pandas также предоставляет специальные типы данных для работы с датами и временем. DateTime используется для представления дат и времени, а также для выполнения операций, связанных с датой и временем, таких как выборка данных по временным интервалам или вычисление разницы между двумя датами.


import pandas as pd

# Создание DataFrame с DateTime столбцом
data = {'Дата': pd.to_datetime(['2022-01-01', '2022-01-02', '2022-01-03']),
        'Продажи': [100, 200, 300]}

df = pd.DataFrame(data)
print(df)
    

5. Categorical (Категориальные данные)

Категориальные данные представляют собой данные, которые принимают ограниченное количество вариантов значений. pandas предоставляет тип данных Categorical для эффективного хранения и обработки таких данных.


import pandas as pd

# Создание Series с категориальными данными
data = pd.Series(['красный', 'зеленый', 'синий', 'красный'], dtype="category")
print(data)
    

6. Numeric (Числовые данные)

Numeric представляет собой тип данных для хранения числовых значений, таких как целые числа, числа с плавающей запятой и другие числовые форматы.


import pandas as pd

# Создание Series с числовыми данными
data = pd.Series([10, 20, 30, 40, 50])
print(data)
    

7. Boolean (Логические данные)

Boolean представляет собой тип данных для хранения логических значений True и False. Он часто используется для фильтрации данных и выполнения логических операций.


import pandas as pd

# Создание Series с логическими данными
data = pd.Series([True, False, True, False])
print(data)
    

8. Text (Текстовые данные)

Text используется для хранения и обработки текстовых данных. Он предоставляет удобные методы для работы с текстом, такие как поиск, замена и извлечение подстрок.


import pandas as pd

# Создание Series с текстовыми данными
data = pd.Series(['Привет', 'Мир', '!', 'Привет, Мир!'])
print(data)
    

9. Object (Объектный тип данных)

Object является общим типом данных в pandas, который может хранить различные типы данных, включая строки, числа и другие объекты. Он используется, когда pandas не может однозначно определить тип данных столбца.


import pandas as pd

# Создание Series с объектными данными
data = pd.Series(['abc', 123, [1, 2, 3]])
print(data)
    

Заключение

pandas предоставляет широкий спектр типов данных для работы с различными видами данных. Понимание этих типов данных поможет вам эффективно проводить анализ и манипулировать табличными данными в Python.

Видео по теме

✅ 1. ЗНАКОМСТВО С PANDAS. Типы данных. | Курс по Pandas

Основы Pandas Python | Series, DataFrame И Анализ Данных

Уроки Python - Типы данных, переменные

Похожие статьи:

📊 Какие типы данных существуют в pandas: руководство для начинающих