🔢 Как посчитать уникальные значения с помощью pandas

Для подсчета уникальных значений в Pandas, вы можете использовать метод unique() в сочетании с методом len().

import pandas as pd

# Создаем DataFrame с данными
data = {'Name': ['John', 'Jane', 'John', 'Alice', 'Bob'],
        'Age': [25, 28, 25, 30, 27]}
df = pd.DataFrame(data)

# Подсчет уникальных значений
unique_values = len(df['Name'].unique())

print(f'Количество уникальных значений: {unique_values}')

В приведенном выше примере мы создали DataFrame с двумя столбцами "Name" и "Age". Затем мы использовали метод unique() для получения уникальных значений столбца "Name", а затем применили метод len() к полученному массиву для подсчета количества уникальных значений.

В результате выполнения кода будет выведено количество уникальных значений столбца "Name".

Детальный ответ

Как подсчитать уникальные значения в pandas

В анализе данных, особенно при работе с большим объемом данных, важно уметь подсчитывать уникальные значения. Библиотека pandas в Python предоставляет удобные инструменты для этой задачи. В этой статье мы рассмотрим различные способы подсчета уникальных значений с использованием pandas.

Метод value_counts()

Одним из наиболее простых и удобных способов подсчета уникальных значений в столбце данных является использование метода value_counts(). Этот метод применяется к Series в pandas и возвращает число уникальных значений и частоту встречаемости каждого значения.

Вот как использовать этот метод:


import pandas as pd

data = pd.Series([1, 2, 3, 1, 2, 3, 4, 4, 4, 4])
value_counts = data.value_counts()
print(value_counts)

Вывод:


4    4
2    2
3    2
1    2
dtype: int64

Как видите, метод value_counts() вернул число уникальных значений и частоту встречаемости каждого значения. В данном примере значение 4 встречается 4 раза, значение 2 встречается 2 раза, и так далее.

Метод unique()

Если вам нужно получить только уникальные значения без подсчета их частоты, вы можете использовать метод unique(). Он также применяется к Series и возвращает массив уникальных значений.

Пример использования:


import pandas as pd

data = pd.Series([1, 2, 3, 1, 2, 3, 4, 4, 4, 4])
unique_values = data.unique()
print(unique_values)

Вывод:


[1 2 3 4]

В данном примере метод unique() вернул массив уникальных значений без их частоты.

Метод nunique()

Если вам нужно получить только количество уникальных значений, вы можете использовать метод nunique(). Он возвращает количество уникальных значений в Series.

Пример использования:


import pandas as pd

data = pd.Series([1, 2, 3, 1, 2, 3, 4, 4, 4, 4])
num_unique_values = data.nunique()
print(num_unique_values)

Вывод:


4

В данном примере метод nunique() вернул количество уникальных значений.

Метод drop_duplicates()

Если вы хотите удалить дублирующиеся значения из DataFrame и получить только уникальные значения, вы можете использовать метод drop_duplicates(). Он удаляет все дублирующиеся строки из DataFrame и возвращает новый DataFrame с уникальными значениями.

Пример использования:


import pandas as pd

data = pd.DataFrame({'A': [1, 2, 3, 1, 2, 3, 4, 4, 4, 4], 'B': [4, 3, 2, 1, 2, 3, 4, 4, 4, 4]})
unique_data = data.drop_duplicates()
print(unique_data)

Вывод:


   A  B
0  1  4
1  2  3
2  3  2
6  4  4

В данном примере метод drop_duplicates() вернул DataFrame с уникальными значениями столбцов A и B.

Метод groupby()

Если у вас есть DataFrame с несколькими столбцами и вы хотите подсчитать количество уникальных значений в каждом столбце, вы можете использовать метод groupby() в сочетании с методом nunique().

Пример использования:


import pandas as pd

data = pd.DataFrame({'A': [1, 2, 3, 1, 2, 3, 4, 4, 4, 4], 'B': [4, 3, 2, 1, 2, 3, 4, 4, 4, 4]})
unique_values_per_column = data.groupby('A').nunique()
print(unique_values_per_column)

Вывод:


   A  B
1  2  1
2  2  1
3  2  1
4  2  1

В данном примере мы сгруппировали данные по столбцу A и подсчитали количество уникальных значений в каждом столбце. Полученная таблица показывает, сколько уникальных значений имеется для каждого значения в столбце A.

Вывод:

В этой статье мы рассмотрели несколько способов подсчета уникальных значений с использованием библиотеки pandas в Python. Мы ознакомились с методами value_counts(), unique(), nunique(), drop_duplicates() и groupby(). Теперь вы можете эффективно подсчитывать уникальные значения в своих данных и использовать их для анализа.

Будьте настойчивы, и вы сможете успешно применять эти методы в своих проектах!

Видео по теме

Count Unique Values in Each Column in Pandas | Python Tutorial

40- Pandas DataFrames: Counting and getting Unique Values

Python pandas - Categorical Data Analysis: How to Find and Count Unique Values

Похожие статьи:

🔢 Как посчитать уникальные значения с помощью pandas