π‘ ΠΠ°ΠΊ ΡΠ·Π½Π°ΡΡ ΡΠΈΠΏ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ Π² Pandas: ΠΏΠΎΠ΄ΡΠΎΠ±Π½ΠΎΠ΅ ΡΡΠΊΠΎΠ²ΠΎΠ΄ΡΡΠ²ΠΎ
ΠΠ°ΠΊ ΡΠ·Π½Π°ΡΡ ΡΠΈΠΏ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ pandas?
import pandas as pd
# Π‘ΠΎΠ·Π΄Π°Π½ΠΈΠ΅ DataFrame Ρ ΠΏΡΠΈΠΌΠ΅ΡΠΎΠΌ ΠΊΠΎΠ»ΠΎΠ½ΠΎΠΊ ΡΠ°Π·Π½ΡΡ
ΡΠΈΠΏΠΎΠ² Π΄Π°Π½Π½ΡΡ
data = {'ΠΠΌΡ': ['ΠΠ»Π΅ΠΊΡΠ°Π½Π΄Ρ', 'ΠΠ°ΡΠΈΡ', 'ΠΠΌΠΈΡΡΠΈΠΉ'],
'ΠΠΎΠ·ΡΠ°ΡΡ': [25, 28, 35],
'Π ΠΎΡΡ': [180.5, 165.2, 190.0],
'ΠΠ΅Π½Π°Ρ': [False, True, True]}
df = pd.DataFrame(data)
# ΠΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΠΌ ΠΌΠ΅ΡΠΎΠ΄ dtypes Π΄Π»Ρ ΠΏΠΎΠ»ΡΡΠ΅Π½ΠΈΡ ΡΠΈΠΏΠΎΠ² ΠΊΠΎΠ»ΠΎΠ½ΠΎΠΊ
ΡΠΈΠΏΡ_ΠΊΠΎΠ»ΠΎΠ½ΠΎΠΊ = df.dtypes
print(ΡΠΈΠΏΡ_ΠΊΠΎΠ»ΠΎΠ½ΠΎΠΊ)
ΠΡΡΠ΅ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½ ΠΊΠΎΠ΄, ΠΊΠΎΡΠΎΡΡΠΉ ΠΏΠΎΠΌΠΎΠΆΠ΅Ρ Π²Π°ΠΌ ΡΠ·Π½Π°ΡΡ ΡΠΈΠΏΡ ΠΊΠΎΠ»ΠΎΠ½ΠΎΠΊ Π² Pandas.
Π‘Π½Π°ΡΠ°Π»Π° Π½Π΅ΠΎΠ±Ρ ΠΎΠ΄ΠΈΠΌΠΎ ΠΈΠΌΠΏΠΎΡΡΠΈΡΠΎΠ²Π°ΡΡ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΡ Pandas. ΠΠ°ΡΠ΅ΠΌ ΡΠΎΠ·Π΄Π°ΠΉΡΠ΅ DataFrame, ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΠΈΠΉ Π΄Π°Π½Π½ΡΠ΅ Ρ ΡΠ°Π·Π½ΡΠΌΠΈ ΡΠΈΠΏΠ°ΠΌΠΈ ΠΊΠΎΠ»ΠΎΠ½ΠΎΠΊ. Π ΠΏΡΠΈΠΌΠ΅ΡΠ΅ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡΡΡΡ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ "ΠΠΌΡ" (ΡΡΡΠΎΠΊΠΎΠ²ΡΠΉ ΡΠΈΠΏ), "ΠΠΎΠ·ΡΠ°ΡΡ" (ΡΠ΅Π»ΠΎΡΠΈΡΠ»Π΅Π½Π½ΡΠΉ ΡΠΈΠΏ), "Π ΠΎΡΡ" (ΡΠΈΠΏ Ρ ΠΏΠ»Π°Π²Π°ΡΡΠ΅ΠΉ Π·Π°ΠΏΡΡΠΎΠΉ) ΠΈ "ΠΠ΅Π½Π°Ρ" (Π»ΠΎΠ³ΠΈΡΠ΅ΡΠΊΠΈΠΉ ΡΠΈΠΏ).
ΠΠ°Π»Π΅Π΅, ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠΉΡΠ΅ ΠΌΠ΅ΡΠΎΠ΄ dtypes Π΄Π»Ρ ΠΏΠΎΠ»ΡΡΠ΅Π½ΠΈΡ ΡΠΈΠΏΠΎΠ² ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ Π² DataFrame. ΠΡΠΎΡ ΠΌΠ΅ΡΠΎΠ΄ Π²ΠΎΠ·Π²ΡΠ°ΡΠ°Π΅Ρ ΠΎΠ±ΡΠ΅ΠΊΡ Series, ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΠΈΠΉ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡ ΠΎ ΡΠΈΠΏΠ°Ρ Π΄Π°Π½Π½ΡΡ ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ.
ΠΠ°ΠΊΠΎΠ½Π΅Ρ, Π²ΡΠ²Π΅Π΄ΠΈΡΠ΅ ΡΠ΅Π·ΡΠ»ΡΡΠ°Ρ Ρ ΠΏΠΎΠΌΠΎΡΡΡ ΡΡΠ½ΠΊΡΠΈΠΈ print.
ΠΠ΅ΡΠ°Π»ΡΠ½ΡΠΉ ΠΎΡΠ²Π΅Ρ
ΠΠ°ΠΊ ΡΠ·Π½Π°ΡΡ ΡΠΈΠΏ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ pandas
Π Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠ΅ pandas Π΄Π»Ρ ΡΠ°Π±ΠΎΡΡ Ρ Π΄Π°Π½Π½ΡΠΌΠΈ Π²Π°ΠΆΠ½ΠΎ Π·Π½Π°ΡΡ ΡΠΈΠΏΡ ΠΊΠΎΠ»ΠΎΠ½ΠΎΠΊ. ΠΠ΄Π΅ΡΡ ΠΌΡ ΡΠ°ΡΡΠΌΠΎΡΡΠΈΠΌ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ ΡΠΏΠΎΡΠΎΠ±ΠΎΠ², ΠΊΠ°ΠΊ ΡΠ·Π½Π°ΡΡ ΡΠΈΠΏ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ Π² pandas.
1. ΠΠ΅ΡΠΎΠ΄ dtypes
ΠΠ΅ΡΠ²ΡΠΉ ΡΠΏΠΎΡΠΎΠ± - ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ ΠΌΠ΅ΡΠΎΠ΄ dtypes
. ΠΡΠΎΡ ΠΌΠ΅ΡΠΎΠ΄ Π²ΠΎΠ·Π²ΡΠ°ΡΠ°Π΅Ρ ΡΠ΅ΡΠΈΡ ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ² dtype
Π΄Π»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ Π² DataFrame.
import pandas as pd
# Π‘ΠΎΠ·Π΄Π°Π΅ΠΌ DataFrame
data = {'ΠΠΌΡ': ['ΠΠ»Π΅ΠΊΡΠ΅ΠΉ', 'ΠΠ°ΡΠΈΡ', 'ΠΠ²Π°Π½'],
'ΠΠΎΠ·ΡΠ°ΡΡ': [25, 30, 35],
'ΠΠ°ΡΠΏΠ»Π°ΡΠ°': [5000, 7000, 6000]}
df = pd.DataFrame(data)
# ΠΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΠΌ ΠΌΠ΅ΡΠΎΠ΄ dtypes
column_types = df.dtypes
print(column_types)
ΠΡΠ²ΠΎΠ΄:
ΠΠΌΡ object ΠΠΎΠ·ΡΠ°ΡΡ int64 ΠΠ°ΡΠΏΠ»Π°ΡΠ° int64 dtype: object
Π’Π°ΠΊΠΈΠΌ ΠΎΠ±ΡΠ°Π·ΠΎΠΌ, ΠΌΡ ΠΌΠΎΠΆΠ΅ΠΌ ΡΠ·Π½Π°ΡΡ ΡΠΈΠΏ ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ Π² DataFrame.
2. ΠΠ΅ΡΠΎΠ΄ info
ΠΡΠΎΡΠΎΠΉ ΡΠΏΠΎΡΠΎΠ± - ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ ΠΌΠ΅ΡΠΎΠ΄ info
. ΠΡΠΎΡ ΠΌΠ΅ΡΠΎΠ΄ Π²ΡΠ²ΠΎΠ΄ΠΈΡ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡ ΠΎ DataFrame, Π²ΠΊΠ»ΡΡΠ°Ρ ΡΠΈΠΏΡ ΠΊΠΎΠ»ΠΎΠ½ΠΎΠΊ, ΠΎΠ±ΡΠ΅Π΅ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ Π·Π½Π°ΡΠ΅Π½ΠΈΠΉ ΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡΠΈ.
import pandas as pd
# Π‘ΠΎΠ·Π΄Π°Π΅ΠΌ DataFrame
data = {'ΠΠΌΡ': ['ΠΠ»Π΅ΠΊΡΠ΅ΠΉ', 'ΠΠ°ΡΠΈΡ', 'ΠΠ²Π°Π½'],
'ΠΠΎΠ·ΡΠ°ΡΡ': [25, 30, 35],
'ΠΠ°ΡΠΏΠ»Π°ΡΠ°': [5000, 7000, 6000]}
df = pd.DataFrame(data)
# ΠΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΠΌ ΠΌΠ΅ΡΠΎΠ΄ info
df.info()
ΠΡΠ²ΠΎΠ΄:
RangeIndex: 3 entries, 0 to 2 Data columns (total 3 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 ΠΠΌΡ 3 non-null object 1 ΠΠΎΠ·ΡΠ°ΡΡ 3 non-null int64 2 ΠΠ°ΡΠΏΠ»Π°ΡΠ° 3 non-null int64 dtypes: int64(2), object(1) memory usage: 200.0+ bytes
Π’Π°ΠΊΠΈΠΌ ΠΎΠ±ΡΠ°Π·ΠΎΠΌ, ΠΌΠ΅ΡΠΎΠ΄ info
ΠΏΡΠ΅Π΄ΠΎΡΡΠ°Π²Π»ΡΠ΅Ρ Π±ΠΎΠ»Π΅Π΅ ΠΏΠΎΠ»Π½ΡΡ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡ ΠΎ DataFrame, Π²ΠΊΠ»ΡΡΠ°Ρ ΡΠΈΠΏΡ ΠΊΠΎΠ»ΠΎΠ½ΠΎΠΊ, ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ Π½Π΅Π½ΡΠ»Π΅Π²ΡΡ
Π·Π½Π°ΡΠ΅Π½ΠΈΠΉ ΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡΠΈ.
3. ΠΡΡΠΈΠ±ΡΡ dtypes ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ
Π’ΡΠ΅ΡΠΈΠΉ ΡΠΏΠΎΡΠΎΠ± - ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ Π°ΡΡΠΈΠ±ΡΡ dtype
ΠΊΠΎΠ½ΠΊΡΠ΅ΡΠ½ΠΎΠΉ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ. ΠΠ»Ρ Π΄ΠΎΡΡΡΠΏΠ° ΠΊ Π°ΡΡΠΈΠ±ΡΡΡ dtype
ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ, ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΡΡΡ ΠΎΠ±ΡΠ°ΡΠ΅Π½ΠΈΠ΅ ΠΏΠΎ ΠΈΠΌΠ΅Π½ΠΈ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ.
import pandas as pd
# Π‘ΠΎΠ·Π΄Π°Π΅ΠΌ DataFrame
data = {'ΠΠΌΡ': ['ΠΠ»Π΅ΠΊΡΠ΅ΠΉ', 'ΠΠ°ΡΠΈΡ', 'ΠΠ²Π°Π½'],
'ΠΠΎΠ·ΡΠ°ΡΡ': [25, 30, 35],
'ΠΠ°ΡΠΏΠ»Π°ΡΠ°': [5000, 7000, 6000]}
df = pd.DataFrame(data)
# ΠΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΠΌ Π°ΡΡΠΈΠ±ΡΡ dtype
column_type = df['ΠΠ°ΡΠΏΠ»Π°ΡΠ°'].dtype
print(column_type)
ΠΡΠ²ΠΎΠ΄:
int64
Π’Π°ΠΊΠΈΠΌ ΠΎΠ±ΡΠ°Π·ΠΎΠΌ, ΠΌΡ ΠΌΠΎΠΆΠ΅ΠΌ ΠΏΠΎΠ»ΡΡΠΈΡΡ ΡΠΈΠΏ ΠΊΠΎΠ½ΠΊΡΠ΅ΡΠ½ΠΎΠΉ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ, ΠΎΠ±ΡΠ°ΡΠΈΠ²ΡΠΈΡΡ ΠΊ Π΅Π΅ Π°ΡΡΠΈΠ±ΡΡΡ dtype
.
4. ΠΠ΅ΡΠΎΠ΄ select_dtypes
Π§Π΅ΡΠ²Π΅ΡΡΡΠΉ ΡΠΏΠΎΡΠΎΠ± - ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ ΠΌΠ΅ΡΠΎΠ΄ select_dtypes
, ΡΡΠΎΠ±Ρ Π²ΡΠ±ΡΠ°ΡΡ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠ³ΠΎ ΡΠΈΠΏΠ°. ΠΡΠΎΡ ΠΌΠ΅ΡΠΎΠ΄ Π²ΠΎΠ·Π²ΡΠ°ΡΠ°Π΅Ρ DataFrame, ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΠΈΠΉ ΡΠΎΠ»ΡΠΊΠΎ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ ΡΠΊΠ°Π·Π°Π½Π½ΠΎΠ³ΠΎ ΡΠΈΠΏΠ°.
import pandas as pd
# Π‘ΠΎΠ·Π΄Π°Π΅ΠΌ DataFrame
data = {'ΠΠΌΡ': ['ΠΠ»Π΅ΠΊΡΠ΅ΠΉ', 'ΠΠ°ΡΠΈΡ', 'ΠΠ²Π°Π½'],
'ΠΠΎΠ·ΡΠ°ΡΡ': [25, 30, 35],
'ΠΠ°ΡΠΏΠ»Π°ΡΠ°': [5000, 7000, 6000]}
df = pd.DataFrame(data)
# ΠΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΠΌ ΠΌΠ΅ΡΠΎΠ΄ select_dtypes
numeric_columns = df.select_dtypes(include='number')
print(numeric_columns)
ΠΡΠ²ΠΎΠ΄:
ΠΠΎΠ·ΡΠ°ΡΡ ΠΠ°ΡΠΏΠ»Π°ΡΠ° 0 25 5000 1 30 7000 2 35 6000
Π Π΄Π°Π½Π½ΠΎΠΌ ΠΏΡΠΈΠΌΠ΅ΡΠ΅ ΠΌΡ Π²ΡΠ±ΡΠ°Π»ΠΈ ΡΠΎΠ»ΡΠΊΠΎ ΡΠ΅ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ, ΠΊΠΎΡΠΎΡΡΠ΅ ΠΈΠΌΠ΅ΡΡ ΡΠΈΡΠ»ΠΎΠ²ΠΎΠΉ ΡΠΈΠΏ.
Π Π·Π°ΠΊΠ»ΡΡΠ΅Π½ΠΈΠ΅
Pandas ΠΏΡΠ΅Π΄ΠΎΡΡΠ°Π²Π»ΡΠ΅Ρ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ ΡΠΏΠΎΡΠΎΠ±ΠΎΠ² Π΄Π»Ρ ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΡ ΡΠΈΠΏΠΎΠ² ΠΊΠΎΠ»ΠΎΠ½ΠΎΠΊ Π² DataFrame. ΠΡ ΡΠ°ΡΡΠΌΠΎΡΡΠ΅Π»ΠΈ ΠΌΠ΅ΡΠΎΠ΄Ρ dtypes
ΠΈ info
Π΄Π»Ρ ΠΏΠΎΠ»ΡΡΠ΅Π½ΠΈΡ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ ΠΎ ΡΠΈΠΏΠ°Ρ
Π²ΡΠ΅Ρ
ΠΊΠΎΠ»ΠΎΠ½ΠΎΠΊ, Π° ΡΠ°ΠΊΠΆΠ΅ Π°ΡΡΠΈΠ±ΡΡ dtype
ΠΊΠΎΠ½ΠΊΡΠ΅ΡΠ½ΠΎΠΉ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ ΠΈ ΠΌΠ΅ΡΠΎΠ΄ select_dtypes
Π΄Π»Ρ ΡΠ°Π±ΠΎΡΡ Ρ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠ°ΠΌΠΈ ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠ³ΠΎ ΡΠΈΠΏΠ°.