In [2]:
import pandas as pd
tree = pd.read_csv("firtree.csv")

Переименуем столбец `'Unnamed: 0'`:

In [3]:
tree.rename(columns = {'Unnamed: 0':'id'}, 
            inplace= True)

Сгруппируем строки в датафрейме по столбцу `ftype`:

In [4]:
tree.groupby("ftype")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x120c01990>

Посмотрим, что внутри объекта типа `GroupBy`:

In [39]:
for g in tree.groupby("ftype"):
    print(g)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x116825b10>

Используем перебор по названию группы и датафрейму, соответствующему этой группе и сохраним строки для каждой группы в отдельный файл `.csv.`:

In [None]:
for name, dat in tree.groupby("ftype"):
    dat.to_csv(name + ".csv")

Применим агрегирование – посчитаем число заполненных ячеек к каждом столбце по каждой группе:

In [5]:
tree.groupby("ftype").agg('count')

Unnamed: 0_level_0,id,gender,height,score,expenses,wish
ftype,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
ель обыкновенная,258,258,258,258,258,257
пихта Нобилис,326,326,326,326,326,325
сосна Крым,327,327,327,327,327,327
сосна датская,289,289,289,289,289,289


А теперь ещё и среднее:

In [6]:
tree.groupby("ftype").agg(['count', 'mean'])

Unnamed: 0_level_0,id,id,height,height,score,score,expenses,expenses
Unnamed: 0_level_1,count,mean,count,mean,count,mean,count,mean
ftype,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
ель обыкновенная,258,575.895349,258,155.503876,258,2.98062,258,1603.813953
пихта Нобилис,326,623.076687,326,160.101227,326,3.082822,326,1634.46319
сосна Крым,327,596.599388,327,160.657492,327,2.987768,327,1572.076453
сосна датская,289,601.411765,289,159.280277,289,2.958478,289,1709.916955


И медиану заодно:

In [7]:
tree.groupby("ftype").agg(['count', 'mean', 'median'])

Unnamed: 0_level_0,id,id,id,height,height,height,score,score,score,expenses,expenses,expenses
Unnamed: 0_level_1,count,mean,median,count,mean,median,count,mean,median,count,mean,median
ftype,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
ель обыкновенная,258,575.895349,570.5,258,155.503876,149.0,258,2.98062,3,258,1603.813953,1580
пихта Нобилис,326,623.076687,639.5,326,160.101227,159.5,326,3.082822,3,326,1634.46319,1634
сосна Крым,327,596.599388,614.0,327,160.657492,157.0,327,2.987768,3,327,1572.076453,1552
сосна датская,289,601.411765,557.0,289,159.280277,159.0,289,2.958478,3,289,1709.916955,1795


Теперь сообщим pandas, какую именно характеристику для какого именно столбца считать:

In [8]:
res = tree.groupby("ftype").agg({'id' : ['count'],
                           'height' : ['mean'], 
                           'score' : ['median']})
res

Unnamed: 0_level_0,id,height,score
Unnamed: 0_level_1,count,mean,median
ftype,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
ель обыкновенная,258,155.503876,3
пихта Нобилис,326,160.101227,3
сосна Крым,327,160.657492,3
сосна датская,289,159.280277,3


Сохранили результат в переменную `res`. Посмотрим на её структуру: выведем названия столбцов и строк:

In [9]:
res.columns

MultiIndex([(    'id',  'count'),
            ('height',   'mean'),
            ( 'score', 'median')],
           )

In [10]:
res.index

Index(['ель обыкновенная', 'пихта Нобилис', 'сосна Крым', 'сосна датская'], dtype='object', name='ftype')

In [11]:
res["height"]

Unnamed: 0_level_0,mean
ftype,Unnamed: 1_level_1
ель обыкновенная,155.503876
пихта Нобилис,160.101227
сосна Крым,160.657492
сосна датская,159.280277


In [12]:
res["height"]["mean"]

ftype
ель обыкновенная    155.503876
пихта Нобилис       160.101227
сосна Крым          160.657492
сосна датская       159.280277
Name: mean, dtype: float64

In [13]:
res.loc['ель обыкновенная', :]

id      count     258.000000
height  mean      155.503876
score   median      3.000000
Name: ель обыкновенная, dtype: float64

In [14]:
res2 = tree.groupby(["gender", "wish"]).agg({'expenses': 
                                      ['count', 'mean', 'median']})

In [15]:
res2

Unnamed: 0_level_0,Unnamed: 1_level_0,expenses,expenses,expenses
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,median
gender,wish,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
female,да,307,1710.781759,1754
female,нет,304,1567.052632,1519
male,да,304,1659.345395,1680
male,нет,283,1571.915194,1512


In [16]:
res2.columns

MultiIndex([('expenses',  'count'),
            ('expenses',   'mean'),
            ('expenses', 'median')],
           )

In [17]:
res2.index

MultiIndex([('female',  'да'),
            ('female', 'нет'),
            (  'male',  'да'),
            (  'male', 'нет')],
           names=['gender', 'wish'])

In [18]:
res2.xs('да', level = 'wish')

Unnamed: 0_level_0,expenses,expenses,expenses
Unnamed: 0_level_1,count,mean,median
gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
female,307,1710.781759,1754
male,304,1659.345395,1680


In [19]:
res2.xs('female', level = 'gender')

Unnamed: 0_level_0,expenses,expenses,expenses
Unnamed: 0_level_1,count,mean,median
wish,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
да,307,1710.781759,1754
нет,304,1567.052632,1519


In [20]:
res2.xs('female', level = 'gender')['expenses'].iloc[0,0]

307

In [21]:
res2.xs('female', level = 'gender')['expenses'].loc["да", 'count']

307