{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Цель вычислительного эксперимента:\n", "Цель эксперимента заключается в том, чтобы решить задачу классификации. Задача решается на выборке \"Lung Cancer Data Set \" с использованием моделей: kNN, SVM, логистическая регрессия. Структурные параметры: число и состав признаков. Используемый критерий качества AUC, F1, число признаков.\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Описание выборки\n", "Используются данные из Lung Cancer Data Set (https://archive.ics.uci.edu/ml/datasets/Lung+Cancer). В выборке представлены медицинские описания онкобольных с 3 видами патологического рака лёгких. Первый столбец это метка предсказываемого класса (3 вида рака: 1-3), остальные 56 столбцов это целочисленные атрибуты, принимающие значения 0-3. Точного описания значения столбцов нет, поэтому будем отталкиваться от предположения, что это в целом описание здоровья больного, его персональные данные итд. \n", "Число объектов в выборке: 32.\n", "Число признаков: 56 признаков + признак класса.\n", "(32 примера очень малый объем выборки, уччитывыавя в том числе количество признаком по каждому обьекту)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Блок загрузки и предобработки выборок\n", "* Импортируем библиотеки\n", "* Выгружаем данные по адресу \"*/lung-cancer.data.txt\"" ] }, { "cell_type": "code", "execution_count": 57, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", " | 0 | \n", "1 | \n", "2 | \n", "3 | \n", "4 | \n", "5 | \n", "6 | \n", "7 | \n", "8 | \n", "9 | \n", "... | \n", "47 | \n", "48 | \n", "49 | \n", "50 | \n", "51 | \n", "52 | \n", "53 | \n", "54 | \n", "55 | \n", "56 | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "1 | \n", "0 | \n", "3 | \n", "0 | \n", "? | \n", "0 | \n", "2 | \n", "2 | \n", "2 | \n", "1 | \n", "... | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "1 | \n", "1 | \n", "1 | \n", "2 | \n", "2 | \n", "
1 | \n", "1 | \n", "0 | \n", "3 | \n", "3 | \n", "1 | \n", "0 | \n", "3 | \n", "1 | \n", "3 | \n", "1 | \n", "... | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "1 | \n", "2 | \n", "2 | \n", "
2 | \n", "1 | \n", "0 | \n", "3 | \n", "3 | \n", "2 | \n", "0 | \n", "3 | \n", "3 | \n", "3 | \n", "1 | \n", "... | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "1 | \n", "2 | \n", "
3 | \n", "1 | \n", "0 | \n", "2 | \n", "3 | \n", "2 | \n", "1 | \n", "3 | \n", "3 | \n", "3 | \n", "1 | \n", "... | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "
4 | \n", "1 | \n", "0 | \n", "3 | \n", "2 | \n", "1 | \n", "1 | \n", "3 | \n", "3 | \n", "3 | \n", "2 | \n", "... | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "1 | \n", "2 | \n", "2 | \n", "
5 rows × 57 columns
\n", "\n", " | 1 | \n", "2 | \n", "3 | \n", "4 | \n", "5 | \n", "6 | \n", "7 | \n", "8 | \n", "9 | \n", "10 | \n", "... | \n", "47 | \n", "48 | \n", "49 | \n", "50 | \n", "51 | \n", "52 | \n", "53 | \n", "54 | \n", "55 | \n", "56 | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "0 | \n", "3 | \n", "0 | \n", "? | \n", "0 | \n", "2 | \n", "2 | \n", "2 | \n", "1 | \n", "1 | \n", "... | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "1 | \n", "1 | \n", "1 | \n", "2 | \n", "2 | \n", "
1 | \n", "0 | \n", "3 | \n", "3 | \n", "1 | \n", "0 | \n", "3 | \n", "1 | \n", "3 | \n", "1 | \n", "1 | \n", "... | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "1 | \n", "2 | \n", "2 | \n", "
2 | \n", "0 | \n", "3 | \n", "3 | \n", "2 | \n", "0 | \n", "3 | \n", "3 | \n", "3 | \n", "1 | \n", "1 | \n", "... | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "1 | \n", "2 | \n", "
3 | \n", "0 | \n", "2 | \n", "3 | \n", "2 | \n", "1 | \n", "3 | \n", "3 | \n", "3 | \n", "1 | \n", "2 | \n", "... | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "
4 | \n", "0 | \n", "3 | \n", "2 | \n", "1 | \n", "1 | \n", "3 | \n", "3 | \n", "3 | \n", "2 | \n", "2 | \n", "... | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "1 | \n", "2 | \n", "2 | \n", "
5 rows × 56 columns
\n", "\n", " | 0 | \n", "1 | \n", "2 | \n", "3 | \n", "5 | \n", "6 | \n", "7 | \n", "8 | \n", "9 | \n", "10 | \n", "... | \n", "47 | \n", "48 | \n", "49 | \n", "50 | \n", "51 | \n", "52 | \n", "53 | \n", "54 | \n", "55 | \n", "56 | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
count | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "... | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "
mean | \n", "2.031250 | \n", "0.031250 | \n", "2.375000 | \n", "2.031250 | \n", "0.281250 | \n", "2.187500 | \n", "2.125000 | \n", "2.406250 | \n", "1.156250 | \n", "1.406250 | \n", "... | \n", "2.062500 | \n", "2.062500 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "1.843750 | \n", "1.843750 | \n", "1.562500 | \n", "1.812500 | \n", "1.718750 | \n", "
std | \n", "0.782237 | \n", "0.176777 | \n", "0.553581 | \n", "1.031265 | \n", "0.456803 | \n", "0.737804 | \n", "0.751343 | \n", "0.756024 | \n", "0.514899 | \n", "0.559918 | \n", "... | \n", "0.245935 | \n", "0.245935 | \n", "0.359211 | \n", "0.359211 | \n", "0.508001 | \n", "0.447889 | \n", "0.447889 | \n", "0.504016 | \n", "0.396558 | \n", "0.456803 | \n", "
min | \n", "1.000000 | \n", "0.000000 | \n", "1.000000 | \n", "0.000000 | \n", "0.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "... | \n", "2.000000 | \n", "2.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "
25% | \n", "1.000000 | \n", "0.000000 | \n", "2.000000 | \n", "1.750000 | \n", "0.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "1.000000 | \n", "1.000000 | \n", "... | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "1.000000 | \n", "2.000000 | \n", "1.000000 | \n", "
50% | \n", "2.000000 | \n", "0.000000 | \n", "2.000000 | \n", "2.000000 | \n", "0.000000 | \n", "2.000000 | \n", "2.000000 | \n", "3.000000 | \n", "1.000000 | \n", "1.000000 | \n", "... | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "
75% | \n", "3.000000 | \n", "0.000000 | \n", "3.000000 | \n", "3.000000 | \n", "1.000000 | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "1.000000 | \n", "2.000000 | \n", "... | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "
max | \n", "3.000000 | \n", "1.000000 | \n", "3.000000 | \n", "3.000000 | \n", "1.000000 | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "... | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "
8 rows × 55 columns
\n", "\n", " | groups | \n", "
---|---|
0 | \n", "\n", " |
1 | \n", "9 | \n", "
2 | \n", "13 | \n", "
3 | \n", "10 | \n", "