{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "Задание \n", "\n", "Решить задачу: классификации\n", "на выборке: синтетической и https://archive.ics.uci.edu/ml/datasets/Lung+Cancer\n", "с использованием моделей: kNN, SVM, логистическая регрессия со структурными параметрами: число и состав признаков, критерии качества AUC, F1, число признаков.\n", " \n", "UCI Machine Learning Repository: Lung Cancer Data Set\n", "archive.ics.uci.edu\n", "Форма отчётности:\n", "Выполняется в формате питон-ноутбук с кодом, выполняющим эксперимент, поясняющим текстом, графиком, и таблицей. Для тех, кто программирует на других языках, выполняется в аналогичном формате.\n", "\n", "Отчет по заданию содержит следующие разделы и графики с комментариями, достаточными для передачи сообщения тому, кто будет читать код. Графики должны иметь подписанные оси и поясняющий текст с выводом - результатом анализа.\n", "\n", "Цель вычислительного эксперимента\n", "Описание выборок\n", "Блок загрузки и предобработки выборок\n", "График анализа состава выборки:\n", "анализ выбросов, гистограмма\n", "анализ пропусков, статистика\n", "анализ мультикорреляции признаков, кор. матрица\n", "Список моделей\n", "Список функций ошибки, критериев качества\n", "Способ разбиения выборки на обучение-контроль (выбрать)\n", "Таблица модели/выборки/критерии качества на разбиении со стандартным отклонением\n", "Анализ выбранной модели на разбиении обучение-контроль\n", "График зависимости функции ошибки от значения структурного параметра со ст. откл.\n", "График зависимости функции ошибки от объема выборки со ст. откл.\n", "График скорости сходимости функции ошибки (зависимости функции ошибки от номера итерации оптимизационного алгоритма) со ст. откл.\n", "Задание имеет вид: решить задачу (классификации, регрессии, кластеризации) на выборках (список выборок и синтетическая выборка) с использованием моделей (список) со структурными параметрами (список), критерии качества (список)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# 1. Цель вычислительного эксперимента\n", "Решить задачу классификации на синтетической выборке и\n", "Lung Cancer Data Set с использованием моделей: kNN, SVM, логистическая регрессия. Структурные параметры: число и состав признаков. Используемый критерий качества AUC, F1, число признаков.\n", "\n", "# 2. Описание выборки\n", "Используются данные из Lung Cancer Data Set (archive.ics.uci.edu/ml/datasets/Lung+Cancer), описывающих 3 вида патологического рака лёгких. Первый столбец это метка предсказываемого класса (1-3), остальные 55 столбцов это целочисленные атрибуты, принимающие значения 0-3. Что они означают − не известно.\n", "Размер выборки очень мал - всего 32 примера, особенно в сравнение с количеством признаков. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# 3. Блок загрузки и предобработки выборок" ] }, { "cell_type": "code", "execution_count": 24, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "(32, 56)\n" ] }, { "data": { "text/html": [ "
\n", " | 1 | \n", "2 | \n", "3 | \n", "4 | \n", "5 | \n", "6 | \n", "7 | \n", "8 | \n", "9 | \n", "10 | \n", "... | \n", "47 | \n", "48 | \n", "49 | \n", "50 | \n", "51 | \n", "52 | \n", "53 | \n", "54 | \n", "55 | \n", "56 | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "0 | \n", "3 | \n", "0 | \n", "? | \n", "0 | \n", "2 | \n", "2 | \n", "2 | \n", "1 | \n", "1 | \n", "... | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "1 | \n", "1 | \n", "1 | \n", "2 | \n", "2 | \n", "
1 | \n", "0 | \n", "3 | \n", "3 | \n", "1 | \n", "0 | \n", "3 | \n", "1 | \n", "3 | \n", "1 | \n", "1 | \n", "... | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "1 | \n", "2 | \n", "2 | \n", "
2 | \n", "0 | \n", "3 | \n", "3 | \n", "2 | \n", "0 | \n", "3 | \n", "3 | \n", "3 | \n", "1 | \n", "1 | \n", "... | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "1 | \n", "2 | \n", "
3 | \n", "0 | \n", "2 | \n", "3 | \n", "2 | \n", "1 | \n", "3 | \n", "3 | \n", "3 | \n", "1 | \n", "2 | \n", "... | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "
4 | \n", "0 | \n", "3 | \n", "2 | \n", "1 | \n", "1 | \n", "3 | \n", "3 | \n", "3 | \n", "2 | \n", "2 | \n", "... | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "2 | \n", "1 | \n", "2 | \n", "2 | \n", "
5 rows × 56 columns
\n", "\n", " | 1 | \n", "2 | \n", "3 | \n", "5 | \n", "6 | \n", "7 | \n", "8 | \n", "9 | \n", "10 | \n", "11 | \n", "... | \n", "47 | \n", "48 | \n", "49 | \n", "50 | \n", "51 | \n", "52 | \n", "53 | \n", "54 | \n", "55 | \n", "56 | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
count | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "... | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "32.000000 | \n", "
mean | \n", "0.031250 | \n", "2.375000 | \n", "2.031250 | \n", "0.281250 | \n", "2.187500 | \n", "2.125000 | \n", "2.406250 | \n", "1.156250 | \n", "1.406250 | \n", "1.500000 | \n", "... | \n", "2.062500 | \n", "2.062500 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "1.843750 | \n", "1.843750 | \n", "1.562500 | \n", "1.812500 | \n", "1.718750 | \n", "
std | \n", "0.176777 | \n", "0.553581 | \n", "1.031265 | \n", "0.456803 | \n", "0.737804 | \n", "0.751343 | \n", "0.756024 | \n", "0.514899 | \n", "0.559918 | \n", "0.672022 | \n", "... | \n", "0.245935 | \n", "0.245935 | \n", "0.359211 | \n", "0.359211 | \n", "0.508001 | \n", "0.447889 | \n", "0.447889 | \n", "0.504016 | \n", "0.396558 | \n", "0.456803 | \n", "
min | \n", "0.000000 | \n", "1.000000 | \n", "0.000000 | \n", "0.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "... | \n", "2.000000 | \n", "2.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "
25% | \n", "0.000000 | \n", "2.000000 | \n", "1.750000 | \n", "0.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "... | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "1.000000 | \n", "2.000000 | \n", "1.000000 | \n", "
50% | \n", "0.000000 | \n", "2.000000 | \n", "2.000000 | \n", "0.000000 | \n", "2.000000 | \n", "2.000000 | \n", "3.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "... | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "
75% | \n", "0.000000 | \n", "3.000000 | \n", "3.000000 | \n", "1.000000 | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "1.000000 | \n", "2.000000 | \n", "2.000000 | \n", "... | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "
max | \n", "1.000000 | \n", "3.000000 | \n", "3.000000 | \n", "1.000000 | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "... | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "2.000000 | \n", "2.000000 | \n", "2.000000 | \n", "
8 rows × 54 columns
\n", "