{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "CPython 3.5.6\n", "IPython 6.5.0\n", "\n", "sklearn 0.20.1\n", "numpy 1.15.2\n", "scipy 1.1.0\n", "matplotlib 3.0.0\n" ] } ], "source": [ "%load_ext watermark\n", "%watermark -v -p sklearn,numpy,scipy,matplotlib" ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "hide_input": false }, "outputs": [], "source": [ "%matplotlib inline\n", "from preamble import *" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 데이터 표현과 특성 공학" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 범주형 변수" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 원-핫-인코딩 (가변수)" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", " | age | \n", "workclass | \n", "education | \n", "gender | \n", "hours-per-week | \n", "occupation | \n", "income | \n", "
---|---|---|---|---|---|---|---|
0 | \n", "39 | \n", "State-gov | \n", "Bachelors | \n", "Male | \n", "40 | \n", "Adm-clerical | \n", "<=50K | \n", "
1 | \n", "50 | \n", "Self-emp-not-inc | \n", "Bachelors | \n", "Male | \n", "13 | \n", "Exec-managerial | \n", "<=50K | \n", "
2 | \n", "38 | \n", "Private | \n", "HS-grad | \n", "Male | \n", "40 | \n", "Handlers-cleaners | \n", "<=50K | \n", "
3 | \n", "53 | \n", "Private | \n", "11th | \n", "Male | \n", "40 | \n", "Handlers-cleaners | \n", "<=50K | \n", "
4 | \n", "28 | \n", "Private | \n", "Bachelors | \n", "Female | \n", "40 | \n", "Prof-specialty | \n", "<=50K | \n", "
\n", " | age | \n", "hours-per-week | \n", "workclass_ ? | \n", "workclass_ Federal-gov | \n", "... | \n", "occupation_ Tech-support | \n", "occupation_ Transport-moving | \n", "income_ <=50K | \n", "income_ >50K | \n", "
---|---|---|---|---|---|---|---|---|---|
0 | \n", "39 | \n", "40 | \n", "0 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "
1 | \n", "50 | \n", "13 | \n", "0 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "
2 | \n", "38 | \n", "40 | \n", "0 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "
3 | \n", "53 | \n", "40 | \n", "0 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "
4 | \n", "28 | \n", "40 | \n", "0 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "
5 rows × 46 columns
\n", "\n", " | 범주형 특성 | \n", "숫자 특성 | \n", "
---|---|---|
0 | \n", "양말 | \n", "0 | \n", "
1 | \n", "여우 | \n", "1 | \n", "
2 | \n", "양말 | \n", "2 | \n", "
3 | \n", "상자 | \n", "1 | \n", "
\n", " | 숫자 특성 | \n", "범주형 특성_상자 | \n", "범주형 특성_양말 | \n", "범주형 특성_여우 | \n", "
---|---|---|---|---|
0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "
1 | \n", "1 | \n", "0 | \n", "0 | \n", "1 | \n", "
2 | \n", "2 | \n", "0 | \n", "1 | \n", "0 | \n", "
3 | \n", "1 | \n", "1 | \n", "0 | \n", "0 | \n", "
\n", " | 숫자 특성_0 | \n", "숫자 특성_1 | \n", "숫자 특성_2 | \n", "범주형 특성_상자 | \n", "범주형 특성_양말 | \n", "범주형 특성_여우 | \n", "
---|---|---|---|---|---|---|
0 | \n", "1 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "
1 | \n", "0 | \n", "1 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "
2 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "1 | \n", "0 | \n", "
3 | \n", "0 | \n", "1 | \n", "0 | \n", "1 | \n", "0 | \n", "0 | \n", "