{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": { "collapsed": true, "hide_input": false }, "outputs": [], "source": [ "from preamble import *\n", "%matplotlib inline" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 5. Model Evaluation and Improvement" ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "X.shape: (100, 2)\n", "y.shape: (100,)\n", "Test set score: 0.88\n" ] } ], "source": [ "from sklearn.datasets import make_blobs\n", "from sklearn.linear_model import LogisticRegression\n", "from sklearn.model_selection import train_test_split\n", "\n", "# create a synthetic dataset\n", "X, y = make_blobs(random_state=0)\n", "print(\"X.shape:\", X.shape)\n", "print(\"y.shape:\", y.shape)\n", "\n", "# split data and labels into a training and a test set\n", "X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)\n", "\n", "# instantiate a model and fit it to the training set\n", "logreg = LogisticRegression().fit(X_train, y_train)\n", "\n", "# evaluate the model on the test set\n", "print(\"Test set score: {:.2f}\".format(logreg.score(X_test, y_test)))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 5.1 Cross-Validation\n", "- 교차 검증\n", " - 데이터를 여러 번 반복해서 나누어 모델 학습\n", "- K-Fold cross-vailidation\n", " - Fold: 원본 데이터에 대한 부분 집합\n", " - K로는 5나 10을 주로 사용\n", " - 첫번째 모델은 첫번째 fold를 테스트 데이터로 사용하고 나머지를 훈련 데이터로 사용\n", " - 두번째 모델은 두번째 fold를 테스트 데이터로 사용하고 나머지를 훈련 데이터로 사용\n", " - 세번째 모델은..." ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "collapsed": false, "hide_input": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "2.1.2\n" ] }, { "data": { "image/png": "\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "import matplotlib\n", "print(matplotlib.__version__)\n", "\n", "mglearn.plots.plot_cross_validation()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 5.1.1 Cross-Validation in scikit-learn\n", "- scikit-learn의 교차 검증\n", " - model_selection.cross_val_score(estimator, X, y=None, cv=None) 함수 사용\n", " - estimator\n", " - estimator object implementing ‘fit’\n", " - The object to use to fit the data.\n", " - X\n", " - The data to fit.\n", " - y\n", " - The target variable to try to predict in the case of supervised learning.\n", " - cv\n", " - K-Fold의 K값 (기본 값: 3)" ] }, { "cell_type": "code", "execution_count": 4, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "iris.data.shape: (150, 4)\n", "iris.target.shape: (150,)\n", "Cross-validation scores: [0.961 0.922 0.958]\n" ] } ], "source": [ "from sklearn.model_selection import cross_val_score\n", "from sklearn.datasets import load_iris\n", "from sklearn.linear_model import LogisticRegression\n", "\n", "iris = load_iris()\n", "print(\"iris.data.shape:\", iris.data.shape)\n", "print(\"iris.target.shape:\", iris.target.shape)\n", "\n", "logreg = LogisticRegression()\n", "\n", "scores = cross_val_score(logreg, iris.data, iris.target)\n", "print(\"Cross-validation scores: {}\".format(scores))" ] }, { "cell_type": "code", "execution_count": 5, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cross-validation scores: [1. 0.967 0.933 0.9 1. ]\n" ] } ], "source": [ "scores = cross_val_score(logreg, iris.data, iris.target, cv=5)\n", "print(\"Cross-validation scores: {}\".format(scores))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 교차 검증의 정확도: 각 교차 검증 정확도의 평균값 사용" ] }, { "cell_type": "code", "execution_count": 6, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Average cross-validation score: 0.96\n" ] } ], "source": [ "print(\"Average cross-validation score: {:.2f}\".format(scores.mean()))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 5.1.2 Benefits of Cross-Validation\n", "- 기존 train_test_split 방법만 사용하는 경우\n", " - 확보한 원본 데이터 중 일부의 데이터는 훈련 데이터로 활용하지 않으면서 모델을 구성함.\n", "- cross_val_score 함수를 사용하는 경우\n", " - 데이터를 고르게 사용하여 fit을 하고 score를 구하기 때문에 모델의 성능을 좀 더 정확히 측정할 수 있음\n", " - 새로은 테스트 데이터의 예측 정확도에 대하여 최악과 최선의 경우를 짐작할 수 있음 \n", " - [주의] **cross_val_score가 직접 모델을 구성하는 방법은 아님!**\n", " - 즉, 이 함수를 호출하면 내부적으로 K번 모델을 구성하지만, 그러한 모델들은 평가의 목적으로만 활용됨." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 5.1.3 Stratified K-Fold cross-validation and other strategies\n", "- 계층별 K-Fold 교차 검증\n", " - 각 Fold안의 클래스 비율이 전체 원본 데이터셋에 있는 클래스 비율과 동일하도록 맞춤\n", " - 즉, 원본 데이터셋에서 클래스 A가 90%, 클래스 B가 10% 비율이라면, 계층별 K-Fold 교차 검증에서 각 K개의 Fold안에는 클래스 A가 90%, 클래스 B가 10% 비율이 됨.\n", "- scikit-learn의 cross_val_score 기본 설정\n", " - 분류모델: StratifiedKFold를 사용하여 기본적으로 계층별 K-Fold 교차 검증 수행\n", " - 회귀모델: 단순한 KFold를 사용하여 계층별이 아닌 기본 K-Fold 교차 검증 수행\n", " - 대신 회귀모델에서는 KFold를 사용할 때 shuffle 매개변수를 True로 지정하여 폴드를 나누기 전에 무작위로 데이터를 섞는 작업 추천" ] }, { "cell_type": "code", "execution_count": 7, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Iris labels:\n", "[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1\n", " 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2\n", " 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2\n", " 2 2]\n" ] } ], "source": [ "from sklearn.datasets import load_iris\n", "iris = load_iris()\n", "print(\"Iris labels:\\n{}\".format(iris.target))" ] }, { "cell_type": "code", "execution_count": 8, "metadata": { "collapsed": false, "hide_input": false }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "mglearn.plots.plot_stratified_cross_validation()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### More control over cross-validation\n", "- 기본적으로...\n", " - 분류: StratifiedKFold가 사용됨\n", " - 회귀: KFold가 사용됨\n", "- 하지만, 때때로 분류에 KFold가 사용되어야 할 필요도 있음\n", " - 다른 사람이 이미 수행한 사항을 재현해야 할 때\n", " - StratifiedKFold가 아닌 KFold를 생성하여 cross_val_score()의 cv 인자에 할당" ] }, { "cell_type": "code", "execution_count": 9, "metadata": { "collapsed": true }, "outputs": [], "source": [ "from sklearn.model_selection import KFold\n", "kfold = KFold(n_splits=5) #교차 검증 분할기의 역할 수행" ] }, { "cell_type": "code", "execution_count": 10, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cross-validation scores:\n", "[1. 0.933 0.433 0.967 0.433]\n" ] } ], "source": [ "print(\"Cross-validation scores:\\n{}\".format(cross_val_score(logreg, iris.data, iris.target, cv=kfold)))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 이런 경우 3-Fold를 사용하면 데이터 타겟 레이블 분포 특성상 성능이 매우 나쁠 수 있음" ] }, { "cell_type": "code", "execution_count": 11, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cross-validation scores:\n", "[0. 0. 0.]\n" ] } ], "source": [ "kfold = KFold(n_splits=3)\n", "print(\"Cross-validation scores:\\n{}\".format(cross_val_score(logreg, iris.data, iris.target, cv=kfold)))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 해결책\n", " - KFold를 만들 때 shuffle=True를 통해 데이터를 임의로 섞음.\n", " - random_state=0을 주면 추후 그대로 재현이 가능" ] }, { "cell_type": "code", "execution_count": 12, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cross-validation scores:\n", "[0.9 0.96 0.96]\n" ] } ], "source": [ "kfold = KFold(n_splits=3, shuffle=True, random_state=0)\n", "print(\"Cross-validation scores:\\n{}\".format(cross_val_score(logreg, iris.data, iris.target, cv=kfold)))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Leave-one-out cross-validation (LOOCV)\n", "- Fold 하나에 하나의 샘플이 들어 있는 Stratified k-Fold 교차 검증\n", " - 즉, 각각의 반복에서 테스트 데이터에 하나의 샘플만 존재\n", " - 데이터셋이 클 때 시간이 매우 오래 걸림\n", " - 작은 데이터셋에 대해서는 일반적인 상황에 대한 거의 확실한 score 값을 얻을 수 있음." ] }, { "cell_type": "code", "execution_count": 13, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Number of cv iterations: 150\n", "Mean accuracy: 0.95\n" ] } ], "source": [ "from sklearn.model_selection import LeaveOneOut\n", "loo = LeaveOneOut()\n", "scores = cross_val_score(logreg, iris.data, iris.target, cv=loo)\n", "print(\"Number of cv iterations: \", len(scores))\n", "print(\"Mean accuracy: {:.2f}\".format(scores.mean()))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Shuffle-split cross-validation\n", "- 임의 분할 교차 검증\n", " - model_selection.SuffleSplit(n_splits=10, test_size='default') or model_selection.StratifiedSuffleSplit(n_splits=10, test_size='default')\n", " - n_splits: 10\n", " - 분할의 개수\n", " - test_size 만큼의 테스트 셋트를 만들도록 분할\n", " - test_size의 기본값: 0.1\n", " - 보통 test_size 값만 설정하며, 추가적으로 train_size 도 설정 가능\n", " - 이런 경우 전체 데이터 집합 중 일부만 훈련과 테스트에 사용할 수 있음\n", " - 대규모 데이터에 유용\n", " - test_size, train_size\n", " - 정수: 데이터 포인트의 개수\n", " - 실수: 데이터 포인트 비율

\n", "\n", "- 아래 그림 예제\n", " - 전체 데이터 셈플 개수: 10\n", " - train_size = 5\n", " - test_size = 2\n", " - n_splits = 4" ] }, { "cell_type": "code", "execution_count": 14, "metadata": { "collapsed": false, "hide_input": false }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "mglearn.plots.plot_shuffle_split()" ] }, { "cell_type": "code", "execution_count": 15, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cross-validation scores:\n", "[1. 0.973 0.96 0.933 0.867 0.88 0.893 0.96 0.933 0.96 ]\n", "Mean accuracy: 0.94\n" ] } ], "source": [ "from sklearn.model_selection import ShuffleSplit\n", "\n", "shuffle_split = ShuffleSplit(n_splits=10, test_size=.5, train_size=.5)\n", "scores = cross_val_score(logreg, iris.data, iris.target, cv=shuffle_split)\n", "\n", "print(\"Cross-validation scores:\\n{}\".format(scores))\n", "print(\"Mean accuracy: {:.2f}\".format(scores.mean()))" ] }, { "cell_type": "code", "execution_count": 16, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cross-validation scores:\n", "[0.973 0.947 0.933 0.947 0.96 0.96 0.92 0.96 0.933 1. ]\n", "Mean accuracy: 0.95\n" ] } ], "source": [ "from sklearn.model_selection import StratifiedShuffleSplit\n", "\n", "shuffle_split = StratifiedShuffleSplit(n_splits=10, test_size=.5, train_size=.5)\n", "scores = cross_val_score(logreg, iris.data, iris.target, cv=shuffle_split)\n", "\n", "print(\"Cross-validation scores:\\n{}\".format(scores))\n", "print(\"Mean accuracy: {:.2f}\".format(scores.mean()))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Cross-validation with groups\n", "- 임의의 그룹에 속한 데이터 전체를 훈련 집합 또는 테스트 집합에 넣을 때 사용\n", "- 테스트 데이터가 때때로 완전히 새로운 데이터가 되어야 할 필요 있음\n", "- model_selection.GroupKFold\n", " - 그룹핑을 통하여 훈련 데이터 셋트와 테스트 데이터 셋트를 완벽히 분리하기 위해 사용\n", " - group 배열\n", " - 각 데이터 포인트 별로 그룹 index 지정 필요\n", " - 배열 내에 index 지정을 통해 훈련 데이터와 테스트 데이터를 랜덤하게 구성할 때 분리되지 말아야 할 그룹을 지정\n", " - 타깃 레이블과 혼동하면 안됨\n", "- 더 나은 방법\n", " - 이 방법대신 model_selection.train_test_split을 통해 처음 부터 테스트 데이터를 미리 분리하는 것이 더 좋음." ] }, { "cell_type": "code", "execution_count": 17, "metadata": { "collapsed": false, "hide_input": false }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "mglearn.plots.plot_group_kfold()" ] }, { "cell_type": "code", "execution_count": 18, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cross-validation scores:\n", "[0.75 0.8 0.667]\n", "Mean accuracy: 0.74\n" ] } ], "source": [ "from sklearn.model_selection import GroupKFold\n", "\n", "# create synthetic dataset\n", "X, y = make_blobs(n_samples=12, random_state=0)\n", "\n", "# assume the first three samples belong to the same group,\n", "# then the next four, etc\n", "groups = [0, 0, 0, 1, 1, 1, 1, 2, 2, 3, 3, 3]\n", "scores = cross_val_score(logreg, X, y, groups, cv=GroupKFold(n_splits=3))\n", "print(\"Cross-validation scores:\\n{}\".format(scores))\n", "print(\"Mean accuracy: {:.2f}\".format(scores.mean()))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 5.2 Grid Search\n", "- 모델 매개변수 튜닝을 통한 일반화 성능 개선 \n", "- 가장 널리 사용되는 방법은 Grid Search (그리드 탐색)\n", " - 관심있는 매개변수들을 대상으로 모든 조합을 시도함." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 5.2.1 Simple Grid-Search\n", "- SVC 모델에서 가장 중요한 매개변수는 gamma, C\n", "- 그리드 탐색 범위 설정 예\n", " - gamma: [0.001, 0.01, 0.1, 1, 10, 100]\n", " - C: [0.001, 0.01, 0.1, 1, 10, 100]\n", " - 총 6x6=36개의 조합에 대하여 반복적으로 새로운 모델 생성 및 평가\n", " - 가장 좋은 성능을 보여주는 gamma와 C의 조합을 찾음" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
 C=0.001C=0.01C=0.1C=1C=10C=100
gamma=0.001SVC(C=0.001, gamma=0.001)SVC(C=0.01, gamma=0.001)SVC(C=0.1, gamma=0.001)SVC(C=1, gamma=0.001)SVC(C=10, gamma=0.001)SVC(C=100, gamma=0.001)
gamma=0.01SVC(C=0.001, gamma=0.01)SVC(C=0.01, gamma=0.01)SVC(C=0.1, gamma=0.01)SVC(C=1, gamma=0.01)SVC(C=10, gamma=0.01)SVC(C=100, gamma=0.01)
gamma=0.1SVC(C=0.001, gamma=0.1)SVC(C=0.01, gamma=0.1)SVC(C=0.1, gamma=0.1)SVC(C=1, gamma=0.1)SVC(C=10, gamma=0.1)SVC(C=100, gamma=0.1)
gamma=1SVC(C=0.001, gamma=1)SVC(C=0.01, gamma=1)SVC(C=0.1, gamma=1)SVC(C=1, gamma=1)SVC(C=10, gamma=1)SVC(C=100, gamma=1)
gamma=10SVC(C=0.001, gamma=10)SVC(C=0.01, gamma=10)SVC(C=0.1, gamma=10)SVC(C=1, gamma=10)SVC(C=10, gamma=10)SVC(C=100, gamma=10)
gamma=100SVC(C=0.001, gamma=100)SVC(C=0.01, gamma=100)SVC(C=0.1, gamma=100)SVC(C=1, gamma=100)SVC(C=10, gamma=100)SVC(C=100, gamma=100)
" ] }, { "cell_type": "code", "execution_count": 19, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Size of training set: 112 size of test set: 38\n", "Best score: 0.97\n", "Best parameters: {'C': 100, 'gamma': 0.001}\n" ] } ], "source": [ "# naive grid search implementation\n", "from sklearn.svm import SVC\n", "\n", "X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=0)\n", "print(\"Size of training set: {} size of test set: {}\".format(X_train.shape[0], X_test.shape[0]))\n", "\n", "best_score = 0\n", "\n", "for gamma in [0.001, 0.01, 0.1, 1, 10, 100]:\n", " for C in [0.001, 0.01, 0.1, 1, 10, 100]:\n", " # for each combination of parameters, train an SVC\n", " svm = SVC(gamma=gamma, C=C)\n", " svm.fit(X_train, y_train)\n", " # evaluate the SVC on the test set\n", " score = svm.score(X_test, y_test)\n", " # if we got a better score, store the score and parameters\n", " if score > best_score:\n", " best_score = score\n", " best_parameters = {'C': C, 'gamma': gamma}\n", "\n", "print(\"Best score: {:.2f}\".format(best_score))\n", "print(\"Best parameters: {}\".format(best_parameters))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 위 0.97의 정확도는 전혀 새로운 데이터에 대한 성능으로 이어지지 않을 수 있다.\n", "- 즉, 위 예제에서 사용한 테스트 데이터는 모델 구성시에 사용을 해버렸기 때문에 이 모델이 얼마나 좋은지 평가하는 데 더 이상 사용할 수 없다." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 5.2.2 The danger of overfitting the parameters and the validation set\n", "- 검증 데이터 세트 (Valudation Set) 필요\n", " - 모델 파라미터 튜닝 용도\n", "- 모델을 구성할 때 훈련 데이터 세트와 검증 데이터 세트를 활용" ] }, { "cell_type": "code", "execution_count": 20, "metadata": { "collapsed": false, "hide_input": false }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "mglearn.plots.plot_threefold_split()" ] }, { "cell_type": "code", "execution_count": 21, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Size of training set: 84, size of validation set: 28,size of test set: 38\n", "\n", "Best score on validation set: 0.96\n", "Best parameters: {'C': 10, 'gamma': 0.001}\n", "Test set score with best parameters: 0.92\n" ] } ], "source": [ "from sklearn.svm import SVC\n", "# split data into train+validation set and test set\n", "X_trainval, X_test, y_trainval, y_test = train_test_split(iris.data, iris.target, random_state=0)\n", "\n", "# split train+validation set into training and validation sets\n", "X_train, X_valid, y_train, y_valid = train_test_split(X_trainval, y_trainval, random_state=1)\n", "\n", "print(\"Size of training set: {}, size of validation set: {},size of test set: {}\\n\".format(\n", " X_train.shape[0], \n", " X_valid.shape[0], \n", " X_test.shape[0]))\n", "\n", "best_score = 0\n", "\n", "for gamma in [0.001, 0.01, 0.1, 1, 10, 100]:\n", " for C in [0.001, 0.01, 0.1, 1, 10, 100]:\n", " # for each combination of parameters train an SVC\n", " svm = SVC(gamma=gamma, C=C)\n", " svm.fit(X_train, y_train)\n", " # evaluate the SVC on the validation set\n", " score = svm.score(X_valid, y_valid)\n", " # if we got a better score, store the score and parameters\n", " if score > best_score:\n", " best_score = score\n", " best_parameters = {'C': C, 'gamma': gamma}\n", "\n", "# rebuild a model on the combined training and validation set,\n", "# and evaluate it on the test set\n", "svm = SVC(**best_parameters)\n", "\n", "#[NOTE] 훈련 데이터와 검증 데이터를 합쳐서 다시 모델을 구성함\n", "svm.fit(X_trainval, y_trainval)\n", "\n", "test_score = svm.score(X_test, y_test)\n", "print(\"Best score on validation set: {:.2f}\".format(best_score))\n", "print(\"Best parameters: \", best_parameters)\n", "print(\"Test set score with best parameters: {:.2f}\".format(test_score))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 위 예제를 통하여 전혀 새로운 테스트 데이터에 대하여, 생성 모델은 92%의 정확도로 분류한다고 볼 수 있음" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 5.2.3 Grid-search with cross-validation\n", "- 그리드 탐색에서도 교차 검증 필요\n", " - 위 두 예제에서 최고의 성능을 보여주는 파라미터가 변경된 점을 주의\n", " - cross_val_score 사용" ] }, { "cell_type": "code", "execution_count": 22, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Size of training set: 84, size of validation set: 28,size of test set: 38\n", "\n", "Best score on validation set: 0.97\n", "Best parameters: {'C': 100, 'gamma': 0.01}\n", "Test set score with best parameters: 0.97\n" ] } ], "source": [ "X_trainval, X_test, y_trainval, y_test = train_test_split(iris.data, iris.target, random_state=0)\n", "X_train, X_valid, y_train, y_valid = train_test_split(X_trainval, y_trainval, random_state=1)\n", "\n", "print(\"Size of training set: {}, size of validation set: {},size of test set: {}\\n\".format(\n", " X_train.shape[0], \n", " X_valid.shape[0], \n", " X_test.shape[0]))\n", "\n", "# reference: manual_grid_search_cv\n", "for gamma in [0.001, 0.01, 0.1, 1, 10, 100]:\n", " for C in [0.001, 0.01, 0.1, 1, 10, 100]:\n", " # for each combination of parameters,\n", " # train an SVC\n", " svm = SVC(gamma=gamma, C=C)\n", " # perform cross-validation\n", " scores = cross_val_score(svm, X_trainval, y_trainval, cv=5)\n", " # compute mean cross-validation accuracy\n", " score = np.mean(scores)\n", " # if we got a better score, store the score and parameters\n", " if score > best_score:\n", " best_score = score\n", " best_parameters = {'C': C, 'gamma': gamma}\n", "# rebuild a model on the combined training and validation set\n", "svm = SVC(**best_parameters)\n", "\n", "#[NOTE] 훈련 데이터와 검증 데이터를 합쳐서 다시 모델을 구성함\n", "svm.fit(X_trainval, y_trainval)\n", "\n", "test_score = svm.score(X_test, y_test)\n", "print(\"Best score on validation set: {:.2f}\".format(best_score))\n", "print(\"Best parameters: \", best_parameters)\n", "print(\"Test set score with best parameters: {:.2f}\".format(test_score))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 위 예에서는 반복적인 모델 생성 작업이 6 \\* 6 \\* 5 = 180번 이루어짐\n", " - 즉, 시간이 많이 소요됨에 주의" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 아래 그림은 교차 검증에 5-fold 사용\n", "- 매개변수 그리드는 일부만 표시\n", "- 교차 검증 5번의 평균이 가장 높은 매개변수를 빨간 동그라미로 표시" ] }, { "cell_type": "code", "execution_count": 23, "metadata": { "collapsed": false, "hide_input": false }, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "/Users/yhhan/anaconda3/lib/python3.6/site-packages/sklearn/utils/deprecation.py:122: FutureWarning: You are accessing a training score ('mean_train_score'), which will not be available by default any more in 0.21. If you need training scores, please set return_train_score=True\n", " warnings.warn(*warn_args, **warn_kwargs)\n", "/Users/yhhan/anaconda3/lib/python3.6/site-packages/sklearn/utils/deprecation.py:122: FutureWarning: You are accessing a training score ('split0_train_score'), which will not be available by default any more in 0.21. If you need training scores, please set return_train_score=True\n", " warnings.warn(*warn_args, **warn_kwargs)\n", "/Users/yhhan/anaconda3/lib/python3.6/site-packages/sklearn/utils/deprecation.py:122: FutureWarning: You are accessing a training score ('split1_train_score'), which will not be available by default any more in 0.21. If you need training scores, please set return_train_score=True\n", " warnings.warn(*warn_args, **warn_kwargs)\n", "/Users/yhhan/anaconda3/lib/python3.6/site-packages/sklearn/utils/deprecation.py:122: FutureWarning: You are accessing a training score ('split2_train_score'), which will not be available by default any more in 0.21. If you need training scores, please set return_train_score=True\n", " warnings.warn(*warn_args, **warn_kwargs)\n", "/Users/yhhan/anaconda3/lib/python3.6/site-packages/sklearn/utils/deprecation.py:122: FutureWarning: You are accessing a training score ('split3_train_score'), which will not be available by default any more in 0.21. If you need training scores, please set return_train_score=True\n", " warnings.warn(*warn_args, **warn_kwargs)\n", "/Users/yhhan/anaconda3/lib/python3.6/site-packages/sklearn/utils/deprecation.py:122: FutureWarning: You are accessing a training score ('split4_train_score'), which will not be available by default any more in 0.21. If you need training scores, please set return_train_score=True\n", " warnings.warn(*warn_args, **warn_kwargs)\n", "/Users/yhhan/anaconda3/lib/python3.6/site-packages/sklearn/utils/deprecation.py:122: FutureWarning: You are accessing a training score ('std_train_score'), which will not be available by default any more in 0.21. If you need training scores, please set return_train_score=True\n", " warnings.warn(*warn_args, **warn_kwargs)\n" ] }, { "data": { "image/png": "\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "mglearn.plots.plot_cross_val_selection()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 그리드 서치와 교차 검증을 사용한 매개 변수 선택과 모델 평가의 전체 작업 흐름" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "![process](./images/process.jpg)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- **model_selection.GridSearchCV**\n", " - **교차 검증을 사용하는 그리드 탐색을 통한 모델 파라미터 검색 기능 제공 객체**\n", " - 기본적으로 사용하는 교차 검증 분류기\n", " - 분류에는 StratifiedKFold 사용함\n", " - 회귀에는 KFold 사용함\n", " - fit을 수행한 이후에는 가장 최적의 파라미터로 만들어진 모델을 구성하고 있음.\n", "- 다른 estimator (or 모델)를 사용하여 만들어지는 estimator를 메타 추정기(meta-estimator)라고 함.\n", " - GridSearchCV는 가장 널리 사용되는 메타 추정기\n", " - scikit-learn에서는 MetaEstimatorMixin 클래스를 상속한 모델을 메타 추정기라고 부름\n", " - 메타 추정기 예\n", " - GridSearchCV\n", " - RandomForest\n", " - GradientBoosting\n", " - RFE\n", " - ..." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 우선 모델에 들어갈 각 매개변수 값을 사전(Dict)타입으로 구성\n", " - 문자열 매개변수 이름을 모델(예:SVC)에 설정된 매개변수와 동일하게 맞춤 " ] }, { "cell_type": "code", "execution_count": 24, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Parameter grid:\n", "{'C': [0.001, 0.01, 0.1, 1, 10, 100], 'gamma': [0.001, 0.01, 0.1, 1, 10, 100]}\n" ] } ], "source": [ "param_grid = { \n", " 'C': [0.001, 0.01, 0.1, 1, 10, 100],\n", " 'gamma': [0.001, 0.01, 0.1, 1, 10, 100]\n", "}\n", "print(\"Parameter grid:\\n{}\".format(param_grid))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- GridSearchCV 생성\n", " - model_selection.GridSearchCV(estimator, param_grid, n_jobs=1, cv=None, verbose=0, return_train_score='True')\n", " - estimator\n", " - param_grid\n", " - n_jobs\n", " - Number of jobs to run in parallel\n", " - default: 1\n", " - -1 --> Using All threads\n", " - cv\n", " - None, to use the default 3-fold cross validation\n", " - integer, to specify the number of folds in a (Stratified)KFold.\n", " - fold의 개수를 cv=5와 같이 설정\n", " - An object to be used as a cross-validation generator.\n", " - An iterable yielding train, test splits." ] }, { "cell_type": "code", "execution_count": 25, "metadata": { "collapsed": true }, "outputs": [], "source": [ "from sklearn.model_selection import GridSearchCV\n", "from sklearn.svm import SVC\n", "\n", "estimator = SVC()\n", "grid_search = GridSearchCV(\n", " estimator = estimator, \n", " param_grid = param_grid, \n", " n_jobs = -1, \n", " cv = 5, \n", " return_train_score = True\n", ")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 훈련 데이터와 테스트 데이터 분리" ] }, { "cell_type": "code", "execution_count": 26, "metadata": { "collapsed": true }, "outputs": [], "source": [ "X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=0)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 훈련 데이터만 GridSearchCV 객체에 넣어 fit을 함\n", " - 이 때 훈련 데이터중 일부는 내부적으로 검증 데이터 (Validation Data)로 사용됨\n", "- GridSearchCV는 생성시 모델을 내장하므로 fit, predict, score 등의 함수를 제공\n", " - 모델에 따라서 predict_proba, decision_function을 제공하기도 함" ] }, { "cell_type": "code", "execution_count": 27, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/plain": [ "GridSearchCV(cv=5, error_score='raise',\n", " estimator=SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,\n", " decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',\n", " max_iter=-1, probability=False, random_state=None, shrinking=True,\n", " tol=0.001, verbose=False),\n", " fit_params=None, iid=True, n_jobs=-1,\n", " param_grid={'C': [0.001, 0.01, 0.1, 1, 10, 100], 'gamma': [0.001, 0.01, 0.1, 1, 10, 100]},\n", " pre_dispatch='2*n_jobs', refit=True, return_train_score=True,\n", " scoring=None, verbose=0)" ] }, "execution_count": 27, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grid_search.fit(X_train, y_train)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 모델 구성시 사용하지 않은 완전히 새로운 데이터인 X_test와 y_test를 사용하여 모델 평가" ] }, { "cell_type": "code", "execution_count": 28, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Test set score: 0.97\n" ] } ], "source": [ "print(\"Test set score: {:.2f}\".format(grid_search.score(X_test, y_test)))" ] }, { "cell_type": "code", "execution_count": 29, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Best parameters: {'C': 100, 'gamma': 0.01}\n", "Best cross-validation score: 0.97\n" ] } ], "source": [ "print(\"Best parameters: {}\".format(grid_search.best_params_))\n", "print(\"Best cross-validation score: {:.2f}\".format(grid_search.best_score_))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 위 두 예에서 grid_search.score() 메소드와 grid_search.best\\_score\\_ 속성은 매우 큰 차이\n", " - grid_search.score() 메소드\n", " - 새로운 데이터인 테스트 데이터 셋을 통한 모델 평가 점수\n", " - grid_search.best\\_score\\_ 속성\n", " - 훈련 데이터에 대하여 수행한 교차 검증에서의 최고 점수" ] }, { "cell_type": "code", "execution_count": 30, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Best estimator:\n", "SVC(C=100, cache_size=200, class_weight=None, coef0=0.0,\n", " decision_function_shape='ovr', degree=3, gamma=0.01, kernel='rbf',\n", " max_iter=-1, probability=False, random_state=None, shrinking=True,\n", " tol=0.001, verbose=False)\n" ] } ], "source": [ "print(\"Best estimator:\\n{}\".format(grid_search.best_estimator_))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### [NOTE] 전형적인 교차 검증 그리드 서치를 통한 모델 구성 및 테스트 집합 성능 평가 코드" ] }, { "cell_type": "code", "execution_count": 31, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Test set score: 0.97\n" ] } ], "source": [ "from sklearn.model_selection import GridSearchCV\n", "from sklearn.svm import SVC\n", "\n", "X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=0)\n", "\n", "estimator = SVC()\n", "\n", "param_grid = { \n", " 'C': [0.001, 0.01, 0.1, 1, 10, 100],\n", " 'gamma': [0.001, 0.01, 0.1, 1, 10, 100]\n", "}\n", "\n", "grid_search = GridSearchCV(\n", " estimator = estimator, \n", " param_grid = param_grid, \n", " n_jobs = -1, \n", " cv = 5, \n", " return_train_score = True\n", ")\n", "\n", "grid_search.fit(X_train, y_train)\n", "\n", "print(\"Test set score: {:.2f}\".format(grid_search.score(X_test, y_test)))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Analyzing the result of cross-validation\n", "- grid_search.cv\\_results\\_\n", " - 그리드 탐색에 대한 교차 검증 결과 정보가 상세히 들어 있는 속성" ] }, { "cell_type": "code", "execution_count": 32, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Index(['mean_fit_time', 'mean_score_time', 'mean_test_score',\n", " 'mean_train_score', 'param_C', 'param_gamma', 'params',\n", " 'rank_test_score', 'split0_test_score', 'split0_train_score',\n", " 'split1_test_score', 'split1_train_score', 'split2_test_score',\n", " 'split2_train_score', 'split3_test_score', 'split3_train_score',\n", " 'split4_test_score', 'split4_train_score', 'std_fit_time',\n", " 'std_score_time', 'std_test_score', 'std_train_score'],\n", " dtype='object')\n" ] }, { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
mean_fit_timemean_score_timemean_test_scoremean_train_score...std_fit_timestd_score_timestd_test_scorestd_train_score
00.00357350.00128890.36607140.3660787...0.00100960.00048290.01137080.0028518
10.00135280.00047130.36607140.3660787...0.00038040.00009420.01137080.0028518
20.00098930.00044840.36607140.3660787...0.00020810.00014430.01137080.0028518
30.00147540.00054290.36607140.3660787...0.00049510.00002760.01137080.0028518
40.00139180.00104720.36607140.3660787...0.00046320.00095450.01137080.0028518
50.00455460.00128070.36607140.3660787...0.00668140.00166330.01137080.0028518
60.00168930.00075050.36607140.3660787...0.00132670.00062360.01137080.0028518
70.00137590.00053240.36607140.3660787...0.00061390.00004500.01137080.0028518
80.00129420.00069990.36607140.3660787...0.00019660.00020610.01137080.0028518
90.00113330.00127350.36607140.3660787...0.00015140.00147800.01137080.0028518
100.00160420.00063870.36607140.3660787...0.00057560.00013270.01137080.0028518
110.00144160.00223710.36607140.3660787...0.00043390.00250220.01137080.0028518
120.00344460.00045770.36607140.3660787...0.00471590.00001840.01137080.0028518
130.00154490.00048230.69642860.6964237...0.00050180.00009420.01319630.0032580
140.00101790.00058420.91964290.9197442...0.00011870.00002580.04401020.0212659
150.00111380.00048360.95535710.9598457...0.00012350.00005930.04010430.0113043
160.00141430.00054170.36607140.3817097...0.00051190.00019060.01137080.0213374
170.00208370.00048330.36607140.3660787...0.00163790.00009020.01137080.0028518
180.00184770.00047340.69642860.6964237...0.00161440.00006790.01319630.0032580
190.00091470.00043170.92857140.9353247...0.00013140.00006650.04298270.0078884
200.00081450.00051050.96428570.9776501...0.00010120.00010730.03407690.0100842
210.00094500.00046070.94642860.9843928...0.00015120.00004810.03247990.0088664
220.00165140.00058480.91964291.0000000...0.00023750.00018000.06479060.0000000
230.00139550.00048170.50892861.0000000...0.00005000.00007980.04643500.0000000
240.00086430.00041600.92857140.9353247...0.00006640.00002530.04298270.0078884
250.00068380.00045320.96428570.9776757...0.00004230.00015500.03407690.0070319
260.00082320.00040550.96428570.9865662...0.00026320.00003440.01776870.0083555
270.00075980.00040540.93750000.9865906...0.00011780.00006550.04525280.0083624
280.00100570.00033990.91964291.0000000...0.00011390.00005840.06479060.0000000
290.00109630.00045420.56250001.0000000...0.00015790.00013120.04966780.0000000
300.00050680.00025470.96428570.9776757...0.00009040.00003520.03407690.0070319
310.00054470.00029560.97321430.9843684...0.00022280.00004140.02239950.0054851
320.00058280.00051190.95535710.9887884...0.00010830.00030100.04956620.0099945
330.00057920.00028650.94642861.0000000...0.00005840.00003910.05192270.0000000
340.00100270.00035210.91964291.0000000...0.00013540.00009960.06479060.0000000
350.00102710.00032210.56250001.0000000...0.00010110.00004090.04966780.0000000
\n", "

36 rows × 22 columns

\n", "
" ], "text/plain": [ " mean_fit_time mean_score_time mean_test_score mean_train_score \\\n", "0 0.0035735 0.0012889 0.3660714 0.3660787 \n", "1 0.0013528 0.0004713 0.3660714 0.3660787 \n", "2 0.0009893 0.0004484 0.3660714 0.3660787 \n", "3 0.0014754 0.0005429 0.3660714 0.3660787 \n", "4 0.0013918 0.0010472 0.3660714 0.3660787 \n", "5 0.0045546 0.0012807 0.3660714 0.3660787 \n", "6 0.0016893 0.0007505 0.3660714 0.3660787 \n", "7 0.0013759 0.0005324 0.3660714 0.3660787 \n", "8 0.0012942 0.0006999 0.3660714 0.3660787 \n", "9 0.0011333 0.0012735 0.3660714 0.3660787 \n", "10 0.0016042 0.0006387 0.3660714 0.3660787 \n", "11 0.0014416 0.0022371 0.3660714 0.3660787 \n", "12 0.0034446 0.0004577 0.3660714 0.3660787 \n", "13 0.0015449 0.0004823 0.6964286 0.6964237 \n", "14 0.0010179 0.0005842 0.9196429 0.9197442 \n", "15 0.0011138 0.0004836 0.9553571 0.9598457 \n", "16 0.0014143 0.0005417 0.3660714 0.3817097 \n", "17 0.0020837 0.0004833 0.3660714 0.3660787 \n", "18 0.0018477 0.0004734 0.6964286 0.6964237 \n", "19 0.0009147 0.0004317 0.9285714 0.9353247 \n", "20 0.0008145 0.0005105 0.9642857 0.9776501 \n", "21 0.0009450 0.0004607 0.9464286 0.9843928 \n", "22 0.0016514 0.0005848 0.9196429 1.0000000 \n", "23 0.0013955 0.0004817 0.5089286 1.0000000 \n", "24 0.0008643 0.0004160 0.9285714 0.9353247 \n", "25 0.0006838 0.0004532 0.9642857 0.9776757 \n", "26 0.0008232 0.0004055 0.9642857 0.9865662 \n", "27 0.0007598 0.0004054 0.9375000 0.9865906 \n", "28 0.0010057 0.0003399 0.9196429 1.0000000 \n", "29 0.0010963 0.0004542 0.5625000 1.0000000 \n", "30 0.0005068 0.0002547 0.9642857 0.9776757 \n", "31 0.0005447 0.0002956 0.9732143 0.9843684 \n", "32 0.0005828 0.0005119 0.9553571 0.9887884 \n", "33 0.0005792 0.0002865 0.9464286 1.0000000 \n", "34 0.0010027 0.0003521 0.9196429 1.0000000 \n", "35 0.0010271 0.0003221 0.5625000 1.0000000 \n", "\n", " ... std_fit_time std_score_time std_test_score \\\n", "0 ... 0.0010096 0.0004829 0.0113708 \n", "1 ... 0.0003804 0.0000942 0.0113708 \n", "2 ... 0.0002081 0.0001443 0.0113708 \n", "3 ... 0.0004951 0.0000276 0.0113708 \n", "4 ... 0.0004632 0.0009545 0.0113708 \n", "5 ... 0.0066814 0.0016633 0.0113708 \n", "6 ... 0.0013267 0.0006236 0.0113708 \n", "7 ... 0.0006139 0.0000450 0.0113708 \n", "8 ... 0.0001966 0.0002061 0.0113708 \n", "9 ... 0.0001514 0.0014780 0.0113708 \n", "10 ... 0.0005756 0.0001327 0.0113708 \n", "11 ... 0.0004339 0.0025022 0.0113708 \n", "12 ... 0.0047159 0.0000184 0.0113708 \n", "13 ... 0.0005018 0.0000942 0.0131963 \n", "14 ... 0.0001187 0.0000258 0.0440102 \n", "15 ... 0.0001235 0.0000593 0.0401043 \n", "16 ... 0.0005119 0.0001906 0.0113708 \n", "17 ... 0.0016379 0.0000902 0.0113708 \n", "18 ... 0.0016144 0.0000679 0.0131963 \n", "19 ... 0.0001314 0.0000665 0.0429827 \n", "20 ... 0.0001012 0.0001073 0.0340769 \n", "21 ... 0.0001512 0.0000481 0.0324799 \n", "22 ... 0.0002375 0.0001800 0.0647906 \n", "23 ... 0.0000500 0.0000798 0.0464350 \n", "24 ... 0.0000664 0.0000253 0.0429827 \n", "25 ... 0.0000423 0.0001550 0.0340769 \n", "26 ... 0.0002632 0.0000344 0.0177687 \n", "27 ... 0.0001178 0.0000655 0.0452528 \n", "28 ... 0.0001139 0.0000584 0.0647906 \n", "29 ... 0.0001579 0.0001312 0.0496678 \n", "30 ... 0.0000904 0.0000352 0.0340769 \n", "31 ... 0.0002228 0.0000414 0.0223995 \n", "32 ... 0.0001083 0.0003010 0.0495662 \n", "33 ... 0.0000584 0.0000391 0.0519227 \n", "34 ... 0.0001354 0.0000996 0.0647906 \n", "35 ... 0.0001011 0.0000409 0.0496678 \n", "\n", " std_train_score \n", "0 0.0028518 \n", "1 0.0028518 \n", "2 0.0028518 \n", "3 0.0028518 \n", "4 0.0028518 \n", "5 0.0028518 \n", "6 0.0028518 \n", "7 0.0028518 \n", "8 0.0028518 \n", "9 0.0028518 \n", "10 0.0028518 \n", "11 0.0028518 \n", "12 0.0028518 \n", "13 0.0032580 \n", "14 0.0212659 \n", "15 0.0113043 \n", "16 0.0213374 \n", "17 0.0028518 \n", "18 0.0032580 \n", "19 0.0078884 \n", "20 0.0100842 \n", "21 0.0088664 \n", "22 0.0000000 \n", "23 0.0000000 \n", "24 0.0078884 \n", "25 0.0070319 \n", "26 0.0083555 \n", "27 0.0083624 \n", "28 0.0000000 \n", "29 0.0000000 \n", "30 0.0070319 \n", "31 0.0054851 \n", "32 0.0099945 \n", "33 0.0000000 \n", "34 0.0000000 \n", "35 0.0000000 \n", "\n", "[36 rows x 22 columns]" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "import pandas as pd\n", "# convert to Dataframe\n", "results = pd.DataFrame(grid_search.cv_results_)\n", "pd.options.display.float_format = '{:,.7f}'.format\n", "\n", "print(results.columns)\n", "# show the first 5 rows\n", "# display(results.head(5))\n", "display(results)" ] }, { "cell_type": "code", "execution_count": 33, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
rank_test_scoreparamsmean_test_scorestd_test_scoremean_train_scorestd_train_score
311{'C': 100, 'gamma': 0.01}0.97321430.02239950.98436840.0054851
202{'C': 1, 'gamma': 0.1}0.96428570.03407690.97765010.0100842
302{'C': 100, 'gamma': 0.001}0.96428570.03407690.97767570.0070319
262{'C': 10, 'gamma': 0.1}0.96428570.01776870.98656620.0083555
252{'C': 10, 'gamma': 0.01}0.96428570.03407690.97767570.0070319
326{'C': 100, 'gamma': 0.1}0.95535710.04956620.98878840.0099945
156{'C': 0.1, 'gamma': 1}0.95535710.04010430.95984570.0113043
338{'C': 100, 'gamma': 1}0.94642860.05192271.00000000.0000000
218{'C': 1, 'gamma': 1}0.94642860.03247990.98439280.0088664
2710{'C': 10, 'gamma': 1}0.93750000.04525280.98659060.0083624
2411{'C': 10, 'gamma': 0.001}0.92857140.04298270.93532470.0078884
1911{'C': 1, 'gamma': 0.01}0.92857140.04298270.93532470.0078884
2213{'C': 1, 'gamma': 10}0.91964290.06479061.00000000.0000000
1413{'C': 0.1, 'gamma': 0.1}0.91964290.04401020.91974420.0212659
2813{'C': 10, 'gamma': 10}0.91964290.06479061.00000000.0000000
3413{'C': 100, 'gamma': 10}0.91964290.06479061.00000000.0000000
1317{'C': 0.1, 'gamma': 0.01}0.69642860.01319630.69642370.0032580
1817{'C': 1, 'gamma': 0.001}0.69642860.01319630.69642370.0032580
2919{'C': 10, 'gamma': 100}0.56250000.04966781.00000000.0000000
3519{'C': 100, 'gamma': 100}0.56250000.04966781.00000000.0000000
2321{'C': 1, 'gamma': 100}0.50892860.04643501.00000000.0000000
022{'C': 0.001, 'gamma': 0.001}0.36607140.01137080.36607870.0028518
1222{'C': 0.1, 'gamma': 0.001}0.36607140.01137080.36607870.0028518
1122{'C': 0.01, 'gamma': 100}0.36607140.01137080.36607870.0028518
1022{'C': 0.01, 'gamma': 10}0.36607140.01137080.36607870.0028518
922{'C': 0.01, 'gamma': 1}0.36607140.01137080.36607870.0028518
822{'C': 0.01, 'gamma': 0.1}0.36607140.01137080.36607870.0028518
722{'C': 0.01, 'gamma': 0.01}0.36607140.01137080.36607870.0028518
622{'C': 0.01, 'gamma': 0.001}0.36607140.01137080.36607870.0028518
522{'C': 0.001, 'gamma': 100}0.36607140.01137080.36607870.0028518
422{'C': 0.001, 'gamma': 10}0.36607140.01137080.36607870.0028518
322{'C': 0.001, 'gamma': 1}0.36607140.01137080.36607870.0028518
222{'C': 0.001, 'gamma': 0.1}0.36607140.01137080.36607870.0028518
122{'C': 0.001, 'gamma': 0.01}0.36607140.01137080.36607870.0028518
1622{'C': 0.1, 'gamma': 10}0.36607140.01137080.38170970.0213374
1722{'C': 0.1, 'gamma': 100}0.36607140.01137080.36607870.0028518
\n", "
" ], "text/plain": [ " rank_test_score params mean_test_score \\\n", "31 1 {'C': 100, 'gamma': 0.01} 0.9732143 \n", "20 2 {'C': 1, 'gamma': 0.1} 0.9642857 \n", "30 2 {'C': 100, 'gamma': 0.001} 0.9642857 \n", "26 2 {'C': 10, 'gamma': 0.1} 0.9642857 \n", "25 2 {'C': 10, 'gamma': 0.01} 0.9642857 \n", "32 6 {'C': 100, 'gamma': 0.1} 0.9553571 \n", "15 6 {'C': 0.1, 'gamma': 1} 0.9553571 \n", "33 8 {'C': 100, 'gamma': 1} 0.9464286 \n", "21 8 {'C': 1, 'gamma': 1} 0.9464286 \n", "27 10 {'C': 10, 'gamma': 1} 0.9375000 \n", "24 11 {'C': 10, 'gamma': 0.001} 0.9285714 \n", "19 11 {'C': 1, 'gamma': 0.01} 0.9285714 \n", "22 13 {'C': 1, 'gamma': 10} 0.9196429 \n", "14 13 {'C': 0.1, 'gamma': 0.1} 0.9196429 \n", "28 13 {'C': 10, 'gamma': 10} 0.9196429 \n", "34 13 {'C': 100, 'gamma': 10} 0.9196429 \n", "13 17 {'C': 0.1, 'gamma': 0.01} 0.6964286 \n", "18 17 {'C': 1, 'gamma': 0.001} 0.6964286 \n", "29 19 {'C': 10, 'gamma': 100} 0.5625000 \n", "35 19 {'C': 100, 'gamma': 100} 0.5625000 \n", "23 21 {'C': 1, 'gamma': 100} 0.5089286 \n", "0 22 {'C': 0.001, 'gamma': 0.001} 0.3660714 \n", "12 22 {'C': 0.1, 'gamma': 0.001} 0.3660714 \n", "11 22 {'C': 0.01, 'gamma': 100} 0.3660714 \n", "10 22 {'C': 0.01, 'gamma': 10} 0.3660714 \n", "9 22 {'C': 0.01, 'gamma': 1} 0.3660714 \n", "8 22 {'C': 0.01, 'gamma': 0.1} 0.3660714 \n", "7 22 {'C': 0.01, 'gamma': 0.01} 0.3660714 \n", "6 22 {'C': 0.01, 'gamma': 0.001} 0.3660714 \n", "5 22 {'C': 0.001, 'gamma': 100} 0.3660714 \n", "4 22 {'C': 0.001, 'gamma': 10} 0.3660714 \n", "3 22 {'C': 0.001, 'gamma': 1} 0.3660714 \n", "2 22 {'C': 0.001, 'gamma': 0.1} 0.3660714 \n", "1 22 {'C': 0.001, 'gamma': 0.01} 0.3660714 \n", "16 22 {'C': 0.1, 'gamma': 10} 0.3660714 \n", "17 22 {'C': 0.1, 'gamma': 100} 0.3660714 \n", "\n", " std_test_score mean_train_score std_train_score \n", "31 0.0223995 0.9843684 0.0054851 \n", "20 0.0340769 0.9776501 0.0100842 \n", "30 0.0340769 0.9776757 0.0070319 \n", "26 0.0177687 0.9865662 0.0083555 \n", "25 0.0340769 0.9776757 0.0070319 \n", "32 0.0495662 0.9887884 0.0099945 \n", "15 0.0401043 0.9598457 0.0113043 \n", "33 0.0519227 1.0000000 0.0000000 \n", "21 0.0324799 0.9843928 0.0088664 \n", "27 0.0452528 0.9865906 0.0083624 \n", "24 0.0429827 0.9353247 0.0078884 \n", "19 0.0429827 0.9353247 0.0078884 \n", "22 0.0647906 1.0000000 0.0000000 \n", "14 0.0440102 0.9197442 0.0212659 \n", "28 0.0647906 1.0000000 0.0000000 \n", "34 0.0647906 1.0000000 0.0000000 \n", "13 0.0131963 0.6964237 0.0032580 \n", "18 0.0131963 0.6964237 0.0032580 \n", "29 0.0496678 1.0000000 0.0000000 \n", "35 0.0496678 1.0000000 0.0000000 \n", "23 0.0464350 1.0000000 0.0000000 \n", "0 0.0113708 0.3660787 0.0028518 \n", "12 0.0113708 0.3660787 0.0028518 \n", "11 0.0113708 0.3660787 0.0028518 \n", "10 0.0113708 0.3660787 0.0028518 \n", "9 0.0113708 0.3660787 0.0028518 \n", "8 0.0113708 0.3660787 0.0028518 \n", "7 0.0113708 0.3660787 0.0028518 \n", "6 0.0113708 0.3660787 0.0028518 \n", "5 0.0113708 0.3660787 0.0028518 \n", "4 0.0113708 0.3660787 0.0028518 \n", "3 0.0113708 0.3660787 0.0028518 \n", "2 0.0113708 0.3660787 0.0028518 \n", "1 0.0113708 0.3660787 0.0028518 \n", "16 0.0113708 0.3817097 0.0213374 \n", "17 0.0113708 0.3660787 0.0028518 " ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "results2 = results[['rank_test_score', 'params', 'mean_test_score', 'std_test_score', \n", " 'mean_train_score', 'std_train_score']]\n", "results2 = results2.sort_values('rank_test_score')\n", "display(results2)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- heatmap을 사용한 mean_test_score를 각 매개변수별로 시각화" ] }, { "cell_type": "code", "execution_count": 34, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[0.36607142857142855, 0.36607142857142855, 0.36607142857142855, 0.36607142857142855, 0.36607142857142855, 0.36607142857142855, 0.36607142857142855, 0.36607142857142855, 0.36607142857142855, 0.36607142857142855, 0.36607142857142855, 0.36607142857142855, 0.36607142857142855, 0.6964285714285714, 0.9196428571428571, 0.9553571428571429, 0.36607142857142855, 0.36607142857142855, 0.6964285714285714, 0.9285714285714286, 0.9642857142857143, 0.9464285714285714, 0.9196428571428571, 0.5089285714285714, 0.9285714285714286, 0.9642857142857143, 0.9642857142857143, 0.9375, 0.9196428571428571, 0.5625, 0.9642857142857143, 0.9732142857142857, 0.9553571428571429, 0.9464285714285714, 0.9196428571428571, 0.5625]\n", "\n", "(36,)\n" ] }, { "data": { "text/plain": [ "" ] }, "execution_count": 34, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAARwAAAEKCAYAAADAe+pmAAAABHNCSVQICAgIfAhkiAAAAAlwSFlzAAALEgAACxIB0t1+/AAAADl0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uIDIuMS4yLCBodHRwOi8vbWF0cGxvdGxpYi5vcmcvNQv5yAAAIABJREFUeJzt3Xd8VFX+//HXmZlMeiGQMgklIE0QUUQQQUDY0IsrCIiKuPpDF9uKHQQUFBRdpa3rsuJa1hX9squA0iygdETFitIJIb2SQsrMnN8fMySZkNAmuRnw83w88sjMvefe+55773zm3HszN0prjRBCGMHU0AGEEL8fUnCEEIaRgiOEMIwUHCGEYaTgCCEMIwVHCGEYKThCCMNIwRFCGEYKjhDCMJaGDmCEJpFm3byZb7xUE6qhI5zCjrOhI3hw4lt//V6mfetz+WhqdENHOEVxVnKW1jrqTO18411Yz5o3s7BlbVxDxwDAX/k1dIRT5DqLGzqCh2LtaOgIHo7aAxs6gof7n7u/oSOc4tt/TjlyNu18q3QLIS5qUnCEEIaRgiOEMIwUHCGEYaTgCCEMIwVHCGEYKThCCMNIwRFCGEYKjhDCMFJwhBCGkYIjhDCMFBwhhGF+F1/ePJP1G4p5dHoODidMvDmER+6P8BiflGznnilZZGU7aBRhYumiKJrGuVbd0WQ7kx/JIjnFgVLw4b+jadHMuy9orv2iiIdmZOJwwJ3jw3j8/kiP8UeOlnPXlHQysx1ERph5e3EMTeP82LClmIdnZla0+3V/Of/5eyw3DA7xKg/A5xtKmDojH6dTc+vNwTx4X6jH+KPJdh6Ykkd2joOICBOvLYwkLs4MQPIxO395JI9j7nW07J3GePvt/Y0bSnl65nEcDhh3cyD33uf5GpOTHTzycD452U4iIhQLFkZgc+dJaJ5G+/au5cfFm3njX428ygKwfWMx82fl4HRoho8N5bbJnvtQWnI5cx7LIi/HQVi4mRnzo4i2Wdj7cykvPZVNUaETsxkm3BvBH4Z7v716dGzBI2P7YjaZ+GjzT7y59muP8cN7dODB0deRkVcIwAcbvuejzT8BEBsZyvQJicQ0CkFreGDRR6RmH/c6E/hAwVFKvQEMAzK01pe5h0UC7wMJwGFgjNY6VymlgAXAEKAYmKi1/tab5Tscmoem5vDxshjibRauG5LC0IFBXNrWWtHmyVk5jB8dwq1jQti4+QQz5+aydJHrm/h3PZjJYw9E0L9PIIVFTkxe3n3C4dDcPzWTde/H09RmofvgJIYPCKZDO/+KNo/OyuLWm8K4fUwYX2wuZuqcbN5eHMv1PYP49rMWAOTkOmh77WEG9AnyLpA70+PT8lj+XhPibGYSh2QwaEAA7dpWFtaZs/IZOzqQcWOC+WpzKbPn5vP3Ra5COfnBXKY8EErf3gGudeRlv9rh0Dz11HHe/U8jbDYzw4dmkzgggLZtK3fnZ2cfZ9ToQG66KZAtW0p5/vkCFix0FYGAAMXa9U28C1Etz19nZDP/37FEx1q4a0QKvRKDaNmmch9aPCeHQTeGMGR0KN9sPcFr83KY8Uo0AYEmpr8cRbOWfmSm27lzWArdewcSGm4+7zwmpXhifD8mv/I/0nMLeGfqeL78/gCHUnM82q3ftZd57204Zfpn7hjIG6t3smNPEoH+ftTlP8v0hUOqN4FB1YY9AXyutW4DfO5+DjAYaOP+mQT83duF7/qulEsSLLRs4YfVqhg9MpiP13neruHXveX07RUAQJ+eARXj9+wtw26H/n1cty8ICTYRFOTdKt35XQmXJPjRyp1n7MhQVq4r8mizZ28Z/Xu5lnl9z8BTxgMs/7iQQdcHe50H4NvvymiZYCGhhQWrVfHHkUGsWVfi0ea3fXZ6u9fRdT2trFnvGv/b3nIcdujb2zUuJNhEUKB3mXbvLichwUwLd57hIwNYv94zz759Dnr1dL3hr73WyqfrS71a5uns2V1K0xZ+xDf3w8+q6D88mE3rPfehQ/vK6drTtc269Ahg06eu8c1b+dGspatwR8VYaNTYTF6Od/cn6tgylqMZeRzLysfucLL+69/o2/mSs5q2pS0Si9nEjj1JAJwoLaekzO5VnqoavOBorb8CcqoNHgm85X78FnBDleFva5ftQIRSyubN8lPSHMTHVX4yxtsspKR63o+lUwcrK1a7dpAVa4opKNRk5zjYd6Cc8HAT4+7M4JrEFKbOysHh8O7T4FianWbxnnmOpXlu8Ms7WvnfJ66u8IeriygodJKd45n5gxUFjPuj911zgNQ0Z8XhEUCczUxqmufyOnbwY9XqEwB8sqaEwkJNTo6DAwfthIUpbr8rm+sHZDBzdr7X6ygt1UmcrTKPLdZMeqrnm7TDpRZWr3YVobVrSiks1OTmutqUlmqGDsli5PBs1q31LFTnIzPdQXSV9RNtM5OZ7rnN2lxqZeMa1wfDl+uKKS7U5Od6rsNfdpdSXq6Jb+HdgUd0RAjpOQUVz9PzColqdOq+0L9LG5bNuJUX7h5GjHt8i5hGFBSX8uI9w3j3qVt4cNR1mFTd3TSuwQtOLWK01qkA7t8nb3EWDxyt0i7ZPewUSqlJSqldSqldWdm139Cppt5i9fU7Z0YjNm0r4ZrEFDZvKyHOZsZiUTgcsHVHCXNnNGLzGhuHkuy8837h2b/K88zz4owovtx2gqsSk/hq2wnibRYsVfbR1HQ7P+4pY2DfYK+ynEumZ6aHs3V7KdcPyGDr9lJssSYsFoXdDtt3lvHM9HA+XR3FkSQ7733g3Q2/aipX1fNMmx7Kju1lDB6YxfbtZcTGmjC7a8K2HVF8sroJCxeH88zTxzl82LtP8JrXj2ege6dF8t2OEiYOOcbu7SVExZoxmyvbZGXYmTUlk6kvNsHk5XF5TfWh+mHRVz8cZNiTSxk369/s3JPEM3cMBMBsMnFlm3jmL9/EhDn/IT4qnOHXdvAqT1UNfg7nHNW0JWr8uNRaLwGWAHTp7F/rR2q8zcyxlMod7liqHVus5/FzXKyFZUtdNa+wyMlHq4sJDzMRbzPT+TIrLVu4usTDBwWx8xvvuu5NbRaOHvPMExfjuZniYi389424ijz/W11IeFhl5v9bWcANg4Px86ubT6Y4m4mUlMqinZLqIDbGcx3ZYs289XrjikyrPjlBWJiJOJuZTpf5keD+1B4yMJBd35bBzeefx2YzefRCU9McRMd6fnbGxppZ8rrrZHBRkZM1q0sICzNVjANo0cLCNT2s/PyTnYSE838rRMeayaiyfjJSHTSJ9lw/UTEW5v4jBoDiIicb1xYR4s5TVODk0TvSmfRwIy7rEnDeOU5Kzy0kJrLypH5MRAhZeZ6H3flFlT27Dzf9yAOjermnLeDXpAyOZeUDsHH3ATq1jGXFlp+9zgW+28NJP3mo5P6d4R6eDDSr0q4pkOLNgq66wp/9h+wcTiqnrEyzfEURQwd4nmjNynbgdLpq1ouL8pkwNqRi2rx8J5nuHtTGzSW0b+vdFaqrrwhg/6EyDrnzvL+igOEDPXsqVfM8vzCHO8aFeYxf9lEh4/7oeRXJG1deYeXgITtHkuyUlWk+XFHMoAGeb4zsnMpMCxYVMH5csHtaP/LznJzsZW7aUkq7tt59znXu7MehQw6S3HlWrSghMdHfo01OjrMiz98WFzF2rOv8SV6ek9JSXdFm19fltPEyT/vO/iQfLiflaDnlZZrPVxXRK9FzH8qrsn7eeTWPoWNc26e8TPPk3ekMujGEfkPrpkf6y+E0mkU3Iq5xGBaziQFXt+PL7w96tGkSXrmsPp1bVZxQ/uVwOmFBAUSEuNbX1e2acTC1+hmP8+erPZyVwO3A8+7fK6oMv08ptQzoDuSfPPQ6XxaL4uXnIhkxPh2HAyaMC6FDOyuz5uXSpbM/wwYGsWlbCTPm5qIU9OwewPw5rk9ys1kxZ3okQ8ekoTVcebmVP93i3RvdYlEsnBPN4JuP4XDAHePC6NjOn5nzsrmqsz8jBoawcVsx0+ZkoxRcd00gi+dU3rv68NFyjqaU06dH3d2H12JRPP9sBDeNz8LphPFjg2nfzo+5Lx7nis5+DB4QyJatZcyem49S0OMaf+Y957oiZDYrnpkRzo1js9AaOneyctt4795YFoti9uwwbrslF4cTxo4NpF07P/76YgGdOvsxYEAA27aW8cLzBSgF3btbmf2cqyjv32/nycePYzKB0wmT7w32uLp1vnkemtWYKRPScDhg2JhQWrW18s+Xc2nfycp1icF8t72E1+bloBR07hbAw7NcV8m++KSI3TtLyM91snq563B82ktNaNvR/3SLPC2HUzPvvS9Y/JcbMZsUK7b8zMHUbO4Z0YNfjqTz1fcHGdfvCnp3vgSHw8nx4hKefnMdAE6tmb/8K16bMgqlFHuOpPPhph+9Wj9Vqbq85HVeAZR6D+gLNAHSgZnAR8AHQHMgCbhJa53jviy+GNdVrWLgDq31rjMto0tnfy03Ua+d3ET99OQm6mf27T+nfKO17nqmdg3ew9Fa13Y037+Gthq4t34TCSHqi6+ewxFCXISk4AghDCMFRwhhGCk4QgjDSMERQhhGCo4QwjBScIQQhpGCI4QwjBQcIYRhpOAIIQwjBUcIYRgpOEIIw0jBEUIYpsG/LW6EUq3ZW153N4L2hpf356oXQT52y4wsh3c3ERe+S3o4QgjDSMERQhhGCo4QwjBScIQQhpGCI4QwjBQcIYRhpOAIIQwjBUcIYRgpOEIIw0jBEUIYRgqOEMIwUnCEEIb5XXx580y2bCxh3jN5OB2aP44L5k+TwzzGpyTbefrRXHJznIRFKObMjyTGZiEl2c7Dd2fjcIK9XHPzxBBuujXE6zzrNxTz6PQcHE6YeHMIj9wf4TE+KdnOPVOyyMp20CjCxNJFUTSNc23Ko8l2Jj+SRXKKA6Xgw39H06KZ91/O9LVMmzaW8NzTx3E6YPS4ICbd67nejyXbmfZIPjk5TsIjTLy4IIJYm7lifGGBkyH9MvnDoABmzA73KgvA9o3FzJ+Vg9OhGT42lNsme66ftORy5jyWRV6Og7BwMzPmRxFts7D351JeeiqbokInZjNMuDeCPwz3fh/q0bEFj4zti9lk4qPNP/Hm2q89xg/v0YEHR19HRl4hAB9s+J6PNv8EQGxkKNMnJBLTKASt4YFFH5GafdzrTODDBUcp9QYwDMjQWl/mHhYJvA8kAIeBMVrrXG+W43Bo5k7P5bV3o4iJNXPLiAz6/CGQS6p8rfvl5/IZNiqIEaOD2bmlhIUvHOe5+ZFERZt563/RWP0VxUVORg1Ip09iINEx5tMs8cx5Hpqaw8fLYoi3WbhuSApDBwZxaVtrRZsnZ+UwfnQIt44JYePmE8ycm8vSRVEA3PVgJo89EEH/PoEUFjkxqfNfN76ayeHQzHrqOG+8G0mMzcxNw7Pol+hP6yrbbN6zBYwcFcgfbwpi+5ZSXn6+gHkLKovAgpcKuPoaa02zP688f52Rzfx/xxIda+GuESn0SgyiZZvK+S+ek8OgG0MYMjqUb7ae4LV5Ocx4JZqAQBPTX46iWUs/MtPt3Dkshe69AwkNP/99yKQUT4zvx+RX/kd6bgHvTB3Pl98f4FBqjke79bv2Mu+9DadM/8wdA3lj9U527Eki0N8PrfV5ZzklW53Nqe69CQyqNuwJ4HOtdRvgc/dzr/y0u4xmCRaaNrfgZ1UMHB7Ixk9PeLQ5uK+c7j39Abj6Wv+K8X5WhdXf9e4pK9PoOrirwq7vSrkkwULLFn5YrYrRI4P5eF2xR5tf95bTt1cAAH16BlSM37O3DLsd+vcJBCAk2ERQkPeb2Ncy/bC7nOYJZpq1sGC1KoYMD+Tz9aUebQ7ss9Ojl2ubdb/WyuefllSM++mHcrKznPTs7e9VjpP27C6laQs/4pv74WdV9B8ezKb1nuvn0L5yuvZ0rYMuPQLY9KlrfPNWfjRr6SqUUTEWGjU2k5fj3Y7UsWUsRzPyOJaVj93hZP3Xv9G38yVnNW1LWyQWs4kde5IAOFFaTklZ3d3axWcLjtb6KyCn2uCRwFvux28BN3i7nIw0h0dXO8ZmJiPN4dGm7aV+fLbGVWS+WFtCUaEmL9fVJi3Fzk0D0xl0TRoT7wn1qncDkJLmID6usuMZb7OQkuqZp1MHKytWu3bYFWuKKSjUZOc42HegnPBwE+PuzOCaxBSmzsrB4fD+08nXMqWnObDFVa7nWJuJ9HTPPO06WFi/2lVkPnVvs9xcJ06n5oVnj/PoNM/DZm9kpjuIrpIn2mYmM93zTdrmUisb1xQB8OW6YooLNfm5npl/2V1KebkmvoV3Bx7RESGk5xRUPE/PKySq0amHaf27tGHZjFt54e5hxLjHt4hpREFxKS/eM4x3n7qFB0ddh0nVQTfZzWcLTi1itNapAO7f0d7OsKZdv/r6nfJUBN9sL2Xs4HR27SglOtaM2exqFBtn4f/WxbDyq1hW/beI7ExHDXM8hzw1BKqeZ86MRmzaVsI1iSls3lZCnM2MxaJwOGDrjhLmzmjE5jU2DiXZeef9Qq/y+GSms8jz2LQwvt5Ryh8HZ/L19jJiYk1YzPCft4vpc72/R8HyVs3rxzPQvdMi+W5HCROHHGP39hKiquxDAFkZdmZNyWTqi00weXnMWVN9qH5Y9NUPBxn25FLGzfo3O/ck8cwdAwEwm0xc2Sae+cs3MWHOf4iPCmf4tR28ylOVz57D8ZZSahIwCcAWX/vOFRNrJq3Kp3V6qoOoar2U6BgzLy9pAkBxkZPP15wgNMx0SptL2vrx7c5SEocGnXfueJuZYymVn47HUu3YYj3zxMVaWLbUVWsLi5x8tLqY8DAT8TYznS+z0rKFq4s+fFAQO7/xPNS4GDLF2MykplRus7RUJ9HRnnliYs0sWhIJQFGRk/VrSggNM7H72zK+2VnGf94pprjISXk5BAcpHn7y/Hs80bFmMqrkyUh10KRanqgYC3P/EQO49qGNa4sIce9DRQVOHr0jnUkPN+KyLgHnneOk9NxCYiJDK57HRISQlVfk0Sa/qPIQ88NNP/LAqF7uaQv4NSmDY1n5AGzcfYBOLWNZseVnr3PBhdfDSVdK2QDcvzNqa6i1XqK17qq17toosvaX2bGzlaRDdo4l2Skv06xbdYI+iYEebXJzHDidrk+IpX8r4IYxroKSnmqnpMQ1/Hi+k927yki4xLurL1dd4c/+Q3YOJ5VTVqZZvqKIoQM8C1hWdmWeFxflM2FsSMW0eflOMrNdO//GzSW0r4N7mvpapk6d/ThyyEFykp2yMs3qVSfol+h5PiY3x1mRZ8nfChk11pX3pYWN2LA9hi+2RvPYU2GMHBXoVbEBaN/Zn+TD5aQcLae8TPP5qiJ6JXqun7wq+9A7r+YxdIyrIJSXaZ68O51BN4bQb2iwVzlO+uVwGs2iGxHXOAyL2cSAq9vx5fcHPdo0Ca9cVp/OrSpOKP9yOJ2woAAiQlzvgavbNeNgavUzG+fvQuvhrARuB553/17h7QwtFsUTsyL484QsnA7NyDHBtG7rx6t/zafD5Vb6Jgaya1spC+cdRym4qpuVJ2c3AuDgfjsvP5uNUq5u9YRJIbRp792byWJRvPxcJCPGp+NwwIRxIXRoZ2XWvFy6dPZn2MAgNm0rYcbcXJSCnt0DmD+nMQBms2LO9EiGjklDa7jycit/uiX0DEu88DJZLIrps8O487YcnA4YNTaQNu38WPjXAi7r5Ee/AQHs2FbKKy8UgIKru1vr5NL36fI8NKsxUyak4XDAsDGhtGpr5Z8v59K+k5XrEoP5bnsJr83LQSno3C2Ah2e5esxffFLE7p0l5Oc6Wb3cdag57aUmtO14/ie0HU7NvPe+YPFfbsRsUqzY8jMHU7O5Z0QPfjmSzlffH2Rcvyvo3fkSHA4nx4tLePrNdQA4tWb+8q94bcoolFLsOZLOh5t+9H4luam6vORVl5RS7wF9gSZAOjAT+Aj4AGgOJAE3aa3PWH47Xm7V//k4pv7CnoO2fhdajTdekt37w8C6lO30/jCnLt3/3P0NHeEU3/5zyjda665naueze7/W+uZaRvU3NIgQos5caOdwhBAXMCk4QgjDSMERQhhGCo4QwjBScIQQhpGCI4QwjBQcIYRhpOAIIQwjBUcIYRgpOEIIw0jBEUIYRgqOEMIwUnCEEIbx2W+L16X9x6MZsf6Bho4BwMoBCxs6wil87ZYZQSbfumVKdh3cHL8uBafX3U3NjSY9HCGEYaTgCCEMIwVHCGEYKThCCMNIwRFCGEYKjhDCMFJwhBCGkYIjhDCMFBwhhGGk4AghDCMFRwhhGCk4QgjD+Na39hpIn6YJzLymP2alWPbbD/z9h50e46d3v54ecc0BCLRYaBwQxOXvLAJgVJuO3H9FDwAW7d7Gf/f97HWeLRtLmPdMHk6H5o/jgvnT5DCP8SnJdp5+NJfcHCdhEYo58yOJsVlISbbz8N3ZOJxgL9fcPDGEm24N8ToPwPoNxTw6PQeHEybeHMIj90d4jE9KtnPPlCyysh00ijCxdFEUTeNcu9fRZDuTH8kiOcWBUvDhv6Np0czPqzwbN5Ty9MzjOBww7uZA7r3P83UmJzt45OF8crKdREQoFiyMwBZnBiCheRrt27uyxcWbeeNfjbzKArB9YzHzZ+XgdGiGjw3ltsme6yctuZw5j2WRl+MgLNzMjPlRRNss7P25lJeeyqao0InZDBPujeAPw73fZt2uTOCB/9cfk0nxyac/8O5/PffpQf06MnliXzKzCwH43+pv+eTTHwF4ceZoOrS18eOeYzzx7P+8zlLVBVdwlFJvAMOADK31Zd7Oz6QUs69N5JY1H5BWVMDKkbfxWdIB9uVlV7SZvWNDxeOJHa6kY+MYAML9A/jLldcybMU7aK355IYJfHpkP8fLSs87j8OhmTs9l9fejSIm1swtIzLo84dALmlb+QZ9+bl8ho0KYsToYHZuKWHhC8d5bn4kUdFm3vpfNFZ/RXGRk1ED0umTGEh0jPm885zM9NDUHD5eFkO8zcJ1Q1IYOjCIS9taK9o8OSuH8aNDuHVMCBs3n2Dm3FyWLooC4K4HM3nsgQj69wmksMiJSXkVB4dD89RTx3n3P42w2cwMH5pN4oAA2rat3J2fnX2cUaMDuemmQLZsKeX55wtYsNBVBAICFGvXN/EuRLU8f52Rzfx/xxIda+GuESn0SgyiZZvK9bN4Tg6DbgxhyOhQvtl6gtfm5TDjlWgCAk1MfzmKZi39yEy3c+ewFLr3DiQ0/Py3mcmkeOjuRKbM/IDM7AKWvHQbm3ce4MjRbI92X2z+lflLPj9l+vc+3EmAvx8jBnY+7wy1ZqvzOda/N4FBdTWzK6JsHD6ey9GCfMqdTlYd/JXEFq1rbT/ikktZcXAPAH3iE9h07Aj5pSUcLytl07Ej9G3a0qs8P+0uo1mChabNLfhZFQOHB7Lx0xMebQ7uK6d7T38Arr7Wv2K8n1Vh9Xe9m8vKNLqObquw67tSLkmw0LKFH1arYvTIYD5eV+zR5te95fTtFQBAn54BFeP37C3Dbof+fQIBCAk2ERTk3W63e3c5CQlmWrSwYLUqho8MYP36Eo82+/Y56NXT9Ya/9lorn64//w+BM9mzu5SmLfyIb+6Hn1XRf3gwm9Z7rp9D+8rp2tO1Drr0CGDTp67xzVv50ayl68MkKsZCo8Zm8nK823CXtrFxLC2X1PR87HYnn2/6lV7dat+nq/v2hySKT5R5laE2F1zB0Vp/BeTU1fxig0JILSqoeJ5aVEBsUM1d2viQMJqFhrM1Jck1bXAoqUXHK8anFRUQGxzqVZ6MNAextspPtxibmYw0h0ebtpf68dkaV5H5Ym0JRYWavFxXm7QUOzcNTGfQNWlMvCfU694NQEqag/i4yt5DvM1CSqpnpk4drKxY7XoTrVhTTEGhJjvHwb4D5YSHmxh3ZwbXJKYwdVYODod397tJS3USV2Ud2WLNpKd6vkk7XGph9WpXEVq7ppTCQk1urqtNaalm6JAsRg7PZt1az0J1PjLTHUTHVeaJtpnJrHbPmjaXWtm4pgiAL9cVU1yoyc/1XIe/7C6lvFwT38K7A48mjUPIyKrcpzOzC4hqfOo+3adHW/61YCKzHh9BdBPv9tuzdcEVnDpXQ/e+trfD8FbtWX1oL06ta5sUXevUZ6emqVW1BU15KoJvtpcydnA6u3aUEh1rxmx2NYqNs/B/62JY+VUsq/5bRHamo4Y5nmOmGkJVzzRnRiM2bSvhmsQUNm8rIc5mxmJROBywdUcJc2c0YvMaG4eS7LzzfqF3eWoYVj3PtOmh7NhexuCBWWzfXkZsrAmzuyZs2xHFJ6ubsHBxOM88fZzDh727oVXN68cz0L3TIvluRwkThxxj9/YSoqpsM4CsDDuzpmQy9cUmmLw85qxxv6yWcevXBxjz/5Zwx4Nvsuv7I0x9cLBXyzxbF9w5nLOllJoETAIwR0bU2i6tqBBblV6JLTiU9OKa3xAjWrVn+tbPKp6nFhVwja15xfPY4FC2pyZ5lTsm1kxald5DeqqDqGq9lOgYMy8vcZ2DKC5y8vmaE4SGmU5pc0lbP77dWUri0CCvMsXbzBxLqXxTHku1Y4v1zBQXa2HZ0mgACoucfLS6mPAwE/E2M50vs9KyheuwYfigIHZ+493hjc1m8uhhpaY5iI71fP2xsWaWvO46GVxU5GTN6hLC3Oso1p29RQsL1/Sw8vNPdhISzv+tEB1rJiOlMk9GqoMm0Z7rJyrGwtx/uM79FRc52bi2iBB3nqICJ4/ekc6khxtxWZeA885xUmZ2oUePJapxKFk5nvv08YLKnt3H63/gngl9vF7u2bhoezha6yVa665a667m0OBa232fmUrLsEY0CwnHz2RieKv2fHpk/yntWoU3Isw/gG8yUiqGfXnsML2btiDM6k+Y1Z/eTVvw5bHDXuXu2NlK0iE7x5LslJdp1q06QZ/EQI82uTkOnE7XR9bSvxVwwxhXQUlPtVNS4hp+PN/J7l1lJFzi3dUggKuu8Gf/ITuHk8opK9MsX1HE0AGeRSwruzLTi4vymTA2pGLavHwnmdmuN+TGzSW0b+tdps6d/Th0yEFSkp2yMs2qFSUkJvoupWtsAAAY2ElEQVR7tMnJcVbk+dviIsaOda3DvDwnpaW6os2ur8tp09a7z932nf1JPlxOytFyyss0n68qolei5/rJq7LN3nk1j6FjXAWhvEzz5N3pDLoxhH5Da99Pz8Wv+1JpamuELToci8VE/+vas2Wn5z7duFHlsnp2a82R5Ozqs6kXF20P52w5tGbG1s94e/BozMrEB3t/ZF9eNlO69OSHrDQ+SzoAuE4Wrzr4q8e0+aUlLPxuG6tG3gbAgm+3kV/q3TkBi0XxxKwI/jwhC6dDM3JMMK3b+vHqX/PpcLmVvomB7NpWysJ5x1EKrupm5cnZrk/yg/vtvPxsNkq5utATJoXQpr33BcdiUbz8XCQjxqfjcMCEcSF0aGdl1rxcunT2Z9jAIDZtK2HG3FyUgp7dA5g/pzEAZrNizvRIho5JQ2u48nIrf7rFu/MFFoti9uwwbrslF4cTxo4NpF07P/76YgGdOvsxYEAA27aW8cLzBSgF3btbmf2c608L9u+38+TjxzGZwOmEyfcGe1zdOt88D81qzJQJaTgcMGxMKK3aWvnny7m072TlusRgvttewmvzclAKOncL4OFZrh7qF58UsXtnCfm5TlYvd/VCpr3UhLYd/U+3yNNyODXzl3zGS0+PxmQysfrzHzl8NJs/je/Jb/vT2LLzAKOGdaFnt9Y4HE6OF5Ywd8GaiukXzbmZFk0jCQzwY/nSe3hh8Vq+/u6wV+voJKVrOgD1YUqp94C+QBMgHZiptV56umn8E5rq2KceNCDdmclN1M8sy+n9idy6dNQeeOZGBnrigT83dIRTbFr52Dda665naudbe9pZ0Frf3NAZhBDn56I9hyOE8D1ScIQQhpGCI4QwjBQcIYRhpOAIIQwjBUcIYRgpOEIIw0jBEUIYRgqOEMIwUnCEEIaRgiOEMMxpC45SqrVSqmcNw69TSl1Sf7GEEBejM/Vw5gMFNQw/4R4nhBBn7UwFJ0Fr/UP1gVrrXUBCvSQSQly0znR7itPd79C3bhJyGv5Himk7aeeZGxpgxJIHGjrCKd5L/HtDR/DQzs/7G7/XpZktr2roCB788Y19+XycqYfztVLq/1UfqJS6E/imfiIJIS5WZ+rh/AX4UCl1C5UFpitgBf5Yn8GEEBef0xYcrXU6cK1S6nrg5H+5/ERr/UW9JxNCXHTO6hajWusNwIYzNhRCiNOQP/wTQhhGCo4QwjBScIQQhpGCI4QwjBQcIYRhpOAIIQwjBUcIYRgpOEIIw1xw/1u8PnQdeAWT59+ByWxizdLPef+FjzzGD7s7kRGTB+F0ODlRWMIrd/+DpD3J9BvfizGPjKxo1/Ly5ky+6nEOfH/Yqzx9miYw85r+mJVi2W8/8PcfPL+sN7379fSIaw5AoMVC44AgLn9nEQCj2nTk/it6ALBo9zb+u+9nr7KctH1jMfNn5eB0aIaPDeW2yREe49OSy5nzWBZ5OQ7Cws3MmB9FtM3C3p9LeempbIoKnZjNMOHeCP4wPMTrPJ9vKGHqjHycTs2tNwfz4H2hHuOPJtt5YEoe2TkOIiJMvLYwkrg415dCk4/Z+csjeRxLcaAULHunMc2befdW8LV9yNfynKS01nUyo7qglBoELADMwOta6+erje+N6z48lwPjtNbLz2a+YSpSd1f9axxnMpn4128LeHzAbLKSc1i8cy5zxi8gaU9yRZug0ECKC04A0GN4V4b/eSBThzznMZ+Ey5oz66PHmND6vtNm2buk22nHm5Ri4013ccuaD0grKmDlyNt4YMPH7MvLrrH9xA5X0rFxDI9uWku4fwAfj7yNYSveQWvNJzdMYOhHb3O8rPS0yzzTt8UdDs2465OZ/+9YomMt3DUihacXRdGyjbWizVOT07m2XxBDRofyzdYTfPJ/Bcx4JZqkg+UoBc1a+pGZbufOYSm8+1k8oeG1fyO8nV/ZGfN0vy6d5e81Ic5mJnFIBktejaRdW7+KNn+alM2APwQwbkwwX20u5b33i/j7okgARozOZMoDofTtHUBhkROTCYICa+/sj2va47R5jN6HzqQh8nyml3+jte56xmzn+mLqi1LKDPwNGAx0AG5WSnWo1iwJmAj8p66W265ba1L2p5F2KAN7uZ2N72/h2pGe6+3khgEICPanpiLd7+aebFi2xes8V0TZOHw8l6MF+ZQ7naw6+CuJLVrX2n7EJZey4uAeAPrEJ7Dp2BHyS0s4XlbKpmNH6Nu0pdeZ9uwupWkLP+Kb++FnVfQfHsym9cUebQ7tK6drT9cdS7r0CGDTp67xzVv50aylqxBExVho1NhMXo7TqzzffldGywQLCS0sWK2KP44MYs26Eo82v+2z07uX6+4q1/W0sma9a/xve8tx2KFvb9e4kGDTaYvN2fC1fcjX8lTlMwUH6Abs11of1FqXAcuAkVUbaK0Pu28I5t0eW0WT+Egykyt7D1nJOTSJb3xKuxGTB/LWvkXc9cKtvPrgG6eM7zPmWja8t9nrPLFBIaQWVd5kMbWogNigmg9B4kPCaBYaztaUJNe0waGkFh2vGJ9WVEBscGiN056LzHQH0XGVPZJom5nMdLtHmzaXWtm4pgiAL9cVU1yoyc91eLT5ZXcp5eWa+BbeHb6kpjkrDo8A4mxmUtM8l9Wxgx+rVrveVJ+sKaGwUJOT4+DAQTthYYrb78rm+gEZzJydj8PhXS/f1/YhX8tTlS8VnHjgaJXnye5h50UpNUkptUsptauc2g8plDp1WE3VfuWr67i9zf28/sS7jJ82ymNc+26tKS0u4/DPR0+Z7pzVlKeWpsNbtWf1ob043XlrmBRd69Rnr6ajblVtxd07LZLvdpQwccgxdm8vISrWjNlc2SYrw86sKZlMfbEJJlNNSb3N4/n8menhbN1eyvUDMti6vRRbrAmLRWG3w/adZTwzPZxPV0dxJMnOex8UnzrDc+Br+5Cv5anKlwpOze+X86S1XqK17qq17uqHf63tMpNziGpaWf2bNI0kOyWn1vYbl22h5w2e52H6juvJhmV180mQVlSIrUqvxBYcSnpxYY1tR7Rqz8oDeyqepxYVYAsOq3geGxxKelHN056L6FgzGSmVPYiMVAdNoj3PwUTFWJj7jxjeXB3PpEcbARAS5tq9igqcPHpHOpMebsRlXU53E8mzE2czkVIlT0qqg9gYzzy2WDNvvd6YDeujmfq4a52EhZmIs5npdJkfCS0sWCyKIQMD+eHHcq/y+No+5Gt5qvKlgpMMNKvyvCmQUt8L/e3r/cS3sRGbEI3Fz0LfsT3ZtnKXR5v41rEVj7sP7cKxfakVz5VS9B7do86Odb/PTKVlWCOahYTjZzIxvFV7Pj2y/5R2rcIbEeYfwDcZlavoy2OH6d20BWFWf8Ks/vRu2oIvjx32OlP7zv4kHy4n5Wg55WWaz1cV0SsxyKNNXo4Dp9P1+fDOq3kMHeMqmuVlmifvTmfQjSH0GxrsdRaAK6+wcvCQnSNJdsrKNB+uKGbQAM9Cll0lz4JFBYwfF+ye1o/8PCdZ2a6CtWlLKe3aeneI52v7kK/lqcqXLot/DbRRSrUEjgHjgPH1vVCnw8ni+5cyd+00TGYT6/61gSO/JHP7M2PZu+sA21btYuR9g7myfycc5Q4KcguZN3FxxfSdel9KVnI2aYcy6iSPQ2tmbP2MtwePxqxMfLD3R/blZTOlS09+yErjs6QDgOtk8aqDv3pMm19awsLvtrFq5G0ALPh2G/mlJacs41xZLIqHZjVmyoQ0HA4YNiaUVm2t/PPlXNp3snJdYjDfbS/htXk5KAWduwXw8KwmAHzxSRG7d5aQn+tk9XJXb2vaS01o27H2XufZ5Hn+2QhuGp+F0wnjxwbTvp0fc188zhWd/Rg8IJAtW8uYPTcfpaDHNf7Me851Gd9sVjwzI5wbx2ahNXTuZOW28d4VQl/bh3wtT1W+dll8CK7L3mbgDa31c0qpWcAurfVKpdTVwIdAI6AESNNadzzTfE93WdxoZ7os3hB87ybqp78sbrQzXRYXZ39Z3Jd6OGitVwOrqw2bUeXx17gOtYQQFyBfOocjhLjIScERQhhGCo4QwjBScIQQhpGCI4QwjBQcIYRhpOAIIQwjBUcIYRgpOEIIw0jBEUIYRgqOEMIwUnCEEIaRgiOEMIxPfVv896DtpJ1nbmSwmVzV0BHE74T0cIQQhpGCI4QwjBQcIYRhpOAIIQwjBUcIYRgpOEIIw0jBEUIYRgqOEMIwUnCEEIaRgiOEMIwUHCGEYaTgCCEMI1/eBLoOvILJ8+/AZDaxZunnvP/CRx7jh92dyIjJg3A6nJwoLOGVu/9B0p5k+o3vxZhHRla0a3l5cyZf9TgHvj98UeXxxUyS58LKc5LSWtfJjM5poUoNAhYAZuB1rfXz1cb7A28DVwHZwFit9WGlVGNgOXA18KbW+r6zWV6YitTdVf8ax5lMJv712wIeHzCbrOQcFu+cy5zxC0jak1zRJig0kOKCEwD0GN6V4X8eyNQhz3nMJ+Gy5sz66DEmtD6rSLXytTy+mEny+F6ez/Tyb7TWXc+Y7VxfjLeUUmbgb8BgoANws1KqQ7VmdwK5WuvWwCvAC+7hJcB04JG6ytOuW2tS9qeRdigDe7mdje9v4dqRnuvt5IYBCAj2p6Yi3e/mnmxYtuWiy+OLmSTPhZWnqoY4pOoG7NdaHwRQSi0DRgK/VGkzEnja/Xg5sFgppbTWRcBmpVTrugrTJD6SzOTsiudZyTm0797mlHYjJg9k1EPDsFgtPNb/mVPG9xlzLTNvmHfR5fHFTJLnwspTVUOcNI4HjlZ5nuweVmMbrbUdyAcan8tClFKTlFK7lFK7yik9TbtTh9VU7Ve+uo7b29zP60+8y/hpozzGte/WmtLiMg7/fPSU6c6Vr+XxxUyS58LKU1VDFJwaVgfV18bZtDktrfUSrXVXrXVXP/xrbZeZnENU08pa1qRpJNkpObW237hsCz1v6OYxrO+4nmxYtvlc4l0weXwxk+S5sPJU1RAFJxloVuV5UyCltjZKKQsQDtS+xrzw29f7iW9jIzYhGoufhb5je7Jt5S6PNvGtYysedx/ahWP7UiueK6XoPbpHnR3r+loeX8wkeS6sPFU1xDmcr4E2SqmWwDFgHDC+WpuVwO3ANmA08IWup8tpToeTxfcvZe7aaZjMJtb9awNHfknm9mfGsnfXAbat2sXI+wZzZf9OOModFOQWMm/i4orpO/W+lKzkbNIOZVyUeXwxk+S5sPJU1VCXxYcA83FdFn9Da/2cUmoWsEtrvVIpFQC8A1yJq2czrspJ5sNAGGAF8oABWutfalhMhdNdFhdCeO9sL4s3yB/+aa1XA6urDZtR5XEJcFMt0ybUazghRL2RrzYIIQwjBUcIYRgpOEIIw0jBEUIYRgqOEMIwUnCEEIaRgiOEMIwUHCGEYaTgCCEMIwVHCGEYKThCCMNIwRFCGEYKjhDCMFJwhBCGkYIjhDCMFBwhhGGk4AghDCMFRwhhGCk4QgjDSMERQhhGCo4QwjBScIQQhpGCI4QwjBQcIYRhpOAIIQwjBUcIYZgG+Ve/vqbrwCuYPP8OTGYTa5Z+zvsvfOQxftjdiYyYPAinw8mJwhJeufsfJO1Jpt/4Xox5ZGRFu5aXN2fyVY9z4PvDF1UeX8wkeS6sPCcprXWdzKjGmSs1CFgAmIHXtdbPVxvvD7wNXAVkA2O11ofd454E7gQcwANa63Xu4W8Aw4AMrfVlZ5MjTEXq7qp/jeNMJhP/+m0Bjw+YTVZyDot3zmXO+AUk7UmuaBMUGkhxwQkAegzvyvA/D2TqkOc85pNwWXNmffQYE1rfdzaRauVreXwxk+TxvTyf6eXfaK27njHbub6Ys6WUMgN/AwYDHYCblVIdqjW7E8jVWrcGXgFecE/bARgHdAQGAa+65wfwpntYnWjXrTUp+9NIO5SBvdzOxve3cO1Iz/V2csMABAT7U1OR7ndzTzYs23LR5fHFTJLnwspTVX0eUnUD9mutDwIopZYBI4FfqrQZCTztfrwcWKyUUu7hy7TWpcAhpdR+9/y2aa2/Ukol1FXIJvGRZCZnVzzPSs6hffc2p7QbMXkgox4ahsVq4bH+z5wyvs+Ya5l5w7yLLo8vZpI8F1aequrzpHE8cLTK82T3sBrbaK3tQD7Q+CynrRNKnTqspmq/8tV13N7mfl5/4l3GTxvlMa59t9aUFpdx+Oejp0x3oefxxUyS58LKU1V9FpwaXjbVX3Vtbc5m2tMvXKlJSqldSqld5ZTW2i4zOYeopo0rnjdpGkl2Sk6t7Tcu20LPG7p5DOs7ricblm0+l3gXTB5fzCR5Lqw8VdVnwUkGmlV53hRIqa2NUsoChAM5ZzntaWmtl2itu2qtu/rhX2u7377eT3wbG7EJ0Vj8LPQd25NtK3d5tIlvHVvxuPvQLhzbl1rxXClF79E96uxY19fy+GImyXNh5amqPs/hfA20UUq1BI7hOgk8vlqblcDtwDZgNPCF1lorpVYC/1FKvQzEAW2AnfUR0ulwsvj+pcxdOw2T2cS6f23gyC/J3P7MWPbuOsC2VbsYed9gruzfCUe5g4LcQuZNXFwxfafel5KVnE3aoYyLMo8vZpI8F1aequr7svgQYD6uy+JvaK2fU0rNAnZprVcqpQKAd4ArcfVsxlU5yTwN+BNgB/6itV7jHv4e0BdoAqQDM7XWS0+X43SXxYUQ3jvby+L1WnB8hRQcIepXg/8djhBCVCcFRwhhGCk4QgjDSMERQhhGCo4QwjBScIQQhpGCI4QwjBQcIYRhpOAIIQwjBUcIYRgpOEIIw0jBEUIYRgqOEMIwv4tviyulMoEjdTCrJkBWHcynrkie0/O1POB7meoqTwutddSZGv0uCk5dUUrtOpuv4BtF8pyer+UB38tkdB45pBJCGEYKjhDCMFJwzs2Shg5QjeQ5PV/LA76XydA8cg5HCGEY6eEIIQzzuy04SqlBSqnflFL7lVJP1DDeXyn1vnv8jqr/Xlgp9aR7+G9KqYFVhr+hlMpQSv3UENmUUo2VUhuUUoVKqcXVp6srZ5Gvt1LqW6WUXSk1ur5ynCZfnWyHus6glIpUSn2qlNrn/t3Il3Iol4Xu7fqDUqpLnQfSWv/ufnD925oDQCvACnwPdKjWZjLwmvvxOOB99+MO7vb+QEv3fMzucb2BLsBPDZQtGOgF3AMsbsB1lwBcDrwNjG6A7ev1dqiPDMA84An34yeAF3wpBzAEWIPrP99eA+yo6zy/1x5ON2C/1vqg1roMWAaMrNZmJPCW+/FyoL9SSrmHL9Nal2qtDwH73fNDa/0Vrv+v1SDZtNZFWuvNQImXGbzKp7U+rLX+AXDWY45a1dF2qI8MVbfbW8ANPpZjJPC2dtkORCilbHWZ5/dacOKBqv+lPdk9rMY2Wms7kA80PstpGyqbEer79V/MYrTWqQDu39E+lqPet+3vteCoGoZVv1xXW5uzmdYb3mQzQkMuW9Svet+2v9eCkww0q/K8KZBSWxullAUIx9U1PZtpGyqbEer79V/M0k8eorh/1/0/7/YuR71v299rwfkaaKOUaqmUsuI68bqyWpuVwO3ux6OBL7TrzNpKYJz7SlFLoA2w00eyGeFs8omaVd1utwMrfCzHSmCC+2rVNUD+yUOvOtNQZ/Eb+gfXGfm9uK64THMPmwWMcD8OAP4P10nhnUCrKtNOc0/3GzC4yvD3gFSgHNenxZ0NkO0wrt5OoTtDh/PJ4GW+q93LLgKygZ8N3rZ1sh3qOgOu82yfA/vcvyN9KQeuQ6q/ubfrj0DXus4jf2kshDDM7/WQSgjRAKTgCCEMIwVHCGEYKThCCMNIwRFCGEYKjhDCMFJwhBCGsTR0AHFxUUpNB27B9SXALOAbXF8unYTrdhb7gdu01sVKqTeBE0B7oAVwB66/fO2B69YIE93zLMT1B2l/AHKBqbhusdAc+IvWeqX7nkDv4LpFB8B9Wuut9ftqxbmSHo6oM0qprsAo4ErgRuDkvx/5n9b6aq11Z2APrr92PakR0A94CFgFvAJ0BDoppa5wtwkGNmqtrwIKgGeBROCPuP7CGVzfB0rUWncBxgIL6+VFCq9ID0fUpV7ACq31CQCl1Cr38MuUUs8CEUAIsK7KNKu01lop9SOQrrX+0T3tz7hu5LUbKAPWutv/CJRqrcvd0yS4h/sBi91FygG0rZ+XKLwhBUfUpZpubwDwJnCD1vp7pdREoG+VcaXu384qj08+P7l/luvK7+BUtNNaO93flgdXDykd6Iyr516fNyET50kOqURd2gwMV0oFKKVCgKHu4aFAqlLKD9f5nfoQDqRqrZ3AbbhuhSp8jPRwRJ3RWn+tlFqJ6z7HR4BduE4YTwd2uIf9iKsA1bVXgf8qpW4CNuD6prrwMfJtcVGnlFIhWutCpVQQ8BUwSWv9bUPnEr5Bejiiri1RSnXAdc+et6TYiKqkhyOEMIycNBZCGEYKjhDCMFJwhBCGkYIjhDCMFBwhhGGk4AghDPP/AUiW36SaXh7hAAAAAElFTkSuQmCC\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "print([x for x in results.mean_test_score])\n", "print()\n", "\n", "print(results.mean_test_score.shape)\n", "\n", "scores = np.array(results.mean_test_score).reshape(6, 6)\n", "\n", "# plot the mean cross-validation scores\n", "mglearn.tools.heatmap(\n", " scores, \n", " xlabel='gamma', \n", " xticklabels=param_grid['gamma'],\n", " ylabel='C', \n", " yticklabels=param_grid['C'], \n", " cmap=\"viridis\"\n", ")" ] }, { "cell_type": "code", "execution_count": 35, "metadata": { "collapsed": false, "scrolled": false }, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 35, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "fig, axes = plt.subplots(1, 3, figsize=(20, 5))\n", "\n", "param_grid_linear = {'C': np.linspace(1, 2, 6), 'gamma': np.linspace(1, 2, 6)}\n", "param_grid_one_log = {'C': np.linspace(1, 2, 6), 'gamma': np.logspace(-3, 2, 6)}\n", "param_grid_range = {'C': np.logspace(-3, 2, 6), 'gamma': np.logspace(-7, -2, 6)}\n", "\n", "for param_grid, ax in zip([param_grid_linear, param_grid_one_log, param_grid_range], axes):\n", " grid_search = GridSearchCV(SVC(), param_grid, n_jobs=-1, cv=5)\n", " grid_search.fit(X_train, y_train)\n", " scores = grid_search.cv_results_['mean_test_score'].reshape(6, 6)\n", "\n", " # plot the mean cross-validation scores\n", " scores_image = mglearn.tools.heatmap(\n", " scores, xlabel='gamma', ylabel='C', xticklabels=param_grid['gamma'],\n", " yticklabels=param_grid['C'], cmap=\"viridis\", ax=ax)\n", "\n", "plt.colorbar(scores_image, ax=axes.tolist())" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 첫번째 그래프\n", " - 매개변수 C와 gamma의 스케일과 범위를 잘못 택하였음을 나타냄\n", " - 처음에는 더 넓은 범위의 C와 gamma 스케일 및 범위를 택하고, 이후 정확도에 따라 매개변수를 바꾸어 선택할 필요있음

\n", "\n", "- 두번째 그래프\n", " - 세로 띠 형태를 보이므로 gamma 매개변수만 정확도에 영향을 주고 있음을 나타냄\n", " - 두 가지 케이스\n", " - C 매개변수는 전혀 중요한 역할을 못할 수 있음\n", " - C 매개변수의 스케일과 범위를 잘못 선택하였을 수 있음

\n", " \n", "- 세번째 그래프\n", " - 그래프 왼쪽 아래에서는 변화가 없음\n", " - 다시 매개변수 스케일과 범위를 선택하는 과정에서 현재 선택한 것 보다 더 높은 gamma 및 C 값을 선택할 필요성 있음" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Grid search with asymmetric parameters\n", "- SVC\n", " - kernel='rbf' 일 때\n", " - C 매개변수, gamma 매개변수 동시 사용\n", " - kernel='linear' 일 때\n", " - C 매개변수만 사용\n", " - gamma 매개변수는 사용하지 않음" ] }, { "cell_type": "code", "execution_count": 36, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "List of grids:\n", "[{'kernel': ['rbf'], 'C': [0.001, 0.01, 0.1, 1, 10, 100], 'gamma': [0.001, 0.01, 0.1, 1, 10, 100]}, {'kernel': ['linear'], 'C': [0.001, 0.01, 0.1, 1, 10, 100]}]\n" ] } ], "source": [ "param_grid = [{'kernel': ['rbf'],\n", " 'C': [0.001, 0.01, 0.1, 1, 10, 100],\n", " 'gamma': [0.001, 0.01, 0.1, 1, 10, 100]},\n", " {'kernel': ['linear'],\n", " 'C': [0.001, 0.01, 0.1, 1, 10, 100]}]\n", "print(\"List of grids:\\n{}\".format(param_grid))" ] }, { "cell_type": "code", "execution_count": 37, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Best parameters: {'C': 100, 'gamma': 0.01, 'kernel': 'rbf'}\n", "Best cross-validation score: 0.97\n" ] } ], "source": [ "grid_search = GridSearchCV(SVC(), param_grid, n_jobs=-1, cv=5, return_train_score=True)\n", "\n", "grid_search.fit(X_train, y_train)\n", "\n", "print(\"Best parameters: {}\".format(grid_search.best_params_))\n", "print(\"Best cross-validation score: {:.2f}\".format(grid_search.best_score_))" ] }, { "cell_type": "code", "execution_count": 38, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
rank_test_scoreparamsmean_test_scorestd_test_scoremean_train_scorestd_train_score
391{'C': 1, 'kernel': 'linear'}0.97321430.02239950.98436840.0054851
311{'C': 100, 'gamma': 0.01, 'kernel': 'rbf'}0.97321430.02239950.98436840.0054851
203{'C': 1, 'gamma': 0.1, 'kernel': 'rbf'}0.96428570.03407690.97765010.0100842
303{'C': 100, 'gamma': 0.001, 'kernel': 'rbf'}0.96428570.03407690.97767570.0070319
263{'C': 10, 'gamma': 0.1, 'kernel': 'rbf'}0.96428570.01776870.98656620.0083555
253{'C': 10, 'gamma': 0.01, 'kernel': 'rbf'}0.96428570.03407690.97767570.0070319
403{'C': 10, 'kernel': 'linear'}0.96428570.03383870.98881340.0070280
413{'C': 100, 'kernel': 'linear'}0.96428570.03383870.99325790.0055055
329{'C': 100, 'gamma': 0.1, 'kernel': 'rbf'}0.95535710.04956620.98878840.0099945
159{'C': 0.1, 'gamma': 1, 'kernel': 'rbf'}0.95535710.04010430.95984570.0113043
3811{'C': 0.1, 'kernel': 'linear'}0.94642860.03321850.96653850.0121316
2111{'C': 1, 'gamma': 1, 'kernel': 'rbf'}0.94642860.03247990.98439280.0088664
3311{'C': 100, 'gamma': 1, 'kernel': 'rbf'}0.94642860.05192271.00000000.0000000
2714{'C': 10, 'gamma': 1, 'kernel': 'rbf'}0.93750000.04525280.98659060.0083624
2415{'C': 10, 'gamma': 0.001, 'kernel': 'rbf'}0.92857140.04298270.93532470.0078884
1915{'C': 1, 'gamma': 0.01, 'kernel': 'rbf'}0.92857140.04298270.93532470.0078884
2217{'C': 1, 'gamma': 10, 'kernel': 'rbf'}0.91964290.06479061.00000000.0000000
1417{'C': 0.1, 'gamma': 0.1, 'kernel': 'rbf'}0.91964290.04401020.91974420.0212659
3417{'C': 100, 'gamma': 10, 'kernel': 'rbf'}0.91964290.06479061.00000000.0000000
2817{'C': 10, 'gamma': 10, 'kernel': 'rbf'}0.91964290.06479061.00000000.0000000
3721{'C': 0.01, 'kernel': 'linear'}0.84821430.05477830.85506940.0503114
1822{'C': 1, 'gamma': 0.001, 'kernel': 'rbf'}0.69642860.01319630.69642370.0032580
1322{'C': 0.1, 'gamma': 0.01, 'kernel': 'rbf'}0.69642860.01319630.69642370.0032580
3524{'C': 100, 'gamma': 100, 'kernel': 'rbf'}0.56250000.04966781.00000000.0000000
2924{'C': 10, 'gamma': 100, 'kernel': 'rbf'}0.56250000.04966781.00000000.0000000
2326{'C': 1, 'gamma': 100, 'kernel': 'rbf'}0.50892860.04643501.00000000.0000000
3627{'C': 0.001, 'kernel': 'linear'}0.36607140.01137080.36607870.0028518
227{'C': 0.001, 'gamma': 0.1, 'kernel': 'rbf'}0.36607140.01137080.36607870.0028518
327{'C': 0.001, 'gamma': 1, 'kernel': 'rbf'}0.36607140.01137080.36607870.0028518
127{'C': 0.001, 'gamma': 0.01, 'kernel': 'rbf'}0.36607140.01137080.36607870.0028518
827{'C': 0.01, 'gamma': 0.1, 'kernel': 'rbf'}0.36607140.01137080.36607870.0028518
527{'C': 0.001, 'gamma': 100, 'kernel': 'rbf'}0.36607140.01137080.36607870.0028518
727{'C': 0.01, 'gamma': 0.01, 'kernel': 'rbf'}0.36607140.01137080.36607870.0028518
627{'C': 0.01, 'gamma': 0.001, 'kernel': 'rbf'}0.36607140.01137080.36607870.0028518
1727{'C': 0.1, 'gamma': 100, 'kernel': 'rbf'}0.36607140.01137080.36607870.0028518
1627{'C': 0.1, 'gamma': 10, 'kernel': 'rbf'}0.36607140.01137080.38170970.0213374
1227{'C': 0.1, 'gamma': 0.001, 'kernel': 'rbf'}0.36607140.01137080.36607870.0028518
1127{'C': 0.01, 'gamma': 100, 'kernel': 'rbf'}0.36607140.01137080.36607870.0028518
1027{'C': 0.01, 'gamma': 10, 'kernel': 'rbf'}0.36607140.01137080.36607870.0028518
927{'C': 0.01, 'gamma': 1, 'kernel': 'rbf'}0.36607140.01137080.36607870.0028518
427{'C': 0.001, 'gamma': 10, 'kernel': 'rbf'}0.36607140.01137080.36607870.0028518
027{'C': 0.001, 'gamma': 0.001, 'kernel': 'rbf'}0.36607140.01137080.36607870.0028518
\n", "
" ], "text/plain": [ " rank_test_score params \\\n", "39 1 {'C': 1, 'kernel': 'linear'} \n", "31 1 {'C': 100, 'gamma': 0.01, 'kernel': 'rbf'} \n", "20 3 {'C': 1, 'gamma': 0.1, 'kernel': 'rbf'} \n", "30 3 {'C': 100, 'gamma': 0.001, 'kernel': 'rbf'} \n", "26 3 {'C': 10, 'gamma': 0.1, 'kernel': 'rbf'} \n", "25 3 {'C': 10, 'gamma': 0.01, 'kernel': 'rbf'} \n", "40 3 {'C': 10, 'kernel': 'linear'} \n", "41 3 {'C': 100, 'kernel': 'linear'} \n", "32 9 {'C': 100, 'gamma': 0.1, 'kernel': 'rbf'} \n", "15 9 {'C': 0.1, 'gamma': 1, 'kernel': 'rbf'} \n", "38 11 {'C': 0.1, 'kernel': 'linear'} \n", "21 11 {'C': 1, 'gamma': 1, 'kernel': 'rbf'} \n", "33 11 {'C': 100, 'gamma': 1, 'kernel': 'rbf'} \n", "27 14 {'C': 10, 'gamma': 1, 'kernel': 'rbf'} \n", "24 15 {'C': 10, 'gamma': 0.001, 'kernel': 'rbf'} \n", "19 15 {'C': 1, 'gamma': 0.01, 'kernel': 'rbf'} \n", "22 17 {'C': 1, 'gamma': 10, 'kernel': 'rbf'} \n", "14 17 {'C': 0.1, 'gamma': 0.1, 'kernel': 'rbf'} \n", "34 17 {'C': 100, 'gamma': 10, 'kernel': 'rbf'} \n", "28 17 {'C': 10, 'gamma': 10, 'kernel': 'rbf'} \n", "37 21 {'C': 0.01, 'kernel': 'linear'} \n", "18 22 {'C': 1, 'gamma': 0.001, 'kernel': 'rbf'} \n", "13 22 {'C': 0.1, 'gamma': 0.01, 'kernel': 'rbf'} \n", "35 24 {'C': 100, 'gamma': 100, 'kernel': 'rbf'} \n", "29 24 {'C': 10, 'gamma': 100, 'kernel': 'rbf'} \n", "23 26 {'C': 1, 'gamma': 100, 'kernel': 'rbf'} \n", "36 27 {'C': 0.001, 'kernel': 'linear'} \n", "2 27 {'C': 0.001, 'gamma': 0.1, 'kernel': 'rbf'} \n", "3 27 {'C': 0.001, 'gamma': 1, 'kernel': 'rbf'} \n", "1 27 {'C': 0.001, 'gamma': 0.01, 'kernel': 'rbf'} \n", "8 27 {'C': 0.01, 'gamma': 0.1, 'kernel': 'rbf'} \n", "5 27 {'C': 0.001, 'gamma': 100, 'kernel': 'rbf'} \n", "7 27 {'C': 0.01, 'gamma': 0.01, 'kernel': 'rbf'} \n", "6 27 {'C': 0.01, 'gamma': 0.001, 'kernel': 'rbf'} \n", "17 27 {'C': 0.1, 'gamma': 100, 'kernel': 'rbf'} \n", "16 27 {'C': 0.1, 'gamma': 10, 'kernel': 'rbf'} \n", "12 27 {'C': 0.1, 'gamma': 0.001, 'kernel': 'rbf'} \n", "11 27 {'C': 0.01, 'gamma': 100, 'kernel': 'rbf'} \n", "10 27 {'C': 0.01, 'gamma': 10, 'kernel': 'rbf'} \n", "9 27 {'C': 0.01, 'gamma': 1, 'kernel': 'rbf'} \n", "4 27 {'C': 0.001, 'gamma': 10, 'kernel': 'rbf'} \n", "0 27 {'C': 0.001, 'gamma': 0.001, 'kernel': 'rbf'} \n", "\n", " mean_test_score std_test_score mean_train_score std_train_score \n", "39 0.9732143 0.0223995 0.9843684 0.0054851 \n", "31 0.9732143 0.0223995 0.9843684 0.0054851 \n", "20 0.9642857 0.0340769 0.9776501 0.0100842 \n", "30 0.9642857 0.0340769 0.9776757 0.0070319 \n", "26 0.9642857 0.0177687 0.9865662 0.0083555 \n", "25 0.9642857 0.0340769 0.9776757 0.0070319 \n", "40 0.9642857 0.0338387 0.9888134 0.0070280 \n", "41 0.9642857 0.0338387 0.9932579 0.0055055 \n", "32 0.9553571 0.0495662 0.9887884 0.0099945 \n", "15 0.9553571 0.0401043 0.9598457 0.0113043 \n", "38 0.9464286 0.0332185 0.9665385 0.0121316 \n", "21 0.9464286 0.0324799 0.9843928 0.0088664 \n", "33 0.9464286 0.0519227 1.0000000 0.0000000 \n", "27 0.9375000 0.0452528 0.9865906 0.0083624 \n", "24 0.9285714 0.0429827 0.9353247 0.0078884 \n", "19 0.9285714 0.0429827 0.9353247 0.0078884 \n", "22 0.9196429 0.0647906 1.0000000 0.0000000 \n", "14 0.9196429 0.0440102 0.9197442 0.0212659 \n", "34 0.9196429 0.0647906 1.0000000 0.0000000 \n", "28 0.9196429 0.0647906 1.0000000 0.0000000 \n", "37 0.8482143 0.0547783 0.8550694 0.0503114 \n", "18 0.6964286 0.0131963 0.6964237 0.0032580 \n", "13 0.6964286 0.0131963 0.6964237 0.0032580 \n", "35 0.5625000 0.0496678 1.0000000 0.0000000 \n", "29 0.5625000 0.0496678 1.0000000 0.0000000 \n", "23 0.5089286 0.0464350 1.0000000 0.0000000 \n", "36 0.3660714 0.0113708 0.3660787 0.0028518 \n", "2 0.3660714 0.0113708 0.3660787 0.0028518 \n", "3 0.3660714 0.0113708 0.3660787 0.0028518 \n", "1 0.3660714 0.0113708 0.3660787 0.0028518 \n", "8 0.3660714 0.0113708 0.3660787 0.0028518 \n", "5 0.3660714 0.0113708 0.3660787 0.0028518 \n", "7 0.3660714 0.0113708 0.3660787 0.0028518 \n", "6 0.3660714 0.0113708 0.3660787 0.0028518 \n", "17 0.3660714 0.0113708 0.3660787 0.0028518 \n", "16 0.3660714 0.0113708 0.3817097 0.0213374 \n", "12 0.3660714 0.0113708 0.3660787 0.0028518 \n", "11 0.3660714 0.0113708 0.3660787 0.0028518 \n", "10 0.3660714 0.0113708 0.3660787 0.0028518 \n", "9 0.3660714 0.0113708 0.3660787 0.0028518 \n", "4 0.3660714 0.0113708 0.3660787 0.0028518 \n", "0 0.3660714 0.0113708 0.3660787 0.0028518 " ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "results = pd.DataFrame(grid_search.cv_results_)\n", "\n", "results2 = results[['rank_test_score', 'params', 'mean_test_score', 'std_test_score', \n", " 'mean_train_score', 'std_train_score']]\n", "results2 = results2.sort_values('rank_test_score')\n", "display(results2)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Using different cross-validation strategies with grid-search\n", "- GridSearchCV의 인자인 cv에 스스로 정의한 다음과 같은 교차 검증 분할기 제공\n", " - KFold(n_splits=5) \n", " - StratifiedKFold(n_splits=5)\n", " - ShuffleSplit(n_splits=5)\n", " - StratifiedShuffleSplit(n_splits=5)\n", "- n_splits=1을 사용하는 경우\n", " - 훈련 데이터 세트와 검증 데이터 세트로의 분리를 한번 만 수행\n", " - 데이터셋이 매우 크거나 모델 구축 시간이 오래 걸릴 때 사용하는 전략" ] }, { "cell_type": "code", "execution_count": 39, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Best parameters: {'C': 10, 'gamma': 0.1, 'kernel': 'rbf'}\n", "Best cross-validation score: 0.92\n" ] } ], "source": [ "from sklearn.model_selection import StratifiedShuffleSplit\n", "\n", "shuffle_split = StratifiedShuffleSplit(test_size=.8, n_splits=1)\n", "grid_search = GridSearchCV(SVC(), param_grid, cv=shuffle_split, return_train_score=True)\n", "\n", "grid_search.fit(X_train, y_train)\n", "\n", "print(\"Best parameters: {}\".format(grid_search.best_params_))\n", "print(\"Best cross-validation score: {:.2f}\".format(grid_search.best_score_))" ] }, { "cell_type": "code", "execution_count": 40, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
rank_test_scoreparamsmean_test_scorestd_test_scoremean_train_scorestd_train_score
411{'C': 100, 'kernel': 'linear'}0.92222220.00000001.00000000.0000000
391{'C': 1, 'kernel': 'linear'}0.92222220.00000001.00000000.0000000
321{'C': 100, 'gamma': 0.1, 'kernel': 'rbf'}0.92222220.00000001.00000000.0000000
311{'C': 100, 'gamma': 0.01, 'kernel': 'rbf'}0.92222220.00000001.00000000.0000000
261{'C': 10, 'gamma': 0.1, 'kernel': 'rbf'}0.92222220.00000001.00000000.0000000
401{'C': 10, 'kernel': 'linear'}0.92222220.00000001.00000000.0000000
387{'C': 0.1, 'kernel': 'linear'}0.91111110.00000001.00000000.0000000
338{'C': 100, 'gamma': 1, 'kernel': 'rbf'}0.90000000.00000001.00000000.0000000
308{'C': 100, 'gamma': 0.001, 'kernel': 'rbf'}0.90000000.00000001.00000000.0000000
278{'C': 10, 'gamma': 1, 'kernel': 'rbf'}0.90000000.00000001.00000000.0000000
258{'C': 10, 'gamma': 0.01, 'kernel': 'rbf'}0.90000000.00000001.00000000.0000000
2012{'C': 1, 'gamma': 0.1, 'kernel': 'rbf'}0.88888890.00000001.00000000.0000000
2113{'C': 1, 'gamma': 1, 'kernel': 'rbf'}0.87777780.00000001.00000000.0000000
2814{'C': 10, 'gamma': 10, 'kernel': 'rbf'}0.73333330.00000001.00000000.0000000
2214{'C': 1, 'gamma': 10, 'kernel': 'rbf'}0.73333330.00000001.00000000.0000000
3414{'C': 100, 'gamma': 10, 'kernel': 'rbf'}0.73333330.00000001.00000000.0000000
1417{'C': 0.1, 'gamma': 0.1, 'kernel': 'rbf'}0.70000000.00000000.68181820.0000000
3717{'C': 0.01, 'kernel': 'linear'}0.70000000.00000000.68181820.0000000
1917{'C': 1, 'gamma': 0.01, 'kernel': 'rbf'}0.70000000.00000000.68181820.0000000
2417{'C': 10, 'gamma': 0.001, 'kernel': 'rbf'}0.70000000.00000000.68181820.0000000
1521{'C': 0.1, 'gamma': 1, 'kernel': 'rbf'}0.50000000.00000000.59090910.0000000
3522{'C': 100, 'gamma': 100, 'kernel': 'rbf'}0.44444440.00000001.00000000.0000000
2922{'C': 10, 'gamma': 100, 'kernel': 'rbf'}0.44444440.00000001.00000000.0000000
2324{'C': 1, 'gamma': 100, 'kernel': 'rbf'}0.42222220.00000001.00000000.0000000
425{'C': 0.001, 'gamma': 10, 'kernel': 'rbf'}0.36666670.00000000.36363640.0000000
325{'C': 0.001, 'gamma': 1, 'kernel': 'rbf'}0.36666670.00000000.36363640.0000000
1225{'C': 0.1, 'gamma': 0.001, 'kernel': 'rbf'}0.36666670.00000000.36363640.0000000
225{'C': 0.001, 'gamma': 0.1, 'kernel': 'rbf'}0.36666670.00000000.36363640.0000000
125{'C': 0.001, 'gamma': 0.01, 'kernel': 'rbf'}0.36666670.00000000.36363640.0000000
3625{'C': 0.001, 'kernel': 'linear'}0.36666670.00000000.36363640.0000000
525{'C': 0.001, 'gamma': 100, 'kernel': 'rbf'}0.36666670.00000000.36363640.0000000
825{'C': 0.01, 'gamma': 0.1, 'kernel': 'rbf'}0.36666670.00000000.36363640.0000000
725{'C': 0.01, 'gamma': 0.01, 'kernel': 'rbf'}0.36666670.00000000.36363640.0000000
1125{'C': 0.01, 'gamma': 100, 'kernel': 'rbf'}0.36666670.00000000.36363640.0000000
925{'C': 0.01, 'gamma': 1, 'kernel': 'rbf'}0.36666670.00000000.36363640.0000000
1025{'C': 0.01, 'gamma': 10, 'kernel': 'rbf'}0.36666670.00000000.36363640.0000000
1825{'C': 1, 'gamma': 0.001, 'kernel': 'rbf'}0.36666670.00000000.36363640.0000000
1725{'C': 0.1, 'gamma': 100, 'kernel': 'rbf'}0.36666670.00000000.36363640.0000000
1625{'C': 0.1, 'gamma': 10, 'kernel': 'rbf'}0.36666670.00000000.36363640.0000000
1325{'C': 0.1, 'gamma': 0.01, 'kernel': 'rbf'}0.36666670.00000000.36363640.0000000
625{'C': 0.01, 'gamma': 0.001, 'kernel': 'rbf'}0.36666670.00000000.36363640.0000000
025{'C': 0.001, 'gamma': 0.001, 'kernel': 'rbf'}0.36666670.00000000.36363640.0000000
\n", "
" ], "text/plain": [ " rank_test_score params \\\n", "41 1 {'C': 100, 'kernel': 'linear'} \n", "39 1 {'C': 1, 'kernel': 'linear'} \n", "32 1 {'C': 100, 'gamma': 0.1, 'kernel': 'rbf'} \n", "31 1 {'C': 100, 'gamma': 0.01, 'kernel': 'rbf'} \n", "26 1 {'C': 10, 'gamma': 0.1, 'kernel': 'rbf'} \n", "40 1 {'C': 10, 'kernel': 'linear'} \n", "38 7 {'C': 0.1, 'kernel': 'linear'} \n", "33 8 {'C': 100, 'gamma': 1, 'kernel': 'rbf'} \n", "30 8 {'C': 100, 'gamma': 0.001, 'kernel': 'rbf'} \n", "27 8 {'C': 10, 'gamma': 1, 'kernel': 'rbf'} \n", "25 8 {'C': 10, 'gamma': 0.01, 'kernel': 'rbf'} \n", "20 12 {'C': 1, 'gamma': 0.1, 'kernel': 'rbf'} \n", "21 13 {'C': 1, 'gamma': 1, 'kernel': 'rbf'} \n", "28 14 {'C': 10, 'gamma': 10, 'kernel': 'rbf'} \n", "22 14 {'C': 1, 'gamma': 10, 'kernel': 'rbf'} \n", "34 14 {'C': 100, 'gamma': 10, 'kernel': 'rbf'} \n", "14 17 {'C': 0.1, 'gamma': 0.1, 'kernel': 'rbf'} \n", "37 17 {'C': 0.01, 'kernel': 'linear'} \n", "19 17 {'C': 1, 'gamma': 0.01, 'kernel': 'rbf'} \n", "24 17 {'C': 10, 'gamma': 0.001, 'kernel': 'rbf'} \n", "15 21 {'C': 0.1, 'gamma': 1, 'kernel': 'rbf'} \n", "35 22 {'C': 100, 'gamma': 100, 'kernel': 'rbf'} \n", "29 22 {'C': 10, 'gamma': 100, 'kernel': 'rbf'} \n", "23 24 {'C': 1, 'gamma': 100, 'kernel': 'rbf'} \n", "4 25 {'C': 0.001, 'gamma': 10, 'kernel': 'rbf'} \n", "3 25 {'C': 0.001, 'gamma': 1, 'kernel': 'rbf'} \n", "12 25 {'C': 0.1, 'gamma': 0.001, 'kernel': 'rbf'} \n", "2 25 {'C': 0.001, 'gamma': 0.1, 'kernel': 'rbf'} \n", "1 25 {'C': 0.001, 'gamma': 0.01, 'kernel': 'rbf'} \n", "36 25 {'C': 0.001, 'kernel': 'linear'} \n", "5 25 {'C': 0.001, 'gamma': 100, 'kernel': 'rbf'} \n", "8 25 {'C': 0.01, 'gamma': 0.1, 'kernel': 'rbf'} \n", "7 25 {'C': 0.01, 'gamma': 0.01, 'kernel': 'rbf'} \n", "11 25 {'C': 0.01, 'gamma': 100, 'kernel': 'rbf'} \n", "9 25 {'C': 0.01, 'gamma': 1, 'kernel': 'rbf'} \n", "10 25 {'C': 0.01, 'gamma': 10, 'kernel': 'rbf'} \n", "18 25 {'C': 1, 'gamma': 0.001, 'kernel': 'rbf'} \n", "17 25 {'C': 0.1, 'gamma': 100, 'kernel': 'rbf'} \n", "16 25 {'C': 0.1, 'gamma': 10, 'kernel': 'rbf'} \n", "13 25 {'C': 0.1, 'gamma': 0.01, 'kernel': 'rbf'} \n", "6 25 {'C': 0.01, 'gamma': 0.001, 'kernel': 'rbf'} \n", "0 25 {'C': 0.001, 'gamma': 0.001, 'kernel': 'rbf'} \n", "\n", " mean_test_score std_test_score mean_train_score std_train_score \n", "41 0.9222222 0.0000000 1.0000000 0.0000000 \n", "39 0.9222222 0.0000000 1.0000000 0.0000000 \n", "32 0.9222222 0.0000000 1.0000000 0.0000000 \n", "31 0.9222222 0.0000000 1.0000000 0.0000000 \n", "26 0.9222222 0.0000000 1.0000000 0.0000000 \n", "40 0.9222222 0.0000000 1.0000000 0.0000000 \n", "38 0.9111111 0.0000000 1.0000000 0.0000000 \n", "33 0.9000000 0.0000000 1.0000000 0.0000000 \n", "30 0.9000000 0.0000000 1.0000000 0.0000000 \n", "27 0.9000000 0.0000000 1.0000000 0.0000000 \n", "25 0.9000000 0.0000000 1.0000000 0.0000000 \n", "20 0.8888889 0.0000000 1.0000000 0.0000000 \n", "21 0.8777778 0.0000000 1.0000000 0.0000000 \n", "28 0.7333333 0.0000000 1.0000000 0.0000000 \n", "22 0.7333333 0.0000000 1.0000000 0.0000000 \n", "34 0.7333333 0.0000000 1.0000000 0.0000000 \n", "14 0.7000000 0.0000000 0.6818182 0.0000000 \n", "37 0.7000000 0.0000000 0.6818182 0.0000000 \n", "19 0.7000000 0.0000000 0.6818182 0.0000000 \n", "24 0.7000000 0.0000000 0.6818182 0.0000000 \n", "15 0.5000000 0.0000000 0.5909091 0.0000000 \n", "35 0.4444444 0.0000000 1.0000000 0.0000000 \n", "29 0.4444444 0.0000000 1.0000000 0.0000000 \n", "23 0.4222222 0.0000000 1.0000000 0.0000000 \n", "4 0.3666667 0.0000000 0.3636364 0.0000000 \n", "3 0.3666667 0.0000000 0.3636364 0.0000000 \n", "12 0.3666667 0.0000000 0.3636364 0.0000000 \n", "2 0.3666667 0.0000000 0.3636364 0.0000000 \n", "1 0.3666667 0.0000000 0.3636364 0.0000000 \n", "36 0.3666667 0.0000000 0.3636364 0.0000000 \n", "5 0.3666667 0.0000000 0.3636364 0.0000000 \n", "8 0.3666667 0.0000000 0.3636364 0.0000000 \n", "7 0.3666667 0.0000000 0.3636364 0.0000000 \n", "11 0.3666667 0.0000000 0.3636364 0.0000000 \n", "9 0.3666667 0.0000000 0.3636364 0.0000000 \n", "10 0.3666667 0.0000000 0.3636364 0.0000000 \n", "18 0.3666667 0.0000000 0.3636364 0.0000000 \n", "17 0.3666667 0.0000000 0.3636364 0.0000000 \n", "16 0.3666667 0.0000000 0.3636364 0.0000000 \n", "13 0.3666667 0.0000000 0.3636364 0.0000000 \n", "6 0.3666667 0.0000000 0.3636364 0.0000000 \n", "0 0.3666667 0.0000000 0.3636364 0.0000000 " ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "results = pd.DataFrame(grid_search.cv_results_)\n", "\n", "results2 = results[['rank_test_score', 'params', 'mean_test_score', 'std_test_score', \n", " 'mean_train_score', 'std_train_score']]\n", "results2 = results2.sort_values('rank_test_score')\n", "display(results2)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Nested cross-validation\n", "- 지금까지 살펴본 코드들의 단점\n", " - 처음에 원본 데이터들을 훈련 데이터와 테스트 데이터로 **한번만** 나누고 있음.\n", " - 원본 데이터를 훈련 데이터와 테스트 데이터로 나누는 시점도 교차 검증화 시킬 수 있음 --> **중첩 교차 검증**\n", "- **중첩 교차 검증**\n", " - outer_scores = []\n", " - 1st Loop: 원본 데이터를 훈련(Training) 데이터와 테스트(Test) 데이터로 분리 및 순회\n", " - best_params = {}\n", " - best_score = -np.inf\n", " - 2nd Loop: 매개변수 그리드를 순회\n", " - 3rd Loop: 훈련 데이터를 다시 훈련(Training) 데이터와 검증(Validation) 데이터로 분리\n", " - 3rd Loop의 결과 모델을 평가하여 best_params 및 best_score 조정\n", " - best_params와 함께 모델 구성하여 평가결과를 outer_scores에 저장" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "![process](./images/nestedkfold.jpg)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 위 중첩 교차 검증과정을 corss_val_score 및 GridSearchCV 조합으로 간단하게 완성" ] }, { "cell_type": "code", "execution_count": 41, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cross-validation scores: [0.967 1. 0.967 0.967 1. ]\n", "Mean cross-validation score: 0.9800000000000001\n" ] } ], "source": [ "param_grid = {'C': [0.001, 0.01, 0.1, 1, 10, 100],\n", " 'gamma': [0.001, 0.01, 0.1, 1, 10, 100]}\n", "\n", "grid_search = GridSearchCV(SVC(), param_grid, cv=5)\n", "scores = cross_val_score(grid_search, iris.data, iris.target, n_jobs=-1, cv=5)\n", "\n", "print(\"Cross-validation scores: \", scores)\n", "print(\"Mean cross-validation score: \", scores.mean())" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 위 코드 설명\n", " - 매개 변수 조합: 6 \\* 6 = 36\n", " - 바깥 루프: 5개 분할\n", " - 안쪽 루프: 5개 분할\n", " - 모델 생성 횟수: 36 \\* 5 \\* 5 = 900" ] }, { "cell_type": "code", "execution_count": 42, "metadata": { "collapsed": true }, "outputs": [], "source": [ "def nested_cv(X, y, inner_cv, outer_cv, Classifier, parameter_grid):\n", " outer_scores = []\n", " outer_best_params = []\n", " \n", " # for each split of the data in the outer cross-validation\n", " # (split method returns indices of training and test part)\n", " for training_samples, test_samples in outer_cv.split(X, y):\n", " # find best parameter using inner cross-validation\n", " best_parms = {}\n", " best_score = -np.inf\n", "\n", " # iterate over parameters\n", " for parameters in parameter_grid:\n", " # accumulate score over inner splits\n", " cv_scores = []\n", "\n", " # iterate over inner cross-validation\n", " for inner_train, inner_test in inner_cv.split(X[training_samples], y[training_samples]):\n", " # build classifier given parameters and training data\n", " clf = Classifier(**parameters)\n", " clf.fit(X[inner_train], y[inner_train])\n", " # evaluate on inner test set\n", " score = clf.score(X[inner_test], y[inner_test])\n", " cv_scores.append(score)\n", "\n", " # compute mean score over inner folds\n", " mean_score = np.mean(cv_scores)\n", " if mean_score > best_score:\n", " # if better than so far, remember parameters\n", " best_score = mean_score\n", " best_params = parameters\n", "\n", " # build classifier on best parameters using outer training set\n", " clf = Classifier(**best_params)\n", " clf.fit(X[training_samples], y[training_samples])\n", "\n", " # evaluate\n", " outer_scores.append(clf.score(X[test_samples], y[test_samples]))\n", " outer_best_params.append(best_params)\n", " return np.array(outer_scores), outer_best_params" ] }, { "cell_type": "code", "execution_count": 43, "metadata": { "collapsed": false, "hide_input": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cross-validation scores: [0.967 1. 0.967 0.967 1. ]\n", "Mean cross-validation score: 0.9800000000000001\n", "best params: [{'C': 100, 'gamma': 0.01}, {'C': 100, 'gamma': 0.01}, {'C': 100, 'gamma': 0.01}, {'C': 100, 'gamma': 0.01}, {'C': 100, 'gamma': 0.01}]\n" ] } ], "source": [ "from sklearn.model_selection import ParameterGrid, StratifiedKFold\n", "\n", "scores, params = nested_cv(\n", " iris.data, \n", " iris.target, \n", " StratifiedKFold(5), \n", " StratifiedKFold(5), \n", " SVC,\n", " ParameterGrid(param_grid)\n", ")\n", "\n", "print(\"Cross-validation scores: {}\".format(scores))\n", "print(\"Mean cross-validation score: \", scores.mean())\n", "print(\"best params: {}\".format(params))" ] }, { "cell_type": "markdown", "metadata": { "collapsed": true }, "source": [ "#### Parallelizing cross-validation and grid search\n", "- 다중 CPU 코어 or 다중 GPU 코어 사용\n", "- 사용가능한 프레임워크\n", " - ipyparallel\n", " - https://ipyparallel.readthedocs.io\n", " - spark-sklearn\n", " - https://github.com/databricks/spark-sklearn" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 5.3. Evaluation Metrics and Scoring\n", "- 기존의 Simple한 모델 평가 지표 (score)\n", " - 분류 문제: 정확도 (Accuracy)\n", " - 회귀 문제: $R^2$\n", "- 하지만, 어플리케이션에 따라 위의 평가 지표가 적합하지 않을 수 있음. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 5.3.1 Keep the End Goal in Mind (최종 목표를 기억하라)\n", "- 어플리케이션의 고차원 목표인 비지니스 지표를 우선적으로 고려해야 함\n", " - 비지니스 지표 예\n", " - 교통사고율 낮춤\n", " - 입원환자 수 낮춤\n", " - 웹사이트 사용자 유입률 증대\n", " - 소비자 소비률 증대\n", " - 분석 모델 개발 초기 단계에 매개변수를 조정하기 위해 시험 삼아 모델을 실제 운영 시스템에 곧바로 적용하기란 위험부담이 크다.\n", "- 비지니스 임팩트 (Business Impact)\n", " - 어떤 머신러닝 어플리케이션에서 특정 알고리즘을 선택하여 나타난 결과\n", "- 훈련 모델에 대한 비지니스 임팩트를 정확하게 예상할 수 있는 다양한 평가지표 도입 필요\n", " - 이진 분류의 평가 지표\n", " - 다중 분류의 평가 지표\n", " - 회귀의 평가 지표" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 5.3.2 Metrics for Binary Classification\n", "- 두 가지 분류 클래스\n", " - 양성 클래스 (주 관심 클래스) --> Positive Class\n", " - 음성 클래스 --> Negative Class

\n", " \n", "- 모델 적용 결과에 대한 분류\n", " - True Positive (참 양성, TP)\n", " - 모델에서 실제 양성 클래스를 정확하게 양성으로 평가한 것들\n", " - False Negative (거짓 음성, FN)\n", " - 모델에서 실제 양성 클래스를 잘못하여 음성으로 평가한 것들 \n", " - True Negative (참 음성, TN)\n", " - 모델에서 실제 음성 클래스를 정확하게 음성으로 평가한 것들 \n", " - False Positive (거짓 양성, FP)\n", " - 모델에서 실제 음성 클래스를 잘못하여 양성으로 평가한 것들 \n", "\n", "- 참고: https://developers.google.com/machine-learning/crash-course/classification/true-false-positive-negative" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Kinds of errors\n", "- 암의 조기 발견 어플리케이션 \n", " - 테스트가 음성(-)이면 건강함을 뜻함\n", " - 음성 클래스(Negative Class)\n", " - 테스트가 양성(+)이면 암 진단이 되었음을 뜻함\n", " - 양성 클래스(Positive Class)\n", " - 잘못된 분류 케이스\n", " - Case 1. 건강한 사람을 양성으로 잘못 분류한 경우\n", " - 이 환자에게 비용 손실과 불편함을 초래함\n", " - 즉, 잘못된 양성 예측\n", " - 분류: ***거짓 양성 (False Positive)***\n", " - Case 2. 암에 걸린 사람을 음성으로 잘못 분류한 경우\n", " - 제대로 된 검사나 치료를 제때에 못하게 하는 치명적인 오류\n", " - 즉, 잘못된 음성 예측\n", " - 분류: ***거짓 음성 (False Negative)***\n", " \n", "- 대부분의 경우 ***거짓 음성***이 ***거짓 양성***보다 더 치명적\n", "- 거짓 음성 분류와 거짓 양성 분류 중 하나가 다른 것 보다 훨씬 많을 때 이 상황은 매우 중요한 상황으로 인식해야 함." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Imbalanced datasets\n", "- 불균형 데이터셋(Imbalanced datasets)\n", " - 예) 인터넷 광고 클릭 데이터에서 원본 데이터 샘플의 99%가 '클릭 아님'이고 1%만이 '클릭'인 데이터셋\n", " - 현실에서 불균형 데이터는 매우 많음\n", " - 위 예에서 머신러닝 모델을 만들지 않고서도 무조건 '클릭 아님'으로 예측하면 그 정확도가 99%가 됨.\n", " \n", "- 따라서, '정확도'만으로 모델의 성능을 판별하는 것은 지양해야 함." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- digits 데이터셋에서 Target 데이터를 숫자 9이면 True, 그렇지 않으면 False로 변환하여 1:9의 불균형 데이터셋 생성" ] }, { "cell_type": "code", "execution_count": 44, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "(1347, 64)\n", "(1347,)\n", "(450, 64)\n", "(450,)\n", "[False False False False False False False True False False]\n", "\n", "47\n", "403\n" ] } ], "source": [ "from sklearn.datasets import load_digits\n", "\n", "digits = load_digits()\n", "y = digits.target == 9\n", "\n", "X_train, X_test, y_train, y_test = train_test_split(digits.data, y, random_state=0)\n", "print(X_train.shape)\n", "print(y_train.shape)\n", "print(X_test.shape)\n", "print(y_test.shape)\n", "print(y_test[:10])\n", "print()\n", "print(len(np.where(y_test == True)[0]))\n", "print(len(np.where(y_test == False)[0]))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 정답 '9임'의 총 개수: 47 --> ***양성 클래스***\n", "- 정답 '9가 아님'의 총 개수: 403 --> ***음성 클래스***" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- DummyClassifier\n", " - strategy='stratified'\n", " - 기본값\n", " - 레이블 비율에 맞추어서 예측\n", " - strategy='most_frequent' \n", " - 가장 많은 레이블로 항상 예측\n", "\n", "- DummyRegressor\n", " - strategy='mean'\n", " - strategy='median' " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 아무런 학습을 하지 않고도 90% 정확도가 나올 수 있음" ] }, { "cell_type": "code", "execution_count": 45, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Unique predicted labels: [False]\n", "Test score: 0.90\n" ] } ], "source": [ "from sklearn.dummy import DummyClassifier\n", "dummy_majority = DummyClassifier(strategy='most_frequent').fit(X_train, y_train)\n", "pred_most_frequent = dummy_majority.predict(X_test)\n", "\n", "print(\"Unique predicted labels: {}\".format(np.unique(pred_most_frequent)))\n", "print(\"Test score: {:.2f}\".format(dummy_majority.score(X_test, y_test)))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 정상적인 학습을 하더라도 92% 정확도가 나옴 --> 위의 결과와 그리 차이가 없음" ] }, { "cell_type": "code", "execution_count": 46, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Test score: 0.92\n" ] } ], "source": [ "from sklearn.tree import DecisionTreeClassifier\n", "tree = DecisionTreeClassifier(max_depth=2).fit(X_train, y_train)\n", "pred_tree = tree.predict(X_test)\n", "print(\"Test score: {:.2f}\".format(tree.score(X_test, y_test)))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 레이블 비율에 맞추어서 예측을 하는 Dummy 모델도 꽤 성능이 좋음." ] }, { "cell_type": "code", "execution_count": 47, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Unique predicted labels: [False True]\n", "dummy score: 0.82\n", "logreg score: 0.98\n" ] } ], "source": [ "from sklearn.linear_model import LogisticRegression\n", "\n", "dummy = DummyClassifier().fit(X_train, y_train)\n", "pred_dummy = dummy.predict(X_test)\n", "print(\"Unique predicted labels: {}\".format(np.unique(pred_dummy)))\n", "print(\"dummy score: {:.2f}\".format(dummy.score(X_test, y_test)))\n", "\n", "logreg = LogisticRegression(C=0.1).fit(X_train, y_train)\n", "pred_logreg = logreg.predict(X_test)\n", "print(\"logreg score: {:.2f}\".format(logreg.score(X_test, y_test)))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- Dummy 분류기 조차 매우 좋은 예측 정확도를 산출하는 점에 유의\n", " - 현실세계에서 많이 발생할 수 있는 불균형 데이터셋(Imbalanced datasets)과 함께 **오로지 정확도만으로 모델의 성능을 지표화하는 것은 올바른 방법이 아님**" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Confusion matrices\n", "- **오차 행렬(Confusion Matrix)**\n", " - 이진 분류 평가 결과를 나타낼 때 가장 널리 사용되는 방식\n", " - 행(Row)\n", " - 정답 클래스\n", " - 열(Colume)\n", " - 예측 클래스" ] }, { "cell_type": "code", "execution_count": 48, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "47\n", "403\n", "Confusion matrix:\n", "[[401 2]\n", " [ 8 39]]\n" ] } ], "source": [ "from sklearn.metrics import confusion_matrix\n", "\n", "print(len(np.where(y_test == True)[0]))\n", "print(len(np.where(y_test == False)[0]))\n", "\n", "confusion = confusion_matrix(y_test, pred_logreg)\n", "print(\"Confusion matrix:\\n{}\".format(confusion))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- [***음성*** 정답] - 정답 '9가 아님'의 총 개수: 403\n", " - [***음성*** 예측] - 예측 '9가 아님'의 총 개수: 401 --> ***True Negative (TN)***\n", " - [***양성*** 예측] - 예측 '9임'의 총 개수: 2 --> ***False Positive (FP, 거짓 양성)*** --> 잘못된 양성 분류\n", " \n", "- [***양성*** 정답] - 정답 '9임'의 총 개수: 47\n", " - [***음성*** 예측] - 예측 '9가 아님'의 총 개수: 8 --> ***False Negative (FN, 거짓 음성)*** --> 잘못된 음성 분류\n", " - [***양성*** 예측] - 예측 '9임'의 총 개수: 39 --> ***True Positive (TP)***\n", "\n" ] }, { "cell_type": "code", "execution_count": 49, "metadata": { "collapsed": false }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "mglearn.plots.plot_confusion_matrix_illustration()" ] }, { "cell_type": "code", "execution_count": 50, "metadata": { "collapsed": false }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "mglearn.plots.plot_binary_confusion_matrix()" ] }, { "cell_type": "code", "execution_count": 51, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Most frequent class:\n", "[[403 0]\n", " [ 47 0]]\n", "\n", "Dummy model:\n", "[[361 42]\n", " [ 41 6]]\n", "\n", "Decision tree:\n", "[[390 13]\n", " [ 24 23]]\n", "\n", "Logistic Regression\n", "[[401 2]\n", " [ 8 39]]\n" ] } ], "source": [ "print(\"Most frequent class:\")\n", "print(confusion_matrix(y_test, pred_most_frequent))\n", "\n", "print(\"\\nDummy model:\")\n", "print(confusion_matrix(y_test, pred_dummy))\n", "\n", "print(\"\\nDecision tree:\")\n", "print(confusion_matrix(y_test, pred_tree))\n", "\n", "print(\"\\nLogistic Regression\")\n", "print(confusion_matrix(y_test, pred_logreg))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "###### Accuracy (정확도)\n", "\\begin{equation}\n", "\\text{Accuracy} = \\frac{\\text{TP} + \\text{TN}}{\\text{TP} + \\text{TN} + \\text{FP} + \\text{FN}}\n", "\\end{equation}\n", "\n", "- 전체 샘플 수 중에서 정확히 예측한 것(TP 와 TN)의 비율\n", "- scikit-learn 에서 score 함수가 반환하는 값" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Precision (정밀도)\n", "\\begin{equation}\n", "\\text{Precision} = \\frac{\\text{TP}}{\\text{TP} + \\text{FP}}\n", "\\end{equation}\n", "\n", "- 양성(Positive)로 예측한 것(TP와 FP)들 중 진짜 양성인 것(TP)의 비율\n", "- **거짓 양성(FP)의 수를 줄이는 것을 목표**로 할 때 사용하는 지표\n", " - 신약의 효과 검증 등 임상 시험에 많이 사용\n", "- **거짓 음성(FN)의 수가 늘어나는 것에 대해 정밀도 수치는 영향받지 않음**\n", "- 양성 예측도 (PPV)라고도 불리움" ] }, { "cell_type": "markdown", "metadata": { "collapsed": true, "hide_input": false }, "source": [ "##### Recall (재현율)\n", "\\begin{equation}\n", "\\text{Recall} = \\frac{\\text{TP}}{\\text{TP} + \\text{FN}}\n", "\\end{equation}\n", "\n", "- 진짜 양성인 것(FN과 TP)들 중 올바르게 양성으로 예측된 것(TP)의 비율 \n", "- **거짓 음성(FN)의 수를 줄이는 것**을 목표로 할 때 사용하는 지표\n", " - 암 진단\n", "- **거짓 양성(FP)의 수가 늘어나는 것에 대해 재현율 수치는 영향받지 않음***\n", " - 즉, 건강한 사람이 일부 암 진단을 받더라도 암에 걸린 사람을 빠짐없이 찾는 것이 더 중요\n", "- 민감도(Sensitivity), 적중률(Hit Rate), 진짜 양성 비율 (TPR)라고도 불리움" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### f-score (f-점수)\n", "- $P$: Precision\n", "- $R$: Recall\n", "\\begin{equation}\n", "\\text{F} = \\frac{1}{\\displaystyle \\alpha \\frac{1}{P} + (1-\\alpha) \\frac{1}{R}}\n", "\\end{equation}\n", "- 정밀도와 재현율은 상충 관계\n", "- 모든 샘플을 양성 클래스로만 예측한 경우\n", " - FP와 TP만 존재\n", " - 재현율: 1, 정밀도는 상대적으로 낮아짐\n", "- 하나의 샘플만 (올바르게) 양성 클래스로 예측하고 나머지 샘플을 음성 클래스로만 예측한 경우\n", " - TN과 FN만 존재\n", " - 정밀도: 1, 재현율은 상대적으로 낮아짐\n", "- f-score\n", " - 정밀도와 재현율의 조화 평균\n", " - 정밀도와 재현울을 동시에 고려한 수치이므로 불균한 이진 분류문제의 정확도(Accuracy)보다 더 나은 지표 \n", " - f1-score\n", " - f-score 공식에서 $\\alpha=0.5$\n", "\\begin{equation}\n", "\\text{f1-score} = \\frac{1}{\\displaystyle 0.5 \\frac{1}{P} + 0.5 \\frac{1}{R}} = 2 \\cdot \\frac{P \\cdot R}{P + R}\n", "\\end{equation}\n", "- f-measure (f-측정)이라고도 함" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### [Note] 주가 변동 이진 분류 예측\n", "- 특성 데이터\n", " - 일봉의 종가 기반\n", " - N개 종목의 과거 M일치의 종가 데이터\n", " - 1개 샘플의 특성 데이터 크기 N * M\n", " - 하루씩 Shift하면서 새로운 샘플 생성\n", "- 타겟 데이터\n", " - 특정 종목의 M+1일의 종가 데이터\n", " - 직전 M일자 종가보다 M+1일자 종가가 올랐다면 1, 그렇지 않으면 0\n", "- 두 가지 분류 클래스\n", " - 1: 양성 (Positive) 클래스\n", " - 0: 음성 (Negative) 클래스 \n", "- 성능 평가 측정\n", " - Accuracy는 당연히 높아야 함.\n", " - Precision과 Recall은 상충관계이므로 둘 중 하나를 택하여 더 집중적으로 높여야 한다면 어떤것을 높여야 하나?\n", " - Precision 관점\n", " - 거짓 양성(FP)을 줄이는 것을 목적\n", " - 즉, 주가가 올라간다고 예측을 했는 데, 실제로는 하락을 한 경우를 줄이고자 함.\n", " - **재화의 상실**\n", " - Recall 관점\n", " - 거짓 음성(FN)을 줄이는 것을 목적\n", " - 즉, 주가가 하락한다고 예측을 했는 데, 실제로는 상승을 한 경우를 줄이고자 함.\n", " - **기회의 상실**" ] }, { "cell_type": "code", "execution_count": 52, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "f1 score most frequent: 0.00\n", "f1 score dummy: 0.13\n", "f1 score tree: 0.55\n", "f1 score logistic regression: 0.89\n" ] }, { "name": "stderr", "output_type": "stream", "text": [ "/Users/yhhan/anaconda3/lib/python3.6/site-packages/sklearn/metrics/classification.py:1135: UndefinedMetricWarning: F-score is ill-defined and being set to 0.0 due to no predicted samples.\n", " 'precision', 'predicted', average, warn_for)\n" ] } ], "source": [ "from sklearn.metrics import f1_score\n", "print(\"f1 score most frequent: {:.2f}\".format(f1_score(y_test, pred_most_frequent)))\n", "print(\"f1 score dummy: {:.2f}\".format(f1_score(y_test, pred_dummy)))\n", "print(\"f1 score tree: {:.2f}\".format(f1_score(y_test, pred_tree)))\n", "print(\"f1 score logistic regression: {:.2f}\".format(f1_score(y_test, pred_logreg)))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- f1 score most frequent 모델의 f1 점수는 TP가 0이므로, 재현율과 정밀도가 모두 0\n", " - 그러므로 f1 점수 공식에서 분모가 0\n", " - 위 Warning 메시지의 원인 \n", "- f1-점수로 비교해본 가장 좋은 모델\n", " - Logistic Regression" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- sklearn.metrics.classification_report\n", " - 각 클래스마다 교대로 양성임을 가정\n", " - 상위 두 개의 출력 라인\n", " - 해당 클래스가 양성일 때 다음 4개의 값을 출력\n", " - 정밀도(precision)\n", " - 재현율(recall)\n", " - f1-점수(f1-score)\n", " - 해당 클래스에 실제로 속한 샘플 개수(support) \n", " - 정답 데이터인 y_test에 대한 각 클래스별 샘플 개수" ] }, { "cell_type": "code", "execution_count": 53, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " precision recall f1-score support\n", "\n", " not nine 0.90 1.00 0.94 403\n", " nine 0.00 0.00 0.00 47\n", "\n", "avg / total 0.80 0.90 0.85 450\n", "\n" ] }, { "name": "stderr", "output_type": "stream", "text": [ "/Users/yhhan/anaconda3/lib/python3.6/site-packages/sklearn/metrics/classification.py:1135: UndefinedMetricWarning: Precision and F-score are ill-defined and being set to 0.0 in labels with no predicted samples.\n", " 'precision', 'predicted', average, warn_for)\n" ] } ], "source": [ "from sklearn.metrics import classification_report\n", "print(classification_report(y_test, pred_most_frequent, target_names=[\"not nine\", \"nine\"]))" ] }, { "cell_type": "code", "execution_count": 54, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " precision recall f1-score support\n", "\n", " not nine 0.90 0.90 0.90 403\n", " nine 0.12 0.13 0.13 47\n", "\n", "avg / total 0.82 0.82 0.82 450\n", "\n" ] } ], "source": [ "print(classification_report(y_test, pred_dummy, target_names=[\"not nine\", \"nine\"]))" ] }, { "cell_type": "code", "execution_count": 55, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " precision recall f1-score support\n", "\n", " not nine 0.98 1.00 0.99 403\n", " nine 0.95 0.83 0.89 47\n", "\n", "avg / total 0.98 0.98 0.98 450\n", "\n" ] } ], "source": [ "print(classification_report(y_test, pred_logreg, target_names=[\"not nine\", \"nine\"]))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Taking uncertainty into account\n", "- 모델 예측의 확신도를 가늠하기 위한 함수\n", " - decicion_function\n", " - 임계값: 0\n", " - decision_fuction의 임계값이 0일 때 클래스 분류 \n", " - decision_function() <= 0 --> 클래스 0 (음성 클래스)로 분류\n", " - decision_function() > 0 --> 클래스 1 (양성 클래스)로 분류\n", " - predict_proba\n", " - 임계값: 0.5" ] }, { "cell_type": "code", "execution_count": 56, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "(337, 2)\n", "(337,)\n", "\n", "(113, 2)\n", "(113,)\n" ] } ], "source": [ "from mglearn.datasets import make_blobs\n", "\n", "X, y = make_blobs(\n", " n_samples=(400, 50), # 음성 클래스: 400개, 양성 클래스: 50개\n", " centers=2, \n", " cluster_std=[7.0, 2], \n", " random_state=22\n", ")\n", "\n", "X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)\n", "print(X_train.shape)\n", "print(y_train.shape)\n", "print()\n", "print(X_test.shape)\n", "print(y_test.shape)\n", "\n", "svc = SVC(gamma=.05).fit(X_train, y_train)" ] }, { "cell_type": "code", "execution_count": 57, "metadata": { "collapsed": false }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "mglearn.plots.plot_decision_threshold()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 위 상위 두 개의 그림에서 검은색 동그라미\n", " - decision_fuction의 임계점이 0일 때와 -0.8일 때의 경계 위치\n", " - 이 동그라미 내부는 양성 클래스(decision_function() > 0)로 분류, 바깥쪽은 음성 클래스로 분류" ] }, { "cell_type": "code", "execution_count": 58, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " precision recall f1-score support\n", "\n", " 0 0.97 0.89 0.93 104\n", " 1 0.35 0.67 0.46 9\n", "\n", "avg / total 0.92 0.88 0.89 113\n", "\n" ] } ], "source": [ "print(classification_report(y_test, svc.predict(X_test)))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 양성 클래스 1에 대해 정밀도(0.35)가 매우 낮음, 재현율(0.67)도 낮음.\n", " - 음성 클래스 0에 대한 샘플 수가 많아서 생긴 결과임 --> 데이터 불균형" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 이제 클래스 1의 재현율(recall)을 높이는 것이 중요하다고 가정.\n", " - 즉, 거짓 양성(FP)의 수가 늘어나도 중요하지 않음.\n", " - 진짜 양성(TP)을 늘리고 거짓 음성(FN)을 줄이려고 함.\n", " - decision_function의 임계값을 낮추면 클래스 1로 분류되는 경우가 더 많아짐" ] }, { "cell_type": "code", "execution_count": 59, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "(113,)\n" ] } ], "source": [ "y_pred_lower_threshold = svc.decision_function(X_test) > -.8\n", "print(y_pred_lower_threshold.shape)" ] }, { "cell_type": "code", "execution_count": 60, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " precision recall f1-score support\n", "\n", " 0 1.00 0.82 0.90 104\n", " 1 0.32 1.00 0.49 9\n", "\n", "avg / total 0.95 0.83 0.87 113\n", "\n" ] } ], "source": [ "print(classification_report(y_test, y_pred_lower_threshold))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 클래스 1의 재현율이 1.00 --> 즉, 거짓 음성은 전혀 없음\n", " - 반면에 정밀도는 다소 낮아짐\n", "- decision_function 값의 임계점을 고르는 일반적인 방법을 제시하기는 어려움" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Precision-Recall curves (정밀도-재현율 곡선)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 분류 임계값 조정 작업\n", " - 정밀도와 재현율의 상충 관계 조정하는 일과 동일\n", " - 임계값 조정은 비지니스 목표에 의존적\n", " - 비지니스 목표: 어떤 클래스에 대해 목표로 하는 재현율 또는 정밀도 값을 얻어냄\n", " - 예를 들어 양성 클래스에 대하여 **90% 재현율 산출**이 비지니스 목표가 될 수 있음" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- ***운영 포인트 (Operating Point)*** 지정\n", " - 예: **90% 재현율 산출**\n", " - 분류 모델이 목표로 하는 성능지표를 지정하는 작업\n", " - 비지니스 목표와 연관이 깊음\n", " - 많은 경우 운영 포인트를 정확하게 지정하는 것은 어려움\n", " - 이런 경우 임계값을 폭넓게 변경해 가며 정밀도와 재현율을 산출하며 그 장단점을 살펴보는 작업 필요\n", " - 이를 위해 ***정밀도-재현율 곡선***을 사용\n", " - sklearn.metrics.precision_recall_curve\n", " - 가능한 모든 임계값에 대한 정밀도와 재현율 값을 리스트로 반환" ] }, { "cell_type": "code", "execution_count": 61, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "precision: [0.321 0.296 0.308 0.32 0.333 0.348 0.364 0.381 0.4 0.368 0.333 0.353\n", " 0.375 0.4 0.429 0.385 0.417 0.455 0.4 0.444 0.5 0.571 0.667 0.6\n", " 0.5 0.667 0.5 1. 1. ]\n", "\n", "recall: [1. 0.889 0.889 0.889 0.889 0.889 0.889 0.889 0.889 0.778 0.667 0.667\n", " 0.667 0.667 0.667 0.556 0.556 0.556 0.444 0.444 0.444 0.444 0.444 0.333\n", " 0.222 0.222 0.111 0.111 0. ]\n", "\n", "thresholds: [-0.751 -0.587 -0.487 -0.444 -0.404 -0.29 -0.242 -0.193 -0.179 -0.166\n", " -0.16 0.086 0.146 0.192 0.37 0.52 0.523 0.532 0.632 0.744\n", " 0.872 0.88 0.884 0.978 1. 1.07 1.084 1.251]\n", "\n", "11\n", "0.08620483947417501\n" ] } ], "source": [ "from sklearn.metrics import precision_recall_curve\n", "\n", "precision, recall, thresholds = precision_recall_curve(y_test, svc.decision_function(X_test))\n", "\n", "print(\"precision: {}\\n\".format(precision))\n", "print(\"recall: {}\\n\".format(recall))\n", "print(\"thresholds: {}\\n\".format(thresholds))\n", "\n", "close_zero = np.argmin(np.abs(thresholds))\n", "print(close_zero)\n", "print(thresholds[close_zero])" ] }, { "cell_type": "code", "execution_count": 62, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 62, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# create a similar dataset as before, but with more samples\n", "# to get a smoother curve\n", "X, y = make_blobs(\n", " n_samples=(4000, 500), \n", " centers=2, \n", " cluster_std=[7.0, 2],\n", " random_state=22\n", ")\n", "\n", "X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)\n", "\n", "svc = SVC(gamma=.05).fit(X_train, y_train)\n", "\n", "precision, recall, thresholds = precision_recall_curve(y_test, svc.decision_function(X_test))\n", "\n", "# find threshold closest to zero\n", "close_zero = np.argmin(np.abs(thresholds))\n", "plt.plot(\n", " precision[close_zero],\n", " recall[close_zero],\n", " 'o',\n", " markersize=10,\n", " label=\"threshold zero\",\n", " fillstyle=\"none\",\n", " c='k',\n", " mew=2)\n", "\n", "plt.plot(precision, recall, label=\"precision recall curve\")\n", "plt.xlabel(\"Precision\")\n", "plt.ylabel(\"Recall\")\n", "plt.legend(loc=\"best\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 위그림의 파란색 곡선은 decision_function의 가능한 모든 임계값에 대응되는 Precision과 Recall 값을 나타냄\n", "- 검은색 원은 decision_function의 기본 임계값인 0의 지점을 나타냄\n", " - 이 지점은 predict 메소드를 호출할 때 사용되는 임계 지점 값\n", "- 위 정밀도-재현율 곡선은 오른쪽 위로 갈 수록 좋은 분류기\n", " - 오른쪽 위 --> 정밀도와 재현율이 모두 높은 곳\n", "- 위 그래프에서 알 수 있는 것\n", " - 0.9 정도의 높은 Recall을 유지하면서도 0.5 정도의 Precision을 얻을 수 있음\n", " - 0.5보다 더 높은 Precision을 얻어내기 위해서는 Recall을 많이 손해 봐야 함" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- RandomForestClassifier는 decision_function은 제공하지 않고 predict_proba만 제공\n", " - rf.predict_proba(X_test)[:, 1]\n", " - 양성 클래스(클래스 1)의 확신 정도값을 가지고 오는 코드\n", " - 기본 임계값: 0.5" ] }, { "cell_type": "code", "execution_count": 63, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 63, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "from sklearn.ensemble import RandomForestClassifier\n", "\n", "rf = RandomForestClassifier(n_estimators=100, random_state=0, max_features=2)\n", "rf.fit(X_train, y_train)\n", "\n", "# RandomForestClassifier has predict_proba, but not decision_function\n", "precision_rf, recall_rf, thresholds_rf = precision_recall_curve(y_test, rf.predict_proba(X_test)[:, 1])\n", "\n", "plt.plot(precision, recall, label=\"svc\")\n", "\n", "plt.plot(\n", " precision[close_zero], \n", " recall[close_zero], \n", " 'o', \n", " markersize=10,\n", " label=\"threshold zero svc\", \n", " fillstyle=\"none\", \n", " c='k', \n", " mew=2)\n", "\n", "plt.plot(precision_rf, recall_rf, label=\"rf\")\n", "\n", "close_default_rf = np.argmin(np.abs(thresholds_rf - 0.5))\n", "\n", "plt.plot(\n", " precision_rf[close_default_rf], \n", " recall_rf[close_default_rf], \n", " '^', \n", " markersize=10,\n", " label=\"threshold 0.5 rf\", \n", " fillstyle=\"none\", \n", " c='k',\n", " mew=2)\n", "\n", "plt.xlabel(\"Precision\")\n", "plt.ylabel(\"Recall\")\n", "plt.legend(loc=\"best\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 높은 Precision 또는 높은 Recall을 얻기 위해서는 RandomForestClassifier가 더 좋은 모델\n", "- Precision 과 Recall 두 개의 값을 적절히 동시에 높은 값을 얻기 위해서는 SVC가 더 좋은 모델" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- f1-score만으로는 이런 세세한 부분을 비교할 수 없음\n", " - f1-score는 정밀도-재현율 곡선의 한 지점인 기본 임계값에 대한 점수임" ] }, { "cell_type": "code", "execution_count": 64, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "f1_score of random forest: 0.610\n", "f1_score of svc: 0.656\n" ] } ], "source": [ "from sklearn.metrics import f1_score\n", "\n", "print(\"f1_score of random forest: {:.3f}\".format(f1_score(y_test, rf.predict(X_test))))\n", "print(\"f1_score of svc: {:.3f}\".format(f1_score(y_test, svc.predict(X_test))))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 어느 모델이 좋은지 보다 정확하게 비교하려면... \n", " - 특정 임계값이나 운영 포인트에 국한하지 않고 전체 곡선에 대한 정보를 요약해야 함\n", "- ***Average Precision (평균 정밀도)***\n", " - 정밀도-재현율 곡선의 아랫부분 면적을 계산한 값\n", " - 항상 0(가장 나쁨)에서 1(가장 좋음)사이의 값을 지님\n", " - sklearn.metrics.average_precision_score" ] }, { "cell_type": "code", "execution_count": 65, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Average precision of random forest: 0.660\n", "Average precision of svc: 0.666\n" ] } ], "source": [ "from sklearn.metrics import average_precision_score\n", "\n", "ap_rf = average_precision_score(y_test, rf.predict_proba(X_test)[:, 1])\n", "ap_svc = average_precision_score(y_test, svc.decision_function(X_test))\n", "\n", "print(\"Average precision of random forest: {:.3f}\".format(ap_rf))\n", "print(\"Average precision of svc: {:.3f}\".format(ap_svc))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 평균 정밀도 측면에서 RandomForestClassifier와 SVC가 큰 차이 없음" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Receiver Operating Characteristics (ROC) and AUC\n", "- 진짜 양성 비율 (TPR): 전체 양성 샘플(TP와 FN)중에서 진짜 양성(TP)로 올바로 분류된 비율 = 재현율\n", "\\begin{equation}\n", "\\text{TPR} = Recall = \\frac{\\text{TP}}{\\text{TP} + \\text{FN}}\n", "\\end{equation}\n", "
\n", "
\n", "- 거짓 양성 비율 (FPR): 전체 음성 샘플(FP와 TN) 중에서 거짓 양성(FP)로 잘못 분류된 비율 \n", "\\begin{equation}\n", "\\text{FPR} = \\frac{\\text{FP}}{\\text{FP} + \\text{TN}}\n", "\\end{equation}\n", "
\n", "
\n", "- TPR과 FPR의 해석\n", " - TPR과 FPR은 서로 반비례적인 관계에 있다. 암환자를 진단할 때, 성급한 의사는 아주 조금의 징후만 보여도 암인 것 같다고 할 것이다. 이 경우 TPR은 1에 가까워질 것이다. 그러나 FPR은 반대로 매우 낮아져버린다. (정상인 사람도 다 암이라고 하니까)\n", "\n", " - 반대로 돌팔이 의사라서 암환자를 알아내지 못한다면, 모든 환자에 대해 암이 아니라고 할 것이다. 이 경우 TPR은 매우 낮아져 0에 가까워 질 것이다. 그러나 반대로 FPR은 급격히 높아져 1에 가까워질 것이다.(암환자라는 진단 자체를 안하므로, 암환자라고 잘못 진단 하는 경우가 없음)\n", " - 출처: http://newsight.tistory.com/53 [New Sight]\n", "
\n", "
\n", "\n", "- ROC 곡선\n", " - ROC curve is created by plotting the true positive rate (TPR) against the false positive rate (FPR) at various threshold settings.\n", " - '수신기 운영 특성 (Receiver Operating Characteristics)'이라는 이름은 신호 탐지 이론에서 비롯\n", " - 이름 그 자체의 의미는 무시하고 'TPR-FPR 곡선'으로 이해하는 것이 좋음" ] }, { "cell_type": "code", "execution_count": 66, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 66, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "from sklearn.metrics import roc_curve\n", "fpr, tpr, thresholds = roc_curve(y_test, svc.decision_function(X_test))\n", "\n", "plt.plot(fpr, tpr, label=\"ROC Curve\")\n", "plt.xlabel(\"FPR\")\n", "plt.ylabel(\"TPR (recall)\")\n", "\n", "# find threshold closest to zero\n", "close_zero = np.argmin(np.abs(thresholds))\n", "plt.plot(fpr[close_zero], tpr[close_zero], 'o', markersize=10, label=\"threshold zero\", fillstyle=\"none\", c='k', mew=2)\n", "plt.legend(loc=4)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- ROC 곡선 해석\n", " - ROC 곡선은 왼쪽 상단에 가까울 수록 이상적임.\n", " - 즉, FPR은 낮게 유지하면서 TPR(재현율)은 높은 뷴류기가 좋음. \n", " - 위 그림에서 기본 임계값 0에 대한 FPR과 TPR값보다는 FPR을 조금 더 늘려주면(0.1 정도) TPR을 상당히 높일 수 있음(0.9 정도)\n", " - 이러한 FPR=0.1 & TPR=0.9을 산출할 수 있는 임계값이 적절한 **운영 포인트**가 될 수 있음" ] }, { "cell_type": "code", "execution_count": 67, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 67, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "fpr_rf, tpr_rf, thresholds_rf = roc_curve(y_test, rf.predict_proba(X_test)[:, 1])\n", "\n", "plt.plot(fpr, tpr, label=\"ROC Curve SVC\")\n", "plt.plot(fpr_rf, tpr_rf, label=\"ROC Curve RF\")\n", "\n", "plt.xlabel(\"FPR\")\n", "plt.ylabel(\"TPR (recall)\")\n", "plt.plot(fpr[close_zero], tpr[close_zero], 'o', markersize=10, label=\"threshold zero SVC\", fillstyle=\"none\", c='k', mew=2)\n", "\n", "close_default_rf = np.argmin(np.abs(thresholds_rf - 0.5))\n", "plt.plot(fpr_rf[close_default_rf], tpr[close_default_rf], '^', markersize=10, label=\"threshold 0.5 RF\", fillstyle=\"none\", c='k', mew=2)\n", "\n", "plt.legend(loc=4)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 두 개의 ROC 곡선 해석\n", " - RandomForest 모델이 SVC 보다 좀 더 왼쪽 상단으로 ROC 곡선이 위치하는 듯 함\n", " - 어떤 ROC 곡선이 더 좋은지 알아보기 ROC 곡선아래의 면적을 하나의 값으로 요약할 수 있음\n", " - AUC (Area Under the (ROC) Curve)\n", " - 0(최악) ~ 1(최선)\n", " - 수집한 데이터가 불균현한 데이터 집합이라면 정확도보다 AUC가 더 의미있는 지표\n", " - sklearn.metrics.roc_auc_score" ] }, { "cell_type": "code", "execution_count": 68, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "AUC for Random Forest: 0.937\n", "AUC for SVC: 0.916\n" ] } ], "source": [ "from sklearn.metrics import roc_auc_score\n", "\n", "rf_auc = roc_auc_score(y_test, rf.predict_proba(X_test)[:, 1])\n", "svc_auc = roc_auc_score(y_test, svc.decision_function(X_test))\n", "\n", "print(\"AUC for Random Forest: {:.3f}\".format(rf_auc))\n", "print(\"AUC for SVC: {:.3f}\".format(svc_auc))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- AUC 측면에서 RandomForest 모델이 SVC 보다 좀 더 좋다고 볼 수 있음" ] }, { "cell_type": "code", "execution_count": 69, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "gamma = 1.00 accuracy = 0.90 AUC = 0.50\n", "gamma = 0.05 accuracy = 0.90 AUC = 1.00\n", "gamma = 0.01 accuracy = 0.90 AUC = 1.00\n" ] }, { "data": { "text/plain": [ "" ] }, "execution_count": 69, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "y = digits.target == 9\n", "\n", "X_train, X_test, y_train, y_test = train_test_split(digits.data, y, random_state=0)\n", "\n", "plt.figure()\n", "\n", "for gamma in [1, 0.05, 0.01]:\n", " svc = SVC(gamma=gamma).fit(X_train, y_train)\n", " \n", " accuracy = svc.score(X_test, y_test)\n", " auc = roc_auc_score(y_test, svc.decision_function(X_test))\n", " fpr, tpr, _ = roc_curve(y_test , svc.decision_function(X_test))\n", "\n", " print(\"gamma = {:.2f} accuracy = {:.2f} AUC = {:.2f}\".format(gamma, accuracy, auc))\n", " plt.plot(fpr, tpr, label=\"gamma={:.3f}\".format(gamma))\n", " \n", "plt.xlabel(\"FPR\")\n", "plt.ylabel(\"TPR\")\n", "plt.xlim(-0.01, 1)\n", "plt.ylim(0, 1.02)\n", "plt.legend(loc=\"best\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Multi-class classification\n", "- 다중클래스 분류문제에서 불균형 데이터에 대해서 Accuracy(정확도) 지표는 좋은 지표가 되지 못함.\n", " - 훈련 샘플 비율\n", " - A 클래스: 85%\n", " - B 클래스: 10%\n", " - C 클래스: 5%\n", " - 실제 새로운 데이터도 위와 같은 비율로 출현한다고 하면 아무런 학습이 안된 모델 (Dummy Model)도 85% 정확도를 산출할 수 있음." ] }, { "cell_type": "code", "execution_count": 78, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Shape of Test data: (450,)\n", "Accuracy: 0.953\n", "\n", "Confusion matrix:\n", "[[37 0 0 0 0 0 0 0 0 0]\n", " [ 0 39 0 0 0 0 2 0 2 0]\n", " [ 0 0 41 3 0 0 0 0 0 0]\n", " [ 0 0 1 43 0 0 0 0 0 1]\n", " [ 0 0 0 0 38 0 0 0 0 0]\n", " [ 0 1 0 0 0 47 0 0 0 0]\n", " [ 0 0 0 0 0 0 52 0 0 0]\n", " [ 0 1 0 1 1 0 0 45 0 0]\n", " [ 0 3 1 0 0 0 0 0 43 1]\n", " [ 0 0 0 1 0 1 0 0 1 44]]\n" ] } ], "source": [ "from sklearn.metrics import accuracy_score\n", "\n", "X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target, random_state=0)\n", "\n", "lr = LogisticRegression().fit(X_train, y_train)\n", "pred = lr.predict(X_test)\n", "\n", "print(\"Shape of Test data: {}\".format(y_test.shape))\n", "print(\"Accuracy: {:.3f}\".format(accuracy_score(y_test, pred)))\n", "print()\n", "print(\"Confusion matrix:\\n{}\".format(confusion_matrix(y_test, pred)))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 다중 클래스 예측 결과에 대한 confusion matrix \n", " - 행: 정답 레이블\n", " - 열: 예측 레이블\n", "- 위 confusion matrix에서 레이블 0에 대한 해석\n", "$\n", "\\begin{bmatrix}\n", " TN & FP \\\\\n", " FN & TP\n", "\\end{bmatrix}\n", "=\n", "\\begin{bmatrix}\n", " 413 & 0 \\\\\n", " 0 & 37\n", "\\end{bmatrix}\n", "$\n", " - 클래스 0에 대해서는 거짓 음성(FN)이 없음\n", " - 첫번째 행(예측 레이블 행)에서 다른 항목들이 모두 0\n", " - 클래스 0에 대해서는 거짓 양성(FP)이 없음\n", " - 첫번째 열(정답 레이블 열)에서 다른 항목들이 모두 0\n", " - Accuracy = 1.0\n", " - Precision = 1.0\n", " - Recall = 1.0\n", " - F1-score = 1.0\n", "
\n", "- 위 confusion matrix에서 레이블 1에 대한 해석 $\n", "\\begin{bmatrix}\n", " TN & FP \\\\\n", " FN & TP\n", "\\end{bmatrix}\n", "=\n", "\\begin{bmatrix}\n", " 402 & 5 \\\\\n", " 4 & 39\n", "\\end{bmatrix}\n", "$\n", " - 클래스 1에 대해서는 거짓 음성(FN)이 4건\n", " - 클래스 1에 대해서는 거짓 양성(FP)이 5건\n", " - Accuracy = (402+39)/450 = 0.98\n", " - Precision = 39/(39+5) = 0.89\n", " - Recall = 39/(4+39) = 0.91\n", " - F1-score = 2 x 0.89 x 0.91 / (0.89 + 0.91) = 0.90\n", "\n", "\n", "- 위 confusion matrix에서 레이블 7에 대한 해석 $\n", "\\begin{bmatrix}\n", " TN & FP \\\\\n", " FN & TP\n", "\\end{bmatrix}\n", "=\n", "\\begin{bmatrix}\n", " 402 & 0 \\\\\n", " 3 & 45\n", "\\end{bmatrix}\n", "$\n", " - 클래스 7에 대해서는 거짓 음성(FN)이 3건\n", " - 클래스 7에 대해서는 거짓 양성(FP)이 0건\n", " - Accuracy = (402+45)/450 = 0.99\n", " - Precision = 45/45 = 1.0\n", " - Recall = 45/(3+45) = 0.94\n", " - F1-score = 2 x 1.0 x 0.94 / (1.0 + 0.94) = 0.97" ] }, { "cell_type": "code", "execution_count": 71, "metadata": { "collapsed": false, "hide_input": false }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "scores_image = mglearn.tools.heatmap(\n", " confusion_matrix(y_test, pred), xlabel='Predicted label',\n", " ylabel='True label', xticklabels=digits.target_names,\n", " yticklabels=digits.target_names, cmap=plt.cm.gray_r, fmt=\"%d\")\n", "\n", "plt.title(\"Confusion matrix\")\n", "plt.gca().invert_yaxis()" ] }, { "cell_type": "code", "execution_count": 72, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " precision recall f1-score support\n", "\n", " 0 1.00 1.00 1.00 37\n", " 1 0.89 0.91 0.90 43\n", " 2 0.95 0.93 0.94 44\n", " 3 0.90 0.96 0.92 45\n", " 4 0.97 1.00 0.99 38\n", " 5 0.98 0.98 0.98 48\n", " 6 0.96 1.00 0.98 52\n", " 7 1.00 0.94 0.97 48\n", " 8 0.93 0.90 0.91 48\n", " 9 0.96 0.94 0.95 47\n", "\n", "avg / total 0.95 0.95 0.95 450\n", "\n" ] } ], "source": [ "print(classification_report(y_test, pred))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 관심있는 클래스를 양성, 그 외의 모든 클래스는 음성으로 두고 precision, recall, f1-score 계산" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- [NOTE] 다중 분류에서 불균형 데이터셋을 위해 가장 많이 사용되는 지표는 f1-score\n", "- 클래스별로 f1-score를 산출한 이후, 전체 클래스에 대한 평균 f1-score 산출 전략 (다중 클래스일 때 반드시 아래 세 개의 항목 중 하나를 average 파라미터 값으로 제시해야 함)\n", " - macro 평균\n", " - 클래스별 f1-score에 가중치를 고려하지 않음\n", " - weighted 평균 (보통은 이것을 선택)\n", " - 클래스별 테스트 데이터 샘플 수로 가중치를 두어 f1-score 계산 (classification_report에 노출되는 값)\n", " - micro 평균\n", " - 모든 클래스별로 FP, FN, TP의 총 수를 헤아린 다음 산출" ] }, { "cell_type": "code", "execution_count": 73, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Macro average f1 score: 0.954\n", "Weighted average f1 score: 0.953\n", "Micro average f1 score: 0.953\n" ] } ], "source": [ "print(\"Macro average f1 score: {:.3f}\".format(f1_score(y_test, pred, average=\"macro\")))\n", "\n", "print(\"Weighted average f1 score: {:.3f}\".format(f1_score(y_test, pred, average=\"weighted\")))\n", "\n", "print(\"Micro average f1 score: {:.3f}\".format(f1_score(y_test, pred, average=\"micro\")))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Regression metrics\n", "- [note]: http://scikit-learn.org/stable/modules/model_evaluation.html#regression-metrics\n", "

\n", "- **Explained variance score**\n", "![...](http://scikit-learn.org/stable/_images/math/494cda4d8d05a44aa9aa20de549468e4d121e04c.png)\n", "\n", " - $\\hat{y}$: the estimated target output\n", " - $y$: the corresponding (correct) target output\n", " - $Var$: Variance" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- **Mean absolute error**\n", "![...](http://scikit-learn.org/stable/_images/math/c38d771fb5eb121916c06cf8c651363583d17794.png)\n", "\n", " - $\\hat{y}_i$: the predicted value of the $i$-th sample \n", " - $y_i$: the corresponding (correct) target output\n", " - $n_{samples}$: the number of target samples" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- **Mean squared error**\n", "![...](http://scikit-learn.org/stable/_images/math/44f36557fef9b30b077b21550490a1b9a0ade154.png)\n", "\n", " - $\\hat{y}_i$: the predicted value of the $i$-th sample \n", " - $y_i$: the corresponding (correct) target output\n", " - $n_{samples}$: the number of target samples" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- **Mean squared logarithmic error**\n", "![...](http://scikit-learn.org/stable/_images/math/7ab9dd9a29d207d773d08e4d1a0fc370f9b1fa35.png)\n", " - This metric is best to use when targets having exponential growth, such as population counts, average sales of a commodity over a span of years etc.\n", " - $\\hat{y}_i$: the predicted value of the $i$-th sample \n", " - $y_i$: the corresponding (correct) target output\n", " - $n_{samples}$: the number of target samples" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- **Median absolute error**\n", "![...](http://scikit-learn.org/stable/_images/math/9252f9de0d8c2043cf34a26e6f2643a6e66540b9.png)\n", " - It is particularly interesting because it is robust to outliers.\n", " - The loss is calculated by taking the median of all absolute differences between the target and the prediction.\n", " - $\\hat{y}_i$: the predicted value of the $i$-th sample \n", " - $y_i$: the corresponding (correct) target output" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- **$R^2$ score (the coefficient of determination)**\n", "![...](http://scikit-learn.org/stable/_images/math/bdab7d608c772b3e382e2822a73ef557c80fbca2.png)\n", " - where \n", "![...](http://scikit-learn.org/stable/_images/math/4b4e8ee0c1363ed7f781ed3a12073cfd169e3f79.png)\n", " - It provides a measure of how well future samples are likely to be predicted by the model.\n", " - $\\hat{y}_i$: the predicted value of the $i$-th sample \n", " - $y_i$: the corresponding (correct) target output" ] }, { "cell_type": "code", "execution_count": 103, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "explained_variance_score: 0.9571734475374732\n", "mean_absolute_error: 0.5\n", "mean_squared_error: 0.375\n", "mean_squared_log_error: 0.12803912255571967\n", "median_absolute_error: 0.5\n", "r2_score: 0.9486081370449679\n" ] } ], "source": [ "from sklearn.metrics import explained_variance_score\n", "from sklearn.metrics import mean_absolute_error\n", "from sklearn.metrics import mean_squared_error\n", "from sklearn.metrics import mean_squared_log_error\n", "from sklearn.metrics import median_absolute_error\n", "from sklearn.metrics import r2_score\n", "\n", "y_test = [3, -0.5, 2, 7]\n", "y_pred = [2.5, 0.0, 2, 8]\n", "\n", "print(\"explained_variance_score:\", explained_variance_score(y_test, y_pred))\n", "print(\"mean_absolute_error:\", mean_absolute_error(y_test, y_pred))\n", "print(\"mean_squared_error:\", mean_squared_error(y_test, y_pred))\n", "print(\"mean_squared_log_error:\", mean_squared_log_error(y_test, y_pred))\n", "print(\"median_absolute_error:\", median_absolute_error(y_test, y_pred))\n", "print(\"r2_score:\", r2_score(y_test, y_pred))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- [NOTE]: 전형적인 교차검증을 활용한 Regression 모델 구성 및 성능 측정 " ] }, { "cell_type": "code", "execution_count": 124, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "X shape: (200, 1)\n", "y shape: (200,)\n", "X_train shape: (150, 1)\n", "X_test shape: (50, 1)\n", "\n", "Best cross-validation accuracy: 0.67\n", "Best parameters:\n", "{'alpha': 0.1, 'learning_rate': 0.1}\n", "Best estimator:\n", "GradientBoostingRegressor(alpha=0.1, criterion='friedman_mse', init=None,\n", " learning_rate=0.1, loss='ls', max_depth=3, max_features=None,\n", " max_leaf_nodes=None, min_impurity_decrease=0.0,\n", " min_impurity_split=None, min_samples_leaf=1,\n", " min_samples_split=2, min_weight_fraction_leaf=0.0,\n", " n_estimators=100, presort='auto', random_state=None,\n", " subsample=1.0, verbose=0, warm_start=False)\n", "Test set score: 0.62\n", "\n", "explained_variance_score: 0.6333933570920071\n", "mean_absolute_error: 0.4410440244803421\n", "mean_squared_error: 0.2945365131871811\n", "median_absolute_error: 0.37617245551529926\n", "r2_score: 0.6195689836183305\n" ] } ], "source": [ "import warnings\n", "warnings.filterwarnings('ignore')\n", "from sklearn.ensemble import GradientBoostingRegressor\n", "\n", "X, y = mglearn.datasets.make_wave(n_samples=200)\n", "print(\"X shape: {}\".format(X.shape))\n", "print(\"y shape: {}\".format(y.shape))\n", "\n", "X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)\n", "print(\"X_train shape: {}\".format(X_train.shape))\n", "print(\"X_test shape: {}\".format(X_test.shape))\n", "\n", "print()\n", "\n", "param_grid = { \n", " 'learning_rate': [0.001, 0.01, 0.1, 1, 10, 100],\n", " 'alpha': [0.1, 0.3, 0.5, 0.7, 0.9]\n", "}\n", "\n", "estimator = GradientBoostingRegressor()\n", "\n", "grid_search = GridSearchCV(\n", " estimator = estimator, \n", " param_grid = param_grid, \n", " n_jobs = -1, \n", " cv = 5, \n", " return_train_score = True\n", ")\n", "\n", "grid_search.fit(X_train, y_train)\n", "print(\"Best cross-validation accuracy: {:.2f}\".format(grid_search.best_score_))\n", "print(\"Best parameters:\\n{}\".format(grid_search.best_params_))\n", "print(\"Best estimator:\\n{}\".format(grid_search.best_estimator_))\n", "\n", "print(\"Test set score: {:.2f}\".format(grid_search.score(X_test, y_test)))\n", "\n", "y_pred = gbr.predict(X_test)\n", "\n", "print()\n", "\n", "# Possible scoring\n", "print(\"explained_variance_score:\", explained_variance_score(y_test, y_pred))\n", "print(\"mean_absolute_error:\", mean_absolute_error(y_test, y_pred))\n", "print(\"mean_squared_error:\", mean_squared_error(y_test, y_pred))\n", "#print(\"mean_squared_log_error:\", mean_squared_log_error(y_test, y_pred))\n", "print(\"median_absolute_error:\", median_absolute_error(y_test, y_pred))\n", "print(\"r2_score:\", r2_score(y_test, y_pred))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Using evaluation metrics in model selection\n", "- [note]: http://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 이진 분류" ] }, { "cell_type": "code", "execution_count": 118, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Default scoring: [0.9 0.9 0.9]\n", "Explicit accuracy scoring: [0.9 0.9 0.9]\n", "\n", "ROC_AUC scoring: [0.994 0.99 0.996]\n", "Average Precision scoring: [0.96 0.953 0.978]\n", "\n", "Precision scoring: [0.81 0.81 0.81]\n", "Precision scoring: [0.9 0.9 0.9]\n", "F1_score scoring: [0.852 0.852 0.852]\n" ] } ], "source": [ "# default scoring for classification is accuracy\n", "scores = cross_val_score(SVC(), digits.data, digits.target == 9)\n", "print(\"Default scoring: {}\".format(scores))\n", "\n", "# providing scoring=\"accuracy\" doesn't change the results\n", "scores2 = cross_val_score(SVC(), digits.data, digits.target == 9, scoring=\"accuracy\")\n", "print(\"Explicit accuracy scoring: {}\".format(scores2))\n", "\n", "print()\n", "\n", "# 곡선의 면적을 활용한 성능 측정 (Recommended)\n", "roc_auc = cross_val_score(SVC(), digits.data, digits.target == 9, scoring=\"roc_auc\")\n", "print(\"ROC_AUC scoring: {}\".format(roc_auc))\n", "\n", "average_precision = cross_val_score(SVC(), digits.data, digits.target == 9, scoring=\"average_precision\")\n", "print(\"Average Precision scoring: {}\".format(average_precision))\n", "\n", "print()\n", "\n", "# 다양한 성능 측정 (Not Recommended)\n", "precision = cross_val_score(SVC(), digits.data, digits.target == 9, scoring=\"precision_weighted\")\n", "print(\"Precision scoring: {}\".format(precision))\n", "\n", "recall = cross_val_score(SVC(), digits.data, digits.target == 9, scoring=\"recall_weighted\")\n", "print(\"Precision scoring: {}\".format(recall))\n", "\n", "f1_score = cross_val_score(SVC(), digits.data, digits.target == 9, scoring=\"f1_weighted\")\n", "print(\"F1_score scoring: {}\".format(f1_score))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 다중 분류" ] }, { "cell_type": "code", "execution_count": 119, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Explicit accuracy scoring: [0.394 0.411 0.46 ]\n", "F1_weighted scoring: [0.439 0.463 0.524]\n" ] } ], "source": [ "scores = cross_val_score(SVC(), digits.data, digits.target, scoring=\"accuracy\")\n", "print(\"Explicit accuracy scoring: {}\".format(scores))\n", "\n", "f1_weighted = cross_val_score(SVC(), digits.data, digits.target, scoring=\"f1_weighted\")\n", "print(\"F1_weighted scoring: {}\".format(f1_weighted))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- GridSearchCV에 다양한 scoring 적용 " ] }, { "cell_type": "code", "execution_count": 120, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Grid-Search with accuracy\n", "Best parameters: {'gamma': 0.0001}\n", "Best cross-validation score (accuracy)): 0.970\n", "Test set AUC: 0.992\n", "Test set accuracy: 0.973\n", "\n", "Grid-Search with AUC\n", "Best parameters: {'gamma': 0.01}\n", "Best cross-validation score (AUC): 0.997\n", "Test set AUC: 1.000\n", "Test set accuracy: 1.000\n" ] } ], "source": [ "X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target == 9, random_state=0)\n", "\n", "# we provide a somewhat bad grid to illustrate the point:\n", "param_grid = {'gamma': [0.0001, 0.01, 0.1, 1, 10]}\n", "\n", "# using the default scoring of accuracy:\n", "grid = GridSearchCV(SVC(), param_grid=param_grid)\n", "grid.fit(X_train, y_train)\n", "print(\"Grid-Search with accuracy\")\n", "print(\"Best parameters:\", grid.best_params_)\n", "print(\"Best cross-validation score (accuracy)): {:.3f}\".format(grid.best_score_))\n", "print(\"Test set AUC: {:.3f}\".format(roc_auc_score(y_test, grid.decision_function(X_test))))\n", "print(\"Test set accuracy: {:.3f}\".format(grid.score(X_test, y_test)))\n", "\n", "print()\n", "\n", "# using AUC scoring instead:\n", "grid = GridSearchCV(SVC(), param_grid=param_grid, scoring=\"roc_auc\")\n", "grid.fit(X_train, y_train)\n", "print(\"Grid-Search with AUC\")\n", "print(\"Best parameters:\", grid.best_params_)\n", "print(\"Best cross-validation score (AUC): {:.3f}\".format(grid.best_score_))\n", "print(\"Test set AUC: {:.3f}\".format(roc_auc_score(y_test, grid.decision_function(X_test))))\n", "print(\"Test set accuracy: {:.3f}\".format(grid.score(X_test, y_test)))" ] }, { "cell_type": "code", "execution_count": 121, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Available scorers:\n", "['accuracy', 'adjusted_mutual_info_score', 'adjusted_rand_score', 'average_precision', 'completeness_score', 'explained_variance', 'f1', 'f1_macro', 'f1_micro', 'f1_samples', 'f1_weighted', 'fowlkes_mallows_score', 'homogeneity_score', 'log_loss', 'mean_absolute_error', 'mean_squared_error', 'median_absolute_error', 'mutual_info_score', 'neg_log_loss', 'neg_mean_absolute_error', 'neg_mean_squared_error', 'neg_mean_squared_log_error', 'neg_median_absolute_error', 'normalized_mutual_info_score', 'precision', 'precision_macro', 'precision_micro', 'precision_samples', 'precision_weighted', 'r2', 'recall', 'recall_macro', 'recall_micro', 'recall_samples', 'recall_weighted', 'roc_auc', 'v_measure_score']\n" ] } ], "source": [ "from sklearn.metrics.scorer import SCORERS\n", "print(\"Available scorers:\\n{}\".format(sorted(SCORERS.keys())))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Summary and Outlook" ] } ], "metadata": { "anaconda-cloud": {}, "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.0" } }, "nbformat": 4, "nbformat_minor": 1 }