{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# **SVM을 이용한 뉴스 Topic 분류기**\n", "뉴스 데이터를 활용하여 주제를 구분하는 모델을 만든다\n", "1. **Tf-IDF**\n", "1. **SVM**" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## **1 스펨메일을 활용한 Tf-Idf를 정의한다**\n", "1. Naive Bayse 에서 실습한 분류기 학습을 복습한다\n", "1. 텍스트 데이터 **임베딩을 Tf-Idf** 로 생성한다\n", "1. 앞의 **Smoothing / Naive Bayse** 보다, **Tf-IDF / Naive Bayse** 의 AUC가 더 큼을 알 수 있다.\n", "\n", "### **01 Naive Bayse 내용의 복습**\n", "앞에서 진행한 파일 불러오기 및 전처리 작업을 진행합니다" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "# 앞에서 진행한 내용 복습\n", "# 정상매일은 0, 스펨매일은 1\n", "import glob,os\n", "\n", "emails, labels = [], []\n", "for no, file_path in enumerate(['./data/enron1/ham/','./data/enron1/spam/']):\n", " for filename in glob.glob(os.path.join(file_path, '*.txt')):\n", " with open(filename, 'r', encoding = \"ISO-8859-1\") as infile:\n", " emails.append(infile.read())\n", " labels.append(no)" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [], "source": [ "from nltk.corpus import names\n", "from nltk.stem import WordNetLemmatizer\n", "\n", "def letters_only(astr):\n", " for c in astr:\n", " if not c.isalpha():\n", " return False\n", " return True\n", "\n", "def clean_text(docs):\n", " cleaned_docs = []\n", " for doc in docs:\n", " cleaned_docs.append(' '.join([lemmatizer.lemmatize(word.lower())\n", " for word in doc.split()\n", " if letters_only(word) and word not in all_names]))\n", " return cleaned_docs" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [], "source": [ "all_names = set(names.words())\n", "lemmatizer = WordNetLemmatizer()\n", "cleaned_emails = clean_text(emails)" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [], "source": [ "from sklearn.model_selection import StratifiedKFold\n", "import numpy as np\n", "\n", "k = 10\n", "k_fold = StratifiedKFold(n_splits=k)\n", "cleaned_emails_np = np.array(cleaned_emails)\n", "labels_np = np.array(labels)\n", "\n", "smoothing_factor_option = [1.0, 2.0, 3.0, 4.0, 5.0]" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [], "source": [ "from collections import defaultdict\n", "auc_record = defaultdict(float)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "\n", "### **02 Tf-IDf 객체를 생성한다**\n", "1. Naive Bayse 에서 실습한 분류기 학습을 복습한다\n", "1. 이를 활용하여 Tf-Idf 를 생성해본다" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [], "source": [ "%timeit\n", "from sklearn.feature_extraction.text import TfidfVectorizer\n", "from sklearn.naive_bayes import MultinomialNB\n", "from sklearn.metrics import roc_auc_score\n", "\n", "for train_indices, test_indices in k_fold.split(cleaned_emails, labels):\n", " X_train, X_test = cleaned_emails_np[train_indices], cleaned_emails_np[test_indices]\n", " Y_train, Y_test = labels_np[train_indices], labels_np[test_indices]\n", " tfidf_vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5, stop_words='english', max_features=8000)\n", " term_docs_train = tfidf_vectorizer.fit_transform(X_train)\n", " term_docs_test = tfidf_vectorizer.transform(X_test)\n", " for smoothing_factor in smoothing_factor_option:\n", " clf = MultinomialNB(alpha=smoothing_factor, fit_prior=True)\n", " clf.fit(term_docs_train, Y_train)\n", " prediction_prob = clf.predict_proba(term_docs_test)\n", " pos_prob = prediction_prob[:, 1]\n", " auc = roc_auc_score(Y_test, pos_prob)\n", " auc_record[smoothing_factor] += auc" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "defaultdict(,\n", " {1.0: 9.936451496663112,\n", " 2.0: 9.944332721241558,\n", " 3.0: 9.949654316234254,\n", " 4.0: 9.953068949176636,\n", " 5.0: 9.954994323342417})\n" ] } ], "source": [ "from pprint import pprint\n", "pprint(auc_record)" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "max features smoothing fit prior auc\n", "\t8000 \t 1.0 \t true \t 0.9936\n", "\t8000 \t 2.0 \t true \t 0.9944\n", "\t8000 \t 3.0 \t true \t 0.9950\n", "\t8000 \t 4.0 \t true \t 0.9953\n", "\t8000 \t 5.0 \t true \t 0.9955\n" ] } ], "source": [ "print('max features smoothing fit prior auc')\n", "for smoothing, smoothing_record in auc_record.items():\n", " print('\\t8000 \\t {0} \\t true \\t {1:.4f}'.format(smoothing, smoothing_record/k))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "\n", "## **2 SVM 개념**\n", "1. 최적의 **Hyperplane (데이터가 잘 구분된 최적의 공간)** 을 찾는다\n", "1. 이를 구분하는 데이터 포인트 들을 **Support Vectors**라고 한다\n", "\n", "" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "\n", "### **01 SVM의 원리**\n", "1. 시나리오1 : **Hyperplane**로 데이터 선별 **ex) $wx + b > 0$ , $wx + b < 0$** 로 분할\n", "1. 시나리오2 : 최적의 **Hyperplane** 결정\n", "1. 시나리오3 : **Outlier(이상치)** 처리 - 에러값이 최소가 되게끔 해야 한다" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "\n", "### **02-1 2개 Topic을 구분하는 SVM (전처리)**\n", "1. 특정한 뉴스토픽 데이터를 불러온 뒤\n", "1. 테스트 데이터를 전처리 작업 후\n", "1. Tf-IDf 로 임베딩 한다" ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [], "source": [ "# 구분할 2개의 카테고리 데이터를 불러온다\n", "from sklearn.datasets import fetch_20newsgroups\n", "\n", "categories = ['comp.graphics', 'sci.space']\n", "data_train = fetch_20newsgroups(subset='train', categories=categories, random_state=42)\n", "data_test = fetch_20newsgroups(subset='test', categories=categories, random_state=42)" ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [], "source": [ "# 불러온 데이터들을 전처리 작업한다\n", "cleaned_train = clean_text(data_train.data)\n", "label_train = data_train.target\n", "cleaned_test = clean_text(data_test.data)\n", "label_test = data_test.target" ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "훈련 데이터 : Counter({1: 593, 0: 584}) \n", "테스트 데이터 : Counter({1: 394, 0: 389})\n" ] } ], "source": [ "# 개별 뉴스그룹내 비슷한 분포로 0, 1 데이터가 분포되어 있다\n", "from collections import Counter\n", "print('훈련 데이터 : {} \\n테스트 데이터 : {}'.format(\n", " Counter(label_train), Counter(label_test)))" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [], "source": [ "# 데이터를 Tf-IDF 로 임베딩 변환한다\n", "tfidf_vectorizer = TfidfVectorizer(sublinear_tf = True, \n", " max_df = 0.5, \n", " stop_words = 'english', \n", " max_features = 8000)\n", "term_docs_train = tfidf_vectorizer.fit_transform(cleaned_train)\n", "term_docs_test = tfidf_vectorizer.transform(cleaned_test)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "\n", "### **02-2 2개 Topic을 구분하는 SVM (학습)**\n", "1. Kernal 파라미터는 **Linear**로 설정\n", "1. 패널티 값은 1로 설정\n", "1. SVM 알고리즘 모델을 초기화 한다" ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,\n", " decision_function_shape='ovr', degree=3, gamma='auto', kernel='linear',\n", " max_iter=-1, probability=False, random_state=42, shrinking=True,\n", " tol=0.001, verbose=False)" ] }, "execution_count": 21, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# 위에서 정의한 파라미터로 모델을 학습한다\n", "from sklearn.svm import SVC\n", "svm = SVC(kernel='linear', C=1.0, random_state=42)\n", "svm.fit(term_docs_train, label_train)" ] }, { "cell_type": "code", "execution_count": 22, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "The accuracy on testing set is: 96.4%\n" ] } ], "source": [ "# 학습한 모델을 활용하여 데이터를 예측해본다\n", "accuracy = svm.score(term_docs_test, label_test)\n", "print('The accuracy on testing set is: {0:.1f}%'.format(accuracy*100))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "\n", "### **03 여러개 Topic을 구분하는 SVM**\n", "1. **다중 클래스를** 분류하는 모델\n", "1. **K-클래스의** 문제를 **K개의 서로다른 분류기를** 생성한다\n", "1. **일대 일 방법**은 전체 중 **일부를 사용하여** 컴퓨팅 속도등이 빠르다\n", "1. **일대 다 방법**은 **전체 데이터를** 사용하여 **서로 다른 모듈을** 만든다\n", "\n", "" ] }, { "cell_type": "code", "execution_count": 24, "metadata": {}, "outputs": [], "source": [ "# 다양한 클래스의 뉴스데이터 불러오기\n", "categories = [\n", " 'alt.atheism',\n", " 'talk.religion.misc',\n", " 'comp.graphics',\n", " 'sci.space',\n", " 'rec.sport.hockey']\n", "\n", "data_train = fetch_20newsgroups(subset='train', categories=categories, random_state=42)\n", "data_test = fetch_20newsgroups(subset='test', categories=categories, random_state=42)" ] }, { "cell_type": "code", "execution_count": 26, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "CPU times: user 5 µs, sys: 0 ns, total: 5 µs\n", "Wall time: 11 µs\n" ] } ], "source": [ "%time\n", "# 뉴스그룹 데이터 전처리 작업\n", "cleaned_train = clean_text(data_train.data)\n", "label_train = data_train.target\n", "cleaned_test = clean_text(data_test.data)\n", "label_test = data_test.target" ] }, { "cell_type": "code", "execution_count": 28, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "CPU times: user 8 µs, sys: 0 ns, total: 8 µs\n", "Wall time: 16 µs\n" ] }, { "data": { "text/plain": [ "SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,\n", " decision_function_shape='ovr', degree=3, gamma='auto', kernel='linear',\n", " max_iter=-1, probability=False, random_state=42, shrinking=True,\n", " tol=0.001, verbose=False)" ] }, "execution_count": 28, "metadata": {}, "output_type": "execute_result" } ], "source": [ "%time\n", "# Tf-IDF 로 임베딩\n", "term_docs_train = tfidf_vectorizer.fit_transform(cleaned_train)\n", "term_docs_test = tfidf_vectorizer.transform(cleaned_test)\n", "\n", "# SVM 모델을 정의하고 학습한다\n", "svm = SVC(kernel='linear', C=1.0, random_state=42)\n", "svm.fit(term_docs_train, label_train)" ] }, { "cell_type": "code", "execution_count": 29, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "The accuracy on testing set is: 88.6%\n" ] } ], "source": [ "# 학습 모델의 정확도 측정\n", "accuracy = svm.score(term_docs_test, label_test)\n", "print('The accuracy on testing set is: {0:.1f}%'.format(accuracy*100))" ] }, { "cell_type": "code", "execution_count": 30, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " precision recall f1-score support\n", "\n", " 0 0.81 0.77 0.79 319\n", " 1 0.91 0.94 0.93 389\n", " 2 0.98 0.96 0.97 399\n", " 3 0.93 0.93 0.93 394\n", " 4 0.73 0.76 0.74 251\n", "\n", "avg / total 0.89 0.89 0.89 1752\n", "\n" ] } ], "source": [ "# 학습된 내용을 자세히 살펴보기\n", "from sklearn.metrics import classification_report\n", "prediction = svm.predict(term_docs_test)\n", "report = classification_report(label_test, prediction)\n", "print(report)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "\n", "## **3 SVM 커널 함수들**\n", "**RBF 커널을** 활용하여 **선형모델로 분류할 수 없는** 문제를 해결 (XOR) 가능하다" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "\n", "### **01 RBF 커널 살펴보기**\n", "1. 각각이 다른값을 갖는 데이터에 **RBF함수를** 적용해본다\n", "1. 특별한 목정이 정해지지 않은면 **RBF**를 많이 사용한다\n", "1. **Polynomial kernel(다항)** 커널은 변경해야 하는 파라미터가 많고\n", "1. **Sigmoid kernel(시그모이드)** 커널은 특정한 파라미터가 지정되었을 때 효과가 좋기 때문이다" ] }, { "cell_type": "code", "execution_count": 50, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(16, 2)" ] }, "execution_count": 50, "metadata": {}, "output_type": "execute_result" } ], "source": [ "import numpy as np\n", "X = np.c_[(.3,-.8),(-1.5, -1),(-1.3,-.8),(-1.1,-1.3),(-1.2,-.3),(-1.3, -.5),(-.6,1.1),(-1.4, 2.2),\n", " (1,1), (1.3,.8), (1.2, .5), (.2, -2), (.5,-2.4), (.2, -2.3), (0, -2.7), (1.3, 2.1)].T\n", "X.shape" ] }, { "cell_type": "code", "execution_count": 48, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "[-1, -1, -1, -1, -1, -1, -1, -1, 1, 1, 1, 1, 1, 1, 1, 1]" ] }, "execution_count": 48, "metadata": {}, "output_type": "execute_result" } ], "source": [ "gamma_option = [1,2,4]\n", "Y = [-1] * 8 + [1] * 8\n", "Y" ] }, { "cell_type": "code", "execution_count": 53, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "/home/markbaum/Python/python/lib/python3.6/site-packages/matplotlib/contour.py:1000: UserWarning: The following kwargs were not used by contour: 'color'\n", " s)\n" ] }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "%matplotlib inline\n", "import matplotlib.pyplot as plt\n", "plt.figure(1, figsize=(4*len(gamma_option), 4))\n", "for i, gamma in enumerate(gamma_option, 1):\n", " svm = SVC(kernel='rbf', gamma=gamma)\n", " svm.fit(X,Y)\n", " plt.subplot(1, len(gamma_option), i)\n", " plt.scatter(X[:,0], X[:,1], c=Y, zorder=10, cmap=plt.cm.Paired)\n", " plt.axis('tight')\n", " XX, YY = np.mgrid[-3:3:200j, -3:3:200j]\n", " Z = svm.decision_function(np.c_[XX.ravel(), YY.ravel()])\n", " Z = Z.reshape(XX.shape)\n", " plt.pcolormesh(XX, YY, Z > 0, cmap=plt.cm.Paired)\n", " plt.contour(XX, YY, Z, color=['k','k','k'],\n", " linestyles=['--','-','--'], levels=[-.5, 0, .5])\n", " plt.title('gamma=%d'%gamma)\n", " \n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "\n", "### **02 선형 커널 함수와 RBF 커널 함수의 비교**\n", "1. RBF 방식의 커널이 항상 유용한 것은 아니듯, 선형이 유용한 경우도 존재한다\n", "1. 시나리오1 : **Feacture** 갯수와 **Sample의** 갯수가 **모두 큰 경우** 계산량이 복잡하면 선형모델로 구분하는게 더 효과적이다\n", "1. 시나리오2 : **Feacture** 갯수가 학습데이터 샘플 갯수보다 **훨씬 큰 경우** RBF는 Overfitting이 잘 일어나기 때문이다\n", "1. 시나리오3 : Feacture 갯수보다 **학습데이터 샘플의 갯수가 훨씬 많은 경우**\n", "1. 위의 3가지 경우가 아니라면 **RBF**를 사용하여 분석해보자" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "\n", "## **4 SVM을 활용한 News Topic 분류**\n", "1. 뉴스그룹 20개의 데이터를 불러와서 정제작업을 진행한다\n", "1. 분류모델은 **선셩회귀식**을 사용한다\n", "1. **category 검정은** 반복문이 아닌 Sklearn의 **GridSearchCV를** 사용한다" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "\n", "### **01 SVC를 활용한 모델의 학습**\n", "\n", "> **GridSearchCV()**\n", "\n", "1. **데이터 분할, 폴드 생성, 교차학습 및 검증, 가장 효과적인 파라미터 추출등을** 함께 진행한다\n", "1. **n_jobs = -1 :** 개별 코어들을 병렬로 진행한다\n", "1. **cv = 3** : 3폴드 교차검증을 진행한다" ] }, { "cell_type": "code", "execution_count": 54, "metadata": {}, "outputs": [], "source": [ "# 학습할 데이터를 불러온다\n", "categories = None\n", "data_train = fetch_20newsgroups(subset='train', categories=categories, random_state=42)\n", "data_test = fetch_20newsgroups(subset='test', categories=categories, random_state=42)\n", "\n", "# 데이터를 전처리 작업을 진행한다\n", "cleaned_train = clean_text(data_train.data)\n", "label_train = data_train.target\n", "cleaned_test = clean_text(data_test.data)\n", "label_test = data_test.target\n", "\n", "# Tf-IDF로 텍스트를 임베딩 작업 진행한다\n", "tfidf_vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5, stop_words='english', max_features=8000)\n", "term_docs_train = tfidf_vectorizer.fit_transform(cleaned_train)\n", "term_docs_test = tfidf_vectorizer.transform(cleaned_test)" ] }, { "cell_type": "code", "execution_count": 32, "metadata": {}, "outputs": [], "source": [ "# 텍스트 데이터를 분류하는 경우 선형함수를 사용한다\n", "arameters = {'C': [0.1, 1, 10, 100]}\n", "svc_libsvm = SVC(kernel='linear')\n", "\n", "# 전체 20개의 파라미터를 순차적 검증하기 위하여 for 반복문 대신에\n", "from sklearn.model_selection import GridSearchCV\n", "grid_search = GridSearchCV(svc_libsvm, parameters, n_jobs=-1, cv=3)" ] }, { "cell_type": "code", "execution_count": 32, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "--- 329.416s seconds ---\n", "{'C': 10}\n", "0.8665370337634789\n" ] } ], "source": [ "# 위에서 정의한 모델을 활용하여 학습을 진행한다\n", "import timeit\n", "start_time = timeit.default_timer()\n", "grid_search.fit(term_docs_train, label_train)\n", "print(\"--- %0.3fs seconds ---\" % (timeit.default_timer() - start_time))\n", "print(grid_search.best_params_)\n", "print(grid_search.best_score_)" ] }, { "cell_type": "code", "execution_count": 56, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "The accuracy on testing set is: 76.2%\n" ] } ], "source": [ "%time\n", "# 최적화된 파라미터로 세팅된 SVM모델을 Test 한다\n", "svc_libsvm_best = grid_search.best_estimator_\n", "accuracy = svc_libsvm_best.score(term_docs_test, label_test)\n", "print('The accuracy on testing set is: {0:.1f}%'.format(accuracy*100))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "\n", "### **02 SVC 모델의 튜닝 1**\n", "> **LinearSVC()**\n", "\n", "1. 원본 데이터세트를 활용하여 튜닝을 한다\n", "1. sklearn에서 제공하는 **LinearSVC()** 모듈을 사용해보자\n", "1. SVC와 유사하지만, **libsvm** 모듈 대신에, **liblinear** 를 기반으로 구성\n", "1. 모델생성 속도측면에서 10배 이상 빠르다" ] }, { "cell_type": "code", "execution_count": 57, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "--- 11.786s seconds ---\n", "{'C': 1}\n", "0.8707795651405339\n" ] } ], "source": [ "# LinearSVC() 를 활용하여 분류모델을 생성한다\n", "from sklearn.svm import LinearSVC\n", "svc_linear = LinearSVC()\n", "grid_search = GridSearchCV(svc_linear, parameters, n_jobs=-1, cv=3)\n", "\n", "start_time = timeit.default_timer()\n", "grid_search.fit(term_docs_train, label_train)\n", "print(\"--- %0.3fs seconds ---\" % (timeit.default_timer() - start_time))\n", "print(grid_search.best_params_)\n", "print(grid_search.best_score_)" ] }, { "cell_type": "code", "execution_count": 58, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "The accuracy on testing set is: 77.9%\n" ] } ], "source": [ "# 생성한 모델의 성능을 비교평가한다\n", "svc_linear_best = grid_search.best_estimator_\n", "accuracy = svc_linear_best.score(term_docs_test, label_test)\n", "print('The accuracy on testing set is: {0:.1f}%'.format(accuracy*100))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "\n", "### **03 SVC 모델의 튜닝 2**\n", "> **Pipeline()**\n", "\n", "1. Feacture 추출기를 **Pipeline API로** 교체한다\n", "1. max_df : 문서빈도 중 최대값을 설정\n", "1. max_feature : 중요하게 모델에서 학습 할 Feacture 수\n", "1. sublinear_tf : 로그함수 또는 다른함수를 이용하여 출현빈도를 변환\n", "1. smooth_idf : 용어의 출현 빈도에 대한 Smoothing 초기값\n", "1. Grid 검색모델은 **파이프라인 전체에** 걸쳐서 **최적의 Setting을** 찾는다" ] }, { "cell_type": "code", "execution_count": 59, "metadata": {}, "outputs": [], "source": [ "# Tf-IDF 추출기와 SVM 분류기를 1개의 PipeLine로 묶는다\n", "from sklearn.pipeline import Pipeline\n", "pipeline = Pipeline([\n", " ('tfidf', TfidfVectorizer(stop_words='english')),\n", " ('svc', LinearSVC()), ])" ] }, { "cell_type": "code", "execution_count": 60, "metadata": {}, "outputs": [], "source": [ "# Pipe Line 단계의 이름과 파라미터를 묶어서 키로 설정한다\n", "parameters_pipeline = {\n", " 'tfidf__max_df': (0.25, 0.5),\n", " 'tfidf__max_features': (40000, 50000),\n", " 'tfidf__sublinear_tf': (True, False),\n", " 'tfidf__smooth_idf': (True, False),\n", " 'svc__C': (0.1, 1, 10, 100),}" ] }, { "cell_type": "code", "execution_count": 61, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "--- 468.816s seconds ---\n", "{'svc__C': 1, 'tfidf__max_df': 0.5, 'tfidf__max_features': 40000, 'tfidf__smooth_idf': False, 'tfidf__sublinear_tf': True}\n", "0.8883683931412409\n" ] } ], "source": [ "grid_search = GridSearchCV(pipeline, parameters_pipeline, n_jobs=-1, cv=3)\n", "start_time = timeit.default_timer()\n", "grid_search.fit(cleaned_train, label_train)\n", "print(\"--- %0.3fs seconds ---\" % (timeit.default_timer() - start_time))\n", "print(grid_search.best_params_)\n", "print(grid_search.best_score_)" ] }, { "cell_type": "code", "execution_count": 62, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "The accuracy on testing set is: 80.6%\n" ] } ], "source": [ "pipeline_best = grid_search.best_estimator_\n", "accuracy = pipeline_best.score(cleaned_test, label_test)\n", "print('The accuracy on testing set is: {0:.1f}%'.format(accuracy*100))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "\n", "## **5 SVM을 활용한 심전도 데이터로 태아의 상태 분류**\n", "1. 뉴스그룹 20개의 데이터를 불러와서 정제작업을 진행한다\n", "1. 분류모델은 **선셩회귀식**을 사용한다\n", "1. **category 검정은** 반복문이 아닌 Sklearn의 **GridSearchCV를** 사용한다" ] }, { "cell_type": "code", "execution_count": 71, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Counter({2.0: 295, 1.0: 1654, 3.0: 176})" ] }, "execution_count": 71, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# 태아의 심전도 데이터 불러오기\n", "import pandas as pd\n", "df = pd.read_excel('./data/CTG.xls', 'Raw Data')\n", "X = df.iloc[1:2126, 3:-2].values\n", "Y = df.iloc[1:2126, -1].values\n", "\n", "# 데이터 분포비율 분석\n", "Counter(Y)" ] }, { "cell_type": "code", "execution_count": 73, "metadata": {}, "outputs": [], "source": [ "# Test를 위해 20% 데이터를 분리한다\n", "from sklearn.model_selection import train_test_split\n", "X_train, X_test, Y_train, Y_test = train_test_split(\n", " X, Y, test_size=.2, random_state=42)" ] }, { "cell_type": "code", "execution_count": 77, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "--- 6.878s seconds ---\n", "{'C': 100000.0, 'gamma': 1e-07}\n", "0.9447058823529412\n" ] }, { "data": { "text/plain": [ "SVC(C=100000.0, cache_size=200, class_weight=None, coef0=0.0,\n", " decision_function_shape='ovr', degree=3, gamma=1e-07, kernel='rbf',\n", " max_iter=-1, probability=False, random_state=None, shrinking=True,\n", " tol=0.001, verbose=False)" ] }, "execution_count": 77, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# RBF 기반 SVM모델을 튜닝한다\n", "svc = SVC(kernel='rbf')\n", "parameters = {'C':(100, 1e3, 1e4, 1e5),\n", " 'gamma':(1e-8, 1e-7, 1e-6, 1e-5)}\n", "grid_search = GridSearchCV(svc, parameters, n_jobs=-1, cv=3)\n", "start_time = timeit.default_timer()\n", "grid_search.fit(X_train, Y_train)\n", "print(\"--- %0.3fs seconds ---\" % (timeit.default_timer() - start_time))\n", "print(grid_search.best_params_)\n", "print(grid_search.best_score_)\n", "\n", "# 최적화된 모델의 파라미터를 출력\n", "svc_best = grid_search.best_estimator_\n", "svc_best" ] }, { "cell_type": "code", "execution_count": 84, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "The accuracy on testing set is: 95.5%\n" ] } ], "source": [ "# 최적화 파라미터를 사용하여 모델을 Test 한다\n", "accuracy = svc_best.score(X_test, Y_test)\n", "print('The accuracy on testing set is: {0:.1f}%'.format(accuracy*100))" ] }, { "cell_type": "code", "execution_count": 87, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " precision recall f1-score support\n", "\n", " 1.0 0.96 0.98 0.97 324\n", " 2.0 0.89 0.91 0.90 65\n", " 3.0 1.00 0.78 0.88 36\n", "\n", "avg / total 0.96 0.96 0.95 425\n", "\n" ] } ], "source": [ "# 개별 클래스멸 성능을 측정한다\n", "prediction = svc_best.predict(X_test)#, Y_test)\n", "report = classification_report(Y_test,prediction)\n", "print(report)" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.9" } }, "nbformat": 4, "nbformat_minor": 4 }