{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": { "ExecuteTime": { "end_time": "2019-03-11T13:06:11.305433Z", "start_time": "2019-03-11T13:06:10.536634Z" } }, "outputs": [], "source": [ "import pandas as pd\n", "import numpy as np\n", "import matplotlib.pyplot as plt\n", "%matplotlib inline\n", "\n", "from scipy.io import loadmat\n", "from sklearn.svm import OneClassSVM\n", "from sklearn.covariance import EllipticEnvelope\n", "\n", "import seaborn as sns\n", "sns.set_style('white')" ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "ExecuteTime": { "end_time": "2019-03-11T13:06:35.060356Z", "start_time": "2019-03-11T13:06:35.055890Z" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "dict_keys(['__header__', '__version__', '__globals__', 'X', 'Xval', 'yval'])\n" ] } ], "source": [ "# 데이터를 로드 합니다.\n", "data1 = loadmat(\"resources/data1.mat\")\n", "# 로드한 데이터의 key 값을 확인합니다.\n", "print(data1.keys())" ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "ExecuteTime": { "end_time": "2019-03-11T13:06:44.826734Z", "start_time": "2019-03-11T13:06:44.824227Z" } }, "outputs": [], "source": [ "# 데이터 중 실제 데이터에 해당하는 X 값을 변수에 저장합니다.\n", "X = data1['X']" ] }, { "cell_type": "code", "execution_count": 4, "metadata": { "ExecuteTime": { "end_time": "2019-03-11T13:06:52.323129Z", "start_time": "2019-03-11T13:06:52.320153Z" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "X: (307, 2)\n" ] } ], "source": [ "# X 값을 확인합니다.\n", "X = data1['X']\n", "print('X:', X.shape)" ] }, { "cell_type": "code", "execution_count": 5, "metadata": { "ExecuteTime": { "end_time": "2019-03-11T13:08:16.881440Z", "start_time": "2019-03-11T13:08:16.831344Z" } }, "outputs": [ { "data": { "text/plain": [ "EllipticEnvelope(assume_centered=False, contamination=0.1, random_state=None,\n", " store_precision=True, support_fraction=None)" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# gaussian 분포를 이용하여 Outlier를 검출하는 EllipticEnvelope 객체를 선언합니다.\n", "clf = EllipticEnvelope()\n", "# 학습 데이터 X를 이용하여 gaussian 분포를 학습합니다.\n", "clf.fit(X)" ] }, { "cell_type": "code", "execution_count": 22, "metadata": { "ExecuteTime": { "end_time": "2019-03-11T13:38:40.645379Z", "start_time": "2019-03-11T13:38:40.641411Z" } }, "outputs": [], "source": [ "# Calculate the decision function and use threshold to determine outliers\n", "# decision_function을 이용하여 Mahalanobis distances를 구합니다.\n", "y_pred = clf.decision_function(X).ravel()\n", "# outlier를 백분위에서 얼마나 낮은 값이하로 설정할지 임계값을 정합니다. \n", "# percentile은 0 ~ 100 사이로 입력해야 하며 outlier검출 목적상 작은 값이어야 합니다.\n", "percentile = 2\n", "# y_pred에서 percentile 에 해당하는 값(threshold)를 구합니다.\n", "threshold = np.percentile(y_pred, percentile)\n", "# threshold 값보다 작은 값들의 index를 구합니다.\n", "outliers = y_pred < threshold" ] }, { "cell_type": "code", "execution_count": 26, "metadata": { "ExecuteTime": { "end_time": "2019-03-11T13:40:47.514618Z", "start_time": "2019-03-11T13:40:47.511145Z" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Outlier 갯수 : 7\n" ] } ], "source": [ "print(\"Outlier 갯수 : \", np.count_nonzero(outliers))" ] }, { "cell_type": "code", "execution_count": 28, "metadata": { "ExecuteTime": { "end_time": "2019-03-11T13:41:23.187922Z", "start_time": "2019-03-11T13:41:23.007378Z" } }, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 28, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# plot을 설정합니다.\n", "fig, ax = plt.subplots(figsize=(8,5))\n", "\n", "# decision function의 결과인 y_pred에 대한 분포를 그래프에 표시합니다.\n", "sns.distplot(y_pred, rug = True, ax=ax)\n", "\n", "# outliter를 그래프에 표시합니다.\n", "sns.distplot(y_pred[outliers], rug=True, hist=False, kde=False, norm_hist=True, color='r', ax=ax)\n", "\n", "ax.vlines(threshold, 0, 0.9, colors='r', linestyles='dotted',\n", " label='Threshold for {} percentile = {}'.format(percentile, np.round(threshold, 2)))\n", "\n", "ax.set_title('Distribution of Elliptic Envelope decision function values');\n", "\n", "ax.legend(loc='best')" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "anaconda-cloud": {}, "kernelspec": { "display_name": "Python [conda env:mldl]", "language": "python", "name": "conda-env-mldl-py" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.6" }, "varInspector": { "cols": { "lenName": 16, "lenType": 16, "lenVar": 40 }, "kernels_config": { "python": { "delete_cmd_postfix": "", "delete_cmd_prefix": "del ", "library": "var_list.py", "varRefreshCmd": "print(var_dic_list())" }, "r": { "delete_cmd_postfix": ") ", "delete_cmd_prefix": "rm(", "library": "var_list.r", "varRefreshCmd": "cat(var_dic_list()) " } }, "types_to_exclude": [ "module", "function", "builtin_function_or_method", "instance", "_Feature" ], "window_display": false } }, "nbformat": 4, "nbformat_minor": 1 }