{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# **로지스틱 회귀를 이용한 Click Through Rate**\n",
"1. 데이터 전처리 및 One-Hot Encoing\n",
"1. **Logistic 회귀** 동작의 원리\n",
"1. **Gradient descent** 기법, **Statistic Gradient descent** 기법\n",
"1. **Logistic 회기** 분류기 학습 및 예측모델\n",
"1. **L1, L2 정규화**를 이용한 Logistic 회귀\n",
"1. On - Line Learning\n",
"1. **Random Forest** 를 이용한 **feacture selection**"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"
\n",
"\n",
"# **1 One - Hot Encoding**\n",
"1. **범주형 feacture** 를 **이진형 수치 feacture** 로 변환\n",
"1. **K개의 값**을 갖는 **범주형** feacture를 **1~k 의** feacture로 매핑시킨다\n",
"1. 변환된 범주형 데이터를 **원본으로** 되돌린다"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## **01 One - Hot Encoding 임베딩 데이터 만들기**\n",
"1. **범주형 feacture** 를 **이진형 수치 feacture** 로 변환\n",
"1. **K개의 값**을 갖는 **범주형** feacture를 **1~k 의** feacture로 매핑시킨다\n",
"1. 변환된 범주형 데이터를 **원본으로** 되돌린다"
]
},
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"array([[0., 0., 1., 1., 0., 0.],\n",
" [1., 0., 0., 0., 0., 1.],\n",
" [1., 0., 0., 1., 0., 0.],\n",
" [0., 1., 0., 0., 0., 1.],\n",
" [0., 0., 1., 0., 0., 1.],\n",
" [0., 0., 1., 0., 1., 0.],\n",
" [0., 1., 0., 1., 0., 0.]])"
]
},
"execution_count": 1,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Dict 범주형 데이터를 One-Hot-encoding으로 변환\n",
"from sklearn.feature_extraction import DictVectorizer\n",
"dict_one_hot_encoder = DictVectorizer(sparse=False)\n",
"\n",
"X_dict = [{'interest': 'tech', 'occupation': 'professional'},\n",
" {'interest': 'fashion', 'occupation': 'student'},\n",
" {'interest': 'fashion', 'occupation': 'professional'},\n",
" {'interest': 'sports', 'occupation': 'student'},\n",
" {'interest': 'tech', 'occupation': 'student'},\n",
" {'interest': 'tech', 'occupation': 'retired'},\n",
" {'interest': 'sports', 'occupation': 'professional'}]\n",
"\n",
"X_encoded = dict_one_hot_encoder.fit_transform(X_dict)\n",
"X_encoded"
]
},
{
"cell_type": "code",
"execution_count": 2,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"{'interest=fashion': 0,\n",
" 'interest=sports': 1,\n",
" 'interest=tech': 2,\n",
" 'occupation=professional': 3,\n",
" 'occupation=retired': 4,\n",
" 'occupation=student': 5}\n"
]
}
],
"source": [
"# 범주형 Dataset Index 매핑내용 살펴보기\n",
"from pprint import pprint\n",
"pprint(dict_one_hot_encoder.vocabulary_)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## **02 Converting Data by Using Map Data**\n",
"위에서 학습한 **dict_one_hot_encoder** 를 활용하여 데이터를 컨버팅/ 복원"
]
},
{
"cell_type": "code",
"execution_count": 3,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"[[0. 1. 0. 0. 1. 0.]]\n"
]
}
],
"source": [
"# 위에서 매팽한 table 을 사용하여 새로운 데이터 인코딩\n",
"new_dict = [{'interest': 'sports', 'occupation': 'retired'}]\n",
"new_encoded = dict_one_hot_encoder.transform(new_dict)\n",
"print(new_encoded)"
]
},
{
"cell_type": "code",
"execution_count": 4,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"[{'interest=sports': 1.0, 'occupation=retired': 1.0}]\n"
]
}
],
"source": [
"# new_encoded 인코딩 데이터를 원본형태로 되돌린다\n",
"print(dict_one_hot_encoder.inverse_transform(new_encoded))"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## **03 Learning New Map Data**\n",
"1. **new_encoded :** 새로운 매핑 데이터 추가하면, 결과적으로 **무시된다**\n",
"1. 두개의 **dict** 데이터 중 **없는건 제외하고 나머지만 Converting** 된다"
]
},
{
"cell_type": "code",
"execution_count": 5,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"[[0. 0. 0. 0. 1. 0.]\n",
" [0. 0. 1. 0. 0. 0.]]\n"
]
}
],
"source": [
"# 1개의 인덱스에 포함된 2개의 Dict 중, 1개만 converting 된다\n",
"new_dict = [{'interest': 'unknown_interest', 'occupation': 'retired'},\n",
" {'interest': 'tech', 'occupation': 'unseen_occupation'}]\n",
"new_encoded = dict_one_hot_encoder.transform(new_dict)\n",
"print(new_encoded)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## **04 LabelEncoder 를 활용한 One-Hot-Encoding**\n",
"1. **X_int** : One Hot 의 **인덱스값을** 출력한다\n",
"1. 보다 간결하고 식별력이 높다"
]
},
{
"cell_type": "code",
"execution_count": 6,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"[[5 1]\n",
" [0 4]\n",
" [0 1]\n",
" [3 4]\n",
" [5 4]\n",
" [5 2]\n",
" [3 1]]\n"
]
}
],
"source": [
"import numpy as np\n",
"X_str = np.array([['tech', 'professional'],\n",
" ['fashion', 'student'],\n",
" ['fashion', 'professional'],\n",
" ['sports', 'student'],\n",
" ['tech', 'student'],\n",
" ['tech', 'retired'],\n",
" ['sports', 'professional']])\n",
"\n",
"from sklearn.preprocessing import LabelEncoder, OneHotEncoder\n",
"label_encoder = LabelEncoder()\n",
"X_int = label_encoder.fit_transform(X_str.ravel()).reshape(*X_str.shape)\n",
"print(X_int)"
]
},
{
"cell_type": "code",
"execution_count": 7,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"[[0. 0. 1. 1. 0. 0.]\n",
" [1. 0. 0. 0. 0. 1.]\n",
" [1. 0. 0. 1. 0. 0.]\n",
" [0. 1. 0. 0. 0. 1.]\n",
" [0. 0. 1. 0. 0. 1.]\n",
" [0. 0. 1. 0. 1. 0.]\n",
" [0. 1. 0. 1. 0. 0.]]\n"
]
}
],
"source": [
"# X_int 를 X_encoded 로 변환\n",
"one_hot_encoder = OneHotEncoder()\n",
"X_encoded = one_hot_encoder.fit_transform(X_int).toarray()\n",
"print(X_encoded)"
]
},
{
"cell_type": "code",
"execution_count": 8,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"[[0. 0. 0. 0. 1. 0.]\n",
" [0. 0. 1. 0. 0. 0.]\n",
" [0. 0. 0. 0. 0. 0.]]\n"
]
}
],
"source": [
"# Mapping 입력되지 않은 값들은 위와 동일하게 무시된다\n",
"new_str = np.array([['unknown_interest', 'retired'],\n",
" ['tech', 'unseen_occupation'],\n",
" ['unknown_interest', 'unseen_occupation']])\n",
"\n",
"def string_to_dict(columns, data_str):\n",
" data_dict = []\n",
" for sample_str in data_str:\n",
" data_dict.append({column : value for column, value in zip(columns, sample_str)})\n",
" return data_dict\n",
"\n",
"columns = ['interest', 'occupation']\n",
"new_encoded = dict_one_hot_encoder.transform(string_to_dict(columns, new_str))\n",
"print(new_encoded)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"
\n",
"\n",
"# **2 로지스틱 회귀 분류기**\n",
"1. **실수값 데이터는 0~1 사이의 값으로** 변환한다\n",
"1. $y(z) = \\frac{1}{1+exp(-z)}$ 대용량 데이터에 **확장성이 좋은** 알고리즘이다"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## **01 로지스틱 회귀의 동작원리**\n",
"로지스틱 회귀는 나이브 베이즈 분류기처럼 **확률 기반 분류기이다**"
]
},
{
"cell_type": "code",
"execution_count": 9,
"metadata": {},
"outputs": [],
"source": [
"# 로지스틱 회귀 함수를 정의한다\n",
"import numpy as np\n",
"\n",
"def sigmoid(input):\n",
" return 1.0 / (1 + np.exp(-input))"
]
},
{
"cell_type": "code",
"execution_count": 10,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"