{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# **Ch10 구매이력을 활용한 사용자 그룹화**\n", "- **처음 배우는 머신러닝** 10장 : [**(GitHub)**](https://github.com/your-first-ml-book/Examples)\n", "- **군집화 알고리즘 :** 군집 **K** 갯수를 정의하여 분석 합니다\n", "- **데이터의 전체적인 분석** 으로 명확한 기준까지 도달하진 못합니다 " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## **Python Functions**\n", "- **Counter()** : list 객체내 string 들을 Count 합니다\n", "- **setdefault()**: list 객체를 dict로 변환하여 출력" ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Counter({'a': 2, 'b': 3, 'c': 1})" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Counter() List 내 객체의 수를 측정합니다\n", "import collections\n", "collections.Counter(['a', 'b', 'c', 'a', 'b', 'b'])" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Counter({'a': 1, 's': 4, 'b': 1, 'd': 1, 'f': 3, 'g': 2})" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "collections.Counter('asbdfsfgsfsg')" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Counter({'a': 2, 'b': 3, 'c': 1})" ] }, "execution_count": 2, "metadata": {}, "output_type": "execute_result" } ], "source": [ "collections.Counter({'a':2, 'b':3, 'c':1})" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Counter({'a': 2, 'b': 3, 'c': 1})" ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" } ], "source": [ "collections.Counter({'a':2, 'b':3, 'c':1})" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Counter({'a': 2, 'b': 3, 'c': 1})" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "collections.Counter(a=2, b=3, c=1)" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "{'a': 0}\n", "{'a': 1, 'b': 0}\n", "{'a': 1, 'b': 1, 'c': 0}\n", "{'a': 1, 'b': 1, 'c': 1}\n", "{'a': 1, 'b': 2, 'c': 1}\n", "{'a': 2, 'b': 2, 'c': 1}\n", "{'a': 2, 'b': 3, 'c': 1}\n" ] } ], "source": [ "s, d = ['a', 'b', 'c', 'b', 'a', 'b', 'c'], {}\n", "for k in s:\n", " # value 없으면 입력값을(0), 있으면 value를 출력\n", " d.setdefault(k, 0) # list를 dict으로 초기화\n", " print(d)\n", " d[k] += 1 # counting 계산을 합니다" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## **1 데이터 전처리 및 임베딩**\n", "### **01 데이터 구조 살펴보기 및 전처리**\n", "- 파일을 읽어 위에 정의한 데이터구조를 분석합니다" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
InvoiceNoStockCodeDescriptionQuantityInvoiceDateUnitPriceCustomerIDCountry
053636585123AWHITE HANGING HEART T-LIGHT HOLDER612/1/10 8:262.5517850.0United Kingdom
153636571053WHITE METAL LANTERN612/1/10 8:263.3917850.0United Kingdom
253636584406BCREAM CUPID HEARTS COAT HANGER812/1/10 8:262.7517850.0United Kingdom
353636584029GKNITTED UNION FLAG HOT WATER BOTTLE612/1/10 8:263.3917850.0United Kingdom
453636584029ERED WOOLLY HOTTIE WHITE HEART.612/1/10 8:263.3917850.0United Kingdom
\n", "
" ], "text/plain": [ " InvoiceNo StockCode Description Quantity \\\n", "0 536365 85123A WHITE HANGING HEART T-LIGHT HOLDER 6 \n", "1 536365 71053 WHITE METAL LANTERN 6 \n", "2 536365 84406B CREAM CUPID HEARTS COAT HANGER 8 \n", "3 536365 84029G KNITTED UNION FLAG HOT WATER BOTTLE 6 \n", "4 536365 84029E RED WOOLLY HOTTIE WHITE HEART. 6 \n", "\n", " InvoiceDate UnitPrice CustomerID Country \n", "0 12/1/10 8:26 2.55 17850.0 United Kingdom \n", "1 12/1/10 8:26 3.39 17850.0 United Kingdom \n", "2 12/1/10 8:26 2.75 17850.0 United Kingdom \n", "3 12/1/10 8:26 3.39 17850.0 United Kingdom \n", "4 12/1/10 8:26 3.39 17850.0 United Kingdom " ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# 영국 소매업체의 선물/ 기념품 판매데이터\n", "# ! cat ./data/online_retail_utf.txt | head -n 4\n", "\n", "import pandas as pd\n", "data = './data/online_retail_utf.txt'\n", "df = pd.read_csv(data, header=0, error_bad_lines=False, sep='\\t', low_memory=False)\n", "# df.describe()\n", "df.head()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### **02 데이터의 기초 통계량 및 시각화**\n", "- 기초통계는 Scipy의 stats 모듈을 사용합니다\n", "- **scipy.stats.describe** (data, axis=0, ddof=1, bias=True, nan_policy='propagate')\n", "- user_product_dic_raw : **[사용자] 상품코드**\n", "- product_user_dic : **[상품코드] 사용자ID**\n", "- product_id_name_dic : **[상품코드] 상품명**" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [], "source": [ "# 기초통계량의 분석을 위해 scipy 를 활용합니다\n", "import time\n", "from scipy import stats\n", "data = './data/online_retail_utf.txt'\n", "user_product_dic_raw = {} # key : 사용자ID, value : 상품코드\n", "product_user_dic = {} # key : 상품코드, value : 사용자ID\n", "product_id_name_dic = {} # key : 상품코드, value : 상품명" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "# 사용자의 수: 3,835\n", "# 제품 종류수: 3,588\n", "CPU times: user 5.67 s, sys: 48.3 ms, total: 5.72 s\n", "Wall time: 5.72 s\n" ] } ], "source": [ "%%time\n", "for line in open(data):\n", " line_items = line.strip().split('\\t') # 1줄씩 읽어서 처리\n", " user_code = line_items[6]\n", " product_id = line_items[1]\n", " product_name = line_items[2]\n", " \n", " if len(user_code) == 0: continue # 사용자 ID가 없으면 무시\n", " country = line_items[7] # 영국만 고려, 아닌 경우에는 무시\n", " if country != 'United Kingdom': continue\n", "\n", " # 연도 에러처리 (파일헤더를 무시)\n", " try: invoice_year = time.strptime(line_items[4], '%m/%d/%y %H:%M').tm_year\n", " except ValueError: continue\n", "\n", " # 2011년만 추출 (2011년이 아니면 무시)\n", " if invoice_year != 2011: continue\n", "\n", " # 읽은 정보로 데이터 구조를 채웁니다.\n", " # 상품 가짓수를 고려하므로 상품 코드를 셋으로 가지도록 하겠습니다.\n", " user_product_dic_raw.setdefault(user_code, set())\n", " user_product_dic_raw[user_code].add(product_id)\n", " product_user_dic.setdefault(product_id, set())\n", " product_user_dic[product_id].add(user_code)\n", " product_id_name_dic[product_id] = product_name\n", "\n", "# 사용자 인덱스별 구매한 상품수 리스트\n", "product_per_user_li = [len(x) for x in user_product_dic_raw.values()]\n", "\n", "# 이 장에서 사용할 최종 사용자 수와 상품 가짓수를 출력해봅니다.\n", "print('# 사용자의 수: {:,}\\n# 제품 종류수: {:,}'.format(\n", " len(user_product_dic_raw), len(product_user_dic)))" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "<사용자별 구매상품 기초통계분석> \n", " statistic value \n", " ------------------------------ \n", " size 3835.00000 \n", " min 1.00000 \n", " max 1603.00000 \n", " mean 58.69074 \n", " std 78.78521 \n", " skew 5.83382 \n", " kutosis 72.60364\n" ] } ], "source": [ "import numpy as np\n", "# 사용자 별점평균의 기초통계량 분석\n", "def print_statistics(array, title=\"\"):\n", " sta = stats.describe(array)\n", " print(title, \"\\n%14s %15s\"%('statistic','value'), \"\\n\", 30*'-', \"\\n%14s %15.5f\"%('size',sta[0]),\\\n", " \"\\n%14s %15.5f\"%('min',sta[1][0]), \"\\n%14s %15.5f\"%('max', sta[1][1]),\\\n", " \"\\n%14s %15.5f\"%('mean',sta[2]), \"\\n%14s %15.5f\"%('std', np.sqrt(sta[3])),\\\n", " \"\\n%14s %15.5f\"%('skew',sta[4]), \"\\n%14s %15.5f\"%('kutosis', sta[5])) \n", "\n", "print_statistics(product_per_user_li, \"<사용자별 구매상품 기초통계분석>\")" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "%matplotlib inline\n", "import matplotlib as mpl\n", "from matplotlib import rc\n", "rc('font', family=['NanumGothic','Malgun Gothic'])\n", "mpl.rcParams['axes.unicode_minus'] = False # 마이너스 폰트\n", "\n", "# 사용자별 구매상품 가짓수를 플롯\n", "from collections import Counter\n", "import matplotlib.pyplot as plt\n", "plot_data_all = Counter(product_per_user_li) \n", "plot_data_x = list(plot_data_all.keys())\n", "plot_data_y = list(plot_data_all.values())\n", "plt.xlabel('고유 상품 가짓수')\n", "plt.ylabel('사용자 수')\n", "plt.scatter(plot_data_x, plot_data_y, marker='+')\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### **03 데이터 전처리**\n", "- 구매물품이 600개 넘는사람은 드물어서 **600개 이상을 구매한 정보는 제외**\n", "- user_product_dic : user_product_dic_raw 에서 추출한 **분석 대상자 정보**\n", "- id_product_dic : **분석 제외 아이템 목록**" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "# 1개 구매자: 95명\n", "# 600개 이상 구매자: 7명\n", "# 2~600개 구매자: 3,733명\n", "# 제외품목 갯수: 3,568개\n" ] } ], "source": [ "# 구매상품이 1개, 600개 사용자ID list 목록\n", "min_product_user_li =[k for k,v in user_product_dic_raw.items() if len(v)==1]\n", "max_product_user_li =[k for k,v in user_product_dic_raw.items() if len(v)>=600]\n", "# 구매품목이 2~600개 사용자 구매물품 Dict\n", "user_product_dic = {k:v for k,v in user_product_dic_raw.items() if len(v)>1 and len(v)<=600}\n", "id_product_dic = {} # 분석 제외 물품목록\n", "for product_set_li in user_product_dic.values():\n", " for x in product_set_li:\n", " if x in id_product_dic: \n", " product_id = id_product_dic[x]\n", " else: \n", " id_product_dic.setdefault(x, len(id_product_dic))\n", "\n", "print(\"# 1개 구매자: {}명\\n# 600개 이상 구매자: {}명\".format(\n", " len(min_product_user_li), len(max_product_user_li)))\n", "print(\"# 2~600개 구매자: {:,}명\\n# 제외품목 갯수: {:,}개\".format(\n", " len(user_product_dic), len(id_product_dic)))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### **04 데이터 임베딩**\n", "- user_product_dic : 전처리 완료 데이터\n", "- user_product_vec_li : **군집화 입력** 리스트\n", "- id_user_dic : **사용자 ID 참조를** 위한 딕셔너리" ] }, { "cell_type": "code", "execution_count": 12, "metadata": { "collapsed": true }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "# 사용자ID: 13313\n", "# ID별 구매물품 목록: {'23393', '23398', '23407', '84978', '23491', '23328', '23103', '23399'}\n", "# One-Hot: [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]\n", "# One-Hot 총 수: 3,568\n" ] } ], "source": [ "# 원-핫 인코딩으로 변환할 피처의 가짓수\n", "id_user_dic = {} # 사용자 ID 참조를 위한 딕셔너리\n", "user_product_vec_li = [] # 군집화의 입력으로 사용할 리스트\n", "all_product_count = len(id_product_dic)\n", "\n", "for user_code, product_per_user_set in user_product_dic.items():\n", " # 고유상품 목록 리스트\n", " user_product_vec = [0] * all_product_count\n", " # id_user_dic의 길이로 바꿉니다.\n", " id_user_dic[len(id_user_dic)] = user_code \n", " # Key 는 상품코드, user_product_vec 에서 상품 ID를 1로 세팅\n", " for product_name in product_per_user_set:\n", " user_product_vec[id_product_dic[product_name]] = 1\n", " \n", " # 한명의 사용자 처리가 끝난뒤, 사용자 user_product_vec을 배열에 추가\n", " # 이때 배열의 인덱스는 새로 정의한 user_id가 됩니다.\n", " user_product_vec_li.append(user_product_vec)\n", "\n", "print('# 사용자ID: {}\\n# ID별 구매물품 목록: {}'.format(\n", " id_user_dic[0], user_product_dic['17080']))\n", "print(\"# One-Hot: {}\\n# One-Hot 총 수: {:,}\".format(\n", " user_product_vec_li[0][::100], len(user_product_vec_li[0])))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## **2 데이터 분석하기**\n", "### **01 K-means 군집화**\n", "- **분석의 일반화를** 위해, 데이터를 섞은 뒤 **Train(2,500)/Test(나머지)** 구분\n", "- **sklearn** 을 활용하여 **K-means** 군집화를 진행 합니다\n", "- **km_predict.predict**() 을 사용하여 모델링 합니다" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "# train 데이터: 2,500\n", "# test 데이터 : 1,233\n", "# 4개의 K-Means 예측모델 : [3 3 3 ... 3 3 1]\n" ] } ], "source": [ "from sklearn.cluster import KMeans\n", "import random\n", "random.shuffle(user_product_vec_li)\n", "train_data = user_product_vec_li[ :2500]\n", "test_data = user_product_vec_li[2500: ]\n", "print(\"# train 데이터: {:,}\\n# test 데이터 : {:,}\".format(\n", " len(train_data),len(test_data)))\n", "\n", "# 4개 클러스터 결과를 km_predict에 저장\n", "# km_predict.predict() 를 사용하여 예측\n", "km_predict = KMeans(n_clusters=4, init='k-means++', n_init=10, max_iter=20).fit(train_data)\n", "km_predict_result = km_predict.predict(test_data)\n", "print(\"# 4개의 K-Means 예측모델 :\", km_predict_result)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### **02 정량적 평가로 K 정하기**\n", "- **실루엣(sihouette) 기법 :** 샘플과 클러스터내 다른 샘플과 거리 **(값이 클수록 적합)**\n", "- **엘보우(elbow) 기법 : 급내 제곱합(inertia)의** 평균을 측정합니다 **(간격 기울기가 클수록 효과가 큼)**\n", "- 두 방법을 모두 사용한 결과 cluster 갯수는 2로 정합니다" ] }, { "cell_type": "code", "execution_count": 14, "metadata": { "scrolled": true }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "K = 2, shilouette 점수 0.345\n", "K = 3, shilouette 점수 0.213\n", "K = 4, shilouette 점수 0.208\n", "K = 5, shilouette 점수 0.078\n", "K = 6, shilouette 점수 0.172\n", "K = 7, shilouette 점수 0.187\n", "K = 8, shilouette 점수 0.161\n" ] } ], "source": [ "# 1 실루엣 기법 : 클러스터를 2~9 개로 반복하며 실루엣 점수 측정\n", "import numpy as np\n", "from sklearn.metrics import silhouette_score\n", "test_data = np.array(user_product_vec_li)\n", "\n", "for k in range(2,9):\n", " km = KMeans(n_clusters=k, n_jobs=-1).fit(test_data)\n", " print(\"K = {}, shilouette 점수 {:.3f}\".format(\n", " k, silhouette_score(test_data,km.labels_)))" ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "K = 1, K Means 급내제곱합(inertia): 208524.886686\n", "K = 2, K Means 급내제곱합(inertia): 201135.189311\n", "K = 3, K Means 급내제곱합(inertia): 198964.960511\n", "K = 4, K Means 급내제곱합(inertia): 197687.894741\n", "K = 5, K Means 급내제곱합(inertia): 197688.817637\n", "K = 6, K Means 급내제곱합(inertia): 197183.599352\n", "K = 7, K Means 급내제곱합(inertia): 196967.273546\n" ] }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# 2 엘보 기법 : Key는 클러스터 수, value는 inertia(급내제곱의 총합)\n", "ssw_dic={}\n", "\n", "# K를 1~8까지 반복하며 급내제곱합의 평균값을 계산\n", "for k in range(1, 8):\n", " km = KMeans(n_clusters=k, n_jobs=-1).fit(test_data)\n", " ssw_dic[k] = km.inertia_\n", " print(\"K = {}, K Means 급내제곱합(inertia): {:3f}\".format(k, km.inertia_))\n", "\n", "plot_data_x = list(ssw_dic.keys())\n", "plot_data_y = list(ssw_dic.values())\n", "plt.plot(plot_data_x, plot_data_y, linestyle=\"-\", marker='o')\n", "plt.xlabel(\"# of clusters\"); plt.ylabel(\"within ss\"); plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### **03 정성적 평가로 K 정하기**\n", "- 위의 K=2 를 사용하여 Kmeans 모델을 생성한 뒤 정성적 평가를 진행합니다\n", "- 모든 feacture가 아닌 중요정보를 추출하여 평가를 진행합니다\n", " - 차원축소\n", " - 사용자가 많이 구입한 상품만 추출\n", " - 구매한 상품정보를 살펴본다\n", "- cf) **.extend() :** List 객체를 이어 붙입니다." ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "CPU times: user 5.48 s, sys: 2.97 s, total: 8.44 s\n", "Wall time: 4.45 s\n" ] } ], "source": [ "%%time\n", "km = KMeans(n_clusters=2, n_init=10, max_iter=20, random_state=None)\n", "test_data = np.array(user_product_vec_li) # 군집화 목록을 Numpy Array로 변환\n", "km.fit(test_data)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- id_user_dict : list 변환시 **인덱스별 사용자ID**\n", "- user_product_dic : **사용자ID** 별 **구매한 제품ID**\n", "- product_id_name_dic : **제품ID 와 제품설명**" ] }, { "cell_type": "code", "execution_count": 17, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "cluster_id:0\n", "[('OF', 19601), ('SET', 19432), ('BAG', 14496), ('HEART', 14282), ('VINTAGE', 13818), ('RED', 13072), ('CHRISTMAS', 10831), ('RETROSPOT', 10508), ('DESIGN', 9818), ('PINK', 8653), ('BOX', 7613), ('CAKE', 7428), ('METAL', 7142), ('3', 6846), ('BLUE', 6393), ('WHITE', 6202), ('HANGING', 5935), ('JUMBO', 5926), ('HOLDER', 5837), ('PACK', 5679)]\n", "cluster_id:1\n", "[('OF', 3298), ('SET', 3222), ('HEART', 2604), ('RED', 2248), ('VINTAGE', 2133), ('BAG', 1971), ('RETROSPOT', 1809), ('CHRISTMAS', 1626), ('DESIGN', 1586), ('PINK', 1560), ('METAL', 1314), ('BOX', 1260), ('CAKE', 1258), ('3', 1172), ('WHITE', 1127), ('BLUE', 1083), ('HANGING', 1078), ('HOLDER', 1008), ('SIGN', 998), ('T-LIGHT', 929)]\n" ] } ], "source": [ "# 클러스터내, 상품명이 Uni-Gram 키워드 빈도 계산\n", "def analyze_clusters_keywords(labels, product_id_name_dic, user_product_dic, id_user_dic):\n", " # 임시ID 사용자와 구매상품ID 참조 (상품ID로 상품명 값 추가)\n", " cluster_item = {} \n", " for i in range(len(labels)):\n", " cluster_item.setdefault(labels[i], [])\n", " for x in user_product_dic[id_user_dic[i]]:\n", " cluster_item[labels[i]].extend([product_id_name_dic[x]])\n", " \n", " # 클러스터별 빈도상위 20개 단어 출력\n", " for cluster_id, product_name in cluster_item.items(): \n", " product_name_keyword = (\" \").join(product_name).split()\n", " print(\"cluster_id:{}\\n{}\".format(cluster_id, Counter(product_name_keyword).most_common(20))) \n", "\n", "analyze_clusters_keywords(km.labels_, product_id_name_dic, user_product_dic, id_user_dic)" ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "cluster_id:0\n", "[('RED RETROSPOT', 5548), ('JUMBO BAG', 4835), ('LUNCH BAG', 4135), ('METAL SIGN', 4041), ('T-LIGHT HOLDER', 3969), ('HOT WATER', 3167), ('WATER BOTTLE', 3167), ('CAKE CASES', 3121), ('SET 3', 3021), ('VINTAGE CHRISTMAS', 2996), ('SET 6', 2439), ('DOLLY GIRL', 2290), ('BAG VINTAGE', 2153), (\"50'S CHRISTMAS\", 2047), ('VINTAGE DOILY', 1980), ('PACK 12', 1918), ('HANGING HEART', 1888), ('SET 4', 1829), ('HOME SWEET', 1692), ('SWEET HOME', 1691)]\n", "cluster_id:1\n", "[('RED RETROSPOT', 934), ('METAL SIGN', 793), ('T-LIGHT HOLDER', 677), ('JUMBO BAG', 579), ('HOT WATER', 562), ('WATER BOTTLE', 562), ('SET 3', 529), ('LUNCH BAG', 527), ('CAKE CASES', 482), ('VINTAGE CHRISTMAS', 426), ('SET 6', 420), ('HOME SWEET', 346), ('SWEET HOME', 346), ('HANGING HEART', 335), ('PACK 12', 318), ('SET 4', 312), ('DOLLY GIRL', 303), ('BAG VINTAGE', 285), ('VINTAGE DOILY', 265), ('KEEP CALM', 265)]\n" ] } ], "source": [ "# 클러스터내, 상품명이 Bi-Gram 키워드 빈도 계산\n", "def analyze_clusters_keywords_bigram(labels, product_id_name_dic, user_product_dic, id_user_dic):\n", " cluster_item = {}\n", " for i in range(len(labels)):\n", " cluster_item.setdefault(labels[i], [])\n", " for x in user_product_dic[id_user_dic[i]]:\n", " cluster_item[labels[i]].extend([product_id_name_dic[x]])\n", "\n", " # 상품설명에 ~ OF ~ 로 연결된 부분을 제거한 Bi-gram 작업을 실행\n", " for cluster_id, product_name in cluster_item.items():\n", " bigram = []\n", " product_name_keyword = (' ').join(product_name).replace(' OF ', ' ').split()\n", " for i in range(0, len(product_name_keyword) - 1):\n", " bigram.append(' '.join(product_name_keyword[i:i + 2]))\n", " print('cluster_id:{}\\n{}'.format(cluster_id, Counter(bigram).most_common(20)))\n", "\n", "analyze_clusters_keywords_bigram(km.labels_, product_id_name_dic, user_product_dic, id_user_dic)" ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "cluster: 0\n", "DescribeResult(nobs=3202, minmax=(2, 580), mean=58.07276702061212, variance=4360.061869816995, skewness=2.590034721528296, kurtosis=9.106437972335737)\n", "cluster: 1\n", "DescribeResult(nobs=531, minmax=(2, 542), mean=60.34274952919021, variance=4851.750225633372, skewness=2.5289159546273816, kurtosis=8.582758759484728)\n" ] } ], "source": [ "# 계속 비슷한 결과를 출력하기 때문에 상품별 가짓수의 평균을 출력합니다\n", "def analyze_clusters_product_count(label, user_product_dic, id_user_dic):\n", " product_len_dic = {}\n", " for i in range(0, len(label)):\n", " product_len_dic.setdefault(label[i], [])\n", " product_len_dic[label[i]].append(len(user_product_dic[id_user_dic[i]]))\n", " for k, v in product_len_dic.items():\n", " print('cluster: {}\\n{}'.format(k, stats.describe(v)))\n", "\n", "analyze_clusters_product_count(km.labels_, user_product_dic, id_user_dic)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### **04 계층적 군집화**\n", "- [linkage](https://rfriend.tistory.com/tag/single%20linkage%20method) 데이터 변환후, 클러스터를 **dendrogram(계통수)로** plot 합니다\n", "- scipy의 집괴적 군집화 함수로 클러스터를 집괴 합니다. (거리 함수로는 유클리드 함수를 사용)" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "from scipy.cluster.hierarchy import linkage, dendrogram\n", "# 유클리드 측정방법으로 단일(최단)연결법 Matrix 로 변환\n", "row_clusters = linkage(test_data, method='complete',metric='euclidean')\n", "# 사용자 ID를 사용자 코드로 변환\n", "tmp_label = [id_user_dic[i] for i in range(len(id_user_dic))] \n", "\n", "# 플롯을 그립니다 (X축: 사용자 코드, Y축: 거리 계산법)\n", "plt.figure(figsize=(25,10))\n", "row_denr = dendrogram(row_clusters, labels=tmp_label)\n", "plt.tight_layout(); plt.ylabel('euclid') ;plt.show()" ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# 랜덤하게 10개만 선별한 뒤 계층도를 그립니다\n", "import random\n", "small_test_data = np.array(random.sample(user_product_vec_li, 10))\n", "small_row_clusters = linkage(small_test_data, method=\"complete\", metric=\"euclidean\")\n", "plt.figure(figsize = (25,10))\n", "dendrogram(small_row_clusters, labels=list(range(len(small_test_data))), leaf_font_size=20)\n", "plt.ylabel(\"euclid\")\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### **05 K 평균 군집화 거리측정**\n", "- sklearn을 활용한 집괴적 군집화 알고리즘\n" ] }, { "cell_type": "code", "execution_count": 22, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "CPU times: user 17.6 s, sys: 145 ms, total: 17.8 s\n", "Wall time: 17.8 s\n" ] } ], "source": [ "%%time\n", "from sklearn.cluster import AgglomerativeClustering\n", "ward = AgglomerativeClustering(n_clusters=2, affinity='euclidean', linkage='ward')\n", "ward.fit(test_data)\n", "Counter(ward.labels_)" ] }, { "cell_type": "code", "execution_count": 23, "metadata": { "scrolled": true }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "cluster_id:1\n", "[('RED RETROSPOT', 4977), ('JUMBO BAG', 4319), ('LUNCH BAG', 3710), ('METAL SIGN', 3651), ('T-LIGHT HOLDER', 3519), ('HOT WATER', 2869), ('WATER BOTTLE', 2869), ('CAKE CASES', 2852), ('VINTAGE CHRISTMAS', 2740), ('SET 3', 2698), ('SET 6', 2198), ('DOLLY GIRL', 2092), ('BAG VINTAGE', 1958), (\"50'S CHRISTMAS\", 1850), ('VINTAGE DOILY', 1780), ('PACK 12', 1750), ('HANGING HEART', 1678), ('SET 4', 1638), ('HOME SWEET', 1532), ('SWEET HOME', 1531)]\n", "cluster_id:0\n", "[('RED RETROSPOT', 1506), ('METAL SIGN', 1183), ('T-LIGHT HOLDER', 1127), ('JUMBO BAG', 1095), ('LUNCH BAG', 952), ('HOT WATER', 860), ('WATER BOTTLE', 860), ('SET 3', 852), ('CAKE CASES', 751), ('VINTAGE CHRISTMAS', 682), ('SET 6', 661), ('HANGING HEART', 545), ('HOME SWEET', 506), ('SWEET HOME', 506), ('SET 4', 503), ('DOLLY GIRL', 501), ('PACK 12', 486), ('BAG VINTAGE', 480), ('VINTAGE DOILY', 465), (\"50'S CHRISTMAS\", 444)]\n" ] } ], "source": [ "# 집괴적 군집화로 생성된 클러스터내 상품 Keyword 출력\n", "analyze_clusters_keywords_bigram(ward.labels_, product_id_name_dic, user_product_dic, id_user_dic)" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.3" } }, "nbformat": 4, "nbformat_minor": 2 }