{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Using matplotlib backend: Qt5Agg\n", "Populating the interactive namespace from numpy and matplotlib\n", "CPython 3.5.6\n", "IPython 6.5.0\n", "\n", "sklearn 0.20.0\n", "konlpy 0.5.1\n", "pandas 0.23.4\n" ] } ], "source": [ "%pylab\n", "%load_ext watermark\n", "%watermark -v -p sklearn,konlpy,pandas" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "import konlpy\n", "import pandas as pd" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "데이터 파일을 읽어 리뷰 텍스트와 점수를 text_train, y_train 변수에 저장합니다. 데이터 파일의 내용은 번호, 텍스트, 레이블이 탭으로 구분되어 한 라인에 한개의 데이터 샘플이 들어 있습니다." ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "df_train = pd.read_csv('data/ratings_train.txt', delimiter='\\t', keep_default_na=False)" ] }, { "cell_type": "code", "execution_count": 4, "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/html": [ "
\n", " | id | \n", "document | \n", "label | \n", "
---|---|---|---|
0 | \n", "9976970 | \n", "아 더빙.. 진짜 짜증나네요 목소리 | \n", "0 | \n", "
1 | \n", "3819312 | \n", "흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나 | \n", "1 | \n", "
2 | \n", "10265843 | \n", "너무재밓었다그래서보는것을추천한다 | \n", "0 | \n", "
3 | \n", "9045019 | \n", "교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정 | \n", "0 | \n", "
4 | \n", "6483659 | \n", "사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ... | \n", "1 | \n", "