{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# **NLP (Natural Language Processing) 분석**\n",
"**뉴스그룹 데이터 Set 분석**\n",
"1. 단어의 지식과 개념을 정리하는 작업으로 **Ontology** 같은 예들이 존재\n",
"1. 낮은 단계로는 **Tagging, POS(Part of Speech)** 이 있다\n",
"1. Python 라이브러리로 **NLTK, Gensim, TextBlob** 등이 있다"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"
\n",
"\n",
"## **1. NLP 개념 익히기**\n",
"\n",
"**NLTK 에서 자연어 분석 작업**\n",
"1. **Tokenization**(토큰화) : 텍스트를 공백문자로 구분하여 조각을 나누는 작업 (Document --> Ngram)\n",
"1. **POS Tagging**(품사태깅) : **Konlpy, NLTK** 에 규격화 된 Tagger를 적용하거나, **POS_TAG**와 같은 함수를 활용\n",
"1. **NER** (개체명 인식) : **Named entity Recognition** 은 텍스트 문장에서 명사를 식별하는 작업이다\n",
"1. **Stemming** (어간추출) : 어간, 어근의 **원형으로** 되돌리는 작업\n",
"1. **Lemmatization**(표제어 원형 복원) : 어간 추출보다 좁은 의미로써 **단어를 유효한 결과로** 출력하는 작업"
]
},
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"'machin'"
]
},
"execution_count": 1,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 어간의 추출\n",
"from nltk.stem.porter import PorterStemmer\n",
"porter_stemmer = PorterStemmer()\n",
"porter_stemmer.stem('machines')"
]
},
{
"cell_type": "code",
"execution_count": 2,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"'machine'"
]
},
"execution_count": 2,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Token 의 원형을 복구한다\n",
"from nltk.stem import WordNetLemmatizer\n",
"lemmatization = WordNetLemmatizer()\n",
"lemmatization.lemmatize('machines')"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### **Gensim 에서의 자연어 분석 작업**\n",
"문장간 유사도 측정을 위해 2008년 시작된 모듈로써, 다양한 모델링이 가능하다\n",
"1. **Similarity Querying** (유사도 쿼리) : 주어긴 쿼리 객체와 유사한 객체를 검색\n",
"1. **Word vectorization** (단어 벡터화) : 단어의 동시출현 Feacture를 유지하면서 단어를 표현\n",
"1. **Distribution Computing** (분산 컴퓨팅) : 다수의 문서를 효과적으로 학습\n",
"\n",
"### **Text Blob**\n",
"NLTK 기반의 라이브러리로 **맞춤법 확인 및 교정, 언어감지, 번역기능이** 추가"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"
\n",
"## **2. newsgroups 데이터 보기**\n",
"20개의 **News Group을** 대상으로 **11,313 개의** 뉴스 데이터가 담겨있다\n",
"### **01 News Group 데이터 살펴보기**\n",
"> **fetch_20newsgroups()**\n",
"\n",
"1. subset : 적제할 데이터를 정의한다\n",
"1. data_home : 파일을 저장할 폴더 ex) **~/scikit_learn_data**(초기값)\n",
"1. categories : 추출할 목록을 지정"
]
},
{
"cell_type": "code",
"execution_count": 3,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"['alt.atheism',\n",
" 'comp.graphics',\n",
" 'comp.os.ms-windows.misc',\n",
" 'comp.sys.ibm.pc.hardware',\n",
" 'comp.sys.mac.hardware',\n",
" 'comp.windows.x',\n",
" 'misc.forsale',\n",
" 'rec.autos',\n",
" 'rec.motorcycles',\n",
" 'rec.sport.baseball',\n",
" 'rec.sport.hockey',\n",
" 'sci.crypt',\n",
" 'sci.electronics',\n",
" 'sci.med',\n",
" 'sci.space',\n",
" 'soc.religion.christian',\n",
" 'talk.politics.guns',\n",
" 'talk.politics.mideast',\n",
" 'talk.politics.misc',\n",
" 'talk.religion.misc']"
]
},
"execution_count": 3,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 뉴스 데이터를 가져온다 (약 14MB)\n",
"# 뉴스 그룹 0 ~ 19 (20개 목록)\n",
"from sklearn.datasets import fetch_20newsgroups\n",
"groups = fetch_20newsgroups(data_home='data/news/')\n",
"groups['target_names']"
]
},
{
"cell_type": "code",
"execution_count": 4,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"data : \n",
"filenames : \n",
"target_names : \n",
"target : \n",
"DESCR : \n"
]
},
{
"data": {
"text/plain": [
"dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])"
]
},
"execution_count": 4,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# groups Json 데이터 살펴보기\n",
"for key in groups.keys():\n",
" print(key, ':', type(groups[key]))\n",
"groups.keys()"
]
},
{
"cell_type": "code",
"execution_count": 5,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"[7 4 4 ... 3 1 8]\n"
]
},
{
"data": {
"text/plain": [
"array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16,\n",
" 17, 18, 19])"
]
},
"execution_count": 5,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 뉴스그룹 Primary Key 값인 정수값 인코딩\n",
"# 정수들이 중복되지 않게 정리된 결과를 출력한다\n",
"import numpy as np\n",
"print(groups.target)\n",
"np.unique(groups.target)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### **02 개별 News 데이터 살펴보기**\n",
"0 번 뉴스의 정보를 확인하기"
]
},
{
"cell_type": "code",
"execution_count": 6,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"News Group 포함된 자료갯수: 11,314 개\n",
"\n",
"0번 샘플보기: \n",
"From: lerxst@wam.umd.edu (where's my thing)\n",
"Subject: WHAT car is this!?\n",
"Nntp-Posting-Host: rac3.wam.umd.edu\n",
"Organization: University of Maryland, College Park\n",
"Lines: 15\n",
"\n",
" I was wondering if anyone out there could enlighten me on this car I saw\n",
"the other day. It was a 2-door sports car, looked to be from the late 60s/\n",
"early 70s. It was called a Bricklin. The doors were really small. In addition,\n",
"the front bumper was separate from the rest of the body. This is \n",
"all I know. If anyone can tellme a model name, engine specs, years\n",
"of production, where this car is made, history, or whatever info you\n",
"have on this funky looking car, please e-mail.\n",
"\n",
"Thanks,\n",
"- IL\n",
" ---- brought to you by your neighborhood Lerxst ----\n",
"\n",
"\n",
"\n",
"\n",
"\n"
]
}
],
"source": [
"# 해당 뉴스의 내용 살펴보기\n",
"print(\"News Group 포함된 자료갯수: {:,} 개\\n\\n0번 샘플보기: \\n{}\".format(\n",
" len(groups.data), groups.data[0]))"
]
},
{
"cell_type": "code",
"execution_count": 7,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"'rec.autos'"
]
},
"execution_count": 7,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 0번 뉴스의 해당 그룹 Category 확인\n",
"groups.target_names[groups.target[0]]"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### **03 데이터 시각화**\n",
"1. Document를 분석하는 경우 **Bag of Words로써** (단어의 집합) 활용한다\n",
"1. **단어 모델링과** 어떠한 차이가 있는지를 확인해 본다\n",
"1. **총 20개 카테고리** 뉴스들을 Histogram으로 시각화 (비슷한 갯수로 모델이 분표)"
]
},
{
"cell_type": "code",
"execution_count": 8,
"metadata": {},
"outputs": [
{
"name": "stderr",
"output_type": "stream",
"text": [
"/home/markbaum/Python/python/lib/python3.6/site-packages/matplotlib/axes/_axes.py:6521: MatplotlibDeprecationWarning: \n",
"The 'normed' kwarg was deprecated in Matplotlib 2.1 and will be removed in 3.1. Use 'density' instead.\n",
" alternative=\"'density'\", removal=\"3.1\")\n"
]
},
{
"data": {
"image/png": "\n",
"text/plain": [
"