# 获取数据

In [18]:
from sklearn.datasets import fetch_20newsgroups
news = fetch_20newsgroups(subset='all')

In [19]:
len(news.data)


18846

# 向量化

In [25]:
from sklearn.feature_extraction.text import CountVectorizer
vec = CountVectorizer()
X = vec.fit_transform(news.data)

In [26]:
print(X[:10, :10].toarray())

[[0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0]
 [3 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0]]


# 用TF-IDF方法为数据加权

tf-idf(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。。
tf-idf算法是创建在这样一个假设之上的:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取tf词频作为测度,就可以体现同类文本的特点。

In [27]:
from sklearn.feature_extraction.text import TfidfTransformer
TFIDF = TfidfTransformer()
X_tfidf = TFIDF.fit_transform(X)

In [28]:
print(X_tfidf[:10, :10].toarray())

[[ 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. ]
 [ 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. ]
 [ 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. ]
 [ 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. ]
 [ 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. ]
 [ 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. ]
 [ 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. ]
 [ 0.14795455 0. 0. 0. 0. 0. 0.
 0. 0. 0. ]
 [ 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. ]
 [ 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. ]]


# 分割数据集

In [29]:

from sklearn.cross_validation import train_test_split
tf_Xtrain, tf_Xtest, tf_ytrain, tf_ytest = train_test_split(X_tfidf, news.target, test_size=0.25, random_state=233)



参数解释:
train_data:所要划分的样本特征集
train_target:所要划分的样本结果
test_size:样本占比,如果是整数的话就是样本的数量
random_state:是随机数的种子。
随机数种子:其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到的随机数组是一样的。但填0或不填,每次都会不一样。
随机数的产生取决于种子,随机数和种子之间的关系遵从以下两个规则:
种子不同,产生不同的随机数;种子相同,即使实例不同也产生相同的随机数。

# 训练朴素贝叶斯模型

简单解释朴素贝叶斯分类原理:http://www.ruanyifeng.com/blog/2013/12/naive_bayes_classifier.html

In [30]:
from sklearn.naive_bayes import MultinomialNB

tf_mnb = MultinomialNB()
tf_mnb.fit(tf_Xtrain, tf_ytrain)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

# 效果评估

In [34]:
from sklearn.metrics import classification_report
tf_ypredict = tf_mnb.predict(tf_Xtest)
print("Naive Bayes with TF-IDF dataset Accuracy: {0}\n".format(tf_mnb.score(tf_Xtest, tf_ytest)))
print(classification_report(tf_ytest, tf_ypredict, target_names=news.target_names))

Naive Bayes with TF-IDF dataset Accuracy: 0.853140916808

 precision recall f1-score support

 alt.atheism 0.93 0.71 0.81 227
 comp.graphics 0.89 0.73 0.80 254
 comp.os.ms-windows.misc 0.79 0.86 0.82 235
comp.sys.ibm.pc.hardware 0.79 0.83 0.81 252
 comp.sys.mac.hardware 0.90 0.83 0.87 237
 comp.windows.x 0.93 0.85 0.89 243
 misc.forsale 0.94 0.70 0.80 256
 rec.autos 0.88 0.91 0.90 250
 rec.motorcycles 0.97 0.94 0.95 279
 rec.sport.baseball 0.95 0.95 0.95 233
 rec.sport.hockey 0.90 0.98 0.94 241
 sci.crypt 0.73 0.98 0.84 246
 sci.electronics 0.85 0.82 0.84 233
 sci.med 0.95 0.92 0.93 229
 sci.space 0.88 0.95 0.92 240
 soc.religion.christian 0.58 0.98 0.73 252
 talk.politics.guns 0.78 0.96 0.86 238
 talk.politics.mideast 0.93 0.97 0.95 237
 talk.politics.misc 1.00 0.70 0.82 188
 talk.religion.misc 0.96 0.18 0.31 142

 avg / total 0.87 0.85 0.85 4712



参考文献:https://zhuanlan.zhihu.com/p/25050912