{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "### 情感分析" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [], "source": [ "# 依赖导入\n", "import pandas as pd\n", "from snownlp import SnowNLP\n", "import jieba.posseg as psg\n", "import jieba.analyse\n", "import matplotlib.pyplot as plt\n", "import numpy as np" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# 依赖导入\n", "import pandas as pd\n", "from snownlp import SnowNLP\n", "import jieba.posseg as psg\n", "import jieba.analyse\n", "import matplotlib.pyplot as plt\n", "import numpy as np\n", "\n", "file_path = r'Data\\rawdata_reprocessed.csv'\n", "data = pd.read_csv(file_path).astype(str)\n", "\n", "comments = data['weibo_content']\n", "sentimentlist = []\n", "for comment in comments:\n", " s = SnowNLP(comment)\n", " sentimentlist.append(s.sentiments)\n", "\n", "#可视化结果\n", "plt.hist(sentimentlist, bins=np.arange(0,1,0.01),facecolor='b')\n", "plt.xlabel('Probability')\n", "plt.ylabel('Quantity')\n", "plt.title('Sentiment Analysis')\n", "plt.savefig('sentiment_analysis.png')\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 数据导入" ] }, { "cell_type": "code", "execution_count": 27, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
weibo_usernameweibo_verificationweibo_contentweibo_content_preprocessedsubmit_timeforward_countscomments_countspoints_times
0辣子鸡谁做的好吃nan好像可以在自己幻想的元宇宙里过一辈子好像已经过完了一辈子双鱼座的脑子要不得好像 幻想 元宇宙 里 一辈子 好像 完 一辈子 双鱼座 脑子 要不得01月10日 23:59000
1远古的刀nan反正闭关锁宇宙我们将会面临下一次的闭关锁国融入不了全球经济王峻涛跟你们讲我相信这个元宇宙真的...反正 闭关 锁 宇宙 将会 面临 闭关锁国 融入 全球 经济 王峻涛 讲 元宇宙 真的 一下...01月10日 23:583230
2暮景烟_深浅nan周深先生之夜元宇宙周深拥有了生米就像拥有了梦的翅膀卡布叻周深放心飞吧生米永相随时尚先生元宇宙...周深 之夜 元宇宙 周深 拥有 生米 拥有 梦 翅膀 卡布 叻 周深 放心 飞 生米 永 相...01月10日 23:58000
3东辉毅恒传媒nan王峻涛其实吧你有空可以再看看这个视频跟你们讲我相信这个元宇宙真的会来虽然不是一下子就到来还需...王峻涛 有空 视频 讲 元宇宙 真的 一下子 到来 技术 突破 社会 讲 玩 后果 人会 分...01月10日 23:57000
4在寒蝉鸣泣中等待夏日重现nan敬元宇宙让基尔希斯坦的女朋友的微博视频敬 元宇宙 基尔 希斯 坦 女朋友 微博 视频01月10日 23:57005
5北北红牛一号微博个人认证我们在玩股票的时候首先要明白当前的市场环境大势第一顺势而为整个市场的高度从龙精药业的板并且给...玩 股票 明白 市场 环境 大势 第一 顺势 市场 高度 从龙精 药业 板 给出 一线 逃命...01月10日 23:56002
6-玫瑰骑士夢微博个人认证朝元気芋泥萄萄宇宙小居民黄仁俊元气活泼跑起来会扬起耳朵的小帕恰签售时挑战的可爱笨笨金色卷卷珍...元 気 芋 泥 萄 萄 宇宙 居民 黄仁俊 元气 活泼 跑 扬起 耳朵 小帕恰 签售 时 挑...01月10日 23:56000
7成都仁寿商会nan元宇宙成苹果禁区将发布首款头显月日消息苹果公司预计将于今年发布其首款混合现实头戴设备彭博社记...元宇宙 成 苹果 禁区 发布 首款 头显 月 日 消息 苹果公司 预计 发布 首款 混合 现...01月10日 23:56000
8是个吃货叻nan帅帅帅冲浪的紅豆鯊啊啊啊太帅了卡布叻周深周深星星瞭望塔周深时尚先生周深先生之夜元宇宙勇敢突破...帅帅帅 冲浪 紅豆 鯊 啊啊啊 太帅 卡布 叻 周深 周深 星星 瞭望 塔周 深 时尚 周深...01月10日 23:55001026193
9是个吃货叻nan周深啊啊啊啊冲浪的紅豆鯊啊啊啊太帅了卡布叻周深周深星星瞭望塔周深时尚先生周深先生之夜元宇宙勇...周深 啊啊啊 冲浪 紅豆 鯊 啊啊啊 太帅 卡布 叻 周深 周深 星星 瞭望 塔周 深 时尚...01月10日 23:55001026193
\n", "
" ], "text/plain": [ " weibo_username weibo_verification \\\n", "0 辣子鸡谁做的好吃 nan \n", "1 远古的刀 nan \n", "2 暮景烟_深浅 nan \n", "3 东辉毅恒传媒 nan \n", "4 在寒蝉鸣泣中等待夏日重现 nan \n", "5 北北红牛一号 微博个人认证 \n", "6 -玫瑰骑士夢 微博个人认证 \n", "7 成都仁寿商会 nan \n", "8 是个吃货叻 nan \n", "9 是个吃货叻 nan \n", "\n", " weibo_content \\\n", "0 好像可以在自己幻想的元宇宙里过一辈子好像已经过完了一辈子双鱼座的脑子要不得 \n", "1 反正闭关锁宇宙我们将会面临下一次的闭关锁国融入不了全球经济王峻涛跟你们讲我相信这个元宇宙真的... \n", "2 周深先生之夜元宇宙周深拥有了生米就像拥有了梦的翅膀卡布叻周深放心飞吧生米永相随时尚先生元宇宙... \n", "3 王峻涛其实吧你有空可以再看看这个视频跟你们讲我相信这个元宇宙真的会来虽然不是一下子就到来还需... \n", "4 敬元宇宙让基尔希斯坦的女朋友的微博视频 \n", "5 我们在玩股票的时候首先要明白当前的市场环境大势第一顺势而为整个市场的高度从龙精药业的板并且给... \n", "6 朝元気芋泥萄萄宇宙小居民黄仁俊元气活泼跑起来会扬起耳朵的小帕恰签售时挑战的可爱笨笨金色卷卷珍... \n", "7 元宇宙成苹果禁区将发布首款头显月日消息苹果公司预计将于今年发布其首款混合现实头戴设备彭博社记... \n", "8 帅帅帅冲浪的紅豆鯊啊啊啊太帅了卡布叻周深周深星星瞭望塔周深时尚先生周深先生之夜元宇宙勇敢突破... \n", "9 周深啊啊啊啊冲浪的紅豆鯊啊啊啊太帅了卡布叻周深周深星星瞭望塔周深时尚先生周深先生之夜元宇宙勇... \n", "\n", " weibo_content_preprocessed submit_time \\\n", "0 好像 幻想 元宇宙 里 一辈子 好像 完 一辈子 双鱼座 脑子 要不得 01月10日 23:59 \n", "1 反正 闭关 锁 宇宙 将会 面临 闭关锁国 融入 全球 经济 王峻涛 讲 元宇宙 真的 一下... 01月10日 23:58 \n", "2 周深 之夜 元宇宙 周深 拥有 生米 拥有 梦 翅膀 卡布 叻 周深 放心 飞 生米 永 相... 01月10日 23:58 \n", "3 王峻涛 有空 视频 讲 元宇宙 真的 一下子 到来 技术 突破 社会 讲 玩 后果 人会 分... 01月10日 23:57 \n", "4 敬 元宇宙 基尔 希斯 坦 女朋友 微博 视频 01月10日 23:57 \n", "5 玩 股票 明白 市场 环境 大势 第一 顺势 市场 高度 从龙精 药业 板 给出 一线 逃命... 01月10日 23:56 \n", "6 元 気 芋 泥 萄 萄 宇宙 居民 黄仁俊 元气 活泼 跑 扬起 耳朵 小帕恰 签售 时 挑... 01月10日 23:56 \n", "7 元宇宙 成 苹果 禁区 发布 首款 头显 月 日 消息 苹果公司 预计 发布 首款 混合 现... 01月10日 23:56 \n", "8 帅帅帅 冲浪 紅豆 鯊 啊啊啊 太帅 卡布 叻 周深 周深 星星 瞭望 塔周 深 时尚 周深... 01月10日 23:55 \n", "9 周深 啊啊啊 冲浪 紅豆 鯊 啊啊啊 太帅 卡布 叻 周深 周深 星星 瞭望 塔周 深 时尚... 01月10日 23:55 \n", "\n", " forward_counts comments_counts points_times \n", "0 0 0 0 \n", "1 32 3 0 \n", "2 0 0 0 \n", "3 0 0 0 \n", "4 0 0 5 \n", "5 0 0 2 \n", "6 0 0 0 \n", "7 0 0 0 \n", "8 0 0 1026193 \n", "9 0 0 1026193 " ] }, "execution_count": 27, "metadata": {}, "output_type": "execute_result" } ], "source": [ "output_path = r'Output'\n", "file_path = r'Data\\rawdata_reprocessed.csv'\n", "data = pd.read_csv(file_path).astype(str)\n", "jieba.load_userdict(r'Data\\userdic.txt')\n", "data.head(10)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 词性标注" ] }, { "cell_type": "code", "execution_count": 41, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "好像/v 可以/c 在/p 自己/r 幻想/n 的/uj 元宇宙/x 里/f 过/ug 一辈子/m 好像/v 已经/d 过完/v 了/ul 一辈子/m 双鱼座/nz 的/uj 脑子/n 要不得/v \n", "反正/d 闭关/v 锁/v 宇宙/n 我们/r 将/d 会/v 面临/v 下/f 一次/m 的/uj 闭关锁国/l 融入/v 不了/v 全球/n 经济/n 王峻涛/nr 跟/p 你们/r 讲/v 我/r 相信/v 这个/r 元宇宙/x 真的/d 会/v 来/v 虽然/c 不是/c 一下子/m 就/d 到来/d 还/d 需要/v 很多/m 技术/n 突破/vn 和/c 社会/n 适应/v 再/d 跟/p 你们/r 讲/v 这次/r 再/d 不/d 跟/p 大家/n 一起/m 玩/v 以后/f 的/uj 后果/n 更/d 严重/a 人会/n 分成/v 有/v 元宇宙/x 的/uj 和/c 只有/c 传统/n 宇宙/n 的/uj 二端/m 互相/d 连/nr 沟通/v 的/uj 机会/n 都/d 没有/v \n", "周/nr 深/a 先生/n 之/u 夜/tg 元宇宙/x 周/nr 深/a 拥有/v 了生/v 米/q 就/d 像/v 拥有/v 了/ul 梦/n 的/uj 翅膀/n 卡布/nr 叻/g 周/nr 深/a 放心/v 飞/v 吧/y 生/v 米永/nr 相随/v 时尚/n 先生/n 元宇宙/x 梅涩甜/nr 的/uj 微博/a 视频/n \n", "王峻涛/nr 其实/d 吧/y 你/r 有空/vn 可以/c 再/d 看看/v 这个/r 视频/n 跟/p 你们/r 讲/v 我/r 相信/v 这个/r 元宇宙/x 真的/d 会/v 来/v 虽然/c 不是/c 一下子/m 就/d 到来/d 还/d 需要/v 很多/m 技术/n 突破/vn 和/c 社会/n 适应/v 再/d 跟/p 你们/r 讲/v 这次/r 再/d 不/d 跟/p 大家/n 一起/m 玩/v 以后/f 的/uj 后果/n 更/d 严重/a 人会/n 分成/v 有/v 元宇宙/x 的/uj 和/c 只有/c 传统/n 宇宙/n 的/uj 二端/m 互相/d 连/nr 沟通/v 的/uj 机会/n 都/d 没有/v \n" ] } ], "source": [ "wb = data[0:4]['weibo_content']\n", "for s in wb:\n", " wordLists = psg.cut(s)\n", " for w in wordLists:\n", " print(w,end=' ')\n", " print()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 情感分析" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "comments = data['weibo_content']\n", "sentimentlist = []\n", "for comment in comments:\n", " s = SnowNLP(comment)\n", " sentimentlist.append(s.sentiments)\n", "# print(s.sentiments)\n", "\n", "#可视化结果\n", "plt.hist(sentimentlist, bins=np.arange(0,1,0.01),facecolor='b')\n", "plt.xlabel('Probability')\n", "plt.ylabel('Quantity')\n", "plt.title('Sentiment Analysis')\n", "plt.show()\n", "\n" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "15\n" ] }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "\n", "df = data.copy()\n", "attributeList = ['l', 'uj', 'p', 'r', 'vn', 'm', 'k', 'q', 'd', 'ns', 't', 'nz', 'a', 'v', 'n']\n", "wordLists = []\n", "for attribute in attributeList:\n", " sentence = df['weibo_content']\n", " \n", " wordList = []\n", " for line in sentence:\n", " kw_TF_IDF = jieba.analyse.extract_tags(str(line), topK=30, withWeight=True, allowPOS=(attribute))\n", " words = ''\n", " for kw in kw_TF_IDF:\n", " words += kw[0]\n", " if len(words)>0:\n", " wordList.append(words)\n", " wordLists.append(wordList)\n", "k = 0\n", "print(len(wordLists))\n", "for wl in wordLists:\n", " \n", " sentimentlist = []\n", " for ad_v in wl:\n", " s = SnowNLP(ad_v)\n", " sentimentlist.append(s.sentiments)\n", " plt.clf()\n", " plt.hist(sentimentlist, bins=np.arange(0,1,0.01),facecolor='g')\n", " plt.xlabel('Probability')\n", " plt.ylabel('Quantity')\n", " plt.title('Sentiment '+attributeList[k]+' Analysis')\n", " plt.savefig(output_path+'sentiment_'+attributeList[k]+'.png')\n", " k += 1\n" ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "100%|██████████| 31670/31670 [30:59<00:00, 17.03it/s] \n" ] }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "import pandas as pd\n", "from snownlp import SnowNLP\n", "import jieba.posseg as psg\n", "import jieba.analyse\n", "import matplotlib.pyplot as plt\n", "import numpy as np\n", "from tqdm import tqdm\n", "\n", "file_path = r'Data\\topic_5.csv'\n", "data = pd.read_csv(file_path).astype(str)\n", "\n", "comments = data['weibo_content']\n", "sentimentlist = []\n", "for comment in tqdm(comments):\n", " s = SnowNLP(comment)\n", " sentimentlist.append(s.sentiments)\n", "\n", "#可视化结果\n", "plt.hist(sentimentlist, bins=np.arange(0,1,0.01),facecolor='b')\n", "plt.xlabel('Probability')\n", "plt.ylabel('Quantity')\n", "plt.title('Sentiment Analysis')\n", "plt.savefig('sentiment_analysis.png')\n", "plt.show()" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "plt.hist(sentimentlist, bins=np.arange(0,1,0.01),facecolor='b')\n", "plt.xlabel('Probability')\n", "plt.ylabel('Quantity')\n", "plt.title('Sentiment Analysis Topic #5')\n", "plt.savefig('sentiment_analysis.png')" ] } ], "metadata": { "interpreter": { "hash": "8ad04bb091a50ccdbc721be5657843c2a9a7fbc3dc3147e11dd611d30683dae8" }, "kernelspec": { "display_name": "Python 3.8.3 ('base')", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.3" }, "orig_nbformat": 4 }, "nbformat": 4, "nbformat_minor": 2 }