{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# 微博热搜分析" ] }, { "cell_type": "code", "execution_count": 73, "metadata": { "ExecuteTime": { "end_time": "2021-11-08T02:49:48.298498Z", "start_time": "2021-11-08T02:49:47.565307Z" } }, "outputs": [], "source": [ "import pandas as pd\n", "import numpy as np\n", "import seaborn as sns\n", "import pylab as plt\n", "\n", "plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] # 用来正常显示中文标签\n", "plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号, 注意['SimHei']对应这句不行." ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "ExecuteTime": { "end_time": "2021-11-07T10:10:39.463721Z", "start_time": "2021-11-07T10:10:34.056858Z" } }, "outputs": [], "source": [ "df = pd.read_excel('./data/微博热搜数据2020.xlsx')" ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "ExecuteTime": { "end_time": "2021-11-07T10:10:42.116514Z", "start_time": "2021-11-07T10:10:42.091995Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", " | Unnamed: 0 | \n", "date | \n", "title | \n", "searchCount | \n", "rank | \n", "words_list | \n", "
---|---|---|---|---|---|---|
0 | \n", "0 | \n", "2020/01/01 | \n", "快本为何炅改播出时间 | \n", "9257913 | \n", "1 | \n", "['快本', '为何', '炅', '改', '播出', '时间'] | \n", "
1 | \n", "1 | \n", "2020/01/01 | \n", "唐一菲 | \n", "4993064 | \n", "2 | \n", "['唐一菲'] | \n", "
2 | \n", "2 | \n", "2020/01/01 | \n", "橘子洲烟花 | \n", "4712996 | \n", "3 | \n", "['橘子', '子洲', '橘子洲', '烟花'] | \n", "
3 | \n", "3 | \n", "2020/01/01 | \n", "吴亦凡脖子 | \n", "4426161 | \n", "4 | \n", "['吴亦凡', '脖子'] | \n", "
4 | \n", "4 | \n", "2020/01/01 | \n", "吴昕状态 | \n", "4209201 | \n", "5 | \n", "['吴昕', '状态'] | \n", "
\n", " | date | \n", "title | \n", "searchCount | \n", "rank | \n", "words_list | \n", "wlist | \n", "
---|---|---|---|---|---|---|
0 | \n", "2020/01/01 | \n", "快本为何炅改播出时间 | \n", "9257913 | \n", "1 | \n", "['快本', '为何', '炅', '改', '播出', '时间'] | \n", "[快本, 为, 何炅, 改播, 出, 时间] | \n", "
1 | \n", "2020/01/01 | \n", "唐一菲 | \n", "4993064 | \n", "2 | \n", "['唐一菲'] | \n", "[唐一菲] | \n", "
2 | \n", "2020/01/01 | \n", "橘子洲烟花 | \n", "4712996 | \n", "3 | \n", "['橘子', '子洲', '橘子洲', '烟花'] | \n", "[橘子洲, 烟花] | \n", "
3 | \n", "2020/01/01 | \n", "吴亦凡脖子 | \n", "4426161 | \n", "4 | \n", "['吴亦凡', '脖子'] | \n", "[吴亦凡, 脖子] | \n", "
4 | \n", "2020/01/01 | \n", "吴昕状态 | \n", "4209201 | \n", "5 | \n", "['吴昕', '状态'] | \n", "[吴昕, 状态] | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
35895 | \n", "2020/12/30 | \n", "如何看待大小周工作制 | \n", "1108684 | \n", "96 | \n", "['如何', '看待', '大小', '周', '工作', '工作制'] | \n", "[如何, 看待, 大小, 周工作制] | \n", "
35896 | \n", "2020/12/30 | \n", "以色列两老人接种美产疫苗后死亡 | \n", "1085368 | \n", "97 | \n", "['以色列', '两', '老人', '接种', '美产', '疫苗', '后', '死亡'] | \n", "[以色列, 两, 老人, 接种, 美产, 疫苗, 后, 死亡] | \n", "
35897 | \n", "2020/12/30 | \n", "沈阳全面进入战时状态 | \n", "1082178 | \n", "98 | \n", "['沈阳', '全面', '进入', '战时', '状态'] | \n", "[沈阳, 全面, 进入, 战时, 状态] | \n", "
35898 | \n", "2020/12/30 | \n", "人社局介入员工连上2次厕所被罚款 | \n", "1077144 | \n", "99 | \n", "['人', '社局', '介入', '员工', '连上', '2', '次', '厕所', ... | \n", "[人社局, 介入, 员工, 连, 上, 2, 次, 厕所, 被, 罚款] | \n", "
35899 | \n", "2020/12/30 | \n", "沈阳疫情 | \n", "1072987 | \n", "100 | \n", "['沈阳', '疫情'] | \n", "[沈阳, 疫情] | \n", "
35900 rows × 6 columns
\n", "\n", " | date | \n", "title | \n", "searchCount | \n", "rank | \n", "words_list | \n", "wlist | \n", "
---|---|---|---|---|---|---|
100 | \n", "2020/01/02 | \n", "张翰微博评论 | \n", "5333810 | \n", "1 | \n", "['张翰', '微博', '评论'] | \n", "[张翰微博, 评论] | \n", "
101 | \n", "2020/01/02 | \n", "李天一 | \n", "4633015 | \n", "2 | \n", "['李', '天一'] | \n", "[李天一] | \n", "
102 | \n", "2020/01/02 | \n", "王菲李亚鹏周迅窦靖童参加新年派对 | \n", "4256117 | \n", "3 | \n", "['王菲', '李亚鹏', '周迅', '窦靖童', '参加', '新年', '派对'] | \n", "[王菲, 李亚鹏, 周迅, 窦靖童, 参加, 新年, 派, 对] | \n", "
103 | \n", "2020/01/02 | \n", "关晓彤穿鹿晗的卫衣 | \n", "3819525 | \n", "4 | \n", "['关晓彤', '穿', '鹿晗', '的', '卫衣'] | \n", "[关晓彤, 穿, 鹿晗, 的, 卫衣] | \n", "
104 | \n", "2020/01/02 | \n", "杜江 努力是最不值得一提的事 | \n", "3800499 | \n", "5 | \n", "['杜江', ' ', '努力', '是', '最', '不', '值得', '值得一提',... | \n", "[杜江, , 努力, 是, 最, 不, 值得一提, 的, 事] | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
35895 | \n", "2020/12/30 | \n", "如何看待大小周工作制 | \n", "1108684 | \n", "96 | \n", "['如何', '看待', '大小', '周', '工作', '工作制'] | \n", "[如何, 看待, 大小, 周工作制] | \n", "
35896 | \n", "2020/12/30 | \n", "以色列两老人接种美产疫苗后死亡 | \n", "1085368 | \n", "97 | \n", "['以色列', '两', '老人', '接种', '美产', '疫苗', '后', '死亡'] | \n", "[以色列, 两, 老人, 接种, 美产, 疫苗, 后, 死亡] | \n", "
35897 | \n", "2020/12/30 | \n", "沈阳全面进入战时状态 | \n", "1082178 | \n", "98 | \n", "['沈阳', '全面', '进入', '战时', '状态'] | \n", "[沈阳, 全面, 进入, 战时, 状态] | \n", "
35898 | \n", "2020/12/30 | \n", "人社局介入员工连上2次厕所被罚款 | \n", "1077144 | \n", "99 | \n", "['人', '社局', '介入', '员工', '连上', '2', '次', '厕所', ... | \n", "[人社局, 介入, 员工, 连, 上, 2, 次, 厕所, 被, 罚款] | \n", "
35899 | \n", "2020/12/30 | \n", "沈阳疫情 | \n", "1072987 | \n", "100 | \n", "['沈阳', '疫情'] | \n", "[沈阳, 疫情] | \n", "
35800 rows × 6 columns
\n", "\n", " | index | \n", "behavior | \n", "Centrality | \n", "Eigenvector Centrality | \n", "PageRank | \n", "
---|---|---|---|---|---|
0 | \n", "79 | \n", "回应 | \n", "0.036538 | \n", "0.237855 | \n", "0.005882 | \n", "
1 | \n", "416 | \n", "中国 | \n", "0.030499 | \n", "0.230003 | \n", "0.004656 | \n", "
2 | \n", "551 | \n", "美国 | \n", "0.020362 | \n", "0.178964 | \n", "0.003027 | \n", "
3 | \n", "2857 | \n", "确诊 | \n", "0.018467 | \n", "0.172638 | \n", "0.002789 | \n", "
4 | \n", "370 | \n", "武汉 | \n", "0.017850 | \n", "0.161130 | \n", "0.002640 | \n", "
5 | \n", "371 | \n", "疫情 | \n", "0.016263 | \n", "0.155644 | \n", "0.002376 | \n", "
6 | \n", "1130 | \n", "口罩 | \n", "0.014412 | \n", "0.107177 | \n", "0.002215 | \n", "
7 | \n", "3240 | \n", "冠肺炎 | \n", "0.012693 | \n", "0.109213 | \n", "0.002071 | \n", "
8 | \n", "1000 | \n", "直播 | \n", "0.012032 | \n", "0.050531 | \n", "0.002050 | \n", "
9 | \n", "731 | \n", "发现 | \n", "0.011988 | \n", "0.097391 | \n", "0.001920 | \n", "
10 | \n", "569 | \n", "男子 | \n", "0.011592 | \n", "0.101326 | \n", "0.001794 | \n", "
11 | \n", "45 | \n", "北京 | \n", "0.011592 | \n", "0.113041 | \n", "0.001665 | \n", "
12 | \n", "2129 | \n", "病例 | \n", "0.011503 | \n", "0.097664 | \n", "0.001741 | \n", "
13 | \n", "1534 | \n", "病毒 | \n", "0.011107 | \n", "0.095625 | \n", "0.001726 | \n", "
14 | \n", "126 | \n", "学生 | \n", "0.010666 | \n", "0.084269 | \n", "0.001597 | \n", "
15 | \n", "984 | \n", "人员 | \n", "0.010446 | \n", "0.084112 | \n", "0.001493 | \n", "
16 | \n", "1390 | \n", "出现 | \n", "0.009740 | \n", "0.098497 | \n", "0.001490 | \n", "
17 | \n", "75 | \n", "第一 | \n", "0.009696 | \n", "0.060699 | \n", "0.001577 | \n", "
18 | \n", "2861 | \n", "感染 | \n", "0.009432 | \n", "0.097261 | \n", "0.001401 | \n", "
19 | \n", "744 | \n", "新增 | \n", "0.008815 | \n", "0.092896 | \n", "0.001266 | \n", "
\n", " | index | \n", "behavior | \n", "Centrality | \n", "Eigenvector Centrality | \n", "PageRank | \n", "
---|---|---|---|---|---|
20 | \n", "779 | \n", "自己 | \n", "0.008727 | \n", "0.040532 | \n", "0.001404 | \n", "
21 | \n", "334 | \n", "宣布 | \n", "0.008550 | \n", "0.077441 | \n", "0.001280 | \n", "
22 | \n", "1435 | \n", "女孩 | \n", "0.008462 | \n", "0.065487 | \n", "0.001317 | \n", "
23 | \n", "1582 | \n", "韩国 | \n", "0.008418 | \n", "0.088298 | \n", "0.001261 | \n", "
24 | \n", "2084 | \n", "湖北 | \n", "0.008330 | \n", "0.097552 | \n", "0.001191 | \n", "
25 | \n", "703 | \n", "全国 | \n", "0.008242 | \n", "0.071739 | \n", "0.001210 | \n", "
26 | \n", "372 | \n", "要求 | \n", "0.008242 | \n", "0.075264 | \n", "0.001227 | \n", "
27 | \n", "254 | \n", "患者 | \n", "0.008066 | \n", "0.080819 | \n", "0.001158 | \n", "
28 | \n", "151 | \n", "日本 | \n", "0.007977 | \n", "0.096116 | \n", "0.001173 | \n", "
29 | \n", "47 | \n", "医院 | \n", "0.007933 | \n", "0.090832 | \n", "0.001175 | \n", "
30 | \n", "269 | \n", "医生 | \n", "0.007801 | \n", "0.072640 | \n", "0.001212 | \n", "
31 | \n", "1089 | \n", "女子 | \n", "0.007581 | \n", "0.068957 | \n", "0.001180 | \n", "
32 | \n", "2098 | \n", "全球 | \n", "0.007537 | \n", "0.075520 | \n", "0.001160 | \n", "
33 | \n", "481 | \n", "大学 | \n", "0.007449 | \n", "0.068350 | \n", "0.001137 | \n", "
34 | \n", "789 | \n", "女儿 | \n", "0.007404 | \n", "0.034150 | \n", "0.001228 | \n", "
35 | \n", "31 | \n", "2020 | \n", "0.007404 | \n", "0.046876 | \n", "0.001257 | \n", "
36 | \n", "92 | \n", "女生 | \n", "0.007096 | \n", "0.044459 | \n", "0.001102 | \n", "
37 | \n", "266 | \n", "儿子 | \n", "0.006964 | \n", "0.044171 | \n", "0.001142 | \n", "
38 | \n", "348 | \n", "去世 | \n", "0.006920 | \n", "0.029782 | \n", "0.001297 | \n", "
39 | \n", "304 | \n", "妈妈 | \n", "0.006920 | \n", "0.039181 | \n", "0.001120 | \n", "