位置：深圳CDA数据分析师培训机构 > 学校动态 > pandas 分析可视化东京奥运会数据

pandas 分析可视化东京奥运会数据

来源：深圳CDA数据分析师培训机构时间：2022/12/9 13:41:19

　　本文将基于东京奥运会奖牌榜数据，使用 pandas 进行数据分析可视化实战（文末可以下载数据与源码）

　　数据读取

　　首先是奥运会奖牌数据的获取，虽然有很多接口提供数据，但是通过奥运会拿到的数据自然是较可靠的

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

　　通过对东京奥运会奖牌榜的页面分析，发现其表格在前端是通过嵌入的，所以可以使用 pandas.read_html() 轻松读取

　　df1 = pd.read_html("https://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.htm")[0]

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

之后再读取本地分日奖牌数据并将ID进行匹配

　　df2 = pd.read_csv("东京奥运会奖牌分日数据.csv")

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

修改列名

　　注意到上面的 df1 列名并没有完整，所以可以使用 rename 函数修改指定列的名称

　　df1.rename(columns={'Unnamed: 2':'数', 'Unnamed: 3':'银牌数', 'Unnamed: 4':'铜牌数'},inplace=True)

　　数据类型查看与修改

　　既然 df2 有时间列，为了方便后面分析，自然要检查一下其类型

　　df2.info()

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

　　可以看到，获奖时间列虽然没有缺失值但其并不是pandas支持的时间类型。

　　好在修改列属性并不是什么困难的事情，一行代码轻松搞定（7-12）

　　df2['获奖时间'] = pd.to_datetime(df2['获奖时间'])

　　数据合并

　　通过观察可以发现，df2并没有名称列，但是其与 df1 有一个共同列 id

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

　　为了给 df2 新增一列名称列，一个自然的想法就是通过 id 列将两个数据框进行合并，在 pandas 中实现，也不是什么困难的事情

　　temp = pd.merge(df1,df2,on = 'id') #先合并 temp['获奖时间'] = pd.to_datetime(temp['获奖时间'])#修改类型 temp = temp.sort_values(by=['获奖时间','奖牌类型'], ascending=True, ignore_index=True)#排序，和df2一样 df2[''] = temp['奥委会']#赋值

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

　　现在 df2 就调整的差不多了（由于源数据问题，部分获奖时间与真实时间有一定误差），下面开始进行分析

　　数据分组

　　下面对 df2 进行一些统计分析，计算每个的奖牌总数（也就是出现次数），并查看奖牌数名，结果可以用 df1 进行验证

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

数据统计

　　看完奖牌排行，接下来计算获得奖牌较多的运动员（注意：仅统计单人项目）

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

　　这里无需使用分组功能，只需要按照运动员姓名列进行频率统计即可。

　　数据筛选

　　下面筛选出全部乒乓球的获奖信息，这里的筛选有多种写法，你能写出几种？

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

数据透视

　　现在查看各国在各项目上的奖牌详情，下面是通过透视得到的答案，但你会使用使用数据分组功能吗？

　　pd.pivot_table(df2,values = ['奖牌类型'],index = ['','运动类别'],aggfunc = 'count')

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

数据查询

　　在上一题的基础上，查询中国队的获奖牌详情，注意是查询而不是筛选，所以使用上上一题的方法将会报错

　　result.query(" == ['中国']")

　　个性化查看

　　如何将上一题的结果进一步突出展示，可以使用 pandas 中的 style

　　(result.query(" == ['中国']").style.bar(subset=['奖牌类型'],color='skyblue'))

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

数据格式化

　　上面说到，df2 的获奖时间部分并不准确（主要体现在小时上），所以我们干脆将时间到天，这里可以使用 map 对一整列进行操作

　　def time_format(x): return x.strftime("%m月%d日")df2['获奖时间'] = df2['获奖时间'].map(time_format)

　　分组统计

　　接下来，让我们统计每天产生的奖牌总数

　　df2.groupby("获奖时间")[''].count().sort_values()

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

可以看到，较后产生的奖牌数量较多

　　数据透视

　　再来查看不同项目在不同的分布情况，同样也可以使用分组功能实现

　　pd.pivot_table(df2,values = ['奖牌类型'],index = ['运动类别',''],aggfunc = 'count')

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

数据计算

　　接下来让我们计算中国每日总奖牌数量，你能想到该如何实现吗？

　　pd.pivot_table(df2,values = ['奖牌类型'],index = ['获奖时间',''],aggfunc = 'count').query(" == ['中国']").cumsum()

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

数据计算

　　较后，计算名各国每日奖牌数量统计，注意：对于天没有数据的用0填充，其余时间的缺失值用上一日数据填充。

　　这看似简单的问题，涉及的 pandas 操作还真不少！

　　data = pd.pivot_table(df2,values = ['奖牌类型'],index = ['获奖时间',''],aggfunc = 'count').query(" == ['美国', '中国', '日本', '英国', 'ROC', '澳大利亚', '荷兰', '法国', '德国', '意大利']") data = data.unstack() data.columns = data.columns.get_level_values(1) data.columns.name = None data = data.cumsum() data = data.fillna(axis=0,method='ffill').fillna(0) data

　　条形图

　　首先制作奖牌排行榜

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

　　上图使用 matplotlib 制作，看起来不错，但代码量也确实不少

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

堆叠图

　　接下来使用 pyecharts 绘制上一题奖牌榜各奖牌的细分

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

　　使用 pyecharts 的好处就是使用封装好的方法，代码量相对较少

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

环形图

　　现在进一步绘制中国队的奖牌分布

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

同样使用 pyecharts ，实际行代码搞定

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

地图

　　现在绘制奖牌分布的热力地图

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

　　使用 pyecharts 绘制，绘图代码不多，但是调整中英文映射字典是一件痛苦的事情

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

动态图

　　较后绘制每日奖牌榜奖牌数量的动态图，使用 matplotlib 或 pyecharts 均得不到较好的效果，所以这里使用另一个第三方库 bar_chart_race 进行绘制

手把手教你用 <a href='/map/pandas/' style='color:#000;font-size:14px;'>pandas</a> 分析可视化东京奥运会数据

　　以上就是基于 2020年东京奥运会数据进行的一系列数据分析可视化流程，基本涉及到利用 Pandas 进行数据分析的主要操作，是一份不可多得的简单易懂、利于探索的数据集。

领取试听课

每天限量名额，先到先得

尊重原创文章，转载请注明出处与链接：http://www.peixun360.com/6463/news/582375/违者必究！以上就是深圳CDA数据分析师培训机构小编为您整理 pandas 分析可视化东京奥运会数据的全部内容。

有疑问联系客服为您解答

在线咨询

QQ咨询：2843313449

电话咨询：400-6136-679

免费领取试听课

申请试听

pandas 分析可视化东京奥运会数据

来源：深圳CDA数据分析师培训机构时间：2022/12/9 13:41:19

免费领取试听课

推荐课程更多>>

学校动态更多>>

课程分类

友情链接

pandas 分析可视化东京奥运会数据

来源：深圳CDA数据分析师培训机构时间：2022/12/9 13:41:19

免费领取试听课

推荐课程更多>>

学校动态更多>>

课程分类 友情链接

课程分类

友情链接