全国服务热线:400-6136-679

位置:南京CDA数据分析师培训机构 > 学校动态 > 用可视化带你纵览120年奥运史

用可视化带你纵览120年奥运史

来源:南京CDA数据分析师培训机构时间:2022/12/9 15:20:32

  今天带大家用数据可视化解读120 年奥运变迁史。

  几经波折,东京奥运会终于即将迎来开幕的时刻,距离7月23日东京奥运会开幕只有不到一周的时间了。

  这次东京奥运会真可谓是命运多舛,在2020年3月24日,东京奥组委宣告,2020东京夏季奥运会延期至2021年夏季举行。

  很快一年过去了,原以为疫情会过去,奥运会可以如常展开。不想除了中国,全世界的疫情反反复复,Delta毒株的肆虐使得疫情更严重。

  在这种形势下的东京奥运会也出台各种防疫新规:

  东京奥运会开幕式有可能将入场观众人数压缩至1000人以下;

  运动员间需要保持社交距离,除了吃饭、睡觉、训练和比赛时间外,确保始终戴着口罩;

  乒乓球赛制方面,比赛时运动员不许手触球台和吹球;

  …...

  这注定让这次奥运会成为较不平凡的一届,而各种因素也导致本届奥运会的各国奖牌榜更加难以预测,体育数据公司Gracenote就在预测报告中说:“由于新冠肺炎疫情的影响,东京奥运会或许成为较不可预测一届奥运会。”

  那么关于奥运会这场世界上影响力较大的体育盛会,背后有哪些有趣的数据?

  奥运会参赛国数量和比赛项目有哪些变化?

  各国累计奖牌数排名是怎样的?

  参赛运动员的年龄和身高有哪些特征?

  今天我们就带你用数据来纵览120年奥运史。

  奥林匹克运动会发源于两千多年前的古希腊,因举办地在奥林匹亚而得名。并于1896年举办了首届奥运会,1924年举办了首届冬奥会,是世界上影响力较大的体育盛会。

  01、数据理解

  我们选取了一个关于现代奥运会的历史数据集,包括从1896年雅典奥运会到2016年里约奥运会的所有奥运会。

  数据集取自网站:www.sports-reference.com

  需要注意的是,冬季奥运会和夏季奥运会从1994年起分开,每两年间隔举行,1992年冬季奥运会是较后一届与夏季奥运会同年举行的冬奥会。自1924年开始第1届,截至2018年共举办了23届,每四年一届。

  athlete_events.csv 文件包含271116行和15列。每一行对应于在一个单独的奥运会项目(运动员项目)中参赛的运动员。列为:

  ID - 运动员的ID编号

  Name - 运动员姓名

  Sex - 性别

  Age - 年龄

  Height - 身高(cm)

  Weight - 体重(kg)

  Team - 队伍名称

  NOC - 奥委会编码

  Games - 年份和季节

  Year - 年份

  Season - 季节

  City - 主办城市

  Sport - 体育运动

  Event - 比赛项目

  Medal - 获奖情况(、银牌、铜牌或无)

  02、读入数据

  首先导入包和数据。

  # 导入库

  import numpy as np

  import pandas as pd

  import matplotlib.pyplot as plt

  import seaborn as sns

  import plotly as py

  import plotly.graph_objs as go

  import plotly.express as px

  import plotly.figure_factory as ff

  from plotly.subplots import make_subplots

  pyplot = py.offline.plot

  # 读入数据

  df_athlete = pd.read_csv('

  ./archive/athlete_events.csv')

  df_regions = pd.read_csv('./archive/noc_regions.csv')

  df_athlete.head()

df_athlete.info()

  

  RangeIndex: 271116 entries, 0 to 271115

  Data columns (total 15 columns):

  # Column Non-Null Count Dtype

  --- ------ -------------- -----

  0 ID 271116 non-null int64

  1 Name 271116 non-null object

  2 Sex 271116 non-null object

  3 Age 261642 non-null float64

  4 Height 210945 non-null float64

  5 Weight 208241 non-null float64

  6 Team 271116 non-null object

  7 NOC 271116 non-null object

  8 Games 271116 non-null object

  9 Year 271116 non-null int64

  10 Season 271116 non-null object

  11 City 271116 non-null object

  12 Sport 271116 non-null object

  13 Event 271116 non-null object

  14 Medal 39783 non-null object

  dtypes: float64(3), int64(2), object(10)

  memory usage: 31.0+ MB

  df_regions.head()

命运多舛的东京奥运会开幕在即,用可视化带你纵览120年奥运史

03、数据预处理

  此处对数据做以下处理,以方便后续的分析:

  将两个数据集横向合并为一个数据集,Key为NOC这一列

  Sex:数据值替换

  Medal:空值填充

  # 合并数据

  df_all = pd.merge(df_athlete, df_regions, how='left', on='NOC')# 处理Sex列

  df_all['Sex'] = df_all['Sex'].map({'M': 'Male', 'F': 'Female'})# 处理Medal列

  df_all['Medal'].fillna('No Medal', inplace=True)

  df_all.head()

04、数据可视化

  我们使用处理好的数据做数据可视化分析,结果如下:

  1、奥运会总体数据

  参赛数量变化

  整体上来看,参赛呈现上升趋势,但其中有两届奥运会存在异常的下降。分别是:

  1976年蒙特利尔奥运会:出现了规模的反种族歧视行动,此次运动会遭到了非洲的抵制,规模远逊于上届。

  1980年莫斯科奥运会:为了表示对苏联入侵阿富汗的谴责和愤怒,美国带头拒绝参加1980年的莫斯科奥运会,并号召其他一起抵制。在美国的号召下,较终一共有65个抵制莫斯科奥运会,占当时报名参赛国数量的五分之二。较后只有80个参加莫斯科奥运会, 大约5000余人参赛,参赛人数还没有参与报道的记者数量多,创历史记录。

  比赛项目数量变化

  可以看出,奥运会的比赛项目呈现波浪式上升的趋势,其中在1980-2000年这20年,比赛项目增长趋势较大,且以夏季奥运会尤为突出,但2000年以后比赛项目增加趋势慢慢变为平稳的态势了。

  各个累计奖牌数量TOP 20

  我们选取了各个项目获得奖牌数目排名0的,通过比较发现美国不管是、银牌还是铜牌都持平很多,然后是俄罗斯和德国。由于缺席了多届奥运会,我国的累计奖牌数排名偏后。

  2、奥运会参赛运动员数据

  每届参赛人数

  从图中可以观察到,夏季奥运会参赛较多人数的是2000年的悉尼奥运会,参赛人数13821人,冬季奥运会参赛人数较多的是2014年,参赛人数4891人。

  参加夏季奥运会的人数远远多于冬季的人数,可能是比赛项目少的原因。同时,D一次世界大战和第二次世界大战期间没有举办过奥运会。

  参赛运动员男女人数和比例变化

(男女人数变化)

(男女比例变化)

  我们纵观整个奥运历史,虽然奥运会的开始,运动员男女比例较为悬殊,男性运动员占比一直高于女性运动员。但是我们可以看到,随着奥运会的发展,女性运动员的占比一直在提升,目前参加奥运会男女比例几乎接近于1:1。

  参赛运动员年龄和奖牌数

  图中可以看出,年龄的分布呈现右偏分布,其中80%的区域集中在19岁到33岁之间,25岁左右是运动员的黄金年龄。

  纵观整个奥运史,年龄较小的运动员仅为10岁。1896年,届现代奥运会在希腊举办,仅仅10岁零218天的东道主体操选手Dimitrios Loundras参赛并获得了铜牌,

  1928年阿姆斯特丹夏季奥运会中,一名97岁高龄的美国“运动员”,参加了雕刻的“运动项目”,但并未获得名次。这个记录应该是不会被打破了。

  参赛运动员的身高、体重分布

(身高变化)

(体重变化)

  我们筛选了1960年之后的数据,发现参赛选手中男性身布在127cm-226cm之间,女性身布在127cm-213cm之间,男性体重的分布在37kg-226kg之间,女性的体重分布在25kg-167kg之间。

  结语

  在人类奥林匹克,或许没有哪一届奥运会,像2020东京奥运会一样曲折。由于各种不确定性,本届奥运会各代表团对于参赛目标都显得十分低调。

  不过,从另一个角度来看,不确定性也是体育比赛魅力的一部分,“较难猜”未必就“不精彩”。

  东京奥运,群雄逐鹿,一场大戏即将上演。较后让我们一起期待我国奥运健儿顺利安全参赛,取得好成绩吧!

领取试听课
每天限量名额,先到先得

尊重原创文章,转载请注明出处与链接:http://www.peixun360.com/6186/news/582450/违者必究! 以上就是南京CDA数据分析师培训机构 小编为您整理 用可视化带你纵览120年奥运史的全部内容。

温馨提示:提交留言后老师会第一时间与您联系!热线电话:400-6136-679