【matplotlib 实战】--南丁格尔玫瑰图

2023-10-16 11:45 由 wang_yb 发表于 #后端开发

南丁格尔玫瑰图是一种用极坐标下的柱状图或堆叠柱状图来展示数据的图表。

虽然南丁格尔玫瑰图外观类似饼图，但是表示数据的方式不同，它是以半径来表示数值的，
而饼图是以扇形的弧度来表达数据的。

所以，南丁格尔玫瑰图在视觉上会夸大数据的比例，因为半径和面积之间是平方关系。
因此，当需要对比非常相近的数值时，适当的夸大有助于区分数据，但在追求数据准确性时，玫瑰图可能不是最佳选择。

据说，南丁格尔玫瑰图由统计学家和医学改革家佛罗伦萨‧南丁格尔在克里米亚战争期间创造，
用于反映军医院的季节性死亡率，从而推动医院条件的改善。

1. 主要元素

南丁格尔玫瑰图的主要元素包括：

扇形：每个扇形代表一个类别或分组，其面积大小表示该类别或分组的数值大小。
半径轴：扇形的半径表示数据的大小，半径越长表示数值越大。
图例：图例是饼图的一部分，用于解释每个饼片所代表的含义，帮助观察者理解图表。
标签：可在每个扇形上方或内部添加标签，标注该类别或分组的名称或数值，帮助人们更好地理解数据。

2. 适用的场景

南丁格尔玫瑰图适用的场景包括：

数据分布比较：比较不同类别或分组之间的数据分布情况，例如比较不同产品的销售量或不同地区的人口分布。
百分比展示：展示各类别或分组所占的百分比大小，特别适用于展示相对比例的数据。
强调特定数据：通过扇形的面积和颜色等元素使其更加显眼和易于被注意到。
增强视觉吸引力：南丁格尔玫瑰图具有独特的视觉效果，可以吸引观众的注意力，适用于需要突出表达的场合。

3. 不适用的场景

南丁格尔玫瑰图不适用的场景包括：

连续数据分布：南丁格尔玫瑰图适用于展示离散的数据分布情况，不适用于展示连续数据的分布情况，例如时间序列数据。
多变量比较：如果需要比较多个变量之间的关系，南丁格尔玫瑰图可能不够直观和有效。
大量数据展示：如果数据量过大，可能会导致扇形过小，难以辨认和理解。
数据精确度要求高：南丁格尔玫瑰图的可视化效果更多地强调数据分布的趋势和相对大小，不适合展示具有高精确度要求的数据。

4. 分析实战

本次使用王者荣耀KPL 2023年春季赛的数据，分析各个战队的排名和胜率。

4.1. 数据来源

数据来自王者荣耀官方网站，整理好的数据下载地址：
https://databook.top/wzry/2023-spring

本次分析使用其中各个战队的相关数据：league-2023春季赛.csv

fp = "d:/share/data/league-2023春季赛.csv"

df = pd.read_csv(fp)
df

4.2. 数据清理

原始数据中，字段比较多，提取前10名的战队，用南丁格尔玫瑰图分析其胜率情况。

key = "胜率"

data = df.sort_values("排名")
data = data.reset_index()

#提取前10名，只保留 战队 和 胜率 2个字段
data = data.loc[:9, ["战队", key]]

#胜率字段转换为 float 类型
data[key] = data[key].str.replace("%", "")
data[key] = data[key].astype("float")

data

4.3. 分析结果可视化

matplotlib 中没有提供专门绘制南丁格尔玫瑰图的接口，我们可以用极坐标系下的柱状图来模拟。

with plt.style.context("seaborn-v0_8"):
    fig = plt.figure()
    ax = fig.add_axes([0.1, 0.1, 1, 1], polar=True)
    ax.set_theta_offset(np.pi/2)
    ax.set_theta_direction(-1)
    ax.set_rlabel_position(0) 

    n = len(data)
    # 每个数据的角度
    angle = np.linspace(0, 2 * np.pi, n, endpoint=False)
    # 绘制用到的数据
    radius = np.array(data[key].tolist())

    ax.yaxis.set_major_locator(plt.NullLocator())

    # x轴刻度显示战队名称
    ax.set_xticks(angle, data["战队"])

    # 中间空出一个孔
    ax.set_ylim(-10, max(data[key]))

    ax.bar(angle, radius, color=plt.cm.tab10.colors, width=0.62)

从分析结果可以看出，第一名重庆狼队的胜率明显高出其他的战队，而其他战队的胜率差别不大。

说明目前王者荣耀KPL联盟中，各个战队的实力比较接近，比赛会非常精彩。

【matplotlib 实战】--饼图

饼图，或称饼状图，是一个划分为几个扇形的圆形统计图表。在饼图中，每个扇形的弧长（以及圆心角和面积）大小，表示该种类占总体的比例，且这些扇形合在一起刚好是一个完全的圆形。饼图最显著的功能在于表现“占比”。习惯上，人们通过比较饼图扇形的大小来获得对数据的认知。使用饼图时，须确认各个扇形的数据加起来等 ...阅读全文

【matplotlib 实战】--百分比柱状图

百分比堆叠式柱状图是一种特殊的柱状图，它的每根柱子是等长的，总额为100%。柱子内部被分割为多个部分，高度由该部分占总体的百分比决定。百分比堆叠式柱状图不显示数据的“绝对数值”，而是显示“相对比例”。但同时，它也仍然具有柱状图的固有功能，即“比较”——我们可以通过比较多个柱子的构成，分析数值之间的 ...阅读全文

【matplotlib 实战】--堆叠柱状图

堆叠柱状图，是一种用来分解整体、比较各部分的图。与柱状图类似，堆叠柱状图常被用于比较不同类别的数值。而且，它的每一类数值内部，又被划分为多个子类别，这些子类别一般用不同的颜色来指代。柱状图帮助我们观察“总量”，堆叠柱状图则可以同时反映“总量”与“结构”。也就是说，堆叠柱状图不仅可以反映总量是多少？ ...阅读全文

【matplotlib 实战】--直方图

直方图，又称质量分布图，用于表示数据的分布情况，是一种常见的统计图表。一般用横轴表示数据区间，纵轴表示分布情况，柱子越高，则落在该区间的数量越大。构建直方图时，首先首先就是对数据划分区间，通俗的说即是划定有几根柱子（比如，1980年~2020年的数据，每5年划分一个区间的话，共8个区间）。接着，对 ...阅读全文

【matplotlib 实战】--堆叠面积图

堆叠面积图和面积图都是用于展示数据随时间变化趋势的统计图表，但它们的特点有所不同。面积图的特点在于它能够直观地展示数量之间的关系，而且不需要标注数据点，可以轻松地观察数据的变化趋势。而堆叠面积图则更适合展示多个数据系列之间的变化趋势，它们一层层的堆叠起来，每个数据系列的起始点是上一个数据系列的结束点 ...阅读全文

【matplotlib 实战】--面积图

面积图，或称区域图，是一种随有序变量的变化，反映数值变化的统计图表。面积图也可用于多个系列数据的比较。这时，面积图的外观看上去类似层叠的山脉，在错落有致的外形下表达数据的总量和趋势。面积图不仅可以清晰地反映出数据的趋势变化，也能够强调不同类别的数据间的差距对比。面积图的特点在于，折线与自变量坐标 ...阅读全文

【matplotlib 实战】--折线图

折线图是一种用于可视化数据变化趋势的图表，它可以用于表示任何数值随着时间或类别的变化。折线图由折线段和折线交点组成，折线段表示数值随时间或类别的变化趋势，折线交点表示数据的转折点。折线图的方向表示数据的变化方向，即正变化还是负变化，折线的斜率表示数据的变化程度。 1. 主要元素折线图主要由以下 ...阅读全文

5、SpringMVC之域对象共享数据

5.1、域对象简介请求域（request）：一次请求范围内有效会话域（session）：一次会话范围内有效应用域（application）：整个应用范围内有效 5.2、环境搭建 5.2.1、右击project创建新module 5.2.2、选择maven 5.2.3、设置module名称和路径 ...阅读全文

布隆过滤器：原理与应用

在日常生活和工作中，我们经常需要处理海量的数据，筛选出有用的信息。这个时候，布隆过滤器（Bloom Filter）就派上了用场 ...阅读全文

Java观察者模式-SpringBoot实现观察者模式

观察者模式一、Java观察者模式 Java观察者模式是一种设计模式，用于实现对象之间的一对多依赖关系。在观察者模式中，当一个对象的状态发生变化时，它的所有依赖对象（观察者）都会自动收到通知并进行相应的更新。观察者模式由以下几个核心组件组成：主题（Subject）：也称为被观察者或可观察对象，它 ...阅读全文