请完成以下步骤来解释点图。

步骤 1:评估关键特征

检查分布的尖峰和散布。评估样本数量对点图外观的影响。

尖峰和散布

标识尖峰(即,具有最多点的区间)。尖峰表示样本中最常见的值。评估样本的散布以了解数据的变异程度。

例如,在客户等待时间的此点图中,数据的尖峰出现在大约 6 分钟处。数据大约散布在 3.5 分钟到 8.5 分钟之间。

调查此点图上任何奇怪的或不需要的特征。例如,客户等待时间的点图显示的散布宽度超出预期。经调查发现,是计算机软件更新导致了客户等待时间不稳定和延迟。

样本数量 (n)

样本数量可能会影响图形的外观。

例如,尽管这两个点图似乎有相当大的差异,但它们都是使用从同一个总体中随机选择的数据样本创建的。在第一个点图上,每个符号都表示一个观测值。在第二个点图上,每个符号都表示多达三个观测值。
n = 20
n = 100

当样本数量小于大约 50 时,点图效果最佳。如果样本数量为 50 或更大,则一个点可能代表多个观测值。除了点图外,还要考虑使用箱线图直方图,以便您可以更方便地标识分布的主要特征。

步骤 2:查找非正常或异常数据的指示符

偏斜数据和多模态数据表明数据可能不正常。异常值可能表明数据中存在其他情况。

偏斜数据

当数据偏斜时,大多数数据位于图形的高或低侧。偏斜表明数据可能未呈正态分布。 通常情况下,在直方图箱线图中最易于检测偏斜。

这些点图说明的是偏斜数据。带右偏斜数据的点图显示等待时间。大部分等待时间相对较短,只有少数等待时间很长。带左偏斜数据的点图显示失效时间数据。少数几个项立即失败,更多的项会在随后失败。

右偏斜
左偏斜

如果已知数据本身未偏斜,请调查可能的原因。如果您希望分析严重偏斜的数据,请阅读该分析的“数据注意事项”主题,以确保您可以使用非正常数据。

异常值

异常值是远离其他数据值的数据值,可能会显著影响您的结果。通常情况下,在箱线图上最容易识别异常值

在点图上,异常低或异常高的数据值标识可能的异常值。
提示

将指针放在异常值上以标识数据点。

尝试确定导致任何异常值的原因。更正任何数据输入错误或测量误差。考虑删除与异常的单次事件(也称为特殊原因)相关联的数据值。然后,重新执行分析。

多模态数据

多模态数据具有多个峰值。(峰值表示一组数据的模式。)如果数据是从多个过程中或在多个条件(如多个温度)下收集的,通常会出现多模态数据。

例如,这些点图是相同数据的图形。简单点图包含两个尖峰,但它并未清楚地指示尖峰的含义。含组的点图表明,尖峰与两个组相对应。

简单
含组

如果您具有其他可用来对观测值进行分组的信息,则可以创建一个包含此信息的组变量。然后,可以创建含组的图形,以确定组变量是否导致数据中的峰值。

提示

要向现有的图形中添加组变量,请在图形中双击数据表示形式,然后单击选项卡。

步骤 3:评估和比较组

如果点图含组,请评估和比较组的中心和散布。

中心

查找组中心之间的差异。

例如,这些点图显示四个版本的信用卡应用程序的完成时间。每个版本的信用卡应用程序的中心位于一个不同的位置。位置差异表明完成时间存在差异。
组块式点图
堆叠式点图
要确定均值之间的差值在统计意义上是否显著,请执行以下操作之一:

散布

查找组散布之间的差异。

例如,这些点图显示由三台机器填充的罐子的重量。尽管这些点图的中心几乎相同,但有些点图比较宽和分散。散布得越宽,这些机器对罐子的填充越不一致。
组块式点图
堆叠式点图
要确定散布(方差)之间的差异在统计意义上是否显著,请执行以下操作之一:
使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策