使用均值来描述具有表示数据中心的单个值的样本。很多统计分析使用均值作为数据分布中心的一个标准度量。
中位数是数据分布中心的另一个度量。中位数受异常值的影响通常比均值要小。一半的数据值大于中位数值,一半的数据值小于中位数值。
置信区间提供总体参数的可能值范围。例如,95% 置信水平表明,如果从总体中随机抽取 100 个样本,则大约 95 个样本将产生包含总体参数的区间。
使用直方图和箱线图可以评估数据的形状和散布,还可以标识任何可能的异常值。
当数据偏斜时,大多数数据位于图形的高或低侧。通常情况下,在直方图或箱线图中最易于检测偏度。
异常值,是远离其他数据值的数据值,可以显著影响您的分析结果。通常情况下,在箱线图上最容易识别异常值。
尝试确定导致任何异常值的原因。更正任何数据输入错误或测量误差。考虑删除异常、单次事件(也称为特殊原因)的数据值。然后,重新执行分析。有关更多信息,请转到 标识异常值。
多模态数据具有多个峰值,也称为模式。多模态数据往往表明未考虑到重要变量。
如果您具有其他信息以用于将观测值分类到组,则可以创建一个包含此信息的组变量。然后,可以创建其中含有组的图形,以确定组变量是否导致数据中的峰值。