样本必须是随机的

随机样本是由一个过程选择的一个总体子集,该过程使具有指定数量的所有样本的出现可能性相同。在统计学中,可以使用随机样本来针对总体进行归纳或推断。

但是,样本必须是随机收集的,这样才能准确展示它所在总体的整体情况。您应仔细规划您的数据收集过程,确保您的样本是随机抽取的。另外,抽取数据的过程或数据所在的总体应保持稳定。

样本必须是随机样本才能消除选择偏差。选择偏差意味着一些对象出现在样本中的可能性大于其他对象。如果样本存在偏差,则只能针对样本中的某些对象(而非整个总体)进行推断。

假设您要开展一项新的广告宣传活动,但不确定吸引客户的最佳方式是印刷品、广播还是电视。尽管调查所有客户并不实际,成本也比较高昂,但有可能调查随机样本。最初,您倾向于只调查返回邮寄折扣的客户,因为这些客户更可能对调查做出响应。但是,这种抽样并不能代表整个总体,因为每位客户被选中的几率并不相同。这会导致做出不良的业务决策。于是,您转而决定从所有客户的字母顺序列表中随机选择客户。根据此数据,可以得出有关客户群的论断,从而确定分配广告支出的最佳方式。

通过使用游程检验来确定样本是否随机

在收集数据之后,检查数据是否随机的一种方法就是使用游程检验来查找数据随时间变化的模式。要在 Minitab 中执行游程检验,请选择统计 > 非参数 > 游程检验

还可以通过其他图形来确定样本是否随机。

使用时间序列图确定数据是否随机的示例

假设面试官随机选择 30 人并询问每个人一个问题,每个问题有四个可能的答案。答案分别编码为 0、1、2 和 3。面试官创建一个时间序列图来检查答案的随机性。

答案的时间序列图

数据中的模式表示数据不随机。面试官开展调查,确定问题的排布或对象的选择中是否存在偏倚。