按照随机的原则,即保证总体中每一个对象都有已知的、非零的概率被选入作为研究的对象,保证样本的代表性。随机抽样法就是调查对象总体中每个部分都有同等被抽中的可能,是一种完全依照机会均等的原则进行的抽样调查,被称为是一种“等概率”。
这里介绍了随机抽样的五种形式,即简单随机抽样、分层抽样、整群抽样、系统抽样和多级抽样。
一、简单随机抽样
简单随机抽样(simple random sampling , SRS)是最简单的概率抽样方法,也是其他抽样方法的基础,指从一个单元数为 N 的总体中逐个抽取单元并且无放回,每次都在所有尚未进入样本的单元中等概率地抽取,直到 n个单元抽完。
✅适用场景:总体N较小;总体方差S2与任意局部方差基本相当的情况。
以 iris 数据集(3种鸢尾花形态数据)为例
二、分层抽样
分层抽样(stratified sampling)是指先按照某种规则把总体划分为不同的层,然后在层内再进行抽样,各层的抽样之间是独立进行的。
如果各层内是简单随机抽样,则称为分层随机抽样,分层抽样的估计是先在各层内进行的,再由各层的估计量进行加权平均或求和,从而得出总体的估计量。
✅适用场景:层间有较大的异质性,每层内的个体具有同质性的总体;
主要函数:
strata(data,stratanames=NULL,size,method=c("srswor","srswr","poisson","systematic"),pik,description=FALSE)
参数说明:
stratanames: 进行分层所依据的变量名称。
size: 各层中要抽出的观测样本数。
method:选择4中抽样方法,分别为无放回(srswor)、有放回(srswr)、泊松(poisson)、系统抽样(systematic),默认为srswor。
pik: 设置各层中样本的抽样概率。
description: 选择是否输出含有各层基本信息的结果。
三、整群抽样
整群抽样(cluster sampling)是指先把总体中的个体划分成称作群的单个组,总体中的每一个个体属于且仅属于某一群。以群为单位抽取一个简单随机样本。
当群中的个体不同质时,整群抽样得到的结果最佳。在理想状态下,每一群是整个总体小范围内的代表。整群抽样的值依赖于每一群对整个总体的代表性。如果所有的群在这个意义上是同质的,则抽取小量的群就可以得到关于总体参数的好的估计。
✅适用场景:群间差异小、群内各个体差异大、可以依据某种特征差异来划分的群体;
四、系统抽样
系统抽样(systematic sampling)是指先将总体中的抽样单元按某种次序排列,在规定范围内随机抽取一个初始单元,然后按事先规定的规则抽取其他样本单元。
特别地,如果在抽取初始单元后按相等的间距抽取其余样本单元,则称为等距抽样。
✅适用场景:容量很大且个体的排列是按照随机顺序排列的总体;
主要函数:
inclusionprobabilities(a,n) 和 UPrandomsystematic(pik,eps=1e-6)。
参数说明:
a:正数向量。
n:样本量。
pik:包含概率向量。
eps:默认情况下,控制值等于1e-6。
五、多级抽样
多级抽样(multi-stage sampling)可以看作整群抽样的发展,在抽得初级抽样单元后,并不调查其全部次级单元,而是再进行抽样, 从入选的初级单元中抽选次级单元,这种抽样方法称为二阶段抽样。
二阶段的第一阶段指抽取初级单元,第二阶段是指抽取次级单元(在二阶段抽样中,也就是基本抽样单元)。
类似地 ,可以定义三阶段抽样:先抽取初级单元,在其中继续抽取次级单元,在抽中的次级单元中再抽取三级单元(基本单元)。依此类推,可定义四阶段抽样等。二阶及二阶以上抽样统称为多级抽样。
✅适用场景:分布情况复杂,不易从总体中直接抽取调查单位作为样本的情况;
以两阶段整群抽样为例:
mstage(data, stage=c("stratified","cluster",""), varnames, size,
method=c("srswor","srswr","poisson","systematic"), pik, description=FALSE)
参数说明:
data:数据帧或数据矩阵;其行数为N,即总体大小。
stage:每个阶段的抽样类型列表;可能的值为:分层数据 ( stratified) ,整 群 数 据 ( cluster) ,无分层和无分类的数据 (填写“”)。对于多级元素采样,此参数不是必需的。
varnames:分层或聚类变量列表。
size:样本大小列表(按多级抽样中样本出现的顺序)。
method:各阶段选择单元的方法列表;执行以下方法:分别为无放回(srswor)、有放回(srswr)、泊松(poisson)、系统抽样(systematic),默认为srswor。如果未指定方法,则默认为“srswor”。每个阶段的方法可能不同。
pik:选择概率或用于计算它们的辅助信息的列表;此参数仅用于不等概率抽样(泊松,系统)。如果提供了辅助信息,该函数将使用inclusionprobabilities函数来计算这些概率。
Description:如果消息的值为TRUE,则输出该消息;该消息给出所选单位的数目和总体中单位的数目。默认情况下,其值为FALSE。
随着科学技术的发展,人们对生活质量的追求不断提高,无线智能家居越来越容易被人们接受和应用,越来越多的电动窗帘产品进入人们的生活。 随之,也产生了如果电动窗帘维护不当,容易引起电动窗帘故障的问题。 现在,让我们来看看无线智能家居的自控窗帘应该如何维护。电动窗帘开关不好,或者中途不能靠近。 由于手动或其
屋面出现漏水的问题,对日常的生活也会带来极大的影响,但屋面却经常会有漏水的问题,屋面漏水的原因有哪些?面对屋面有漏水的问题,及时快速的解决才是关键,如不解决后果也会特别的严重,来看看屋面漏水的解决办法有哪些。一、屋面漏水的原因有哪些?1、现浇板渗漏原因有两点:现浇板内预埋接线盒上浮,使雨水直接从接线