采样

2024-09-10 07:58:38 浏览数 (2)

  1. 采样的作用:
    1. 采样的本质是对随机现象的模拟,根据给定的概率分布,来模拟产生一个对应的随机事件。采样因此可以让人们对随机事件及其产生过程有更直观的认识。比如,通过二项分布采样,可以模拟抛硬币出现正面还是反面,这个随机事件,进而模拟产生一个多次抛硬币出现的结果序列,或者计算多次抛硬币后出现正面的频率。
    2. 采样所得到的样本集本身也可以看作是一种非参数模拟,即用较少量的样本点来近似总体分布,并刻画总体中的不确定性。从这个角度来说,采样也是一种信息降维,可以用于模型训练,在总体分布有无穷多个点的情况下。
    3. 对当前数据进行重采样,如自助法和刀切法,可以充分利用已有数据,挖掘更多信息,可以通过多次重采样来估计统计量的偏差,方差等。而且还可以通过重采样,可以保持特定的信息下,有意识地改变样本分布,以更适应后续模型训练和学习。例如用重样本来处理分类模型的训练样本不均衡问题。
    4. 此外,很多模型由于结构复杂,含有隐变量等情况下,导致对应求解公式比较复杂,没有显式解析解,难以进行精确的求解或推理,这种情况下,可以利用采样进行随机模拟,从而对这些复杂模型进行近似求解或推理。这一般会转换为某些函数在特定分布下的积分或是期望,或是求某些随机变量或参数在给定数据下的后验分布。
  2. 均匀分布随机数
    1. 均匀分布含义:均匀分布是指整个样本空间中的每一个样本对应的概率都是相等的。根据样本空间是否连续,又分为离散均匀分布和连续均匀分布。
    2. 均匀分布采样方法:唯一可以确定的是,计算机程序都是确定性的,因此不能产生真正意义上的完全均匀分布随机数,只能产生伪随机数,所以虽然这些伪随机数是通过确定性程序产生的,但是它们能通过近似的随机性测试。另外,由于计算机的存储和计算单元只能处理离散状态值,因此也不能产生连续均匀分布的伪随机数,只能通过离散分布来近似逼近连续分布,通过增加离散空间来提供足够的精度。
      1. 线性同余法来生成离散均匀分布伪随机数。

也就是根据当前生成的随机数X_t来进行适当变换,进而产生下一次的随机数X_t 1,如果想要得到区间[0,1]上的连续均匀分布随机数,用X_t除以m即可。这样导致生成的数字并不是相互独立的,下一次的随机数只能根据当前的随机数来产生。它的缺点在于,对于特定的种子,很多数无法取到,循环周期达不到m。如果要让循环周期尽可能的接近m,这就需要选择合适的乘法因子和模数m。

b. 1.线性同余法中的随机种子一般怎么选择。

2.如果需要产生高维样本或大量样本,线性同余法会存在什么问题?

3.如何证明上述线性同余法(linear congruential generator)得到的序列可近似为均匀分布。

质数M

0 人点赞