统计学-随机变量

2024-08-21 09:32:21 浏览数 (2)

我发现微积分,线性代数,概率,统计,这四个学科有点难舍难分。但是应该从微积分,线性代数这样学才是对的,不然你是看不懂统计和概率的。

统计学是说两个事情,一堆数据如何描述,以及数据如何推断。

统计描述 (descriptive statistics) 是指对数据进行整体性的描述和概括,以了解数据的特征和结构。统计描述旨在通过一些表格、图像、量化汇总来呈现数据的基本特征,比如中心趋势、离散程度、分布形态等。统计描述通常是数据分析的第一步,可以帮助我们了解数据的基本情况,判断数据的可靠性、准确性和有效性。

在大学第一次学这些内容的时候,并不能很好的理解全部的内容,但是一年多的工程实践,让我有了那么一点点的全局的感觉。

“随机变量不同于代数中的变量,因为它具有一组完整的值,并且可以随机获取任何值。代数中使用的变量一次不能具有多个值。如果随机变量X = {0,1,2,3} 那么X可以是随机的0、1、2或3,其中每个都有不同的概率。” 随机变量

统计描述

随机变量是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值,是概率中的一个基本概念。

因变量

变量拥有这些特点

随机变量在统计和概率中非常重要的概念,必须先具有随机变量,才会有后续概率分布的概念。

随机变量用来表示随机现象的结果,可以看成一组值,每个值都有一定的概率被取到。

我感觉以前没有学好的原因就是一些基础概念的不理解。

接下来就是概率:

古典概率空间

就是这样的

比值就行

这里插一句,其实上面的分类有些混乱,其实研究完随机变量,就是研究多高多个随机变量之间的关系。

先看两个变量之间的关系

这样的,就无非是发生和不发生以及有顺序在

再补一个条件概率:

条件概率(英語:conditional probability)就是事件A在事件B发生的条件下发生的概率。条件概率表示为P(A|B),读作“A在B发生的条件下发生的概率”。边缘概率是某个事件发生的概率。联合概率是两个事件一起发生。

总结一下:

这一趴算OK

至于为什么是古典概率,大概就是因为在古代大家就在研究这个。

这些个是离散随机变量,我这里就有点知识匮乏了

高斯分布就不放了,我搞不懂了

接下来看统计描述:

书里面吧,人家公式啥的写的更详细,我这里就盗图了。

用Adobe Illustrator美化matplotlib输出图

书是使用的上面文章里面的书。

直方图通常将样本数据分成若干个连续的区间,也称为“箱子”或“组”。直方图中矩形的纵轴高度可以对应频数、概率或概率密度。

一般我们使用的时候,频数用到最多。

你看这个图多漂亮,就算不懂都一目了然

频数,也叫次数,是指在一定范围内样本数据的数量。显然,频数为非负整数。

频数除以样本总数的结果做概率

概率除以组距得到的是概率密度 (probability density)

积频数就是将从小到大各区间的频数逐个累加起来,累积频数的最后一个值是样本总数。

积分是什么?

先不管哪些公式啥的,就记住我说的话:指的是对函数的积累总和或面积的计算过程。在微积分中,积分是求解函数的定积分或不定积分,用于计算曲线下面积、求函数的反导数等。

就是加起来,求和,至于把什么加起来再说,反正就先认为是加起来。

就是积分这个Fx,从a到-♾️

这里补充一个知识:

一开始文章里面的这个地方的♾️是没有符号的,感谢王老师

记住积分的区间

王老师口中的累积概率函数也是概率分布函数的意思

概率密度函数描述的是随机变量在某个取值点的概率密度,是描述随机变量分布的基本函数之一。

纵轴是概率密度,你可以看下面的值,对应的密度是多少

名词出现,概率密度?其实很多时候都是从物理上面拉概念。

概率密度(Probability Density),指事件随机发生的几率。概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度,它的值是非负的,可以很大也可以很小。

在实际问题中,往往无法直接获得概率密度函数,因此需要通过概率密度估计来估计概率密度函数。

概率密度函数:在数学中,连续型随机变量的概率密度函数(Probability density function,简写作PDF),在不致于混淆时可简称为密度函数,是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。

下图中,横轴为随机变量的取值,纵轴为概率密度函数的值,而随机变量的取值落在某个区域内的概率为概率密度函数在这个区域上的积分。

当概率密度函数存在的时候,累积分布函数概率密度函数的积分。

图就是这样

概率密度函数可帮助确定随机变量值的较高和较低概率的区域。

对于离散变量,PDF 将给出给定 x 值的概率值。例如,糖果制造商生产多种颜色的某一类型糖果。生产的糖果中有 30% 为黄色,10% 为橙色,10% 为红色,20% 为绿色,30% 为蓝色。

概率密度函数 (PDF) 是一个用于表示连续随机变量的概率分布的等式。例如,为葡萄酒瓶切割软木塞的机器可产生直径不同的软木塞。在下面的软木塞直径条形图中,每个条形表示具有相应直径的软木塞的百分比。

曲线是软木塞直径的 PDF。可使用 PDF 确定随机变量值的较高和较低概率的范围。例如,只有较小百分比的软木塞 (1%) 直径小于 2.8 厘米。

这个图不咋样

山脊图 (ridgeline plot) 是由多个重叠的概率密度线图构成,这种可视化方案形式上紧凑。山脊图的基本思想是,将数据沿着 y 轴的方向上的一条带状区间内进行展示,使得数据的分布曲线能够清晰地显示出来,并且不会重叠和遮挡。在山脊图中,每个变量的分布曲线通常用核密度估计法或直方图法进行估计,然后按照一定的顺序进行平移和叠加。

山脊图常用于探索多个变量之间的关系和相互作用,以及发现变量的共同分布特征和异常点。它可以用于可视化各种类型的数据,比如时间序列数据、连续变量数据、分类变量数据等。

山脊图

散点图常用于展示两个变量之间的关系和相互作用。散点图将每个数据点表示为二维坐标系上的一个点,其中一个变量沿 x 轴方向表示,另一个变量沿 y 轴方向表示,每个点的位置反映了两个变量之间的数值关系。

散点图可以用于研究两个变量之间的线性关系、非线性关系或者无关系。如果两个变量之间存在线性关系,那么散点图中的点会形成一条斜率为正或负的回归直线。如果两个变量之间存在非线性关系,那么散点图中的点会形成一条回归曲线或者散布在二维坐标系的不同区域。如果两个变量之间无关系,那么散点图中的点会相对均匀地分布在二维坐标系中。

散点图常用于探索数据中的异常值、趋势和模式,并且可以发现变量之间的相互作用和关联性。

散点图还可以进行扩展,就是在边缘做计算

左是边缘直方图,右是加了概率密度曲线

其实就是变量之间的关系的可视化。

这里说一下使用的这个数据集:

鸢尾花数据集共收集了三类鸢尾花,即Setosa鸢尾花、Versicolour鸢尾花和Virginica鸢尾花,每一类鸢尾花收集了50条样本记录,共计150条。

数据集包括4个属性,分别为花萼的长、花萼的宽、花瓣的长和花瓣的宽。对花瓣我们可能比较熟悉,花萼是什么呢?花萼是花冠外面的绿色被叶,在花尚未开放时,保护着花蕾。四个属性的单位都是cm,属于数值变量,四个属性均不存在缺失值的情况,字段如下:

  • sepal length(萼片长度)
  • sepal width(萼片宽度)
  • petal length(花瓣长度)
  • petal width (花瓣宽度)
  • Species(品种类别):分别是:Setosa、Versicolour、Virginica

单位都是厘米。

数据集是很小的

官方的位置

可以用pandas来下载

我们简单的来进行一个替换

接下来安装一下Spyder

可以安装一个插件开启notebook

看看优点

看看补全

但是这个Jupyter的插件是无法在安装的

这个是信号与系统里面的内容,看到了这个概密度函数

一个函数如果满足如下条件,则可以称为概率密度函数:

这可以看做是离散型随机变量的推广,积分值为1对应于取各个值的概率之和为1。

分布函数是概率密度函数的变上限积分,它定义为:

显然这个函数是增函数,而且其最大值为1。分布函数的意义是随机变量的概率。注意,连续型随机变量取某一个值的概率为0,但是其取值落在某一个区间的值可以不为0:

虽然连续型随机变量取一个值的概率为0,但取各个不通过的值的概率还是有相对大小的,这个相对大小就是概率密度函数。这就好比一个物体,在任意一点处的质量为0,但在这一点有密度值,密度值衡量了在各点处的质量的相对大小。

从这个角度,我们可以将概率密度函数解释为随机变量落在一个区间内的概率与这个区间大小的比值在区间大小趋向于0时的极限:

这个过程如下图所示:

还是以上面的正方形为例,如果要计算随机点(x, y)都落在区间[0, 0.5]内的概率,可以这样计算:

这个面积,就是积分值,对应于分布函数。最常见的连续型概率分布是正态分布,也称为高斯分布。它的概率密度函数为:

其中μ和σ分别为均值和方差。现实世界中的很多数据,例如人的身高、体重、寿命等都近似服从正态分布。

另外一种常用的分布是均匀分布,如果随机变量x服从区间[a,b]内的均匀分布,则其概率密度函数为:

在程序设计和机器学习中,这两种分布是最为常见的。

一般教程里面都会说一个什么质量为0的物体:之所以说在任意一处质量为0的原因,是因为在连续分布中,分母是无穷大的。

概率密度就是对概率求导:左边是F(x)连续型随机变量分布函数画出的图形,右边是f(x)连续型随机变量的概率密度函数画出的图像,它们之间的关系就是,概率密度函数是分布函数的导函数。

如果随机变量的值都可以逐个列举出来,则为离散型随机变量。如果随机变量X的取值无法逐个列举则为连续型变量。

概率分布函数就是把概率函数累加

来看看图上的公式,其中的F(x)就代表概率分布函数

这个符号的右边是一个长的很像概率函数的公式,但是其中的等号变成了小于等于号的公式。再往右看看,这是一个一个的概率函数的累加!

发现概率分布函数的秘密了吗?它其实根本不是个新事物,它就是概率函数取值的累加结果!所以它又叫累积概率函数!

这个词的意思是什么?

概率密度函数用数学公式表示就是一个定积分的函数,定积分在数学中是用来求面积的,而在这里,你就把概率表示为面积即可。

Q:概率密度函数在某一点的值有什么意义?

A:比较容易理解的意义,某点的概率密度函数即为概率在该点的变化率(或导数)。很容易误以为该点概率密度值为概率值.

比如: 距离(概率)和速度(概率密度)的关系.

某一点的速度, 不能以为是某一点的距离

没意义,因为距离是从XX到XX的概念

所以, 概率也需要有个区间.

这个区间可以是x的邻域(可以无限趋近于0)。对x邻域内的f(x)进行积分,可以求得这个邻域的面积,就代表了这个邻域所代表这个事件发生的概率。

本来是感觉这本书非常有用,但是发现还是要数学知识扎实才能看爽

不过在此之前也可以先看看这个

接下来的文章如果会发的话,那就是要上强度了。

代码语言:javascript复制
https://cloud.tencent.com/developer/article/1514756
代码语言:javascript复制
https://zhuanlan.zhihu.com/p/48140593
代码语言:javascript复制
https://github.com/Visualize-ML/Book5_Essentials-of-Probability-and-Statistics
代码语言:javascript复制
https://juejin.cn/post/7141566114412101662
代码语言:javascript复制
https://www.gairuo.com/p/iris-dataset
代码语言:javascript复制
http://archive.ics.uci.edu/dataset/53/iris
代码语言:javascript复制
https://support.minitab.com/zh-cn/minitab/21/help-and-how-to/probability-distributions-random-data-and-resampling-analyses/supporting-topics/basics/using-the-probability-density-function-pdf/

0 人点赞