正态分布

2024-05-03 15:52

1. 正态分布

概率论中最重要的一种分布,也是自然界最常见的一种分布。该分布由两个参数——平均值和方差决定。概率密度函数曲线以均值为对称中线,方差越小,分布越集中在均值附近。
    正态分布(normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布,记为:则其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。因其曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。
    具体内容你可以在百度百科中输入正态分布,那里有详细的介绍。

正态分布

2. 正态分布

先算期望为 E(X) =E((ξ—2)/3) = E(ξ/3)-E(2/3) = μ/3-2/3 =(μ-2)/3
再算方差 D(x)=D((ξ—2)/3)=D(ξ/3)+D(2/3) = D(ξ)/9+0 =σ²/9
所以服从N(=(μ-2)/3,σ²/9)

3. 正态分布图怎么解读

正态分布的通俗理解如下:
正态分布的通俗概念:如果把数值变量资料编制频数表后绘制频数分布图(又称直方图,它用矩形面积表示数值变量资料的频数分布,每条直条的宽表示组距,直条的面积表示频数(或频率)大小,直条与直条之间不留空隙)。
若频数分布呈现中间为最多,左右两侧基本对称,越靠近中间频数越多,离中间越远,频数越少,形成一个中间频数多,两侧频数逐渐减少且基本对称的分布,那一般认为该数值变量服从或近似服从数学上的正态分布。

正态分布根据参数值(平均值和标准差)有许多不同的形状。标准正态分布是正态分布的一个特例,均值为0,标准差为1。这个分布也称为Z分布。
标准正态分布上的值称为标准分数或Z分数。标准分数表示某一特定观测值高于或低于平均值的SD数。例如,标准得分为1.5表示观察到的结果比平均值高1.5个标准差。另一方面,负分数表示低于平均值的值。平均值的Z分数为0。
正态分布只适合各种因素累加的情况,如果这些因素不是彼此独立的,会互相加强影响,那么就不是正态分布了。如果各种因素对结果的影响不是相加,而是相乘,那么最终结果不是正态分布,而是对数正态分布。

正态分布图怎么解读

4. 正态分布

1。令Y=(x-μ)/σ代入一般形式的正态分布公式,化简整理; 
2。令σ^2(即σ,因标差非负)=1,则Y=(x-μ),代入以上方程,化简整理; 
3。令σ^2=1,μ=0,代入一般形式正态分布公式,化简整理; 
4。比较二个整理后的公式,发现是一样的,因为后者是X~(0,1), 
于是可知前者推导后的结果是N(0,1)分布,即标准正态分布。 
实际这就是一个坐标系的转换。 
在一般形式的正态分布中,变量是X,是采样的具体数据,所求值要么是具体的该数据下的数据量,要么是此数据量在总数据量中所占的百分比,(当首项分母为1时);而在标准正态分布中,变量是采样的具体数据与总体均值的差值并且用标差为单位显示出来(比上标差σ),所求值也变成了与总体均值有某个差值的数据(以σ为单位表示出来)占总数据量的百分比(或概率),实际上就是总数据按σ分布的情况了,而这里的σ也没了具体的值了,只是一个分布单位,体现的是一个具体分布所具有的数据结构。感觉从一般正态分布公式“提炼”出标准正态分布,就象给一个具体数据系统提练出了一个“系数”一般,只不过这个系数能比一般的系数体现出更多的内容,能体现出一个数据系统的特有的数据分布情形。

5. 正态分布

正态分布,英语叫“Normal Distribution”,normal是普通的,正常的意思。如果翻译成“普通分布”,或者“常规分布”,马上就会想到这是在自然界中最常见的一种分布形式,但翻译成“正态分布”,对于像我这种普通人来说,很难立刻想到这是最常见的一种分布。
  
 正态分布是由系统中连续随机变量的 概率密度 函数定义的。设 X  是随机变量,  是概率密度函数,即在一个无穷小的范围内,随机变量出现的概率。
  
    并且   
  
 正态分布或高斯分布的概率密度函数公式为:
  
   
  
 其中,     为随机变量;     为随机变量x在整个变化范围内   的平均值;  为随机变量取值的标准差 (Standard Deviation)。
  
 在正态分布中,所谓“随机变量”指的是在一定变化范围内其值可能为任意一个数值的变量。比如说一个学校学生的身高就是一个随机变量,它可能为1.5 m,也可能为2.0 m,极端的情况它也可能是5 m,只不过这种可能能太低太低了。这个范围是受到实际情况限制的,纯碎数学意义上的正态分布,随机变量的取值范围不受实际条件的限制,可以扩展到  ,并且可以连续变化。当我们确定了随机变量的平均值和标准偏差后,概率密度函数    也就确定下来了,那么对于上任意范围内 X 出现的概率也就可以计算出来。
  
 一般地,对于符合正态分布的随机变量,其标准差是大于0 的实数,表征数据的分布情况。其值越大,则数据越分散,曲线越宽泛;标准差越小,则数据越集中,曲线高而窄。正态分布的钟形曲线是左右对称的,对称轴正好在平均值上,即   正态分布有任何正的标准差。如果采用标准差的倍数分割随机变量的取值范围,那么我们就可以确定不同范围内x出现的概率,比如:
  
 在  范围内,x出现的概率约为68%;
  
 在  范围内,x出现的概率约为95%;
  
 在  范围内,x出现的概率约为99.7%。
  
 
  
                                          
 以下是正态分布的一些重要性质:
  
         (1)在正态分布中,平均数、中位数和模相等。
  
         (2)曲线下的总面积为1,即在全部范围内,随机变量x出现的概率为100%。
  
         (3)正态分布曲线以  为轴线,左右对称分布。
  
         (4)正态分布曲线由平均值和标准差来定义。
  
 学生的成绩、人体的身高和血压等数据都符合正态分布。但实际情况,学生的成绩并不符合正态分布。
  
 
  
  
 正态分布咋来的呢?
  
 如果你要向一个直角坐标系投掷飞镖,目标靶心就是直角坐标系的坐标原点,但你知道大部分情况下你都不会正中靶心的,假设所有的投掷都是随机的,并且:
  
 ——随机误差与坐标系的方向无关,所以你不要考虑重力会不会对飞镖的位置有影响,现在我们认为,No。
  
 ——飞镖的x,y方向时相互独立的,也即是说飞镖落在y的位置不会影响到它在x方向的位置,反之亦然。
  
 —— 大误差出现的可能性比小误差的小。(这个假设符合实际吗?比如误差为0.00001mm 和误差为3mm, 哪个概可能性大,哪个可能性小?) 
  
 
  
                                          
 根据上述假设,在图2中,飞镖落在A处的可能性比落在B位置的可能性要大,同样,落在B位置的概率又大于落在C位置的概率,因为相对B,A更靠近靶心;相对于C,B更靠近靶心。右图中,落在F区域内的概率大于落在E区域内的概率,后者的概率又大于D区域概率,——因为区域的面积依次减小。
  
 所以飞镖落在某一区域的概率与该区域的大小有关,因此我们可以设飞镖落在  范围内的概率为  。类似地,飞镖落在  范围的几率可设为  。
                                          
 那么在  位置上的  区域内,飞镖出现的概率为
  
   
  
 这就是说:
  
   
  
 方程两边同时对幅角  取导数,左边式  中因为不含  ,所以导数为0,即
  
   
  
 将  代入上式:
  
   
  
 即
  
   
  
 对于任意不相关的  ,上述微分方程都成立,那么必然就有
  
   
  
 分别解微分方程  和  
  
 得
  
   
  
 由此,
  
   
  
 因为  越大,概率越小,但  大于0,所以C必然小于0,设  
  
 所以有
  
   
  
 这是正态分布曲线的通用表达式,现在我们来确定其中的常数A和k。
  
 我们知道,在整个取值范围  内,随机变量x出现的几率为1,即
  
   
  
 重新整理为
  
   
  
 因为  为偶函数,在  位置左右对称,所以
  
   
  
 即有
  
   
  
 同样地,
  
   
  
 两式相乘,得
  
   
  
 左边用极坐标的形式表达为
  
   
  
 左边可积,即可得
  
   
  
 则
  
   
  
 因此概率密度函数的形式为:
  
   
  
 那么问题是:  又怎么确定呢?
  
 当我们在谈论概率时,首先想到的是平均值是什么?数据是怎么分布的?k的大小就会涉及到平均值和分布的问题。现在问题是:如果你知道概率密度函数  ,那么你怎么用它来表达平均值的大小呢?首先你要理解  的含义,它表示在随机变量在x位置  的范围内出现的概率,  表示随机变量取任意  的百分数,  表示随机变量为  时在平均数中的贡献值,在取值范围内将所有的贡献值加起来就是平均值了,即平均值  。类似地,方差大小可表示为  。
  
 你知道函数  为奇函数,所以平均值  ,并且  。将  带入到方差的表达式中,得:
  
   
  
 因为  为偶函数,所以上式可以写成
  
   
  
   可以看做  的一个分步积分,即有
  
   
  
 其中  
  
   
  
 所以
  
   
  
 
  
  
   
  
 由此根据上述三个假设,我们可以得到概率密度函数的表达式为:
  
   
  
 当随机变量的平均值  不为0时,正态分布的通用表达式为
  
   
  
 标准正态分布平均值为0,标准差为1,则概率密度函数表达式为:
  
   
  
 done!

正态分布

6. 正态分布

 若    的概率密度函数为   ,
   其中   ,就称    服从参数为    的正态分布(或高斯分布),
   记为   .
                                            特征: 
    两个参数的含义: 
   若   对于实数   ,
     
   这里的积分     
    可以通过以下的方法进行计算: 
   方法一:用 EXCEL,MATLAB,R 等软件来计算;
   方法二:用数值积分法;
   方法三:转化为标准正态,然后利用标准正态分布表来求。
    标准正态分布   
   若   ,称    服从标准正态分布.
                                              的概率密度函数:
     
      的分布函数:
     
    标准正态分布函数表(   值),可参考如下网站: 
    https://en.wikipedia.org/wiki/Standard_normal_table 
                                                                                   这里可以注意到    关于 y 对称性,
   则标准正态分布的分布函数有一个重要性质:
     
   对于任意的实数    都成立。
    性质: 当    时,   
    证明:  对于任意实数   ,
     
   令   ,则   
   所以上面的式子
     
   由此可见,当    时,对于任意实数   ,有
     
    例 1:  一批钢材(线材)长度(cm)      求:   (1)这批钢材长度小于 97.8 的概率;   (2)这批钢材长度落在区间(97.8,103)的概率。
    解: 
   (1)     
     
   通过查表,可以得到   
     
   (2)     
     
   查表,得到   ,由(1)可知   
     
    例 2:  用天平称一实际质量为    的物体,天平的读书记为随机变量   ,若   ,求读书与    的偏差在    范围之内的概率。
    解:  由题意知,题实际要求的是:
     =P(  
     
     

7. 正态分布

 也叫钟形曲线
                                           正态分布的基本特征:
   对于 描述统计 ,比如100名学生每天消耗的平均卡路里,最常吃的视频等等,描述统计一般只用来描述一个具体的样本。
   但是,当想研究的不再是描述一个样本,而是某周岁即出现的准确概率,比如学生每日平均消耗2000卡路里的概率是多少,正态分布就有助于正确使用 概率统计量 。
   此外,如果想从样本推断总体, 推断统计 ,用于决定样本中观测到的一些现象是否代表了总体的一种实际现象,比如比较男女每日平均消耗的卡路里之间是否有差异,就可以用到正态分布。
   正态分布是 理论分布 , 很少有得自样本的取值严格服从正态分布。   违背正态分布假设的最明显结果就是与正态分布有关的概率不再有效
   正态分布和抽样方法的关系:   正太分布的概率取决于:
    峰度 和 偏度 是用来描述分布的特征,如果一个样本取值不服从正态分布,   那么他可能服从不同形态的分布。如果少数取值在较大的一端,拖出一个长尾, 叫做 正偏 ,反之叫做 负偏 
                                           偏度不影响中位数,所以正偏的均值大于中位数,负偏均值小于中位数,正态分布,二者相等。
    峰度 指的是一个分布的平坦程度的形态,如果一个分布定点高于正态分布的顶尖,叫做 尖峰分布 ,反之叫做 扁峰分布 。
   对于正态分布,有大约 68% 的取值落入均值加减1个标准差的区间内, 尖峰分布 在均值周围的比例更大,扁峰分布更少

正态分布

8. 正态分布

      
                                           
   注意一下公式分母中的  是根号外面,这个公式熟练掌握程度也能从侧面反映你对机器学习一些算法理解程度。     
     
   我们研究一个分布通常都会关心其 密度函数 和 分布函数 ,接下来我们就尝试写一写其密度函数。
   正态分布密度函数求积分为 1,下面用密度函数积分为 1 进行推导。          
     
                                           通常会把正态分布化为标准正态分布,  
          
最新文章
热门文章
推荐阅读