首页 最新 热门 推荐

  • 首页
  • 最新
  • 热门
  • 推荐

人工智能必备数学知识之概率论基础

  • 25-02-18 12:20
  • 3853
  • 13737
blog.csdn.net

一。随机变量

(1)离散型随机变量

1)连续与离散型随机变量

现实中的数据一般包括离散型与连续型的。

连续型随机变量:有限多个的确定值表示的,例台阶数1,2,3等。

离散型随机变量:不能确定貝体值,且无限个数,它不能确定是那一种归属。

2)离散型概率函数(概率质量函数)

p(x)=prob(X=x),由公式可知离散型概率函数(概率质量函数)就是一个概率值,其中X是随机变量的取值,p是概率了。比如扔骰子,每个点(1,2,3,4,5,6点)的概率都是1/6;又例如抛硬币,正,反面的概率值都50%。

3)离散型随机变量概率分布

它就是一个表格一样,列出每个离散型随机变量的概率值出来。概率分布那首先要得到每个变量的概率值才能知道他的分布(由概率值到概率分布)。

<1>首先找到离散型随机变量X的所有可能值

<2>然后得到离散型变量的所有概率值,所有概率值之和等以1

(2)连续型随机变量

1)连续型概率密度(概率分布):对于连续型随机变量,我们不能确定每个变量的归属,只知道变量取值的范围,对于连续型随机变量不能用貝体概率值表示出来,那么也画不出它的概率分布出来,这里我们用概率密度表示概率分布。

2)连续型概率密度函数(概率值):思路是把连续型的转成离散型来,即一个小小的点的概率值表示不出来,我就放大一点,用一个区间范围(按范围分成多组)来表示出他的频数与频率出来。

X为连续型随机变量,X在任意区间(a,b]的概率表示为:P(a

(3)简单随机抽样

抽取的样本满足如下二个条件:

1)样本X1,X2,X3…Xn是相互独立的随机变量

2)样本X1,X2,X3…Xn与总体X同分布

结合这二点得出如下二个公式:

联合分布函数:F(X1,X2,X3,…Xn)=F(X1)*

F(X2)*………*F(Xn),即做了累乘操作

联合概率密度:

f(X1,X2,X3,…Xn)=f(X1)*

f(X2)*………*f(Xn),即做了累乘操作

(4)似然函数

1)给定联合样本值X关于参数a的函数L(a|x)=f(x|a),其中x是随机变量X取得的值,a是未知的参数。

f(x|a)是密度函数,表示给定a情况下的联合密度函数,类似条件概率。

似然函数是关于a的函数,由样本值与x间找出a的规律,密似然函数目的是求出a出来;密度函数是关于X的函数,由样本值与参数得出x的情况。

有参数与样本值也许可预测出未来情况,参数可决定走势。

2)离散型情况下,概率密度函数f(x|a)=Pa(X=x)表示在参数a的情况下,随机变量X取到x的可能性。

如果L(a1|x)=Pa1(X=x)>Pa2(X=x)=L(a2|x),那么在参数a=a1下在随机变量X取到x(说明样本取到是一样)的可能性大于a=a2。即样本已到情况下,那个参数值对这结果影响大一点。

而对于连续型情况下得出的结果是一样的。

3)概率表示在给定参数a的情况下,X取到x的可能性有多大。而似然就是在给定样本X=x的情况下,参数a的可能值是多少。似然与概率刚好相反了。概率例如给定库里去投绝杀球,绝杀的可能性有多大?似然例如是已经绝杀了,那么库里投绝杀球的可能性有多大?

(5)极大似然估计

1)在一次抽样中,得到观察值X1,X2…Xn,选取b(X1,X2…Xn)为a的估计值,使得a=b(X1,X2…Xn)时样本出现的。因为概率最大的出现的可能性越大。

2)离散型样本:L(a)=P(Xi;a)的累乘,其中i是1至n。

连续型样本:L(a)=f(Xi;a)的累乘,其中i是1至n。

3)极大似然估计求解

<1>构造似然函数L(a),a为参数

<2>对似然函数取对数,ln L(a),因累乘不好求解,所以转成加法好算一点,例如 ln A*B=ln A+ln B

<3>求偏导,d (ln L)/d a=0,对谁取极值就对谁取偏导。

<4>求解得到a值,即a为多少时,似然函数L(a)值是最大,即求极值点。

二。概率论基础

(1)概率与频率

1)概率论是干什么的?

概率论是研究随机现象数据规矩的数学分支,例如彩票与抽奖。

2)随机事件

必须满足特点:<1>可以在相同条件下重复执行<2>事先就知道可能出现的结果<3>试验开启前并不知道这次结果。

随机试验E所有结果构成的集合称为E的样本空间S={e};例如抛硬币,S={正面,反面}

3)频率与概率

频率:试验的某结果发生的频次除以总实验次数,例分别做10,20,100,1000次抛硬币,这四次实验可分别得出他的频率。

概率:频率值p趋于稳定时,就认为概率=频率,一般是试验次数越多,频率值越稳定。

(2)古典概型

定义:试验E中样本点(例如正,反面)是有限的,出现每一样本点的概率是相同的。P(A)=A所包含的样本点数/S中的样本点数,这里S是指整个样本空间

例如一个袋中有5个球,编号1到2是红球,编号3到5是蓝球,设摸到每一球的可能性是相同,从中随机摸1球,记A={摸到红球},求P(A)是多少?

解:样本空间S={1,2,3,4,5},A={1,2}

所以P(A)=2/5

(3)条件概率

1)例如3张奖卷中只有1张能中奖,现在分别由3名同学无放回地抽取,问最后一名同学抽到中奖奖卷的概率是否比其它同学小?

解:Y表示抽到了,N表示没有抽到,所有的可能情况有C={YNN,NYN,NNY};B事件表示最后一个同学抽中中奖卷,B={NNY};依古典概型可知:P(B)=n(B)/n(C)=1/3

2)现在条件变一下,假设第一个同学没抽中,那么最后一名同学抽中的可能性会发生变化吗?解:第一名没抽中(样本空间中没有YNN的情况了),则剩下的样本空间就是C={NYN,NNY};B事件表示最后一个同学抽中中奖卷,B={NNY};结合古典概型可知:那么第一未抽中,第三抽中的概率是:P(B|C)=n(B)/n(C)=1/2,对比1)中的1/3,值确实发生了变化。为什么会不同呢?因为二种情况的样本空间发生变化了。

3)条件概率:当给出100%发生事件A的条件下,求出另一事件B发生的概率。记作P(B|A),它相当于A条件100%发生的情况下(做分母),求A的样本空间与事件B发生的样本空间同时发生(值分子)的概率(几何图形来说是A与B交集)。所以有P(B|A)=n(AB)/n(A)=P(AB)/P(A),它这里分母是因为A事件发生后样本空间变了,分子是因为A与B同时发生。注意P(AB)是指在原始空间下A与B同时发生的概率,而P(B|A)是指样本空间下同时发生的概率。

(4)条件概率例子

例1:甲乙两地一年中雨天所占比例分别是20%与18%,两地同时下雨的比例是12%,问1)乙地为雨天时甲地下雨的概率是多少? 2)甲地为雨天时乙地下雨的概率是多少? 

解:设A={甲为雨天},B={乙为雨天},则有P(A)=20%,P(B)=18%,P(AB)=12%,所以1) P(A|B)=P(AB)/P(B)=12%/18%=2/3  ; 2)P(B|A)=P(AB)/P(A)=12%/20%=3/5

例2:某工厂生产的产品直接出厂的概率为70%,余下30%的产品要调试后再确定,已知调试后80%可出厂,其余20%报废,求该厂产品的报废率是多少?

解:设事件A={生产的产品要报废},事件B={生产的产品要调试}。已知P(B)=0.3,P(A|B)=0.2,P(A|B取反)=0,因为整厂生产的报废率它的样本空间是全部,现在给出的已知是条件概率情况,按公式来看就是先得出分子部分的交集值来。首先它包括两部分,一部分是AB同时发生的概率,另一部分是B取反(即无需调试)与A发生的概率,把这二部分加起来就行(即是这二部分的并集)。所以有P(A)=P(AB)+P(A*B的取反)=P(B)*P(A|B)+P(B取反)*P(A|B取反)=0.3*0.2+0.7*0=0.6

(5)独立性

1)设A,B两随机事件,如果P(B|A)=P(B),那么P(AB)=P(A)*P(B)。即P(A|B)=P(A),我们就称A与B相互独立。同理有n个事件(n>2),他们交集概率等以它们的概率的累乘的话,则他们都相互独立。

例1:甲乙同时向同一目标射击,甲击中概率是0.8,乙击中概率是0.7,问这一目标被击中的概率是多少?

解:甲,乙同时分别射击目标的概率是无相当性的,是相互独立的。设A={甲击中},B={乙击中},C={目标被击中},则有P(C)=P(A)+P(B)-P(AB)=P(A)+P(B)-P(A)*P(B)=0.8+0.7-0.8*0.7=1.5-0.56=0.94。其中P(AB)=P(A)*P(B)是因为他们分别射击,结果相互没影响,相互独立的,P(AB)是指同时命中的部分,图形上看就是A与B两个圆圈相交的部分。

2)二个概念。重复独立实验:相同条件下,重复并独立进行,即每次实验的概率不受其它次实验影响。

n重伯努利实验:重复独立实验中,每一次的实验结果只有2种相反结果,例如抛硬币。

3)n重伯努利实验公式

如果每次试验发生的事件A概率是p(0

(6)二维离散型随机变量

1)以前只是关注一个指标,现在关注二个的了。例如据身高(X)与体重(Y)观察学生的身体情况,这就不仅仅是X,Y各自情况了,还需了解他们相互关系。

二维随机变量的联合函数:若(X,Y)是随机变量,对于任意的实数x,y,有F(x,y)=P{(X<=x)与(Y<=y)的交集},在平面图形上就是说F(x,y)表示随机点(X,Y)会落在(x,y)为顶点的左下方无穷矩阵内的概率。

2)用联合分布函数F(x,y)表示矩阵域概率,P(x1

3)二维随机变量的概率分布

若二维随机变量(X,Y)全部可能取到的不同值是有限对或可列无限对,则称(X,Y)是离散型随机变量。我们知道一维离散型随机变量的联合概率分布就是列出一维变量对应的不同概率值即可;而二维的是二个因素相互作用对应的概率,所以要用excel的行列式表示(例x表示每行,而y表示每一列,它们相交处就是概率值)。

离散型随机变量的联合概率分布:设(X,Y)所有可能取值(x i,y j),其中i,j=1,2,3…,则称P{X=x i,Y=y j}=P(x i,y j)=P ij,(其中i,j=1,2,3…) ,为二维离散型随机变量(X,Y)的联合概率分布,类似excel的行列值,也类似x*y矩阵。它的所有概率值累加和等以1

(7)二维连续型随机变量

一维连续型随机变量概率分布是x区间范围的面积,即用一重定积分求解。而二维就是多了一个维度,那就用二重定积分求解了,变成体积了。

1)二维连续型随机变量(X,Y)的分布函数F(x,y),如果存在非负函数f(x,y),对于任意x,y有:F(x,y)=f(u,v)*d u*d v的负无穷到x与负无穷到y的双重定积分,则称(X,Y)是连续型二维随机变量,f(x,y)为其概率密度,把f(x,y)当作一个底面积看待,一维的f(x)可当作一个函数值看待。

(8)边缘分布

1)边缘分布函数。以前联合分布函数是看X,Y相互作用的,按整体分析的,现单独分开来。定义:二维随机变量(X,Y)作为整体,有分布函数F(x,y),其中X,Y是随机变量,他们的分布函数记为F X(x),F Y(y)叫做边缘分布函数。

在分布函数F(x,y)中,令y趋于正无穷,就能得到F X(x)。(备注:F X(x),F Y(y)中的X,Y是要写在F右下角的。),公式如 F X(x)=P{X<=x}=P{X<=x,Y<正无穷}=F{x,正无穷},公式中可知x是已知某一点,而Y就没限制。同理令x趋于正无穷,公式有F Y(y)=P{Y<=y}=F{正无穷,y}。

2)离散型的边缘分布

对于离散型随机变量(X,Y),分布律是指X,Y分别取某一值时对应的概率值,例如excel上的行,列相交点上的值。而X,Y的边缘分布律是指X或Y不限定,而相应另一个限定情况下,把它们对应概率累加起来,例如P{X=x}=P{X=x,Y<正无穷}=X固定,而对应不同Y下的概率值全部加起来。例如excel中的行固定,与列相交的全部概率值加起来(这里想像成excel中行与列相交点的值是一个概率值)。对于excel中在联合分布情况下x,y相交值可认为P(xy),而边缘分布的值就是P(x)或P(y),那这样就可以算出条件概率了。

例1:对于一群吸烟与健康情况调查,X=0,1,2分别表示健康,一般和不健康;而Y=0,10,20分别表示不吸烟,一天不多于15支,一天多于15支。那么这样就可以得出三行三列的概率值(即画出联合概率值),这样每行每列的相交值就是P(XY),而X,Y的边缘概率就是某一行或列固定下求出他们对应列或行下的三个值总和,这样就会得出不同的P(X)或P(Y)值出来,最后也可以求出条件概率出来了,即P(XY)/P(X)或P(XY)/P(Y)。

3)连续型的边缘概率密度

其实与连续型的类似,总之求谁就限定谁的范围,另外的不限定,把全部值累加起来就行。

(9)期望

1)离散型随机变量X的分布律为:P(X=x k)=p k,其中k=1,2…,若(x k)*(p k)在k=1到正无穷范围求和的值绝对收敛,则称随机变量X的数学期望为E(X),其值E(X)=(x k)*(p k)在k=1到正无穷范围求和的值。(备注这里k应写在x与k右下方的)。

2)连续型随机变量X的概率密度:设它的概率密度是f(x),若 x*f(x)*dx在负无穷到正无穷范围定积分绝对收敛,则称这积分值就是X的数学期望,其值E(X)=x*f(x)*dx在负无穷到正无穷范围定积分的值。

例1:对于f(x)当a

上面的连续型与离散型的期望值都是一维的,二维的也一样求解。

3)数学期望性质

<1>设C为常数,则有E(C)=C

<2>设X是随机变量,C是常数,则E(CX)=CE(X)

<3>设X,Y是两个随机变量,则E(X+Y)=E(X)+E(Y)。上面三项连合起来有E(aX+bY+c)=aE(X)+bE(Y)+c,其中a,b,c都是常数

<4>设X,Y是相互独立的两个随机变量,则有E(XY)=E(X)E(Y)

4)数学期望例题

例1:载有20人的客车,有10个站点可下车,如果没人下车就不用停车,以X表示停车的次数,求E(X)。

解:设第i站没人下车,Xi=0表示;设第i站有人下车的话用Xi=1表表示,其中i=1,2,3…10。那么有X=X1+X2+…+X10,数学期望E(X)=E(X1)+E(X2)+…+E(X10),又因为E(Xi)=P(Xi=1)=P(第i站有人下车概率)=1-(9/10)的20次方,所以E(X)=10*(1-(9/10)的20次方)=8.784次。注:这里的(9/10)的20次方是指10个站其中9个站(其中一个站<1/10>会下车的)并且所有人都不下车的概率。

(10)方差和马尔科夫不等式

1)方差

数学期望反映随机变量的取值水平,方差是衡量随机变量与数学期望的分散程度。定义:X为随机变量,如果E [X-E(X)]的2次方存在,则称X的方差,记作D(X),公式为D(X)=E [X-E(X)]的2次方=E(X的2次方)-[E(X)]的2次方

2)大数定理

在试验条件不变的情况下,重复很多次试验,随机事件的频率近似等以它的概率。

3)马尔科夫不等式

已知X>=a,a>0,故X/a>=1,证明马尔科夫不等式P(X>=a)<=E(X)/a

解:由前面所说的 X为连续型随机变量,X在任意区间(a,b]的概率表示为:P(a=a)=f(x) dx在a<=X<正无穷的定积分,而定积分表示围成的面积,现在可想像成一个类似正态分布的图像(a就是x轴上的任意一个点),那如果想它的面积变大的话,可把密度函数f(x)拉升变大(这里乘上一个大于等以1的数),所以就有P(X>=a)<=(X/a)*f(x) dx在a<=X<正无穷的定积分,假设(X/a)*f(x) dx在a<=X<正无穷的定积分=c,所以P(X>=a)<=c。又由前面期望中所说到的连续型随机变量X的概率密度E(X)=x*f(x)*dx在负无穷到正无穷范围定积分的值,所以E(X/a)=(X/a)*f(x)*dx在负无穷到a范围定积分的值再加上c,由图像可知(X/a)*f(x)*dx在负无穷到a范围定积分的值肯定大于等以0,所以E(X/a)>=c>=P(X>=a),把a提出外面并去掉c后就变成E(X)/a>=P(X>=a)

(11)切比雪夫不等式

1)设u表示数学期望E(x),s为方差,任意常数为h,证明P{|X-u|>=h}<= s/(h的平方),或证明P{|X-u|=1-(s/(h的平方))。

切比雪夫不等式在图像中类似正态分布图,把u当作图形中间顶点值,u-h想像成期望向左移h后的位置,u+h想像成期望向右移h后的位置。

证明:将|X-u|代入马尔科夫不等式P(X>=a)<=E(X)/a中得到P(|X-u|>=a)<=E(|X-u|)/a,两边乘平方后得到P((X-u)的平方>=a的平方)<=E((X-u)的平方)/a的平方=s/a的平方,即有P((X-u)的平方>=a的平方)<=s/a的平方。

例1:在n重贝努里试验中,若已知每次试验事件A出现的概率为0.75,试利用切比雪夫不等式估计n,使A出现的频率在0.74与0.76间的概率不小于0.9

解:设在n重贝努里试验中,事件A出现的次数为X,则X~(n,0.75),期望E(X)=np=0.75n,方差D(X)=np(1-p)=0.1875n,又Fn(A)=X/n得到频率值,结合切比雪夫不等式现在要算概率值P{0.74<(X/n)<0.76},通过对不等式中同乘以n后变成P{0.74n=1-(D(X))/(0.01n)的平方=1-0.1875n/0.0001n的平方=1-1875/n,即1-1875/n的值在大于等以0.9的情况下得出n值来就行,由1-1875/n>=0.9得到n>=18750

总结:当出现某个区间上(本例是0.74到0.76)的概率值小于或者不小于某个值时,就可用切比雪夫不等式了,这时就想办法求出数学期望E(X)与方差D(X)出来,然后一步步变形(例期望代入,绝对值,不等式转换等)即可。

2)中心极限定理

样本的平均值约等以总体的平均值。不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体整体的平均值周围,并且呈正态分布。这就可通过总体平均值来估样本的平均值,反过来观察样本也可估总体的情况了。

(12)后验概率估计

1)它与前面的最大似然估计比较:<1>都是做参数的估计<2>问题复杂点,现在多了一个先验知识<3>它等以似然基础上乘以先验值

(13)贝叶斯定理

贝叶斯是英国数学家,他主要研究概率论,主要是发明逆向概率。

贝叶斯定理(公式)为:P(A|B)=(P(B|A)*P(A))/P(B)。

例子:一个下班的晚上,小东准备去接女朋友下班,问题来了,他要不要带伞呢?已知有3个条件:天气预报说今日下雨概率为P(A)=50%;晚高峰堵车的概率为P(B)=80%;如果下雨,晚高峰堵车的概率为P(B|A)=95%。这时小东往窗外看去,看到堵车了,他就按贝叶斯定理算出P(A|B)=(0.5*0.95)/0.8=0.59375,这时小东果断拿雨伞去接女朋友。

(14)贝叶斯定理(公式)推导

1)已知条件:学校男生有60%,女生有40%。男生总穿长裤,女生一半穿长裤一半穿短裤。

2)要求的问题:当走来一穿长裤的人,你不知道他是男生还是女生,现在推断出女生的概率是多少?

3)解:

<1>假设学校中的总人数是U人,而P(boy)=60%;P(pants|boy)是条件概率(即如果在boy的条件下,穿长裤的概率是多大,这里是100%,因为所有男生全部穿长裤的),这样穿长裤的男生人数是:U*P(boy)*P(pants|boy)=U*60%*100%=60%U=0.6U;

穿长裤的女生人数是:U*P(girl)*P(pants|girl)=U*40%*50%=20%U=0.2U;

结合要求的内容是穿长裤的女生概率是多少(说明分母是所有穿长裤的人<与穿裙子的无关>),所以先得到分母值就是上面二个值加和:穿长裤的总人数为0.6U+0.2U=0.8U;分子就上面得出的穿长裤的女生人数,这样分子/分母得出的就是要求的结果了,所以有P(girl | pants)=0.2U/0.8U=25%;那现在不要貝体值,把公式还原回去:

U*P(girl)*P(pants|girl)/(U*P(boy)*P(pants|boy)+U*P(girl)*P(pants|girl)),把分子与分母U都去掉得到P(girl | pants)=P(girl)*P(pants|girl)/(P(boy)*P(pants|boy)+P(girl)*P(pants|girl)),由这看其实分母就等以长穿长裤的概率值P(pants),这时假设P(pants)=B,P(girl)=A,则这个公式这样变换:P(girl | pants)=P(girl)*P(pants|girl)/(P(boy)*P(pants|boy)+P(girl)*P(pants|girl))=P(A|B)=P(A)*P(B|A)/P(B),这就是贝叶斯公式了。贝叶斯公式告诉我们:P(A|B)这个条件概率不好求解的情况下,或许转变成P(B|A)这种方式也许好求,这就是逆向概率思维。

(15)贝叶斯拼写纠错实例

1)问题:当我们看到用户输入的单词不在字典中时,现猜测到底它真正想输入的单词是什么?

解:转为数学模型为P(猜测他想输入的单词 |他实际输入的单词)。假设用户实际输入的单词为D(它代表语料库,代表一切观察数据),h为猜测真正的单词(预测时会有多个可能结果<例如h1,h2等等>,最后取概率最大那个),所以有P(h|D)。根据贝叶斯公式P(A|B)=(P(B|A)*P(A))/P(B)可得P(h|D)=(P(D|h)*P(h))/P(D),其中P(h)就相当于语料库中出现这个词的先验概率。现在对P(h|D)=(P(D|h)*P(h))/P(D)求解,因为不管h是什么值,分母中的P(D)都一样,当作常数项就不要它了,所以P(h|D)约等以P(D|h)*P(h)。

这个P(D|h)*P(h)告诉我们:对于给定观测数据,一个猜测是好是坏(P(h|D))取决以"这个猜测本身独立的可能性大小(即先验概率P(h))"和"这个猜测生成我们观察到的数据的可能性大小(即P(D|h))。

2)两大模型比较

<1>最大似然:最符合观测数据的(即P(D|h)值最大的)最有优势。

<2>奥卡姆剃刀:P(h)较大的模型有较大的优势,越高阶的多项式越不常见,因为越高阶越容易过拟合。

三.数据科学中的几种分布

(1)正态分布

1)正态分布代表宇宙中大多数情况的运转状态,大量的随机变量被证明是正态分布的。

2)定义:若随机变量X服从一个数学期望u与方差s的正态分布,则记作N(u,s),其概率密度函数为u决定了其位置,其标准差(即s的开平方根)决定了分布的振幅。当u=0且标准差为1(即s的平方根=1)的正态分布称为标准正态分布

3)正态分布公式

假设学期望为u,方差为s,标准差为h,派(3.1415)为i

正态分布公式为:f(x|u,h)=(1/(2*i*s)的开平方根)*e的(-((x-u)的平方/2*s))次方。这公式告诉我们只要已知期望值(均值),标准差或方差其中一个值就可算出正态分布来。

4)pdf:概率密度函数,即是分布函数,pdf用python画出来后是定积分的面积分布来的。

cdf:累积概率密度函数,cdf用python画出来后一条是曲线来,是每个值累加后画出来的线,最大值是1。就比如当2

从画出来的正态分布图可知:u的不同使图形在左,右移动;标准差h越小,画出的图形越尖,标准差h越大,画出来的图形越平。标准差越大,偏离均值会越多,所以往两边占的内容会越多,中间占比少一点。

(2)二项式分布

1)定义:只有二个可能的结果(成功与失败)并且重复n次独立的实验叫二项式分布。二项式分布有二个参数,一个是n表示进行n次实验,一个p表示每次成功的概率。

2)公式:Binom(k|N,p)=(N k)*p的k次方*(1-p)的(N-k)次方,其中(N k)是竖着写才对的。

3)pmf:概率质量函数,它是指离散型变量中各个特定取值的概率值,它与连续型的概率密度函数(pdf)不同之处是pdf上特定点的值不是它的概率,它只能通过求一段区域内发生的概率,通过这区域进行积分求解,通俗地说pdf就是在区间内的临界点(最大与最小值)代入求积分就得到这区间的概率。

4)n不变p值越大,那成功的概率将越大;p值不变n不断变大时,概率越靠近均值(符合大数定理),图像越平越平。

(3)泊松分布

泊松分布就是描述某段时间范围内,事件貝体发生的概率.

1)泊松分布是用以在时间与空间上发生的事件的数量,例如医院一天内接到的急救电话数量,某个小区一个月发生失盗的数量。

泊松分布发生的前提条件:<1>事件相互独立<2>在短时间内成功概率须等以长时间内成功的概率<3>时间间隔很小时,在给间隔时间内发生的概率趋近于0

2)泊松分布公式

假设q是事件发生的概率(频率);t是间隔时间;X是时间间隔内发生事件的数量;u是长度为t的间隔内平均发生的事件数,所以有u=q*t,这样公式就为:f(X|q)=((q的X次方)*(e的负q次方))/X的阶乘

3)例题

例1:一个医院中平均每小时出生3个婴儿,请问下一个小时会出生几个?

依公式得P(N(t)=n)=((q*t)的n次方)*(e的负(q*t)的次方)/n的阶乘,其中等式左边的P表示概率,N是某事件,t表示时间间隔范围,n是发生事件的数量,P(N(t)=n)就是表示某事件N在t时间间隔发生n次的概率,等式右边的q是指频率。

按这个概率公式我们求<1>接下2个小时一个婴儿都不出生的概率是P(N(2)=0)=(((3*2)的0次方)*(e的(-3*2)次方))/0的阶乘=0.0025

,求<2>接下1个小时至少出生2个婴儿的概率是

P(N(1)>=2)=1-P(N(1)=1)-P(N(1)=0)=0.8009,因为1小时内出生婴儿大于等以2的概率(不确定是2个还是3个还是4个或更多个)即是它不等以0个与1个婴儿的概率,所以用1减去这二个确认个数的概率剩下的就是所求的概率了。同理可以求大于3个或4个等概率。像这些可用cdf求出它们的概率值出。

4)它的图像类似正态分布的图像 .q越大图像越平,两边出现的可能性增大;

(4)均匀分布

均发分布是任意一种结果出现的概率都是相等的,例如抛硬币。

如果变量X是均匀分布,那么它概率密度函数为f(X)=1/b-a,其中负无穷

例1:假设花店每天销售的花数量服从均匀分布,1天最多卖40支,最少10支,计算日销量在15到30支的概率。

解:由f(X)=1/b-a可得f(X)=1/(40-10)=1/30,所以它的概率p=(30-15)*f(X)=1/2=0.5,同理可算出日销量大于20支的概率为0.667

(5)卡方分布

卡方检验是统计样本的实际观测值与理论推断值的偏离程度,卡方检验的思想是根据样本数据推断总体频次与期望频次是否有显著性差异,它可在机器学习中帮我们做特征选择。

卡方分布是用小数量的样本容量去预估总体样本容量的分布情况。

卡方分布是指服从正态分布的n个随机变量平方和构成新的随机变量,其分布就是卡方分布。它的参数是自由度。

(6)beta分布

1)beta分布可当作概率的概率分布。当你不知道一样东西的概率为多少时,它可以给出所有概率出现的可能性大小。

2)它的参数:beta分布的定义域是在0到1之间(和概率范围一样,例最终算出命中的结果),然后现按先验信息(一般从历史数据中得出)转为beta分布的参数a与b来。假设一个运动员平均击球成功率是0.27,它的主要范围是在0.2至0.35之间,那么在300次击球中a=300*0.27=81次,b=300-81=219次。在本例中为什么beta分布的均值取0.27呢?因为从经验值的分布可知他的分布主集中在0.2至0.35之间。

3)图形分布。因为beta分布可当作概率的概率分布,故x轴表示击球成功率范围(本例是0.2至0.35占绝大部分),而y轴表示击球成功率每个值对应的概率值,只要给出a与b值就可画出这种分布了。假设a=81,b=219就可画出它的beta分布出来,而现在基于原始值基础上又新增多次比赛,预测出新的beta分布是a=81+100,b=219+200,这时结合新的a与b值画出的曲线在y轴上将更向上尖(均值不变情况下,a+b的和越大时,它就越靠近均值,两边分布的越少),并且x轴更靠右了(因为100次击中成功只200次失败,说明击中成功率提高了,比平均水平0.27更大了)

4)公式。

Beta(x|a,b)=(x的a-1次方)*((x-1)的(b-1)次方)/B(a,b),其中分母B(a,b)=i(a)*i(b)/i(a+b),而i(n)=(n-1)的阶乘,二个参数a与b可当作成功与失败的次数

四。熵与激活函数

(1)熵的概念

1)熵是反映物体内部的混乱程度,即一件事发生的不确定性。用公式表示为H(X)=(P(x)*log P(x))的求和计算,其中x属于X,最后求和后取反(即前面加负号)。

2)所有的概率值P(X)都在0到1间,所以H(X)也肯定是正数,因为log P(x)的值是在负无穷到0之间的,log P(x)在平面上是经过(1,0)点的递增曲线,并且靠近(0,0)的走势越陡。

(2)熵值大小意味什么?

1)例:一个杂货市场堆的东西很乱,选中商品的概率会比较低(即P(x)越小),log P(x)会越陡,越往负无穷方向发展,这样熵值(H(X)就会越大)就越大,所以说概率值越小,经累加和后熵值越大,不确定性越大,选到商品的概率越小。相反概率值越大(趋近1),经累加和后熵值越小,不确定性越小,选到商品的概率越大(例如苹果专卖店)

2)熵在分类中的应用

例如有红球(3个),蓝球(3个),白球(3个),对它们进行3分类,第一次分类结果是3个红球与蓝球,白球都能清晰分开成3堆,这样在某一堆中去找其中一球,它的概率p(X)=1,那么log  p(X)=0,这样一堆中3个值累加起来是0+0+0=0,最后三堆加起来熵值(H(X)还是0)。相反如果分的每一堆都各一个红,蓝,白球,这时概率P(x)=1/3,这时log  p(X)会大一点,累加起来的值也大一点(即熵值大一点,不确定性就越大了),这样分类效果就比较差了。

还有就是熵值大小经常用来判断完成任务好不好?例按某些指标(特征)来做任务后,去得出熵值,然后与不同指标做任务后的熵值进行比较,通过熵值大小来判断任务做得好不好?

(3)激活函数

激活函数又叫非线性函数。

1)sigmoid函数

它是常用的非线性激活函数,把线性转为非线性,能够把连续值压缩到0到1之间,相当于得到概率值范围。缺点是杀死梯度,无原点中心对称。

2)sigmoid函数在二维平面的图像表现

它的定义域在负无穷到正无穷间,值域就是0到1之间,并且经过点(0,0.5)的曲线。

3)sigmoid活函数的问题

<1>梯度下降即是进行求导,那像sigmoid函数在定义域接近负无穷或正无穷的话,对它求导,它的值就几乎为0(因为图像上看基本上与x轴平行了),这样就造成会出现梯度消失的可能,这样反过来更新各个参数会出现问题。

<2>sigmoid函数输出值全为整数会导致梯度要么全为正要么全为负,优化更新会产生阶梯式情况,这样会造成更新比较慢,收敛效果一般。

(4)其它激活函数特点与问题

1)tanh激活函数

原点中心对称;输出在-1到1之间;梯度消失现象依然存在

2)relu激活函数

公式可用y=max(0,x)表示,它的y值就是分二种情况,当x大于0,y=x;当x小于0,y=0,直接把小于0的神经元扔掉。这个激活函数解决了梯度消失现象,计算更快;但会杀死一些神经元。

3)leak  relu激活函数

为了解决杀死神经元的情况,就有一个改进后的leak relu激活函数,公式为y=max(0.01x,x),它不会把小于0的x直接扔掉,而是等以0.01x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

注:本文转载自blog.csdn.net的weixin_58351028的文章"https://blog.csdn.net/weixin_58351028/article/details/144064882"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
复制链接
复制链接
相关推荐
发表评论
登录后才能发表评论和回复 注册

/ 登录

评论记录:

未查询到任何数据!
回复评论:

分类栏目

后端 (14832) 前端 (14280) 移动开发 (3760) 编程语言 (3851) Java (3904) Python (3298) 人工智能 (10119) AIGC (2810) 大数据 (3499) 数据库 (3945) 数据结构与算法 (3757) 音视频 (2669) 云原生 (3145) 云平台 (2965) 前沿技术 (2993) 开源 (2160) 小程序 (2860) 运维 (2533) 服务器 (2698) 操作系统 (2325) 硬件开发 (2492) 嵌入式 (2955) 微软技术 (2769) 软件工程 (2056) 测试 (2865) 网络空间安全 (2948) 网络与通信 (2797) 用户体验设计 (2592) 学习和成长 (2593) 搜索 (2744) 开发工具 (7108) 游戏 (2829) HarmonyOS (2935) 区块链 (2782) 数学 (3112) 3C硬件 (2759) 资讯 (2909) Android (4709) iOS (1850) 代码人生 (3043) 阅读 (2841)

热门文章

137
数学
关于我们 隐私政策 免责声明 联系我们
Copyright © 2020-2025 蚁人论坛 (iYenn.com) All Rights Reserved.
Scroll to Top