Simpson - 辛普森法 学习笔记

内容包括但不限于:自适应Simpson积分,拟合,广义积分(反常积分)及其收敛性的证明。

Tips:不保证正确性,不保证没锅,部分定理可能只是口糊的证明,也可能不会进行严谨证明。

更好的阅读体验戳此进入

目的

当我们求解定积分,或者说求曲边梯形面积的时候,可以通过把区间分为几个小区间然后再将小区间的积分求解求和,此时则需要 Simpson公式 了。

更具体地,我们会把定积分分成一些区间,然后对于每个区间用二次函数拟合,分别求解,最后求和。

拟合

这个东西简而言之呢,就是把平面上的一系列点用一条光滑曲线连结起来。

然后这里我们一般都考虑用一个高次多项式来表示这些点。显然如果用低次多项式拟合多个点,显然一定是无法准确连结所有点的,而如果强行用很高次的多项式去尽量连结所有的点,这种情况下大概会变成如下的形式:(图片来自知乎)

img

对于这种我们一般称其为过拟合。其坏处即为复杂度更大,预测性更小,以及很小的数据扰动会使公式剧烈变化。

参考自 拟合与过度拟合

广义积分(反常积分)

定义

首先一般的定积分都是确定上下界的,否则我们也无法求出其对应的曲边梯形面积。然而对于收敛的积分我们也是可以计算的,例如当 x+ 时有 f(x)0 那么此时后面的面积也就认为可以忽略了,所以一般这种我们就称其为广义积分,或者叫反常积分。

然后这东西一般有两种,一种就是上述的边界为无穷的,称为无穷限广义积分。另一种是其含有瑕点(大概就是取不到的点?),称其为瑕积分。

(似乎瑕积分要求必须最多仅有一个瑕点?如果有多个瑕点需要分区间计算。

收敛性判断

首先这个东西如果我们 //TODO

写在前面

首先众所周知辛普森积分法一般选择二次函数进行拟合,原因是综合考量了时间和精确度。

如果用一次函数拟合,也就是梯形法积分,这样的精度过差。如果采用更高次函数,那么时间耗费过大。

对于一个 k 次函数,如果每次求取值需要 O(u),经过分析最后的复杂度大概是 O(k2+ku),如果使用过高次的函数,这个东西的复杂度就会变得不可接受。并且参考上面说的过拟合,如果多项式次数过高,预测性也会变小,数据扰动的副作用也更大。

参考自 为什么在用辛普森做定积分的时候用二次函数拟合目标函数?

Simpson公式

首先我们需要知道牛顿-莱布尼茨公式,即:

abf(x)dx=F(b)F(a)=F(x)|ab

其中 F(x)=f(x)

则令原函数为 f(x),拟合后的二次函数为 g(x)=Ax2+Bx+C,则令 G(x)=g(x),有 G(x)=A3x3+B2x2+Cx,则:

abf(x)dxabAx2+Bx+C=A3(b3a3)+B2(b2a2)+C(ba)=A3(ba)(b2+ab+a2)+B2(b+a)(ba)+C(ba)=(ba)6(2A(b2+ab+a2)+3B(b+a)+6C)=(ba)6(2Ab2+2Aab+2Aa2+3Bb+3Ba+6C)=(ba)6(Aa2+Ba+C+Ab2+Bb+C+Ab2+2Aab+Aa2+2Bb+2Ba+4C)=(ba)6(Aa2+Ba+C+Ab2+Bb+C+A(a+b)2+2B(a+b)+4C)=(ba)6(Aa2+Ba+C+Ab2+Bb+C+4A(a+b2)2+4B(a+b2)+4C)=(ba)6(f(a)+f(b)+4f(a+b2))

于是我们就得到了 Simpson公式 的最终版本:

abf(x)dx=(ba)(f(a)+f(b)+4f(a+b2))6

即:

自适应积分

显然对于一个复杂的函数,我们无法用一个二次函数直接拟合它。所以我们可以考虑进行二分递归求解,直到误差足够小的时候再回溯求和。

具体地,对于一个区间 [l,r],我们可以对其用辛普森公式拟合,然后再对 [l,mid][mid,r] 分别求解,然后判断是否 |S[l,mid]+S[mid,r]S[l,r]|eps,如果是那么直接回溯,否则继续递归下去。

然后这里还有点提升精度的方法,就是判断时写成 |S[l,mid]+S[mid,r]S[l,r]|eps×15,精度符合要求之后回溯的值为 S[l,mid]+S[mid,r]+S[l,mid]+S[mid,r]S[l,r]15。这个东西具体是为什么我也证不出来,能想到的大概就是因为 mid 处的值被重复计算了需要减掉。然后具体的证明能找到线索的就是《数值分析(原书第2版)》第 240 页左右,感兴趣可以看看,大致就是这么写可以提升一部分精度。

然后还有一个常用的写法就是每次递归都进行 epseps2,这个比较好理解,可以考虑如果我们要保证在当前的误差不大于 eps,那么两个左右区间的误差就都要在 eps2 之内,这样的话最坏情况下两者误差加在一起也在可控范围内。总之就是这么写比较合适,可以提升精度。

upd:还有一个很重要的提升精度的细节,即我们需要在自适应的过程中限制层数不能过小,如不小于 10,这个东西在很多题中可能不会有问题,但是在如 LG-P3779 中不限制会导致精度出现错误,在最初时我也没有考虑到这一点,实现起来很容易,可以参考例题 #3 的代码。

Oops! The image is blocked! Please visit my own website to observe the image! 图片被墙了,请通过文章头的跳转链接访问!

例题#1

LG-P4525 【模板】自适应辛普森法 1

题面

计算积分:

LRcx+dax+bdx

Solution

标准模板题,自适应辛普森积分做一下即可。当然直接解积分也可以做。

Code

例题 #2

LG-P4526 【模板】自适应辛普森法 2

题面

求解积分:

0xaxxdx

eps=105,若积分发散输出 orz

Solution

首先放结论,若 a<0 那么函数发散,反之收敛,收敛的时候用刚才说的自适应辛普森跑一下就行。

然后对于上下界,首先 0 是不可以的,因为此时积分无意义,所以我们下界需要设为 eps,而上界显然不可能是 ,考虑如何设置,这里也有个结论,对于题里的函数,可以证明即使当 a=50 取到题目最大值,函数在 x=20 的时候就已经趋近于 0 了,所以整体范围设为 [eps,20] 即可,然后这个东西如果朴素地写成 eps=105 会被卡精度,所以考虑将 eps=107 就可以通过了。对于刚才结论的具体证明可以参考下文。

然后考虑证明:TODO

例题 #3 难度天花板 - 龙与地下城

LG-P3779 [SDOI2017] 龙与地下城

题面

给定一个 m 面的骰子,等概率产出 0,1,2,,m1,投 n 次,求投出来的数之和在区间 [A,B] 的概率。

Solution

首先介绍一点前置知识:

正态分布:图形不再赘述,唯一需要注意的就是随机变量 X 的正态分布只需要它的期望 μ 和方差 σ2 即可描述,记作 N(μ,σ2),不难发现这恰好对应着题干。

概率密度函数:依然考虑一个随机变量 X,若其为离散的那么显然可以简单的求出任意点的概率。但若其为连续型的,那么一个点的概率在极限意义下为 0,然然而查询一段区间的时候显然不为 0,所以我们便引入了概率密度函数来描述这个概率,对于随机变量 X 的概率密度函数 f(x),需要满足 f(x) 在区间内的积分等于 X 落在该区间的概率。

然后有个结论:正态分布的概率密度函数为:

f(x)=12πσ2e(xμ)22σ2

关于这个东西的证明。。。完全不是人看的,似乎只能强行记下来这个公式。。。如果你一定要看一下证明,网上倒是也有一个 正态分布推导过程

然后还有就是 C++ 库里自带了个 erferfc,大概求的是误差函数的积分和互补误差函数之类的,(我不会),有兴趣可以看看。

然后所以如果我们能够证明本题这玩意是正态分布的,那么就直接对这个 f(x) 做自适应辛普森,求一下积分就行了。

独立同分布:首先独立比较好理解,就是两个随机变量之间无影响,和高中数学里面的独立事件差不多。然后同分布就是指一些随机变量服从相同的分布。

Tips:概率论中 E(X) 表示期望,D(X) 表示方差。

中心极限定理:对于 n 个独立同分布(如本题中的相同骰子)的随机变量 X1,X2,,Xn,若 E(Xi)=μ,D(Xi)=σ2,令:

Yn=i=1nXinμnσ2

n 足够大,则我们认为 YnN(0,1)

然后还有一个常用推论,当然首先我们需要知道正态分布的一点运算规则,即:

XN(a,b)cXN(ca,c2b),从期望和方差的意义不难理解。

XN(a,b)X+cN(a+c,b),同理不难得出。

所以我们可以将刚才的中心极限定理式子转化为:

i=1nXiN(nμ,nσ2)

也就是说,本题里求的这些骰子的点数和,实际上就是 n 个独立同分布的和,所以一定服从 N(nμ,nσ2),用我们刚才写的正态分布概率密度函数带进去这个期望和方差然后求个积分即可。

然后发现这东西套个自适应辛普森就可以在 O(玄学) 的复杂度完成。

但是我们不难发现这个东西还有点问题,就是中心极限定理需要一个前提,n 足够大,对于一些 n=1 之类的数据点用这个就显然寄了,所以我们要考虑一些数据点分治的做法。

显然对于 n 较小的数据,我们可以考虑多项式,多项式 i 次方项的系数为骰子值为 i 的概率,显然当 n=1 时,假设骰子面数为 m,不难想到多项式为 1mxm1+1mxm2++1mx1+1mx0。然后很容易想到对于其它的 n 结果就是这个多项式的 n 次方,我们只需要用 FFT 优化一下然后在结果里求出指数在 [A,B] 之间的系数和即可,这东西可以用多项式快速幂优化(这个实际上不算是多项式快速幂,因为最终多项式总长度较小,所以在正常 FFT 时写个复数的快速幂就行),我们可以分析一下,显然多项式初始项数最多为 m,所以时间复杂度大概是 O(nmlognm),常数不小,然后 nm4e6 级别的,总之 nm1e5 应该不成问题,而且因为我们的中心极限定理一般要求 n30 就可以了,所以这个理论上就可以过了。

Tips:仅用多项式快速幂期望得分 60~70。

upd:上述过程就可以通过本题了,需要注意的一个问题是不要忘记在自适应辛普森的过程中限制层数,后文是我最开始写这道题时的因为没有限制层数的一些误区与另一种类似的方法,仅供参考。


如果不在自适应辛普森中限制层数,那么会有精度问题,原因除此之外还可能因拟合 N(0,1) 的概率密度函数会比拟合 N(nμ,nσ2) 精度更高一点,可能因为 nμnσ2 的值域范围太大了,再加上自适应辛普森本来精度就很玄学,所以会导致最终答案精度爆炸。

总之还可以考虑另一个方法,即中心极限定理的初始式子:

Yn=i=1nXinμnσ2

不难发现我们知道了限定的 i=1nXi 的范围,也就可以带进式子里直接推出 Yn 的范围,然后用自适应辛普森跑一下 N(0,1) 的概率密度函数,因为 YnN(0,1),所以求出对应范围之后直接求 N(0,1) 的概率密度函数在新范围里的积分即为答案。不过这样会发现依然是错误的如果在自适应辛普森中限制层数那么就没有问题了。

检查发现,对于正态分布中,在角落可能很小,从而导致 [l,mid],[mid,r],[l,r] 都很小,从而直接返回 0,可以感性理解一下,所以可能会导致拟合的误差过大,于是考虑每次求范围 [A,B] 的时候分别拟合 [0,A][0,B],然后用 [0,B] 的值减去 [0,A] 的,这样是等效的,且会更多的引入较大的值使得精度更高,改成此方法后即使不限制层数也可以通过本题。

Tips:代码中注释部分即为后半部分的实现方式。

Code

UPD

update-2022_12_10 初稿

update-2023_02_01 fix 例题 #3 的一些问题