个人年度书籍推荐《肥尾效应》 及核心点摘要 【2023】
本文于2023.6.26首发于知乎,略有删改。
1、《肥尾效应》 推荐词
推荐受众:
所有还记得“中心极限定理”的人
信奉贝叶斯主义的人
希望用可靠的数学工具来预测XX / 预测不确定性的人
推荐评分:
(如果是目标受众)5分 / 5分,在所有书籍中的前1%
推荐理由:
这是塔勒布2020年的书,作者就是写黑天鹅的那本的人。而且这本书试图告诉们我们如何量化的应对这些肥尾风险。(虽然它仍然不够科普。)
这本书给了我们一个视角,指出了一些即使是信奉贝叶斯主义的人也大概率会有的误区。
大家都知道,样本不足的数据结果没有统计意义,但某些情况下,这个候选样本的标准是需要注意的。(该书指出)在肥尾分布的情况下,那些长尾样本才是真正重要的。
2、阅读建议
本书的成分大概是:1/4的科普著作+3/4的数学书。
完整的阅读其实难度较大,但仍然建议大家尽量去看其中自己能看懂得部分。(看不懂的就跳过吧。)
虽然完整阅读难度较大,但并不妨碍其中重要观点的科普。下面本文就简要介绍其中我认为最核心的点,如果读者有兴趣可以进一步在书中探索更完整的信息。
3、《肥尾效应》 核心点摘要
3.1、肥尾分布
肥尾分布其实相当于我们之前认知的“长尾分布”、幂律分布等,这个长尾的概率占比“明显”高于高斯分布的长尾。
所以本文也使用肥尾而不是长尾来强调这个特点。
3.2、肥尾分布 中不同样本重要性
在“传统分布“的数据分析中,样本中的重要性几乎是均等的。而且大家习惯于【剔除】掉一些极端的”长尾样本“。因为样本的近似总体足以提供对于分布参数的良好预测。
而该书指出:
在肥尾分布中,样本更多分布在“头部”和“尾部”,在“中部”的分布相对于高斯分布等明显减少。
光靠头部样本,极难准确估计肥尾分布的参数,并且一般会导致不容易察觉的【显著】低估。从估计肥尾分布参数的角度来说,绝大部分信息都几种在那少量的“长尾样本”上。不光不能剔除它们,反而还要大大降低“头部”区域样本的“权重”。
虽然这些样本很少,统计置信度相对于传统情况仍然较低,但仍然是我们唯一所能依赖的信息。
在下一个小节中我们会看到这样的例子。
3.3、大数定律的失效
务实且可靠的分析不能只依赖渐进分析:虽然在理论上 大数定律、中心极限定理的成立条件“比较宽”。但在实际应用中,如果它收敛的太慢,也没法使用。这时候实际上大数定律、中心极限定理已经不可用。
而 肥尾分布 的情况就是如此,我们已经无法依赖 大数定律、中心极限定理。
举一个例子,对于一个肥尾分布(帕累托80/20分布),如果我们从样本中来估计这个分布的均值/数学期望,那么随着数据量的增加可能会是下面的收敛过程:
图中的每次向上跳跃就是采样到了一个“长尾样本”,这个长尾样本强烈的左右了最终的估计,但在不足够的采样过程中,这个期望表现得完全不稳定 / 不能可靠得收敛。在跳跃之间得区域,看起来像是在收敛,但其实不是。只有当采样得样本【极多】的时候才能得到一个准确的估计,但采样的数量远超一般实际场景所能承受的。
从实践的角度来说,对于该分布 大数定律、中心极限定理都不“成立”,我们无法得到对于该分布的数学期望和方差的有效估计。
3.4、肥尾分布下 大部分常用数理统计量的失效
上一个小节的直接推论就是,依赖于数学期望、方差、协方差估计的统计量工具统统都会失效,并且会给出一个明显偏低估(长尾)的预测。而且实际上当增加采样量之后,我们会发现这些统计量的估计值并不稳定。
类似的:
最小二乘回归也会失效,并且会给出一个显著高估的R^2估计。
PCA和因子分析也会失效
矩估计法(MoM)失效,高阶矩实际上更加不稳定,而且甚至可能不存在。
大偏差理论 Large deviations theory 会失效。
极值理论 Extreme value theory 仍然有效
p值估计也会失效,因为实际上需要很大量的样本才能让p值估计自己收敛。参见第19章。
真正可靠的p值估计经常需要把标准提高一个数量级,例如用p<0.005来获得我们原本想要的p<0.05的可靠性。
肥尾分布下 方差/标准差的可靠性不如平均绝对值偏差( Avg(Abs(X-Avg(X))) )。参见4.4节。
基尼系数也是明显低估的。详细讨论在第13章。
对于肥尾分布,历史的最大值不能用来预测未来观测值的上界。(所以突破历史极值才总是出乎大多数人预料地经常发生)
对于肥尾分布,过去不能简单直接地用于(相对准确地)预测未来。
人性中偏保守的习惯并不是人性缺陷,而是对于肥尾分布的正确反应。(这个话有太多的前提条件,这里可以看成是对于潜在不可预测的损失的分析)
“没有发现存在黑天鹅的证据”并不等于“发现了没有黑天鹅的证据”,在肥尾分布场景下前者也是常态。火鸡问题说的就是这个。
当你看到一个超过4个标准差(或者超过5个标准差)的样本时,就该意识到这不是一个“薄尾分布”中的极小概率case,而是要把整个分布当成是肥尾分布来处理。
给高斯分布增加随机方差实际上会让尾部变厚,要小心那些之前认为是异方差过程实际上可能是肥尾分布。
当我们可视化一些肥尾分布的样本时,经常也会觉得它像是一个异方差过程,但其实它就是肥尾分布。
对数正态分布在某些参数范围也是肥尾分布。
金融领域中的分布大多是肥尾分布。
在随机变量的和中,如果有一个是肥尾分布,那么结果就是肥尾分布,整个分布的尾部收敛速度和最慢的那个一致。
当发现随机变量的各阶矩统计量(例如期望、方差、偏度、峰度等)随着数据量增加不能稳定收敛时(例子是上面的图),都是肥尾分布的信号。
例如说金融领域经常看到某些波动指标由一天的小概率情况贡献了很大指标值的很大比例,这都是肥尾的信号。
时间序列情况下,顺序也是很重要的。随机排序后性质好了并不能说明原来性质也好。
在人类经验中也是:
3.5、如何正确的估计分布参数?
首先我们不能剔除长尾样本。但也要确保长尾样本中没有混有一些错误数据。
根据长尾样本和非长尾的样本直接估计 肥尾分布 的尾部收敛速度(之类的)参数,例如等效于幂律中的那个指数参数。这时候实际上需要大大降低非长尾样本的权重,不能做所有样本等权重的拟合。(直接在logX-logP图上人工画线都比样本等权重的拟合更好,见下图)
当实际分布存在定义域上界时候,可以使用一些trick来将其变换为无上限的分布进行估计。详细方法参见第15章。
3.6、建模和决策思路的调整
上一节的估计方式仍然比较粗略,本质上我们就无法凭借少量的长尾样本来准确估计肥尾分布的参数。
但一般场景下我们决策的因素依赖的不是随机变量X,而是它的一个非线性函数F(X)。对于X我们一般很难控制或者精确估计,但我们经常可以改变F(X),这应该是应对肥尾分布的着眼点。
我们要避免那种“长尾case发生时,损失会相对于不长尾的case时显著的非线性的放大”的F(X)或者合同条款。也就是说在设计系统时,尽量让它对于长尾case不要那么“脆弱”。
同样的,如果长尾case发生时候带来的是非线性增长的收益,那么我们要更多的追求这种系统。
处理肥尾分布时 人的经验直觉经常失效,MC模拟是一个好工具,不过需要注意采样的样本量要足够大。书中也多次使用它来给数值模拟结果。
3.7、如何识别(自己)尚未发现的肥尾分布 场景?
3.8、金融领域的相关讨论
该书有较多的金融相关问题讨论,例如整个第7部分都是。相关同学请自行查阅。
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,见 联系方式
希望留言可以到知乎对应文章下留言。