注:本文作为学习笔记,内容取材并整理自斯坦福大学BradleyEfron和TrevorHastie的著作:《CASI,ComputerAgeStatisticalInference》
引
统计学是一门从经验当中学习的科学,特别是随着时间逐渐积累的经验。
不管是疫苗研发的成败,对小行星轨迹的预测,还是金融市场的波动,几乎任何一种理论都涵盖"从经验中学习"的这个不确定的目标。
事实上,存在着两个主要统计理论派别,分别是贝叶斯学派和频率学派,对于它们之间的区别和联系的讨论,让我们对世界的哲学意味多了一分深刻的思考。
有一个适用于两种理论的,不那么哲学性,操作性更强的划分——这就是统计分析的算法和推断。这一划分起源于最基本和流行的统计方法——平均。统计分析的算法可以看作是求平均值的过程,而标准差则提供了关于这个算法精度的推断。
可见,算法是第一位的,推断被放在统计的第二级,成为"衍生品"。
在实践中,这意味着,算法的发明是一个更加自由和冒险的事业。推断则通过努力评估热门的新算法的准确性,对算法进行修补和改进优化。
如果推断和算法的竞赛是龟兔赛跑,那么现代计算已经孕育出了仿生兔——基于计算机的技术使科学家能够收集大量的数据——远远大于传统统计理论所能处理的数据量级。因此,庞大的数据量需要全新的方法论,即全新的统计算法需要被发明出来。
作为仿生兔的对手,统计推断作为乌龟一方,过去的几十年虽然是统计学方法论的*金时代,但却不算事事统计推断的一个*金时代,也不是一个黑暗时代。它也在进步,仿生兔新算法也推动了乌龟统计推断的进化(尽管这里并没有革命)。
我们正在经历传统统计时代到计算机时代的变革。
关于算法和统计推断的循环进步还有一件事要说明,即重要的新算法经常出现在专业统计学家的世界之外:神经网络,支持向量机和提升算法,这是三个著名的例子。
这并不奇怪,新的科学,比如卫星图像,医学微阵列,激发了观察科学家产生了新的方法。然后,统计学家介入,将新的方法引入已知的两大门派,贝叶斯和频率论,这更加推动了统计学的持续进步。
壹
频率学派推断
计算机时代之前是计算器时代。在计算器时代,只有小数据集,这些数据大多数是科学家在充满限制的实验室环境下辛苦搜集而来,珍贵的数据需要得到最高效的统计分析。
于是,可以在机械计算器上运行的非常有效的理论体系,在Pearson,Fisher,Neyman,Hotelling等人的努力下,从年开始发展,并主导了几乎整个20世纪的统计实践,这一套经典理论几乎完全依赖于频率学派的推断思想。
这就是频率学派发端的历史背景。
误差有多大,是统计推断所研究的问题。偏差Bias和方差Variance,都是频率学派推断中熟悉的概念。这些概念