友情提示:如果本网页打开太慢或显示不完整,请尝试鼠标右键“刷新”本网页!
富士康小说网 返回本书目录 加入书签 我的书架 我的书签 TXT全本下载 『收藏到我的浏览器』

女士品茶-第11部分

快捷操作: 按键盘上方向键 ← 或 → 可快速上下翻页 按键盘上的 Enter 键可回到本书目录页 按键盘上方向键 ↑ 可回到本页顶部! 如果本书没有阅读完,想下次继续接着阅读,可使用上方 "收藏到我的浏览器" 功能 和 "加入书签" 功能!


秃笃冢琑?T?贝叶斯在摆弄条件概率的公式时,忽然有个惊人的发现,这些公式都是内部对称的!
假设有两个事件在一段时期内发生,就像先洗牌,再发出5张扑克牌。我们称这两个事件分别为“前事件”(the events before)和“后事件”(the events after)。以“前事件”为条件讨论“后事件”的概率是有意义的。如果牌没有洗好,当然会影响玩家得到一对A的概率。贝叶斯发现,我们也可以“后事件”为条件计算“前事件”发生的概率。这是没有道理的。就像玩家已经拿到一对A之后,再来确定整副牌里有4张A的概率。或是已知一个病人已患了肺癌,再来计算他是吸烟者的概率。或者是已经知道了有个叫C?A?史密斯的人是唯一得到大奖的人,然后再计算州立彩票游戏公平不公平的概率。
贝叶斯把这些计算结果搁置起来,没有发表。在他死后,这些论文才被发现,而后才被发表出来。从那里起,贝叶斯定理 就困扰着许多统计分析数学家。绝对不是毫无道理,贝叶斯将条件概率倒转过来反倒很有意义。当流行病学家试图想找出某种罕见医学病状的可能原因时,例如雷氏症候群(Reye’s syndrome),他们通常是利用病例控制研究方法(casecontrol study),在这种研究中,他们首先搜集一组患有该病症的病人,然后拿去与控制组的病人做比较,控制组的病人没有患这种疾病,但在其他方面与患有这种疾病的病人类似。于是,流行病学家在已知控制组病人已患有该疾病的条件下,计算某些先前治疗或先前条件导致该病的概率。吸烟对心脏病和肺癌都有影响,就是这样首次被发现的。镇静剂对新生儿畸形的影响,也是从这种病例控制研究中发现的。
直接应用贝叶斯定理,可以把条件概率反转过来,比这更为重要的,是使用贝叶斯定理估计分布的参数。有一种建议,可以把一项分布的参数本身看作是随机的,然后计算与这些参数相关的概率。例如,我们可能想要比较两种癌症治疗方法,并希望得到结论说“我们有95%的把握认为使用治疗方法A会比使用治疗方法B的5年期存活率高”。我们只要应用贝叶斯定理一两次就可以解决这个问题。

关于“逆概率”的问题
有很多年,以这种方式使用贝叶斯定理被认为是一种不适当的作法。当用于参数时,关于概率代表什么涵义有很多质疑。毕竟皮尔逊革命(Pearsonian revolution)的整个基础在于,科学的测量结果本身不再是我们所感兴趣的问题,相反,正如K?皮尔逊所指出的那样,我们所感兴趣的是这些测量结果的概率分布,而科学的调查研究的目的就是要估计出控制这些分布的那些参数值(固定的但却是未知的)。所以,如果这些参数被视为是随机的(而且以观测的测量结果为条件),那么这种方法就不再有这样清楚的意义了。
在20世纪的早些年,统计学家非常谨慎,避免使用人们所说的“逆概率”。有一次在皇家统计学会上,对费歇尔的一篇早期论文进行讨论时,就有人质疑他使用了逆概率,他坚定地为自己辩护,否认这项可怕的指控。在第一篇关于置信区间的论文里,奈曼似乎使用了逆概率的概念,但只是作为一个数学方法,用来得到一个计算结果,而在他的第二篇论文里,他证明不了不用贝叶斯定理也能得到相同的结果。到了20世纪60年代,为种方法的潜在力量与用途已开始吸引越来越多的研究者跟踪研究,这个贝叶斯异论变得越来越受尊重了。到了20世纪末,它已经达到了如此高的接受水平,如今在一些期刊像《统计年报》(Annals of Statistics)和《生物统计》上,几乎半数以上的文章现在都使用贝叶斯方法。不过,贝叶斯方法的应用仍然会经常遭到质疑,尤其是在医学领域。
在解释贝叶斯异论时碰到的一个困难是,目前有好几种不同的分析方法,而这些方法的应用又至少有两种完全不同的哲学基础。长期以来,看上去好像完全不同的思想却经常贴着相同的标签——贝叶斯。后面我将说明贝叶斯异论的两个种理论:贝叶斯层次模型(Bayesian hierarchal model)和个人概率(personal probability)。

贝叶斯层次模型
20世纪70年代早期,由于弗雷德里克?莫斯特勒(Frederidck Mosteller)和大卫?华莱士(David Wallace)早期的工作和贡献,原文分析的统计方法有了很大的进展,他们俩人曾运用统计方法来判定《联邦主义论文集》(Federalist)中一些匿名文章的作者。自1787年,在纽约州带头鼓动通过新的美国宪法期间,詹姆士?麦迪逊(James Madison)、亚力山大?汉密尔顿(Alexander Hamilton)和约翰?杰伊(John Jay)写了大约70篇文章,支持通过宪法。但这些文章都是匿名发表的。19世纪初,汉密尔顿与麦迪逊两人开始确认这些两个人都声称有著作权的论文,其中有12篇文章他们都认为是自己写的 。
在用统计方法对这些署名有争议性的文章进行分析时,莫斯特勒与华莱士找出了几百个无“特定内容”的英文词汇,如“if”、“when”、“because”、“over”、“whilst”、“as”、“and”等。这些字在句子里只有语法上的意义,本身并没有什么特定的含义,这些字的使用主要取决于作者的语言使用习惯。在这上百个没什么特定含义的字里,他们发现,大约有30个字在这两位作者的其他著作中使用频率不同。
例如,麦迪逊使用“upon”这个字的频率,是每千字平均0。23次,但汉密尔顿对这个字的使用频率很高,平均每千字高达3。24次(在12篇署名有争议的文章里,有11篇根本没有用“upon”这个字,而在剩下的那一篇文章中,平均每千字就出现1。1次)。这些平均的频率并不是描述一千字中任何特定组合。这些数值本身并不是整数,这就意味着这些频率并不是在描述任意一个观测的文字序列。这些数值其实是两位不同作者在写作时用字分布的其中一个参数的估计值。
对于某篇文章著作权的争议,所要解决的问题是:这些文章中用词的分布形态,是来自与麦迪逊相联的概率分布呢?还是来自与汉密尔顿相联的概率分布?这些分布各有各有参数,其中能够定义出各自作品的特定参数各不相同。参数值只能根据他们的论文来估计,而且这些估计可能是错的。因此,要想区分哪个分布可应用在一篇署名有争议的文章上,充满了这种不确定性。
估计这种不确定性水平的一种方法是,这两个人的分布参数的确切值,是来自于描述18世纪晚期所有北美洲有教养的人用英文写作时用字习惯的参数分布。例如,汉密尔顿每千字中用到“in”这个字24次,麦迪逊则是每千字用23次,而同时代的其他作家,使用“in”这个字的频率在每千字22至25次之间。
由于受到当时和当地一般用字分布形态的制约,每个人分布的参数是随机的,并且具有一个概率分布。这样一来,制约汉密尔顿和玫迪逊使用这些无特定含义的字的参数本身也有参数,我们可以称之为“超参数”(hyperparameter)。根据当时和当地其他作者发表的文章来分析,我们就能估计出这些超参数。
英语语言总是随着时间和地域的变化而变化。例如在20世纪的英语文学里,使用in的频率通常是每千字少于20次,这表明从汉密尔顿和麦迪逊的时代到现在的200多年里,英语的用字型态已经稍微有所转变。我们可以把这些定义18世纪北美用字习惯参数分布的越参数,看作是它们本身也有一个相对于所有时间与空间的概率分布。因此,除了用18世纪的北美作品,我们还可以搜集其它地区和其它时期的英语文献,来估计这些超参数的参数,我们可以称这些参数为“超-超参数”(hyperhyperparameter)。
通过重复使用贝叶斯定理,我们就能决定这些参数的分布,然后再决定这些超参数的分布。从原则上来说,我们可以用超-超-超参数求出超-超参数的分布,进而把这种层次分析引向深入,依次类推。但在我们的例子里,显然没有必要进一步分析,以免增添更多的不确定性。利用超参数与超-超参数的估计值,莫斯特勒与华莱士就能算出与下面这个陈述有关的概率:是麦迪逊还是汉密尔顿写了这篇文章。
自20世纪80年代早期以来,贝叶斯层次模型已经成功地解决了许多工程上和生物学上的难题。比如,一些数据看上去似乎是来自于两个或两个以上不同的分布,这个问题就属于这类难题。分析家可以建议,有一个未观测到的变量存在,而这个变量可以定义已知的一个观测结果究竟来自于哪个分布。这个差别标识本身是个参数。但它还有一个概率分布(含有超参数),这个概率分布可以纳入到似然函数当中来进行分析。莱尔德和韦尔的EM演算法特别适合于解决这类问题。
统计文献中对贝叶斯方法的广泛使用充满了混淆与争议。大家可以提出得出不同结果的不同方法,但却没有明确的标准来决定哪个是对的。通常,保守肖像统计学家反对使用贝叶斯定理,而贝叶斯学派的人彼此对他们模型的细节看法也不一致。这种混乱的状况亟需另一个像费歇尔这样的天才出现,找出一个统一的原则来解决这些争议。当我们进入21世纪的时候,还没有这样的天才出现。因此,相关的问题还是像在200多年前的贝叶斯时代一样,令人困惑。

个人概率
另外一种贝叶斯方法其基础看上去要坚实得多。这就是个人概率(personal probability)的概念。个人概率的意思自从17世纪贝努里一开始研究概率时就已经产生了。实际上,概率(probability)这个英文字创造的初衷,就是用来处理主观不确定性的。
L?J?萨维奇和布鲁诺?德费奈蒂在20世纪60年代和70年代,推导出了个人概率背后的许多数学模式。我在20世纪60年代末期曾参加一场在北卡罗来纳大学举办的统计学会议,会上萨维奇在演讲中曾阐述他的一部分想法。萨维奇认为,世界上并没有“已被证明的科学事实”这样的事情。有的只是一些陈述,而那些自认为是科学家的人对这些陈述持有很高的赞成概率。他举例说,在场听他演讲的人对“地球是圆的”这项陈述一定持有很高的认同概率,但若我们有机会对全世界的人做一次普查,则我们很可能发现在中国中部的许多农民对上述陈述持有很低的概率。讲到这里的时候,萨维奇不得不被迫停下来,因为校园晨一群学生正在会堂外游行通过。他们还高喊着口号“停止上课!罢课!罢课!停止上课!”这些学生在要求全校的学生罢课,以抗议越南战争。等到他们走远,四周又恢复平静,萨维奇才看看窗外,然后说:“看来,我们可能是认为地球是圆的人中的最后一代。
个人概率有许多不同的版本。其中一个极端是萨维奇-德费奈蒂的方法,该方法认为每个人都有其自己独特的一套概率。而另一个极端则是凯恩斯的观点,他认为概率是一种信仰程度(the degree of belief),这种信仰是一个在特定的文化环境中一个有教养的人可能期望持有的信念。按照凯恩斯的观点,一个特定文化环境中的所有人(萨维奇所说的科学家或中国中部的农民)对某一特定的陈述,会持有一个一般的概率水平。由于这个概率水平取决于文化和时间,因此从某种绝对的意义上为说,很有可能这个适当的概率水平是错的。
萨维奇和德费奈蒂则主张每个人都有自己特定的一套个人概率,他们还描述怎样运用一种叫做“标准赌博”(standard gamble)的技巧把这种人人概率求出来。为了让整个文化中的人能共享既定的一套概率,凯恩斯不得不弱化相关的数学定义,概率不再是一个精确的数字(例如67%),而是一种将想法排序的方法(例如,明天可能下雨的概率大于可能下雪的概率)。
不管个人概率的概念是如何被准确定义的,贝叶斯定理在个人概率中的应用方式,看上去与大多数的想法相吻合。贝叶斯方法一开始是假设在一个人的头脑中有一组先验概率(a prior set of probabilities),接下来这个人经过观测或实验产生了数据,然后再拿这组数据来修正先验概率(prior probability),生成一组后验概率(a posterior set of probabilities):
先验概率  →  数据  →  后验概率
假设这个人想确定是否所有的大乌鸦都是黑的。她首先存有一些关于“这个陈述是真的”概率的先验知识。例如,起初她可能对大乌鸦一无所知,对“所有大乌鸦都是黑的”这句话半信半疑,相信比例是50:50。数据则包括她对大乌鸦的观测。假如她看到了一只大乌鸦,而且这只大乌鸦是黑色的,她的后验概率就会增加。因此下一次她再观测大乌鸦时,她的新的先验概率(也就是上一次的后验概率)就会大于50%,如果她继续观测大乌鸦而且都是黑的,这个概率还会继续上升。
另一方面,一个人也有可能在进行观测之前就已经带着非常强的事前主见,其程度非常强,需要有很大量的数据才能改变这个事前主见。在20世纪80年代,美国宾夕法尼亚州的三里岛核电厂发生了近乎是灾难性的事故。反应炉的操作员面对一个很大的操作盘,通过上面的各种仪表和指示灯来了解反应炉的运转情况。这些指示灯当中有一些是警告灯,其中有的出过问题,以前曾经发出过假的警告。当时操作员有个事先的成见,当他们看见任何一个新的警告灯亮时,总是认为它是假的信号。结果,即使当警告灯的型态及相关的指示器都一致显示反应炉的水位过低时,他们仍然置之不理。他们的先验概率太强了,以至于新的数据也无法使后验概率产生多大的改变。
假定只有两种可能性,就像前面署名有争议的联邦主义论文的例子:它不是麦迪逊写的就是汉密尔顿写的。于是,在应用了贝叶斯定理之后,就会得到了一个先验胜率(prior odds)与后验胜率(posterior odds)之间的简单关系,这里的数据可以归纳成一种称为“贝叶斯因子”(Bayes factor)的东西。这是一种根本不用参考先验胜率来刻画数据的一种数学计算。有了这个计算工具,分析家就可以告诉读者,插入任何他想要的先验胜率,乘以计算出来的贝叶斯因子,再计算后验胜率。莫斯特勒与华莱士对12篇署名有争议的文章,每篇都是这样处理的。
此外,他们对文章里的那些无特定含义的字出现的频率,还进行了两种非贝叶斯分析。这样他们有了四种方法来判断有争议文章的作者:层次贝叶斯模型,计算的贝叶斯因子,以及两个非贝叶斯分析方法。结果如何呢?所有12篇文章都压倒性地指向麦迪逊。实际上,如果使用计算的贝叶斯因子,那么对某几篇文章来说,读者认为是汉密尔顿写的先验胜率可能要大于100000:1才有办法让后验胜率为50:50。
第14章 数学界的莫扎特
在20世纪统计学方法的发展历程中,费歇尔并不是唯一的天才。俄国数学家安德烈?N?柯尔莫哥洛夫(Andrei N。 Kolmogorov)(比费歇尔年轻13岁,1987年以85岁高龄过世),在数理统计与概率理论方面留下了很多不朽的成就。他的成就虽然是以费歇尔的一此研究成果为基础的,但柯尔莫哥洛夫的成就在数学深度与细节上都超越了费歇尔。
不过,就像他的成就对科学的贡献非常重要一样,柯尔莫哥洛夫对所有认识他的人也颇具影响力。他的学生艾伯特?N?谢耶夫(Albert N。 Shiryaev)在1991年写道:
A?N?柯尔莫哥洛夫属于那种很少数、你一接触就知道他与众不同的人,他很伟大、很杰出,感觉像个奇才。他的一切都和别人不一样:他的一生,他的中学和大学生活,他在数学……气象学、流体力学、历史、语言学、教育学等领域的开创性发现。他的兴趣异常广泛,包括音乐、建筑、诗歌及旅行。他的博学多闻也是罕见的。看上去好像他对任何事都有很高深的见解……。任何人只要和他见过面,只要与他简单交流,便会感觉他是那样的非常寻常。人们感觉到,他是那种具有连续深度心智活动的人。
柯尔莫哥洛夫生于1903年,那年他的母亲正从克里米亚(Crimea)返回家乡,她的家乡在俄国南部托诺西纳(Tunoshna)的乡村,在旅行途中生下了柯尔莫哥洛夫。有一位传记作家很精确地写到:“柯尔莫哥洛夫是个非婚生的儿子。”他的母亲玛丽亚?雅科夫列夫娜?柯尔莫哥洛夫(Mariya Yakovlevna Kolmogorov)在怀孕的后期被其男朋友抛弃,只得回家待产,不料阵痛提早发作,她只好在中途的坦波夫(Tambov)镇下了火车,在那儿生下了小孩。不幸的是,她自己却因难产死于这个陌生的小镇,只有她的初生婴儿回到了故乡托诺西纳。后来是他妈妈的几个未婚姊妹抚养了他,其中的薇拉?雅科夫列夫娜(Vera Yakovlevna),后来变成了他的养母。阿姨们为年轻的安德烈和他同龄的孩子在村子里办了一个小学校。她们甚至在家里印刷了一份小刊物,叫做《春燕》(Spring Swallows),他的第一篇作文就发表在上面。在他5岁的时候,他提出了他的第一个数学发现(也发表在《春燕》上)。他发现最小的k个奇数和和正好等于k的平方。随着他慢慢长大,他常拿一些问题问同学,这些问题与它们的答案也发表在《春燕》上。其中一个问题是这样的:缝一个四孔的钮扣,有多少种缝法?
到了14岁,柯尔莫哥洛夫从百科全书上学到一些高等数学,并且补充了其中没有证明的部分。在念高中的时候,他的一系列永动机的制造计划,考倒了年轻的物理老师。因为计划制定得太精巧了,连老师都不能发现其中的错误(柯尔莫哥洛夫把这些错误很小心地隐藏起来)。后来,他决定提早一年参加毕业考试。于是就正式向老师提出请求,老师要他午饭后回来听消息,然后他就出去散步了。等他回来的时候,学校考试委员会决定不必经过考试就发了证书给他。他后来对谢耶夫表示,这件事是他一生中最令人失望的事情之一,本来他希望迎接智力的挑战。
1920年,年仅17岁的柯尔莫哥洛夫来到莫斯科念大学。他注册读数学第,但到很多别的科系去听课,如冶金学,另外他还参加一个研究俄国历史的专题研讨会。作为研讨会的一部分内容,他报告了他的第一篇等待发表的研究论文,内容是分析15到16世纪时诺夫哥罗德(Novgorod)地区土地占有情况。他的教授批评这篇论文,认为柯尔莫哥洛夫没有提供足够的证据。几年后,有个考古队在该地区探险,证实了柯尔莫哥洛夫的猜测。
作为莫斯科国立大学的学生,他到中学兼职做教员,还参加了许多课外活动。后来他继续在莫斯科大学读数学专业的研究生。数学系要求学生修14门基础课程,而对于每门课程,学生可以选择或是参加期末考试,或是提交一篇具独创性的论文。很少有学生尝试写出一篇以上的论文柯尔莫哥洛夫从没参加过考试,而是写了14篇具独创性的精彩论文。他后来回忆说,“其中一篇的结果其实是错的,但我只是在后来才意识到。”
柯尔莫哥洛夫这位才华横溢的数学家得到西方科学家的赏识,是通过他在德国出版的一系列精彩的文章及一些德文书籍实现的。在20世纪30年代,俄国当局甚至还允许他去参加一些在德国和斯堪的那维亚举行的数学研讨会。不过在第二次世界大战期间以及战后,柯尔莫哥洛夫这个伟大的人物却消失在斯大林的铁幕后面。1938年,他发表了一篇论文,这篇论文建立了平滑和预测平稳随机过程的基本定理(这项研究在本章后部分还将做介绍)。诺伯特?维纳(Norbert Wiener)对于战争的状态给出了一个有趣的评论,维纳当时正在麻省理工学院(Massachusetts Institute of Technology),在战争期间和战后,他致力于将这些方法应用于军事问题。维纳的研究结果被认为对美国的冷战非常重要,以至于被宣布为最高级的机密。但是维纳坚持认为,他的所有研究结果都可以从柯尔莫哥洛夫早期的那篇论文中推导出来。在二次大战期间,柯尔莫哥洛夫忙于研究如何将该理论应用于苏联的战争中。柯尔莫哥洛夫一直谦逊地评价自己的学术成就,他认为这些基本思想应该归功于费歇尔,因为费歇尔在他的遗传学的研究中使用了类似的方法。

柯尔莫哥洛夫其人其事
1953年斯大林去世后,政治上处处怀疑的铁环开始松动。于是柯尔莫哥洛夫这个人又开始露面,参加一些国际学术会议,同时在俄国也组织一些学术会议。国际上的数学界开始认识他。他是一个热心、友善、开明、幽默的人,同时知识渊博,喜爱教学。他那敏锐的大脑对他的所见所疗总是不停地在思考。我手头有一张1963年柯尔莫哥洛夫在第比利斯(Tbilisi)听英国统计学家大卫?肯德尔(David K
返回目录 上一页 下一页 回到顶部 0 0
快捷操作: 按键盘上方向键 ← 或 → 可快速上下翻页 按键盘上的 Enter 键可回到本书目录页 按键盘上方向键 ↑ 可回到本页顶部!
温馨提示: 温看小说的同时发表评论,说出自己的看法和其它小伙伴们分享也不错哦!发表书评还可以获得积分和经验奖励,认真写原创书评 被采纳为精评可以获得大量金币、积分和经验奖励哦!