友情提示:如果本网页打开太慢或显示不完整,请尝试鼠标右键“刷新”本网页!
女士品茶-第13部分
快捷操作: 按键盘上方向键 ← 或 → 可快速上下翻页 按键盘上的 Enter 键可回到本书目录页 按键盘上方向键 ↑ 可回到本页顶部! 如果本书没有阅读完,想下次继续接着阅读,可使用上方 "收藏到我的浏览器" 功能 和 "加入书签" 功能!
计算机完成的。“我估计我大概摇了那架计算机两百万次……我常常碰到机器卡住这种倒霉的事,在我学会使用长针(来解决机器卡住)之前……这个机器一卡住,你只好跑去告诉教授,于是他就会数落你一顿,非常令人懊恼。所以有很多次,机器一卡住我就悄悄溜回家,没告诉他。”虽然她很钦佩皮尔逊,而且在他晚年大半的时间都陪着他,但在20世纪30年代的早期,大卫还是相当怕皮尔逊的。
大卫也是个很大胆的女孩子,常骑着摩托车参加越野赛。
有一次我撞上了一堵16英尺的高墙,墙头上还有玻璃。我被抛向半空中,伤到了膝盖。有一天我在办公室,心情沮丧,此时正好威廉?S?戈塞特进来。他说,“你以后最后改玩钓鱼吧。”因为他自己是个钓鱼的高手。他邀请我到他家中。在他亨敦(Henden)的家中有他、他的太太和几个孩子。他教我钓鱼,待我很亲切。
当J?奈曼与埃贡?皮尔逊开始形容费歇尔的似然函数时,大卫也在该大学学院,老皮尔逊认为埃贡研究的东西毫无意义,因此相当不悦。埃贡怕苦恼老爸,所以没有把他们第一份研究论文交给他父亲的期刊《生物统计》发表,反而与奈曼一起筹创另一份期刊《统计研究纪事》(Statistical Reserch Memoirs),共经营了两年(F?N?大卫在上面发表了好几篇论文)。后来K?皮尔逊退休,埃贡接替他的父亲担任《生物统计》的主编,这时才把自己办的期刊停掉。
当这个“老家伙”(当时大家都这么称呼K?皮尔逊)被自己的儿子和费歇尔取代时,大卫当时也在。当年轻的J?奈曼刚开始做统计研究时,大卫就在那里。她回忆说,“我认为,20世纪20年代至1940年间是统计学界生机勃发的时候,而我则从一个小人物的视角见识到了各路统计精英。”
大卫称K?皮尔逊是个绝对的演说家。“他讲得太棒了,你只能静静地坐在那儿,沉浸在他的演说中。”他对学生提问题打断他的讲话很耐心和宽容,即使有人指出他的错误也不要紧,他会很快纠正错误,然后继续讲下去。但另一方面,她觉得听费歇尔的演讲“是一件可怕的事,我什么都听不懂。我很想问他问题,但是当我真的提出问题时,他一看我是个女生就不屑回答我。”因此,她就坐在一个从美国来的男同学旁边,一有问题就推他的手臂说,“问他!问他!”“每次听完费歇尔的演讲,我总要上图书馆呆上三五个小时,想弄清楚到底费歇尔讲了些什么。”
1933年,K?皮尔逊退休,F?N?大卫继续跟他做研究,成了他唯一的研究助理。大卫写道:
K?皮尔逊是个非同寻常的人。他已经70多岁了,但还整天工作,研究某些问题,有时候甚至会到早上6点才离开学校。有一次,当他正准备回家而我也正准备回家时,他对我说,“今晚你可以把椭圆积分的部分看一看,明天我们要用。”我当晚其实正准备和男朋友到切尔西(Chelsea)艺术厅参加舞会,但没有勇气告诉他。因此我还是和男朋友去跳舞,到了凌晨四五点才回到家,洗个澡之后就赶到学校去,看相关的资料做好准备,等皮尔逊9点左右到学校来。人年轻的时候总是好做傻事。
在K?皮尔逊去世前的几个月,F?N?大卫回到了生物统计实验室与奈曼一起工作。当奈曼得知她还没有取得博士学位时,感到非常吃惊。在奈曼的催促之下,她把最后发表的4篇论文整理出来,提交出去当作博士论文。后来有人问她,在得到博士学位之后,你的地位有没有什么改变?她回答,“没有任何改变,我只是付了20英镑的入门费。”
回忆以往的那些日子时,她说,“我总以为他们让我加入,是为了使奈曼先生保持安静,但那段时间还是非常喧闹的。当时费歇尔在楼上,时常大声发表意见,奈曼在一边,而K?皮尔逊在另一边,此外戈塞特每隔一周也会来一次。”其实她对这些年的回忆过于谦虚了,而她自己也绝不是她所说的那种配角,“加入是为了让奈曼先生保持安静”。她所发表的统计学论文,不论是在理论上还是在实践上,在很多领域中都大大提升了统计学的水平(其中有一篇更是非常重要,是她与奈曼联名写的,论述20世纪早期俄国数学家A?A?马尔可夫(A。 A。 Markov)的某个定理的广义定理。在我的书架上,几乎每一学派统计理论的书上,都会把F?N?大卫的论文当参考文献,可见她研究范围的广泛。
关于战争的研究
当第二次世界大战在1939年爆发时,大卫在国家安全部做研究工作,试图预测炸弹落在像伦敦这种人口中心时会有什么后果。预测的内容包括伤亡人数、炸弹对电力系统、饮水与污水管线系统的影响以及其它可能产生的问题,这些问题均可由她建立的统计模型估计出来。结果是,在1940年和1941年间英国对于德军向伦敦发动的闪电战,均做好了相关的准备,在及时抢救伤员的同时,还能维护主要的公共设施运转。
在战争快结束时,情况正如她所写的:
我坐着其中一架美国轰炸机,飞到安德鲁空军基地。我此行的主要目的是看看他们所造的第一批大型数码电脑……它就像个半圆筒形的活动式营房,长约100码,全部都是高架木板,你甚至可以在上面跑步。在两侧,大概每隔几英尺就有两个会眨眼的怪物,而天花板上除了保险丝什么都没有。每隔30秒左右维修人员就沿着木板巡视一遍,主要是抬头察看天花板上的保险丝……我回到英国以后,把看到的东西告诉一些人……他们则建议,“你最好是坐下来学习电脑编程语言。”我就说,“鬼才听你的!如果我这么做,我这辈子就只能做这个了,我不学,让别人去学吧!”
E?皮尔逊不像他爸爸那样喜欢权威式管理,他创造了一个新的惯例,就是系里的教授轮流当生物统计系的系主任。在轮到F?N?大卫当系主任的时候,她正好开始写《组合机遇》(binatorial Chance),这本书后来成为一本经典的作品。该书详细地解释了复杂的计数法,也就是我们熟知的“组合数学”(binatorics)。书中把原本极为复杂的观念,用简单通俗的方式陈述出来,从而使这些观念容易理解得多。当有人问起她这本书时,她回答:
在我一生当中老是陷入同样的困扰。我先是开始于一些事情,接着就会感到厌烦。我很早就有组合数学的想法,而且更早就开始这方面的研究,甚至在我认识巴顿(D。 E。 Barton,她的书的合作者,后来成为大学学院计算机科学系的教授)或给巴顿当老师之前……但我还是请他来跟我共同写这本书,因为我设想的事情也该了断了。因此我们一起写,他做了很好很深入的工作。他是个很不错的人,我们还一起写了许多论文。
她最后到了美国,成为加州大学伯克利分校的教授,还继奈曼之后,成为生物统计学系的系主任。1970年,她离开伯克利到加州大学的河滨(Riverside)分校创办统计学系,并担任系主任。她在1977年68岁的时候“退休”,成为伯克利生物统计系很活跃的荣誉教授和研究人员。本章好多处引文出自于1988年对她的采访。她于1995年过世。
1962年,F?N?大卫出版了一本书,书名为《赛局、上帝与赌博》(Games,Gods,and Gambling)。下面是她就为何写作该书所做的描述:
我年轻的时候学过希腊文……当时我有个从事考古研究的同事,当他一天到晚忙着在某个沙漠里东挖西掘的时候,我觉得自己也对考古学开始感兴趣了。不管怎么样,他曾对我说,“我在沙漠里走来走去,在地图上标示出可能有考古碎片的地方。凭这个地图我就知道应该在什么地方挖掘可能找到各种餐具的碎片。”考古学家对金银不感兴趣,只喜欢一些瓶瓶罐罐。我把他的地图拿来,仔细思考之后,发现这和我研究的德国V型轰炸机的问题很像。伦敦在这里,轰炸机的落点在另一个地方,而你想知道的是轰炸机的发射地点,这样你就可以假设一个双变量(bivariate)的正态平面,然后预测出几个主轴。这就是我由碎片图得到的灵感。问题与问题之间似乎有某种共通性,很奇妙吧?而且总共可以归纳成大约6种不同的类型。
弗洛伦斯?南丁格尔?大卫对所有这些类型的问题都有著述,做出过相当大的贡献。
第16章 非参数方法
在20世纪40年代,美国氰胺公司的化学家弗兰克?威尔科克森(Frank Wilcoxon)深为一个统计问题所困扰。针对不同化学处理的结果,他采用“学生 ”t检验和费歇尔的方差分析做假设检验,,进行比较。这是当时分析实验数据的标准方法,统计革命已经深入到了科学实验室,有关解释这些假设检验所用统计图表的书,已经摆到了每位科学家的书架上。但是威尔科克森所关心的,是这些方法常常表现为失效的情形。
他进行了一系列的实验,在他看来,这些实验中不同处理的结果显然是并不相同的。但是,有时候t检验显示了统计上的显著性,而有时候却没有。当进行一项化学实验时,常常碰到,在实验程序之初反应发生器(即化学反应进行的地方)并未充分预热,也会碰到某种特殊酶的反应力开始发生变化,结果使得实验结果似乎有误,常常是某个数据要么过大,要么过小。有时可以找到产生异常结果的原因,而有时虽然结果是一个异常值(outlier),显著地不同于其它结果,但又找不到明确的原因。
威尔科克森考察了t检验和方差分析的计算公式,意识到这些极端的异常值显著地影响了结果,导致“学生”t检验统计量的数值比正常情形下的数值更小(一般而言,大的t检验统计量对应着小的P值)。这诱使他从观测值的集合中剔除异常值,用剩下的观测值计算t检验统计。这样一来,假设检验中的数学推导便出了问题。化学家如何才能知道一个数到底是不是异常值呢?必须剔除多少个异常值呢?当异常值被剔除之后,化学家还能继续使用那些基于标准检验统计量的概率图表吗?
弗兰克?威尔科克森着手搜集有关的文献,他确信那些发明统计方法的伟大数学家们早已注意到了这一问题。然而,他没有发现相关的参考文献。威尔科克森认为他找到了一个解决该问题的思路,但这一思路计算非常繁琐,要用到观测数据的组合与排列(前一章已经提到了F?N?大卫的组合数学)。于是,他便着手寻找计算那些组合数的方法。
唉,这实在是太荒唐了!为什么要由一个像威尔科克森那样的化学家去研究这些简单而繁琐的计算方法呢?统计学界早应有人完成了这一工作!他于是又回到统计学文献中去找以前的论文,但他还是没有找到这种论文。他便寄了一篇论文给《生物统计学》(Biometrics)杂志(不要与K?皮尔逊的《生物统计》(Biometrika)混淆),主要是想验证一下自己的数学方法。他并没有想过自己的研究会是一个原创性的工作,还想着审稿人一定知道文中内容早已在哪儿发表过了,从而拒绝他的论文,这样一来,也就等于审稿人告诉了他所需要的那些参考资料。然而,就审稿人和编辑们所知,这是一个原创性的研究,以前没有人思考过这一问题,他的论文在1945年发表了。
威尔科克森和《生物统计学》的编辑们都不知道,一个名叫亨利?B?曼(Henry B。 Mann)的经济学家和俄亥俄州立大学(Ohio State University)一个名叫D?兰塞姆?惠特尼(D。 Ransom Whitney)的统计学研究生都在研究一个相关的问题。他们正试图给统计分布排序,这样一来人们便可以认为,在某种意义上,1940年的工资分布“小于”1944年的工资分布。他们找到了一种排序方法,但要用到一系列简单而繁琐的计数方法。
这促使曼和惠特尼设计了一个检验统计量,该统计量的分布也能用组合数学计算出来,与威尔科克森的计算类型一样。他们在1947年发表了一篇论文,介绍这种新方法,这已经比威尔科克森发表的论文晚了两年。很快便发现,威尔科克森检验(Wilcoxon test)和曼-惠特尼检验(MannWhitney test)密切相关,产生同样大小的P值。但是,这两个检验统计量引出了一些新的东西。直到威尔科克森发表之时,统计学界普遍认为,所有检验统计量都是建立在数据分布的参数估计基础上的。但是新的方法是一种无需估计任何参数的检验方法,仅需要将观测数据的散点图与纯随机分布所预期的情形进行比较,这属于一种非参数检验(nonparametric test )。
由此,统计学在K?皮尔逊一些初步的想法之上迈出了革命性的一步,现在无需使用参数就可以处理数据分布的问题了。在西方,多数人都不知道,其实在20世纪30年代后期,苏联的安德烈?柯尔莫哥洛夫和他的一个学生N?V?斯米尔诺夫(N。 V。 Smirnov)就发展出了一种不同的无需使用参数的分布比较方法。威尔科克森、曼和惠特尼的研究发展了数学研究的一个新领域,将注意力引致了有序秩(ordered ranks)的根本性质上,斯米尔诺夫-柯尔莫哥洛夫的研究成果也很快被纳入其中了。
进一步的发展
一旦在数学研究中出现了一个新的领域,就会有人用不同的方法去思考。在威尔科克森最初的研究后,很快就涌出了许多不同的替代方法。赫尔曼?谢诺弗(Herman Chemoff)和I?理查德?萨维奇(I。 Richard Savage)发现,威尔科克森检验可以看作是次序统计量(ordered statistics)的期望均值,他们还能将非参数检验扩展为关于不同基础分布(different underlying distribution)的一系列检验,都不需要进行参数估计。到了20世纪60年代早期,这类检验(现在被称为“非参数检验”(distributionfree tests)成了最热门的研究课题。一些博士研究生选择该理论中的某些小问题来做学位论文,一些会议专门讨论这种新的理论。威尔科克森也继续进行该领域的研究,提出了组合计算的更为精巧的算法,扩展了检验的应用范围。
1971年,捷克斯洛伐克的雅罗斯拉夫?哈耶克(Jaroslav Hájek)写了一本权威的教科书,书中提出了该领域的一般性理论。他针对所有的非参数检验作了根本性的一般化,将一般化的方法与中心极限定理(the central limit theorem)的林德伯格-利维条件(LindebergLévy conditions)联系起来了。这正是数学研究中常用的方法。从某种意义上说,所有的数学实际上都是相互联系的,但是这些联系的准确性质和用于挖掘这些联系的见识,常常需要很漫长的时间才能显现。哈耶克于1974年去世,年仅48岁。
当弗兰克?威尔科克森试图将其在统计上的研究成果推广应用时,他放弃了最初的化学领域,而是在美国氰氨公司及其勒德勒实验分室(Lederle Labs divison)建立了一个统计服务小组。1960年,他来到了弗罗里达州立大学(Florida State University)的统计系,成为一名倍受尊敬的老师和研究人员,指导了几名博士研究生。当他在1965年去世后,身后的学生和统计创新方法,仍然对统计学产生着重大的影响。
尚未解决的问题
非参数检验的发展促使人们在这一新领域进行了大量的研究。然而,在以前所用的参数方法与非参数方法之间,好像并没有什么明显的联系,因而还有两个问题尚未解决:
1。 若数据具有一个已知的参数分布,如正态分布,这种情况下我们采用非参数分析方法会有多不好?
2。 若数据不太适合采用参数模型(parametric model),那么数据必须偏离参数模型多远时,使用非参数方法才会更优?
1948年,《数理统计学年报》的编辑收到了一篇来自塔斯马尼亚大学(the University of Tasmania)的一位不出名的数学教授的论文,这所学校位于澳大利亚南部的海滨小岛上。这篇杰出的论文一举解决了上述两大难题。那时,埃得温?詹姆斯?乔治?皮特曼(Edwin James Gee Pitman)已经在《皇家统计学期刊》上发表了3篇早期的论文,在《剑桥哲学学会会刊》(the Proceedings of Cambridge Philosophical Society)上发表了一篇论文,回过头去看,后一篇论文奠定了他后续研究的基础,但是它被人们忽略或是遗忘了。除了那4篇论文,在向《数据统计学年报》投稿时,已经52岁的皮特曼没有发表过其它的著作,也没什么名气。
E?J?G?皮特曼于1897年生于澳大利亚的墨尔本。他考入墨尔本大学(the University of Melbourne)念本科后,由于第一读世界大战而中断了学业,服了两年兵役后,他回到学校念完了本科。“那时,”他后来写道:“澳大利亚的大学没有数学方面的研究生院。”一些大学为优秀学生提供奖学金,到英国继续上研究生,但是墨尔本大学没有。“当我学习4年后离开墨尔本大学时,我尚未接受过研究方面的训练,但是我想我已经学会该怎么去学习和使用数学,可以去就应付所碰到的任何问题……”然而,首要的问题是要赚钱来养活自己。
塔斯马尼亚大学正要找人教数学,皮特曼去应聘而成为了一名数学教授。整个系就两个人,一位新来的教授和一位兼职计量。该系要为所有其它系的本科生上数学课,因此新教授忙着讲课,占去了几乎所有的时间。当理事会决定招聘一位全职的数学教授时,一位理事曾听说过数学有一悠闲的的分支叫做统计学,因此问应聘者是否准备讲统计学的课程(不管统计学到底是什么东西)。
皮特曼回答:“我并不能说我具备统计学的专业理论知识,但是如果被聘用,我将稍做准备,在1927年开出这门课。”他不具备统计的专业知识,也不具备统计理论的任何其它相关知识。在墨尔本大学,他学地一门高级逻辑学的课程,老师用了几次课来介绍统计学。正如皮特曼所指出的,“当时,也就是在那里,我认定统计学并不是我所感兴趣的东西,也永远不会为它而苦恼。”
年轻的E?J?G?皮特曼在1926年秋天来到了塔斯马尼亚州的霍巴特(Hobart),只不过是一个本科生而已,却顶着教授的头衔。这是一个偏远的省级学校,根本感受不到身处伦敦和剑桥那种学术圈内的骚动。他写道,“直到1936年我没有发表过任何东西。之所以迟迟没有东西发表,主要有两个原因:一个是工作负担繁重,另一个是我所受教育背景的限制。”他的意思是说,他在数学研究方法上的训练不够。
到了1948年,当他将那篇非凡的论文投到《数理统计学年报》的时候,塔斯马尼亚大学数学系队伍有所壮大,已有一位教授(皮特曼)、一位副教授、、两位计量和两名助教。他们所开的数学课名目众多,既有应用数学方面的,也有理论数学方面的。皮特曼每周上12次课,周六也上课,同时获得了一些研究资助。从1936年开始,联邦政府为了促进澳大利亚高校的科学研究,每年拨出30000英镑进行资助。这些经费按人口在各州分配,因为塔斯马尼亚是一个较小的州,因此全校每年总共能得到2400英镑的资助。至于皮特曼能分到多少,他没有说。
慢慢地,皮特曼开展了多方面的研究,他发表的第一篇论文是关于流体力学中的一个问题。随后的3篇论文研究假设检验理论中几个特别的问题,这些论文本身倒并不怎么值得称道,但却是皮特曼的习作,探讨如何来发展自己的观点,怎样将数学的不同分支想到联系起来。
直到他开始撰写1948年那篇论文,皮特曼才建立起有关统计假设检验的性质以及过去的检验(参数方法)与新的检验(非参数方面)之间相互关系的一个清晰的逻辑框架。凭借着新方法,他解决了上述两大难题。
他的发现令人惊讶,甚至当原来的假设为真时,非参数检验也几乎与参数检验一样的棒。皮特曼成功地回答了第一个问题:当我们知道参数模型和本应使用特定的参数检验时,如果还使用非参数检验,结果会有多差呢?皮特曼的答案时,根本不差。
第二个问题的答案更让人吃惊。如果数据不适合用参数模型,得差多远时使用非参数检验才会更好呢?皮特曼的计算表明,只需稍稍偏离参数模型,则非参数检验将远远地胜过参数检验。看起来,曾经深信别人早已做出了这个简单发现的化学家弗兰克?威尔科克森,似乎也是在无意中碰到了统计学中一块真正的点金石(philosopher’s stone)。皮特曼的结论表明,所有的假设检验都应该是非参数方法的。K?皮尔逊发现了带参数的统计分布,这仅仅是第一步,现在,统计学家们在解决统计分布的问题时,无需再为参数而烦恼了。
数学这东西往往是玄而又玄。在那些看似简单的方法背后,威尔科克森、曼、惠特尼和皮特曼对数据的分布作了一系列的假设,要理解这些假设或许又得花上一个25年的时间。第一个烦人的问题是由芝加哥大学(the University of Chicago)的R?R?巴哈杜尔(R。 R。 Bahadur)
快捷操作: 按键盘上方向键 ← 或 → 可快速上下翻页 按键盘上的 Enter 键可回到本书目录页 按键盘上方向键 ↑ 可回到本页顶部!
温馨提示: 温看小说的同时发表评论,说出自己的看法和其它小伙伴们分享也不错哦!发表书评还可以获得积分和经验奖励,认真写原创书评 被采纳为精评可以获得大量金币、积分和经验奖励哦!