友情提示:如果本网页打开太慢或显示不完整,请尝试鼠标右键“刷新”本网页!
女士品茶-第19部分
快捷操作: 按键盘上方向键 ← 或 → 可快速上下翻页 按键盘上的 Enter 键可回到本书目录页 按键盘上方向键 ↑ 可回到本页顶部! 如果本书没有阅读完,想下次继续接着阅读,可使用上方 "收藏到我的浏览器" 功能 和 "加入书签" 功能!
对图基来说,世上没有什么事情会因为平凡而不值得去发挥原创力,也没有什么事情神圣到不容质疑。就拿最简单的记数过程来说:许多读者在计数某种东西时,或许已使用过一种记数符号。一代代的老师教我们的常用的符号就是先画4条垂直竖短线,第五条线穿过这4条线,表示5个数。不知读者看到过多少这样的场景:衣衫褴褛的犯人在监狱的墙上画下了一串串这样的计数符号。
图基说,这其实是一个愚蠢的记数方法。想想看,它多么容易出错。你可能画了三条竖线就画一个横线,也可能画了五条竖线后才画横线,这种记数法即使错了也很难发现,除非你仔细检查所画垂直线的数量。用一种容易找到误差的记数符号似乎更有意义。图基提出了十笔记数法:首先画四个点作为方型的四个角,然后再把四个点连成四条线,形成一个方型,最后在方型内画两条对角线。画完之后是十笔。
上述这此例子,快速傅立叶变换、探索性数据分析,都只是图基巨大成就的一部分。就像毕加索从立体主义到古典主义,从雕塑再到建筑,图基在20世纪下半叶,畅游于统计学的各领域,从时间序列(time series)、线性模型(linear models),到费歇尔的一些被人遗忘的研究工作的推广,再进一步到稳健估计(robust estimation)及探索性数据分析。他从研究深奥的数学理论起家,又因思考和解决实际问题脱颖而出,最后落脚在研究无结构的数据估计上。在他研究的所到之处,统计变得与以往大不相同。就在2000年夏天,也就是在他去世的当天,他还和朋友、同事们在一起,讨论问题,提出自己的新观点,并对以往的旧观点展开质疑。
第23章 处理有瑕疵的数据
证明统计方法用途的数学定理通常都假设:在科学实验或观察中的测量值都是同样有效的。如果分析者在进行分析时,只选择数据中他认为看起来是正确的数据来分析,那么统计分析结果可能就会产生非常严重的错误。当然,这正是以前科学家们通常的做法。早在20世纪80年代初期,S?施蒂格勒阅读了18世纪和19世纪许多伟大科学家们的笔记本,比如,因为确定了光速而获得1907年诺贝尔奖的艾伯特?迈克逊(Albert Michelson)。施蒂格勒发现,所有这些科学家在开始他们的计算前已经剔除了一些数据,17世纪初就发现行星绕太阳以椭圆轨道运行的科学家约翰尼斯?开普勒(Johannes Kepler),他在研究古希腊天文学家的记录时,发现有一些观测位置记录不符合他正在计算的椭圆轨道,于是他就忽略了这些缺损数据(faulty value)
但是现在,值得尊敬的科学家们不再抛弃那些看起来是错误的数据,统计革命在科学界的广泛影响,教会了现在的实验科学家们不要剔除任何数据。统计学的数学定理要求同等对待所有的数据。但如果有些数据的确错了,我们该怎么办?1972年的一天,一位药理学家带着这样一个问题来到了我的办公室。他在小白鼠身上研究溃疡的预防,正在比较两种不同的处理方法,他确信这会产生截然不同的结果,而且他的数据看起来也显示同样的结论,但是当他依据奈曼-皮尔逊的理论进行正式的假设检验时,比较结果并不显著。他确信问题出在两只小白鼠的观测数据上,这两只小白鼠使用了不足量药剂,尔后都没有发生溃疡,使得它们的结果看起来要远远好于另外一种处理方法的实验结果——而那本应该是最好的。我们在第16章已经看到了非参数方法是如何发展起来去解决这一类问题的。这两个离散数据刚好处于错误的一边,而且数量上还是两项,所以即使用非参数检验结果也不显著。
如果这种事情发生在一百年前,这个药理学家就可以剔除这两个错误的数据,继续进行他的计算,不会有人提出异议。但是,他已经学习了现代统计方法,他知道他不能够这样做。很幸运,当时我手头正好有一本刚读过的新书,书名是《位置的稳健估计:调查与与改进》(Robust Estimates of Location: Survey and Advances),它记述了一项重大的主要应用计算机进行的研究成果,即约翰?图基进行的我们称之为“普林斯顿稳健性研究”(Princeton Robustness Study),在这本书中我们可以找到这位药理学家问题的答案。
“稳健(robust)一词对很多美国人来说,听起来很奇怪。许多统计学术语都来自于英国的统计学家,并且都反映了他们的语言习惯。例如,在英国,把数字微小的随机波动称为“误差”(error)是很普遍的 ,有时候,数据不仅是明显错误的,而且由这引动错误造成的结果的原因也是可能看出来的,例如一块田里的农作物绝产。这样的数据被费歇尔称为“谬误”(blunders)。
是乔治?博克斯(Gee Box)——费歇尔的女婿,在他的英国语言应用习惯的基础上发明了“稳健”(robust)这个词。博克斯有很得的口音,这主要是因为他最初成长在泰晤士河附近。他的祖父当时是一个五金器具批发商,生意很不错,供博克斯的伯父们读完了大学,其中有一位还成了神学教授。当博克斯的父亲成年时,祖父的生意已经失败,他父亲没有受过高等教育,只好去作一个商店主的助理,靠薪水维持全家人的生活。博克斯上了中学,知道他没有钱上大学,所以他开始在一个技校里学习化学。这时,第二次世界大战爆发,博克斯应征入伍。
因为有学习化学的背景,他被分配去化学防御实验部门工作。在那里,许多顶尖的英国药理学家和生物学家正致力于不同毒气解毒方法的研究。约翰?加德姆爵士(Sir John Gaddum)也在这些科学家中,他在20世纪20年代末将统计革命引入药理学,并且为药理学的基本概念赋予了一个牢固的数学基础。
博克斯成为一个统计学家
博克斯的上司是一个陆军上校,他对收集来的大量数据感到束手无策,这些数据记录的是不同剂量的不同毒气在老鼠和小白鼠身上的不同反应。他搞不清楚这些数据说明了什么,就像博克斯在1986年叙述的那样:
有一天,我对长官说:“你知道,我们真的需要有个统计学家来帮我们看看这些数据,因为它们变化太多了。”他说:“是呀,我知道。但是我们找不到一个统计学家,因为它们都很忙。你对统计知道些什么?”我说:“噢,我对此一无所知,但是我曾经读过一本书叫《研究工作者的统计方法》,是一个叫费歇尔的人写的,我没看懂,但是我想我明白了他正在做什么。”于是长官说:“那好,如果你读了这本书,最好由你来做这件事吧。”
于是,博克斯与军队的教育机构联络,要求去进修统计方法的课程。但是当时没有这样的课程,统计分析方法还同有成为大学的正规课程,但是他们送给博克斯一份阅读书目,书目无外乎最新的图书出版信息,其中列有费歇尔写的两本书,一本关于教育研究的统计方法,另外一本关于医学统计学,此外,还有一本书是谈林业和牧场管理的。
博克斯对费歇尔的实验设计非常感兴趣。他在那本关于林业管理的书中发现了几个特别的设计,并将这些设计改造,使之适合于进行动物实验(当时科克伦和考克斯合著的《实验设计》一书尚未出版,书中有许多细心描述的实验设计)。通常由于书中所列的实验设计不是很适用,所以博克斯就参照费歇尔的一般性的描述,结合他的发现,考虑了自己的实验设计。其中有一个最让人感到奇怪的实验是:让志愿者两臂各露一小块皮肤,暴露在不同的毒气下,然后采用不同的治疗方法。每个人的两臂是相关的,因此在分析时必须考虑这个因素,必须做一些处理,但是在这本关于林业的书中没有这方面的论述,在费歇尔的书中也没有类似的论述。所以,博克斯这个只在技校里不完整地进修过一些化学课程的,只好从基本的数学原理开始,创造出适用的实验设计。
博克斯实验设计的实力在一个否定结论的实验中表现出来。一个美国眼科专家带着他认为对刘易士毒气(lewisite)治疗效果极好的解毒剂来到了博克斯的实验室。刘易士毒气毒性极强,一小滴就可导致失明。他在美国已经在兔子身上做了很多次试验,他的厚厚的论文也证明了他的药剂效果极好。当然,他根本不知道费歇尔的实验设计,事实上,在他的实验中漏洞百出,实验设计中有许多与结果无关的因素没有分离出来,这样的设计是不可能得到真实的结构的。兔子有两只眼睛,于是博克斯利用他的新设计针对这个事实提出了一个非常简单的实验,这个实验很快显示这种解毒剂根本是无效的。
他们准备写一份描述这些结论的报告,作者是一个英国军官,博克斯负责写统计附录,即解释这个结论是怎样得出的。一个负责审核报告的军官坚持删除博克斯写的那部分,他认为这部分太复杂了,没有人能看懂(事实上是这位负责审查的人看不懂)。但是约翰?加德姆爵士已经阅读了初稿,他跑去恭贺博克斯在附录部分所做的工作,得知这部分将在最终报告中删除,于是他拉着博克斯怒气冲冲地闯进了组合行军棚屋,当时审查报告委员们正在开会,用博克斯的话说:“我感到很尴尬,这个非常有名的大人物为在场的所有国家公职人员读了一段我写的附录,然后说:‘把这些东西给我放回去’。”他们很快就照办了。
战争结束后,博克斯认为去学习统计学是非常有价值的,他已经读了费歇尔的书,知道费歇尔在伦敦大学的大学学院任教,于是他来到了这所大学,但是他不知道费歇尔已经在1943年离开了伦敦大学到剑桥大学任遗传系主任了。会见博克斯的是E?皮尔逊,费歇尔曾对他跟奈曼合作进行的假设检验进行过刻薄的批评。会谈时,博克斯热情洋溢地描述他对费歇尔理论的认识,介绍他在实验设计中的心得,皮尔逊静静地听着,最后说:“好吧,总之你可以来我校就读,但是我想你将来会知道,在统计界里除了费歇尔外,还有其他一个或两个人的存在。”
博克斯留在大学学院里学习,取得了学士学位,接着又继续攻读硕士学位。他发表了许多关于实验设计的文章,被认为可以当作博士论文,于是,他直接得到了博士学位。当时,帝国化学工业公司(Imperial Chemicals Industry(ICI))是英国最主要的发明新化学药品的公司,博克斯应邀参加了该公司的数学服务小组,他从1948年至1956年一直在ICI公司工作,其间他写了一系列的论文(通常是合著),这些论文扩展了实验设计方法,检验了一些在生产过程中为提高效益进一步调整产出的方法,同时,也是他后来对柯尔莫哥洛夫随机理论进行应用研究的起点。
博克斯在美国
博克斯到了普林斯顿大学任统计方法研究小组的负责人,接着到威斯康星大学开设了统计学系。他已经是所有重要统计组织的成员,因为他卓越的成就得到了好几项声望很高的奖励。即使在退休后,他仍然致力于学术研究和学术组织的管理工作。他的研究成果覆盖了很多统计研究领域,不但有理论研究还有应用研究。
博克斯在帝国化学工业公司工作时认识了费歇尔,但是私交并不深。当他在普林斯顿大学负责统计方法研究小组的工作时,费歇尔的一个女儿琼(Joan)得到了一个去美国的机会,她的朋友为她在普林斯顿大学找到了一个秘书的工作,博克斯与她相遇,后来两人结了婚。琼在1978年时出版了一本权威性传记,记录了她父亲和她丈夫的工作。
博克斯还有一个对统计的贡献就是“稳健”(robust)一词。他考虑到很多统计方法都是依赖于数学定理的,而这些数学定理对数据分布特性的假设可能不正确,如果数学定理的条件不成立,能找到可用的统计方法吗?博克斯提议称这些方法为“稳健方法”。他做了一些初步的数学研究,发现“稳健性”(robustness)的含义太不明确,但他反对对此概念赋予更加明确的含义,因为他认为一个概括性的模糊思想会对方法的选择更加有利。然而,这种思想本身还是得到了发展,用一个术语定义假设检验的稳健性就是:误差概率(the probability of error)。斯坦福大学的统计学教授布拉德利?埃弗龙(Bradley Efron)把费歇尔的一个几何学概念作了延伸,他在1968年证明了“学生”t-检验具有稳健性,他还用E?J?G?皮特曼(E。 J。 G。 Pitman)的方法证明了大多数的非参数检验也是同样稳健的。
20世纪60年代末,普林斯顿大学的图基和他的研究小组成员以及他的学生们,研究如何处理那些显而易见是错误的测量值。他们的成果就是1972年发表的“普林斯顿稳健性研究”。这项研究的基本观点是有瑕疵的分布(contaminated distribution)(有的辞典上将之翻译为污染分布——译者注)。通常情况下,我们假设取得的测量值绝大部分是来自于一个概率分布,而且这个概率分布的参数是我们要估计的,但是,测量值当中总会有极少的一些测量从上到下为自于另外一个分布,所以我们说这些测量值是有瑕疵的。
在第二次世界大战期间,有一个典型的关于瑕疵分布的例子。美国海军改进了一种新型的光学测距仪,要求使用者用一个三维立体镜去看目标的影像,用一个大三角“罩”在目标上,为了确定这个仪器的统计误差,让几百名水手来试用,测量一个已知距离的目标。在试用前,根据随机数表重新确定了目标的位置,这样后来的水手就不会受先前已知位置的影响。
设计这个研究的工程师不知道,有20%的人看东西不是立体的。因为他们是我们所说的弱视(lazy eye),这样有五分之一的数据是完全错误的。单从手头研究得到的数据看,不可能知道哪些数据是来自于弱视者的,因此分不出哪些数据来自于有瑕疵的分布。
普林斯顿的研究是在计算机上实施蒙特卡罗法(Monte Carlo )模拟计算大量来自有瑕疵分布的数据,寻找估计这个分布的中心趋势的方法。当数据有瑕疵时,一般人通常喜欢用的平均数是不可靠的,关于这一点也有一个经典的例子,讲的是20世纪50年代耶鲁大学所做的一次试验,估计该校的毕业生10年后的收入情况。如果他们用平均值,那么收入是非常高的,因为有几个当时是千万富翁,但是,事实上,80%以上的毕业生平均收入均低于这个平均数。
“普林斯顿稳健性研究”发现,平均数在一个有瑕疵的分布中受个别值的影响往往很大,这正是那位药理学家告诉我的小白鼠溃疡研究实验中出现的数据问题,而这位药理学家所学的统计方法都是用平均值来做分析。读者可能会问:如果这些极端的、而且看起来是测量值实际上是对的,假设他们是属于我们正在检验的面盆,并不是来自另外的分布,会怎么样?如果将这些数据剔除,结论就会产生偏差。
普林斯顿的稳健性研究找到了一个解决方案,有以下两种方法:
1。 如果测量值有瑕疵,就降低瑕疵测量值的影响力;
2。 如果测量值没有瑕疵,就找出正确的答案。
我建议这个药理学家使用其中的一种方法,这样他就可以根据数据得出正确的结论。后来他的下一步实验得到了一致的结果,说明稳健分析是对的。
博克斯与考克斯
博克斯还在帝国化学工业公司工作的时候,他经常去拜访大学学院里的统计小组,在那里他遇到了大卫?考克斯。考克斯已经成为统计的主要创新者,是《生物统计》(K?皮尔逊的期刊)的主编。这两个人都觉得他们的姓氏相像,很有意思,而且博克斯和考克斯连起来刚好是英国戏剧里的一个术语,意思是一个赏扮演两个小角色,还是一个英国经典音乐讽刺喜剧中的两个人物的名称,剧中,博克斯和考克斯租住一间房里的同一张床,一个白天睡,一个晚上睡。
博克斯与考克斯决定共同写一篇论文。但是,他们在统计领域中的兴趣不同,随着时间的推移,他们一再地努力,但是他们的兴趣实在是太不相同了,这样,如果要共同写这篇论文,他们就不得不对各自持有的关于统计分析性质的不同角度进行调和。1964年,他们的论文终于在《皇家统计学会期刊》上发表,就如这篇论文广为人知一样,“博克斯?考克斯”成为统计方法中的一个重要部分。在这篇论文中,他们阐述了如何用一种方法转换测量值,使得大部分的统计程序更具有稳健性。用他们的名字命名的“博克斯-考克斯变换”(BoxCox transformations)方法用于研究化学物质使活细胞突变的效应,也用于经济计量分析,甚至用于农业研究——费歇尔方法最初产生的领域。
第24章 重塑产业的人
1980年,美国国家广播公司(NBC)播出了一部电视记录片,片名为《日本人能,我们为什么不能?》。美国汽车公司被来自日本的挑战震惊了:从70年代起,日本生产的汽车在品质上已远远超过了美国生产的汽车,但价格却比美国低得多。不仅是汽车,其它工业品,从钢铁到电子产品,日本和美国相比,在质量和价格上都占优势。NBC的记录片就是要探讨这是怎么发生的。这部纪录片实际上推出一个人——时年80岁的美国统计学家W?爱德华兹?戴明(W。 Edwards Deming),是他影响了整个日本的产业界。
一时间,戴明成为美国产业界的热门人物。其实,戴明自奉人1939年离开美国农业部以来,一直在产业界从事咨询顾问的工作。在从事这一职业的岁月里,他曾多次受美国的一些汽车公司的邀请,协助他们进行质量管理工作。正是在这一长期过程中,戴明对如何改进产业形成一套有效的方法。但是,美国这些公司的高层管理者却普遍地认为,质量管理不过是些“技术性”的细节,对此他们没有兴趣。他们认为,进行质量管理,只需雇请一些专门人员就足矣。到了1947年,G?麦克阿瑟(G。 Mac Arthur)将军被任命为日本占领区的联军最高怀念,他强迫日本政府采纳西方国家的民主宪政制度,并且召集了一批一流的专家来日本,以“美国方式”(American way)来教育这个国家。于是,他的手下将戴明以统计抽样专家的名义邀请到日本,教授日本人“美国人是怎么做的”。
戴明的课程深深打动了一个叫石川一郎(Ichiro Ishikawa)的日本人,所以,后来他作为日本科技与工程联合会(JUSE)的主席,再次邀请戴明来日本,在产业界的一系列研讨会上讲授统计方法。石川一郎在日本产业界很有感召力,在他的邀请下,许多高级管理人员也经常来听取戴明的讲课。在那个年代,“日本制造”这几个字,就是“廉价、粗制滥造的仿制品”的意思。在戴明的研讨会上,他大胆地告诉他的听众们,不出5年,这种善就可以改变。只要适当运用统计方法的质量控制,他们就能够生产出物美价廉的产品来,从而,他们将迅速占领世界各地的市场。戴明后来承认他所说的5年是低估了,日本人差不多只用了两年的时间就改变了他们的状况。
戴明的作为在日本的产业界产生了极其深远影响,为此,日本科技与工程联合会(JUSE)专门设立了一项以戴明的名字命名的年度奖,用以奖励产业界那些在质量管理方面做出杰出贡献的人。日本政府也看到了运用统计方法改进各项活动的前景。日本教育部还专门选择一天作为“统计日”(Statistics Day),在这天,学生们要开展统计知识创新展示的竞赛活动。总之,统计方法风行于全日本,这几乎全都来源于戴明的讲座。
戴明带给高级管理层的信息
1980年NBC的电视记录片播出后,戴明的名字开始在美国产业界受到欢迎。他开办了一系列的讨论,传授自己的美国管理理念。不幸的是,大多数美国公司的高级管理者并不明白戴明所做的事。他们只是派出一些已经知道质量管理的技术专家来听戴明讲课,很少有来自公司高级管理层的主管人员出席。而戴明的讲座内容主要是针对企业的高级管理层的,其中充满批判精神,听起来让人感到有些刺耳、不愉快。管理层,尤其是高级管理层,没有做好自己的工作。为了能以实例阐述自己的观点,戴明特意邀请了一批学员参与他在制造业的一项实验活动。
参与实验的学员被分成工人、巡视员和管理者三组。工人们将被训练从事一种简单的生产程序。先发给他们每人一个大圆桶,桶里装满珠子,珠子以白色的为主,其中搀有少量红色的。首先,工人们要竭尽全力摇晃这个圆桶,以使里面的珠子分布均匀,他们被告知此举是至关重要的一个环节。然后,发给他们每人一个木铲,木铲上面排列着50个小坑,每个坑的大小正好能放一颗珠子。要求工人们利用这个木铲从桶中取珠子,每次正好50颗。训练者告诉工人们,50颗珠子中红色的至多不能超过3颗,否则在市场上顾客不
快捷操作: 按键盘上方向键 ← 或 → 可快速上下翻页 按键盘上的 Enter 键可回到本书目录页 按键盘上方向键 ↑ 可回到本页顶部!
温馨提示: 温看小说的同时发表评论,说出自己的看法和其它小伙伴们分享也不错哦!发表书评还可以获得积分和经验奖励,认真写原创书评 被采纳为精评可以获得大量金币、积分和经验奖励哦!