统计学浅谈
作者:东北财经大学   … 文章来源:中国统计 点击数:10499 更新时间:2014/4/10 14:38:53
作为一名学习了5年统计学,以后可能继续与统计学打交道人,自己似乎还没有真真的系统思考过我天天接触过的统计学,恰好借这个契机好好整理整理关于它的一些认识。既然是学习马克思主义哲学之后,我觉得从哲学角度切入比较适合。因为自己之前都沉浸在统计学理论知识的学习之中,从未将统计学上升到哲学高度来论述,所以只能是浅见了。考虑到潜在的有可能是非统计专业者或者对统计还很不了解的读者,所以笔者认为有必要先介绍一些关于统计学的基本知识。 

    一、统计学是什么 

    南丁格尔曾经说过,若想了解上帝在想什么,我们就必须学统计,因为统计学就是在量测他的旨意。那统计学是什么呢? 

   (一)理论角度 

    从功能上来说,统计学是指研究如何搜集、整理和分析统计资料的理论与方法,它是关于总体现象特征和数量关系的学科;从研究角度上说,统计学可以分为数理统计学和社会统计学。数理统计是基于概率论的结果更深入地分析研究统计资料,通过对 

某些现象的频率的观察来发现该现象的内在规律性,并做出一定精确程度的判断和预测;将这些研究的某些结果加以归纳整理,逐步形成一定的数学概型,这些组成了数理统计的内容,它的研究对象是不确定的现象。社会统计学的研究对象主要是将数理统计学与各实质性学科结合,如生物统计学、人口统计学和医学统计等,大部分是数理统计的应用,它的方法基础是数理统计学,但对于确定性现象和模糊的不确定现象,则需要借助于其他非数理统计的方法,比如平衡表法、指数方法等。涉及其他学科的还有会计方法、应用矩阵方法,模糊学方法等,所以社会统计学并不仅仅是应用数理统计。统计学的另外一种分类是描述统计和推断统计,前者考虑怎样整理和概括大量数据,它是以总体全面资料或非随机性局部资料为基础的统计理论与方法体系;后者则考虑怎样根据样本推断总体。 

    (二)实践角度 

    我们所处的这个世界很奇妙,时问上没头没尾的,空间上没边没沿。世界万物错综复杂,但自然界和人类社会又好像都受到某种力量和规律的支配,日复一日、年复一年。相似的历史事件,自然现象的不断重复,使人们终于得出了这样一些结论:自然和人类社会是有序的,按完美的设计而恒定地运行着,从星体的运动到花粉在显微镜下的肆意跳动,从人的行为到观念,都是有规律的,这种规律虽然不受人的主观意志影响,却能被人的思维所理解。同时,人们意识到我们周围的事物没有任何一次重复是完全一样的,正所谓世界上没有两片完全一样的叶子。每天部会有白昼黑夜的交替,但不同时段,白昼黑夜占一天的比例并不相同;秋天来临,谷物丰收,但并不是每个稻秆上的谷子部那么饱满;人都会经历生老病死,但不同的地方人们的寿命却不一样;在一国内,同样的市场规则,每年的经济增长都不一样;一个村的甚至一个家庭的孩子,身高有高有低,同一个班的学生在毕业之际走向不同的工作岗位。任何科学都只能遇见大体上的重复现象。统计学就是在大量的现象中,通过观察彼此差异推断描述规律;通过现实走向理性,走向混沌,走向秩序的学科。 

    二、统计之于哲学 

    统计学与哲学的关系不是包含的关系,从现代学科划分体系来看,它们都属于横断学科。从哲学的观点看,统计学也是一种认识方法体系,它所遵循的认识程序在逻辑上属于归纳推理范畴,即从个别事实的数据观测和资料采集到总体一般特征的概括或推论。这使统计学成为增进人类认识水平和知识财富的有效工具之一。很自然地,哲学的认识论原理辩证唯物主义认识论和归纳逻辑思想构成了统计学的一般方法论基础。尤其是辩证唯物主义关于个别与一般、偶然性与必然性的关系的原理等,能为深刻理解统计方法的本质提供有益启示。 

   (一)统计学中体现的普遍性与特殊性的辩证关系 

    对立统一规律则是马克思主义唯物辩证法的实质和核心,它揭示了事物发展的动力和源泉。矛盾是事物之间或事物内部的各要素之间的对立统一。而矛盾问题的精髓是矛盾的普遍性和特殊性,即共性与个性、绝对和相对的关系。矛盾的普遍性和特殊性 

是辩证统一关系二者是有区别的。矛盾的普遍性是指矛盾无处不在,无时不有,是事物的共性,是无条件的、绝对的;矛盾的特殊性是指每一事物的矛盾及矛盾的不同方面都有其特点, 

是事物的个性,是有条件的、相对的。矛盾的普遍性和特殊性又是相互联结的:第一,矛盾的普遍性存在于特殊性之中,即共性存在于个性之中,共性离不开个性,普遍性离不开特殊性;第二,矛盾的特殊性一定与矛盾的普遍性相联系而存在,特殊性离不开普遍性,即个性必然与共性相联系而存在;第三,矛盾的普遍性和特殊性在一定的条件下相互转化。在一定范围、时间内是普遍性的东西,在另一范围、时间内则变成特殊性的东西,反之亦然。统计学的推断体现了普遍性与特殊性的辩证关系。 

    统计学是基于无序中寻找有序的规律,即摒除特殊性的影响,寻找普遍性,并通过设定误差项未修正共性(规律),匹配个性(随机性)。比如,要测量你所在学校学生的智力水平,有的学生智商是120,有的学生是115,有的是l05……这些同学都不具有确定性,事先无法把握,也就是具有随机性,所以测量一个学生不能反映全部学生的智商分数,那就要多测一些同学,你可能就会发现这些同学的智商水平围绕着某一个居中的水平 

上下波动,这个居中的数据往往能吏好地代表同学的水平,也就是揭示共性,又比如马有白马、黑马和又白又黑的马,有公马和母马,有耐力好的马和耐力差的马,而颜色、性别和耐力性组合又可以有不同颜色不同性别的不同耐力的特性马,看似杂乱无序 

的马是不是无从下手?采用描述统计学的方法,我们可以先设定一批样本马,不区分其个性(颜色、性别、耐力),我们可以记录所有马的一生各种数据,通过分析数据,推断马这种生物(整体)的特性(规律),较为准确地破解它们的自然密码,如繁殖期、生长规律,生命周期等。同时,我们也可以基于共性,去了解个性的影响,如区分公马和母马,胖马和瘦马,耐力好的马和耐力差的马。分别记录其各种数据,可以了解各种马的特性,以及产生的原因,通过统计其他的方法(如方差分析法,分析其他性质下,某个性质不同对个性的影响),可以确定某种特性马的特有性质。 

   (二)统计学中体现的偶然性与必然性的辩证关系 

    学奖获得者C·R·劳有一句名言:“在理性的基础上,所有的判断都是统计学。”统计学能帮助我们通过偶然性揭示必然性。 

    1985 年,研究莎士比亚的学者,从1775年以来保存在图书馆的收藏中发现了写在纸片上的9节新诗,新诗只有429个字,没有记载谁是诗的作者。这首诗是莎士比亚的作品吗?在文学界争论无果的情况下,人们将问题交给了科学界。两位统计学者 

Thisted Efron 1987 年研究了这个问题,结论是这首诗用词的风格与莎士比亚的风格非常一致。这个结论是怎么来的呢? 

已知莎士比亚所有著作的用词总数为884647个,其中31534个是不同的,这些单词出行的频率如下: 

1用词频率 

使用的频数    1      2    3    4    5    6    ...>100  总数 

不同单词数   14376  4343  2292  1463 l043  837   ... 846  31534 

    新诗的429 个单词中有258 个是不同的,这些不同单词的出现频率分布与上面表格非常一致,这表明了新诗的作者可能是莎士比亚。 

    复旦大学李贤平教授用统计学中的聚类分析方法研究《红楼梦》的作者,认为虚词的使用频率能够代表一个人的写作风格。最终的研究结论是:80回与后40 回确定出自两个不同风格的人的手笔,但在中间诸多章节,至少经过五六个人修改过。 

    上述引用的两个列子表明,统计学方法能够透过偶然性现象(不经意的用词频数)抓住必然性的规律(作家身份),体现了哲学中的偶然性与必然性的辩证联系,并在实践中应用辩证联系把握实际问题。 

   (三)统计学中体现的归纳推理范畴 

    归纳是从个别事实中概括出一般概念、结论的思维方法。统计学中的一个重要方法是抽样技术,而抽样技术的目的是合理地抽取样本进行统计推断总体规律。统计通过大量现象推导规律是一个逼近的过程,误差总是避免不了的。以重复抽样为例,在重 

复抽样的条件下,用Δ表示允许误差,用δ表示总体标准差,用1-α表示可靠性,用ζ 表示相应的概率度,ν表示样本容量。那么,允许误差的公式可表述如下: 

      Δζ=ζ公式(3.1 

    由公式(3.1)可知。误差的大小与样本的大小有关。 

    因为现实很多是不可进行试验的,或者是破坏性试验,或者是成本太高,所以我们只能采取用样本推断总体,虽然不免有偏误,但是可以通过方法的改进,如样本选取方法等,进行控制。 

借由此,可以无限逼近真实总体的规律。比如质量检测,对灯泡寿命的检测,我们不可能对生产线生产的所有灯泡进行寿命测试,因此,我们可以依据一定的方法选取样品来测试,以样品的性质来估算总体的。当然,谈到质量检测,不得不对感叹我国质量检测工作,市面上流行的各种有害食品、用品等,各种有害物质的超标,不可否认质监局部门的失职,或许是标准不一样,但是质监部门的工作人员统计素养一定得提高,因为食品安全(有 

些用品也如此)是危及广大百姓生命安全的。 

    (四)统计学中体现的辩证联系的思维方式 

    马克思主义哲学指出,联系是指事物间、现象间的相互影响、相互制约、相互作用的关系,联系具有普遍性,联系的普遍性表现在三个方面世界上每一事物、现象都不能孤立地存在,都同周围的其他事物、现象有某种联系或关系。整个世界是一个相互联系的统一整体。ƒ每一事物和现象都是整个世界普遍联系之网上的一个环节,每一事物通过自身体现出联系的普遍性。 

    统计分析中的一个重要分析方法是相关性分析,或者利用相关系数(简单线性相关系数,偏相关系数,复相关系数),或者利用回归的方式等研究现象之间的联系是辩证联系观点的很好实践。现实中利用统计相关性对数据进行分析,挖掘其内在联系的成功案例很多,比如经典范例:全球最大的零售商沃尔玛通过分析顾客购物的数据发现,很多周末购买尿布的顾客同时也购买啤酒,经过深入观察和研究发现,美国家庭购买尿布的多是爸爸,后来沃尔玛就把尿布和啤酒摆放的很近;从而双双促进了尿布和啤酒的销售。 

    但是一旦偏离辩证联系关系原理时,统计学也不免出笑话,因为辩证联系原理去出联系是具有多样性的,不一定是因果关系,可以是同为其他事件的因,或同为其他事件的果,等等。 

统计资料表明大多数汽车事故出在中等速度的行驶中,极少的事故是出在大于150公里/小时的行驶速度上的。这是否意味着高速行驶比较安全呢?绝不是这样。统计关系揭示的往往不能表明因果关系,由于多数人是以中速开车,所以多数事故是出在中等速度的行驶中。 

    三、统计之于生活 

    作为人生阅历不多的人,而且统计生涯也不够长的人,似乎没有资格去谈统计对生活的影响。但一方面自己作为统计学生,闲暇之余看看前辈大师关于统计的人生感悟,觉得对自己人生观确实有些启发,奇思共赏之。另一方面,自己几年的统计素养确实在自己日常生活方面,起到了有益的帮助。这里我只是给大家提供一个思考角度,或者一种人生态度,分享一种方法,你认同或部分认同或者完全不认同是个人自由。 

   (一)统计使人豁达 

    培根曾说过,“历史使人明智,诗歌使人巧慧,数学使人精细,博物使人深沉,伦理使人庄重,逻辑与修辞使人善辩。”而统计对人生有什么好处呢?邱东教授认为,统计使人豁达。他认为,第一,良好的统计训练使人宏观意识比较强。统计的训练使人宏观意识得到强化,遇到问题习惯将之放在大环境中去考虑。只有在大系统中去把握,所得结论才会是可靠的。统计训练给人的感觉就像,会当凌绝顶,一览众山小。第二,良好的统计训练还能使人在看待问题和处理问题时不那么偏激,统计中的平均分析和平衡分析(国民核算)都在教导我们对事物持中庸的态度。知道了平均水平,便把握了事物的一般趋势,心中有底;同时也知道事物围绕着平均水平还会有变异,当好的极端出现时,能受宠不惊,而当差的极端出现时,又可泰然处之。第三,良好的统计训练能培养人的分寸感,统计研无是与数据打交道的,注重的是数量规律,而事物量变突破二定酌度就会引起质变,由于对量的把握强,所以很容易掌握量变到质变的临界值,也就是度 

的分寸感。 

    ()统计使人生丰富 

    台湾辅仁大学教授谢邦昌认为,用统计的概率性,量化的特性未分析身旁的事物,在相关数据清楚的情况下做决策,能帮助人们较少做错误的或不适宜的决策,增加较为准确的或合适的决策,那么我们无论在理财、事业、家庭或健康等任何方面,都可 

以让我们变得更为富有。 

   (三)统计使人透彻 

    在我看来,在现代的数字化信息社会中,在一个越来越依靠数据说话的社会。我们接触到了越来越多的统计数据和资料,例如各种经济数据、证券信息、投资可行性研究报告、公司财务报告等。我们不得不与更多的数据信息打交道,我们的很多看法、观念都以数据信息为媒介形成,例如我们对经济形势的判断是靠季度发展数据,对物价水平的判断是靠CPI数据。数据会说实话,也会说谎,如果不了解数据信息的来源、加工和功能,我们很容易依据数据信息对现实产生误判、误解,导致做出错误的决策,造成不利的后果。让我们看看以下的例子。 

    很久以前,当美国约翰·霍普金斯大学开始接收女学生时,一个不赞成异性同校的人做了一个惊人的报道:该校1/3 的女学生嫁给了老师。光看这数字太雷人了!但如果我们有基本的统计素养的话,我们一定会接着问比例数据的基数,也就是该学校有多少女生。原始数据清楚描绘了事实:那年总共只有3名女同学被录取,其中1人嫁给老师! 

同样,在《how to lie with statistics》中,作者举了一个平均数的例子,作为一个房产推销商甲,为了招揽中层阶级或者那些有意进入富人社区的买房者丙,采用算术平均数来说明小区居民年收入水平为lOOOO英镑(1978 年的水平),不管怎样,买卖最终成交了,那美妙的数字也被牢记在顾客丙的脑海。但作为纳税委员会的成员乙,他正在四处奔走,为降低税率、降低财产估价、或降低公共交通费用而呼吁。他的理由是:他们支付不起各种上涨的费用,毕竟,附近居民的平均年收入只有2000英镑。但是,当听到那可怜的2000英镑时,顾客丙多半会大吃一惊。到底是甲撒谎了呢?还是乙撒了谎? 

其实,这里的伎俩是不同平均数的选用,为了反映集中趋势,统计中采用了不同的方法,位置平均数和算术平均数,二者相去甚远。算术平均数易受极端值的影响,比如世界首富比尔盖茨走 

进东财校园的时候,校园里的每一位同学的平均身价都能达到千万元。而位置平均数选择的是位于数据某个位置的。位置平均数是指按数据的大小顺序或出现频数的多少,确定的集中趋势的代表值,主要有众数、中位数等,它们的优点是不会受极端值的影响,在一组数据中,如果个别数据有很大的变动,选择位置平均数表示这组数据的“集中趋势”就比较适合。所以,当你具备一点统计知识之后,下次人家提平均数的时候你一定会问,是什么类型的平均数?哪些人的平均(有没有李嘉诚、宗庆后等)? 

    你一定会对数字生活理解得更加透彻,而不会被商家类似的伎俩所骗。 

文章录入:商洛市统计局    责任编辑:商洛市统计局 
  • 上一文章文章:

  • 下一文章文章:
  •  
    商洛市统计局计算站 版权所有 电话:0914-2312014
    地址:商州区民主路1号 邮编:726000 备案号:陕ICP备15001476号 网站标识码:6110000023