[PDF] GB/T 3358.1-2009 - 英文版
| 标准号码 | 美元 | 购买PDF | 工期 | 标准名称(英文版) |
| GB/T 3358.1-2009 | 1214 | GB/T 3358.1-2009 | <=7 | 统计学词汇及符号 第1部分:一般统计术语与用于概率的术语 |
| 基本信息 | |
|---|---|
| 标准编号 | GB/T 3358.1-2009 (GB/T3358.1-2009) |
| 中文名称 | 统计学词汇及符号 第1部分:一般统计术语与用于概率的术语 |
| 英文名称 | Statistics -- Vocabulary and symbols -- Part 1: General statistical terms and terms used in probability |
| 行业 | 国家标准 (推荐) |
| 中标分类 | A41 |
| 国际标准分类 | 03.120.30 |
| 字数估计 | 61,692 |
| 发布日期 | 2009-10-15 |
| 实施日期 | 2010-02-01 |
| 旧标准 (被替代) | GB/T 3358.1-1993 |
| 采用标准 | ISO 3534-1-2006, IDT |
| 标准依据 | 国家标准批准发布公告2009年第11号(总第151号) |
| 发布机构 | 中华人民共和国国家质量监督检验检疫总局、中国国家标准化管理委员会 |
| 范围 | GB/T 3358的本部分规定了用于标准起草的一般统计术语、用于概率的术语的定义及部分术语的符号。本部分中的术语分为:a)一般统计术语(第1章);b)用于概率的术语(第2章)。附录A列出了本部分推荐使用的符号。附录B和附录C是本部分所有术语条目的概念框图。 |
GB/T 3358.1-2009: 统计学词汇及符号 第1部分:一般统计术语与用于概率的术语
ICS 03.120.30
A41
中华人民共和国国家标准
GB/T 3358.1-2009/ISO 3534-1:2006
代替GB/T 3358.1-1993
统计学词汇及符号
第1部分:一般统计术语与
用于概率的术语
(ISO 3534-1:2006,IDT)
2009-10-15发布
2010-02-01实施
中华人民共和国国家质量监督检验检疫总局
中国国家标准化管理委员会发布
目次
前言 Ⅲ
引言 Ⅳ
范围 1
1 一般统计术语 1
2 用于概率的术语 14
附录A(资料性附录) 符号 33
附录B(资料性附录) 统计概念图 35
附录C(资料性附录) 概率概念图 41
附录D(资料性附录) 定义标准中的术语所使用的方法 45
参考文献 48
索引 49
汉语拼音索引 49
英文对应词索引 52
GB/T 3358.1-2009/ISO 3534-1:2006
前言
GB/T 3358《统计学词汇及符号》分为以下部分:
---第1部分:一般统计术语与用于概率的术语;
---第2部分:应用统计;
---第3部分:实验设计。
本部分为GB/T 3358的第1部分,等同采用ISO 3534-1:2006《统计学 词汇及符号 第1部分:
一般统计术语与用于概率的术语》。与ISO 3534-1:2006相比,订正了原文的错误,修正原文中概念表
述不够准确的部分,主要变化如下:
---删去了1.24原文中的注1;
---2.38示例中变异系数的计算式“0.99/0.995=0.99497”更正为“0.995/0.9=1.10556”;
---2.69中“[事件]σ代数 ”中,要求满足的性质a)“属于 ”修订为“Ω属于 ”。
为便于使用,本部分作了下列编辑性修改:
---删去了ISO 前言;
---为术语的简练起见,在少数术语中,使用中括号表示其中可省略部分。例如:2.5中,[事件A
的]概率(probability[ofaneventA]),表示此术语实际定义的是“概率(probability)”,其中
本部分代替GB/T 3358.1-1993《统计学术语 第一部分 一般统计术语》,与 GB/T 3358.1-
1993相比,主要变化如下:
---名称改为《统计学词汇及符号 第1部分:一般统计术语与用于概率的术语》;
---对术语条目作了较大的调整:增加了一般统计术语及用于概率的术语;将 GB/T 3358.1-
1993中第4章“观测和测试结果的一般术语”及第5章“抽样方法的一般术语”中的内容移至
GB/T 3358的第2部分;
---增加了大量的示例及注释;
---增加了术语概念图(附录B、附录C)及定义标准中的术语所使用的方法的附录D,并将关于符
号的附录A改为资料性附录。
本部分的附录A、附录B、附录C和附录D均为资料性附录。
本部分由全国统计方法应用标准化技术委员会提出并归口。
本部分主要起草单位:中国科学院数学与系统科学研究院、中国标准化研究院、北京师范大学、中国
科学技术大学、苏州大学。
本部分主要起草人:冯士雍、陈敏、于丹、崔恒建、吴耀华、丁文兴、汪仁官、于振凡。
本部分于1993年首次发布,本次为第一次修订。
GB/T 3358.1-2009/ISO 3534-1:2006
引 言
目前版本的GB/T 3358.1和GB/T 3358.2是兼容的,其共同目标是在一致、准确而简洁的前提
下,将定义所需的数学程度限制在最低水平。由于GB/T 3358.1是概率和统计的基础术语,所以有必
要用相对严格而复杂的数学语言来表述。考虑到GB/T 3358.2及其他统计方法应用标准的使用者有
时需要查询GB/T 3358.1中术语的定义,因此本部分的术语尽可能用通俗的方式来描述,并辅以注释
及示例。尽管这些非正式的描述并不能取代正式的定义,但为统计专业以外的人员提供了有效的概念
性的定义,能满足这些术语标准的大多数用户的需要。为了进一步适应经常使用 GB/T 3358.2或
GB/T 6379等标准的用户,通过注释和示例使GB/T 3358.1更易于理解。
一套明确定义的,且相对完整的概率统计术语对统计标准的编制及有效使用是必需的。定义必须
足够准确、且具备数学意义上的严格性,使在编制其他统计标准时避免出现概念模糊。当然,对概念的
更详细的解释、背景和应用领域可在初等概率统计教材中找到。
资料性附录B与附录C分别为一般统计术语与用于概率的术语提供了系列概念框图。其中一般
统计术语包含六个概念图;用于概率的术语包含四个概念图。某些术语同时出现在几个不同的框图中,
从而起到一组概念与另一组概念的联系作用。附录D提供了关于概念图的简要介绍及其解释。
这些框图有助于本次修订,因为它们有助于描述不同术语之间的相互联系。这些框图也有助于标
准文本的翻译。
除非另有说明,本标准中大部分术语均在一维(单变量)场合下定义。这避免了许多术语在类似条
件下进行重复定义。
GB/T 3358.1-2009/ISO 3534-1:2006
统计学词汇及符号
第1部分:一般统计术语与
用于概率的术语
范围
GB/T 3358的本部分规定了用于标准起草的一般统计术语、用于概率的术语的定义及部分术语的
符号。
本部分中的术语分为:
a) 一般统计术语(第1章);
b) 用于概率的术语(第2章)。
附录A列出了本部分推荐使用的符号。
附录B和附录C是本部分所有术语条目的概念框图。
1 一般统计术语
1.1
所考虑对象的全体。
注1:总体可是真实有限或无限的,也可是完全虚构的。有时,特别是在调查抽样中也使用 “有限总体”;在一些流
程性物质抽样中也使用“无限总体”。在第2章中,从概率的角度,总体在一定意义上可看作是样本空间(2.1)。
注2:对于虚构的总体,允许人们想象在不同假定条件下的数据所具有的属性。因此,虚构总体在统计研究的设计
阶段,特别是确定适宜样本量时非常有用。虚构总体所含对象数目可以是有限的也可以是无限的。在统计推
断中,这是一个对评价统计研究证据强度特别有用的概念。
注3:下面的例子能帮助理解总体这一概念:若有三个村庄被选中作人口统计或健康研究,总体即由这三个村庄的
全体居民构成;若这三个村庄是从某个特定区域中的所有村庄中随机抽选出来的,则总体由该区域中的所有
居民构成。
1.2
总体(1.1)划分成若干部分中的每一部分。
注:抽样单元依赖于具体问题中所感兴趣的最小部分。抽样单元可以是一个人、一个家庭、一个学校或一个行政单
位等。
1.3
由一个或者多个抽样单元(1.2)组成的总体(1.1)的子集。
注1:根据所研究总体的情况,样本中的每个单元可是真实或抽象的个体,也可是具体的数值。
注2:在GB/T 3358.2关于样本的定义中,包括一个抽样框的示例。抽样框在从有限总体中抽取随机样本时是必
须的。
1.4
由样本(1.3)中每个单元获得的相关特性的值。
注1:常用的同义词是“实现”和“数据”。
GB/T 3358.1-2009/ISO 3534-1:2006
注2:本定义并没有指明值的来源或如何被获得。观测值可表示某随机变量(2.10)的一次实现,但并不一定如此。
它可以是相继用于统计分析的若干值中的一个。正确的推断需要一定的统计假定,但首先要做的是对观测值
的计算概括或图形描述。仅当需要解决进一步的问题,如确定观测值落入某一指定集合的概率,统计机制才
是重要而本质的。观测值分析的初始阶段通常称为数据分析。
1.5
观测值(1.4)的图形、数值或其他概括性描述。
示例1:数值描述包括样本均值(1.15)、样本极差(1.10)、样本标准差(1.17)等。
示例2:图形描述包括箱线图、示意图、Q-Q图、正态分位图、散点图、多元散点图和直方图等。
1.6
由随机抽取的方法获得的样本(1.3)。
注1:本定义比GB/T 3358.2给出的定义限制要少,样本允许来自无限总体。
注2:当从有限样本空间(2.1)中抽取狀个抽样单元组成样本时,狀个抽样单元的任意一种组合都会以特定的概率
(2.5)被抽中。对于调查抽样方案而言,每一种可能组合被抽中的概率可事先计算。
注3:对有限样本空间的调查抽样,随机样本可以通过不同的抽样方法得到,如分层随机抽样、随机起点的系统抽
样、整群抽样、与辅助变量的大小成比例的概率抽样以及其他可能的抽样。
注4:本定义一般是指实际观测值(1.4)。这些观测值被认为是随机变量(2.10)的实现,其中每个观测值都对应于
一个随机变量。当由随机样本构造估计量(1.12)、统计检验(1.48)的检验统计量或置信区间(1.28)时,本定
义是指从样本中的抽象个体得到的随机变量而不是这些随机变量的实际观测值。
注5:无限总体中的随机样本一般是从样本空间中重复抽取产生的。根据注4的解释,此时样本由独立同分布的随
机变量组成。
1.7
〈有限总体〉给定样本量的每个子集都有相等的被抽选概率的随机样本(1.6)。
注:此处的定义与GB/T 3358.2中的定义是一致的,仅在措辞上稍有不同。
1.8
由随机变量(2.10)完全确定的函数。
注1:在1.6注4的意义下,统计量是随机样本(1.6)中随机变量的函数。
注2:按注1,若 {X1,X2,,X狀}是来自未知均值(2.35)μ和未知标准差(2.37)σ的正态分布(2.50)的随机样本,
则样本均值(1.15)(X1+X2++X狀)/狀是一个统计量;而 [(X1+X2++X狀)/狀]-μ不是统计量,因为
它包含了未知参数(2.9)μ。
注3:相应于数理统计中的表述,此处给出的是统计量的一种技术性定义。英语中,统计量(statistic)的复数形式就
是统计学(statistics),它是一门包括了统计方法应用标准中所叙述的分析方法的技术学科。
1.9
由随机样本(1.6)中的随机变量(2.10)的值,依非降次序排列所确定的统计量(1.8)。
示例:假设样本观测值为9,13,7,6,13,7,19,6,10,7,则次序统计量的观测值为:6,6,7,7,7,9,10,13,13,19。这些
值是X(1),,X(10)的一次实现。
注1:假设随机样本(1.6)的观测值(1.4)为 {狓1,狓2,,狓狀},按非降的次序排列为狓(1)≤≤狓(犽)≤≤狓(狀),则
(狓(1),,狓(犽),,狓(狀))是次序统计量 (X(1),,X(犽),,X(狀))的观测值,狓(犽)为第犽个次序统计量的观测值。
注2:在实际应用中,为获得一组数据的次序统计量,即是将数据按照注1中所述方式进行排序。将一组数据按上
述方法排序后,还可获得其他几个术语定义的有用的统计量,如1.10、1.11等。
注3:次序统计量涉及按照非降次序排列后的位置来识别的样本值。正如示例所示,将样本值(随机变量的实现)排
序比将未观测的随机变量排序更容易理解。它可以通过按照非降次序排列的随机样本(1.6)来理解随机变
GB/T 3358.1-2009/ISO 3534-1:2006
量。比如,狀个随机变量的最大值可以先于它的实现值来研究。
注4:单个次序统计量是随机变量的一个特定函数。这个函数可以简单地由其在随机变量排序集合中的位置或序
次(称为秩)来确定。
注5:结点值会引起一些潜在的问题,特别是对于离散随机变量或者是低分辨的实现。用“非降”而不是“递增”的说
法可解决这个问题。需要强调的是结点值都要保留而不能合并成一个。在上面的示例中,“6”有两个实现,所
以“6”是结点值。
注6:排序按照随机变量的实数值进行,而不是按照其绝对值进行。
注7:次序统计量 (X(1),,X(犽),,X(狀))组成狀维随机变量,狀是样本中观测值的个数。
注8:次序统计量的分量也是次序统计量,而且保持其在原样本排序中的位置标识。
注9:最小值,最大值以及样本量为奇数时的样本中位数(1.13)都是特殊的次序统计量。比如样本量为11,那么
X(1)是最小值,X(11)是最大值,X(6)是样本中位数。
1.10
最大次序统计量(1.9)与最小次序统计量的差。
示例:在1.9中的示例中,样本极差的观测值为19-6=13。
注:在统计过程控制中,尤其当样本量相对比较小时,样本极差通常用来监测过程的离散程度随时间的变化。
1.11
最大和最小次序统计量(1.9)的平均值(1.15)。
示例:1.9的示例中,中程数的观测值为(6+19)/2=12.5。
注:中程数能够对较小数据集的中心提供一种快捷而简单的估计。
1.12
θ^
用于对参数θ估计(1.36)的统计量(1.8)。
注1:样本均值(1.15)是总体均值(2.35)μ的一个估计量。例如,对于正态分布(2.50),样本均值是总体均值μ的
估计量。
注2:要估计总体的特征(如一维(元)分布(2.16)的众数(2.27)),一个合适的估计量可以是分布参数估计量的函
数,也可以是随机样本(1.6)的复杂函数。
注3:此处所讲的“估计量”是一个宽泛的概念。它包括某参数的点估计,也包括用于预测的区间估计。估计量也包
括该估计量和其他特殊形式的统计量。另见1.36注的讨论。
1.13
若样本量(见GB/T 3358.2-2009,1.2.26)狀为奇数,则是第 (狀+1)/2个次序统计量(1.9);若样
本量狀是偶数,则是第狀/2与第 (狀/2)+1个次序统计量之和除以2。
示例:续1.9的示例,8为样本中位数的一个实现,此时样本量为10(偶数),第5和第6个次序统计量分别为7和9,
其平均值为8。尽管严格来说样本中位数是作为一个随机变量来定义的,但在实际中也说“样本中位数为8”。
注1:对于样本量为狀的随机样本(1.6),其随机变量(2.10)按照非降顺序从1到狀排列,如果样本量为奇数,则样
本中位数为第 (狀+1)/2个随机变量,如果样本量为偶数,则样本中位数为第 (狀/2)个与第 (狀+1)/2个随机
变量的平均值。
注2:从概念上讲,对一个没有观测到的随机变量进行排序似乎是不可能的。但不经观测也可理解次序统计量的结
构。在实际中,通过获得观测值并对其进行排序,从而得到次序统计量的实现。这些实现值可用于解释次序
统计量的结构。
注3:样本中位数是分布中间位置的一个估计,各有一半的样本单元大于等于或小于等于它。
注4:样本中位数在实际问题中是有用的,它提供了一个对数据极端值不敏感的估计量。例如,中位收入和中位房
价都是常用的统计指标。
GB/T 3358.1-2009/ISO 3534-1:2006
1.14
随机样本(1.6)中随机变量(2.10)的犽次幂的和除以和中的项数。
注1:对于样本量为狀的随机样本 {X1,X2,,X狀},犽阶样本矩为:
狀∑
注2:本术语也称为犽阶样本原点矩。
注3:一阶样本矩即为样本均值(1.15)。
注4:虽然本定义中犽可取任意值,但在实际中常用的是犽=1[样本均值(1.15)],犽=2[与样本方差(1.16)和样本
标准差(1.17)有关],犽=3[与样本偏度系数(1.20)有关]和犽=4[与样本峰度系数(1.21)有关]的情形。
1.15
算术平均值 arithmeticmean
随机样本(1.6)中随机变量(2.10)的和除以和中的项数。
示例:续1.9中的示例,观测值的和为97,样本量为10,样本均值的实现为9.7。
注1:在1.8中注3的意义下,样本均值作为统计量是随机样本中随机变量的函数。必须区分统计量与由随机样本
中观测值(1.4)计算得出的样本均值的数值。
注2:样本均值作为统计量,常用作总体均值(2.35)的估计量。算术平均值是它的同义词。
注3:对样本量为狀的随机样本 {X1,X2,,X狀},样本均值为:X= 1狀∑
注4:样本均值就是一阶样本矩。
注5:样本量为2时,样本均值、样本中位数(1.13)和中程数(1.11)皆相同。
1.16
S2
随机样本(1.6)中随机变量(2.10)与样本均值(1.15)差的平方和用和中项数减1除。
示例:续1.9中的示例,样本观测值与样本均值差的平方和为158.10,样本量10减1为9,计算得样本方差为
17.57。
注1:样本方差S2 作为统计量(1.8),是随机样本中随机变量的函数。必须区分这个统计量与根据随机样本观测值
(1.4)计算得出的样本方差的数值,该值称为经验样本方差或观测样本方差,通常记作狊2 。
注2:对样本量为狀的随机样本 {X1,X2,,X狀},样本均值为X,则
S2 = 1狀-1∑
注3:样本方差作为一个统计量“差不多”等于该随机变量(2.10)与样本均值(1.15)差的平方的平均数(其中“差不
多”是指这里平均用狀-1而不是用狀作分母),用狀-1作分母是为总体方差(2.36)提供一个无偏估计量
(1.34)。
注4:狀-1称为自由度(2.54)。
注5:样本方差可以近似认为是中心化样本随机变量(2.31)的二阶样本矩(仅以狀-1代替狀)。
1.17
样本方差(1.16)的非负平方根。
示例:续1.9中的示例,观测样本方差为17.57,观测样本标准差为4.192。
注1:实际中样本标准差用来估计总体标准差(2.37)。再次强调S也是一个随机变量(2.10),而并不是随机样本
(1.6)的实现。
注2:样本标准差是分布(2.11)离散程度的一个度量。
GB/T 3358.1-2009/ISO 3534-1:2006
1.18
样本标准差(1.17)除以非零样本均值(1.15)的绝对值。
注:变异系数通常表示成百分数。
1.19
随机变量(2.10)与其样本均值(1.15)的差除以样本标准差(1.17)。
示例:续1.9中的示例,观测样本均值为9.7,观测样本标准差为4.192,观测标准化随机变量(表示为两位小数)为:
-0.17;0.79;-0.64;-0.88;0.79;-0.64;2.22,-0.88;0.07;-0.62。
注1:标准化样本随机变量应区别于理论上的标准化随机变量(2.33)。将随机变量标准化的目的在于使得其均值
为0、标准差为1,便于解释和比较。
注2:标准化样本观测值的观测样本均值为0,观测样本标准差为1。
1.20
随机样本(1.6)的标准化样本随机变量(1.19)三次幂的算术平均值。
示例:续1.9中的示例,观测样本偏度系数的计算结果为0.97188。如本例中的样本量为10的情形,样本偏度系数
不够稳定,因此应谨慎使用。根据注1给出的另一公式计算出的值为1.34983。
注1:对应于定义中公式为:
狀 ∑
有些统计软件里使用下面的公式修正样本偏度系数的偏倚(1.33):
(狀-1)(狀-2)∑
其中:
当样本量很大时,两个公式的差别可以忽略。当狀=10,100,1000时,修偏估计值与定义中的估计值之比分别
为1.389,1.031,1.003。
注2:偏度系数是对分布不对称性的度量,如果偏度系数接近0意味着真实分布近似对称。偏度系数不为零时意味
着在某一侧尾部可能有极端值。有偏的数据也会在样本均值(1.15)与样本中位数(1.13)的差异上体现出来。
正偏(右偏)数据表明可能有少数大的极端值。同样,负偏(左偏)数据表明可能有少数小的极端值。
注3:样本偏度系数也是标准化样本随机变量(1.19)的三阶样本矩。
1.21
随机样本(1.6)的标准化样本随机变量(1.19)四次幂的算术平均值。
示例:续1.9中的示例,观测样本峰度系数的计算结果为2.67419。如本例中的样本量为10的情形,样本峰度系数
极不稳定,因此应谨慎使用。统计软件包在计算样本峰度系数时常进行了各种修正(参见2.40中的注3)。应用注1中
的另一公式计算的值为0.43605。不能直接比较2.67419和0.43605这两个数值。为此,应将2.67419减去3(正态
分布的峰度系数为3),其差为-0.32581,这个数值可与0.43605进行比较。
注1:与定义对应的公式是:
狀 ∑
一些统计软件包使用下面公式来修正样本峰度系数的偏倚(1.33),它表示对正态分布峰度系数(等于3)的
偏离:
狀(狀+1)
(狀-1)(狀-2)(狀-3)∑
(狀-1)2
(狀-2)(狀-3)
GB/T 3358.1-2009/ISO 3534-1:2006
其中:
当狀充分大时,上式第二项近似为3。有时为了强调与正态分布的比较,峰度表示为如2.40中定义的值减去
3。显然,实际应用者需要注意到统计软件包中是否包含任何修正。
注2:峰度描述了(单峰)分布的重尾程度。对正态分布(2.50),由于抽样随机性,样本峰度系数一般只近似,而不是
恰好为3。在实际应用中正态的峰度提供了一个基准值:峰度值小于3的分布(2.11)有比正态轻的尾部;峰
度值大于3的分布有比正态重的尾部。
注3:对于峰度观测值大于3很多的情形,一种可能是因为真实分布的尾部比正态尾部重,另一可能是分布中存在
潜在的离群值。
注4:样本峰度系数可认为是标准化随机变量的四阶样本矩。
......