路径: 主页 > GB/T > 第671页 > GB/T 3358.1-2009

[PDF] GB/T 3358.1-2009 - 英文版

标准搜索结果: 'GB/T 3358.1-2009'

标准号码	美元	购买PDF	工期	标准名称(英文版)
GB/T 3358.1-2009	1214	GB/T 3358.1-2009	<=7	统计学词汇及符号　第1部分：一般统计术语与用于概率的术语

基本信息
标准编号	GB/T 3358.1-2009 (GB/T3358.1-2009)
中文名称	统计学词汇及符号　第1部分：一般统计术语与用于概率的术语
英文名称	Statistics -- Vocabulary and symbols -- Part 1: General statistical terms and terms used in probability
行业	国家标准 (推荐)
中标分类	A41
国际标准分类	03.120.30
字数估计	61,692
发布日期	2009-10-15
实施日期	2010-02-01
旧标准 (被替代)	GB/T 3358.1-1993
采用标准	ISO 3534-1-2006, IDT
标准依据	国家标准批准发布公告2009年第11号(总第151号)
发布机构	中华人民共和国国家质量监督检验检疫总局、中国国家标准化管理委员会
范围	GB/T 3358的本部分规定了用于标准起草的一般统计术语、用于概率的术语的定义及部分术语的符号。本部分中的术语分为:a)一般统计术语(第1章);b)用于概率的术语(第2章)。附录A列出了本部分推荐使用的符号。附录B和附录C是本部分所有术语条目的概念框图。

GB/T 3358.1-2009: 统计学词汇及符号　第1部分：一般统计术语与用于概率的术语 ICS ０３．１２０．３０ A４１中华人民共和国国家标准 GB/T ３３５８．１-２００９／ISO ３５３４-１：２００６代替GB/T ３３５８．１-１９９３统计学词汇及符号第１部分：一般统计术语与用于概率的术语（ISO ３５３４-１：２００６，ＩＤＴ）２００９-１０-１５发布２０１０-０２-０１实施中华人民共和国国家质量监督检验检疫总局中国国家标准化管理委员会发布目次前言 Ⅲ 引言 Ⅳ 范围１１　一般统计术语１２　用于概率的术语１４附录Ａ（资料性附录）　符号３３附录Ｂ（资料性附录）　统计概念图３５附录Ｃ（资料性附录）　概率概念图４１附录Ｄ（资料性附录）　定义标准中的术语所使用的方法４５参考文献４８索引４９汉语拼音索引４９英文对应词索引５２ GB/T ３３５８．１-２００９／ISO ３５３４-１：２００６前言 GB/T ３３５８《统计学词汇及符号》分为以下部分： ---第１部分：一般统计术语与用于概率的术语； ---第２部分：应用统计； ---第３部分：实验设计。本部分为GB/T ３３５８的第１部分，等同采用ISO ３５３４-１：２００６《统计学　词汇及符号　第１部分：一般统计术语与用于概率的术语》。与ISO ３５３４-１：２００６相比，订正了原文的错误，修正原文中概念表述不够准确的部分，主要变化如下： ---删去了１．２４原文中的注１； ---２．３８示例中变异系数的计算式“０．９９／０．９９５＝０．９９４９７”更正为“０．９９５／０．９＝１．１０５５６”； ---２．６９中“［事件］σ代数  ”中，要求满足的性质ａ）“属于  ”修订为“Ω属于  ”。为便于使用，本部分作了下列编辑性修改： ---删去了ISO 前言； ---为术语的简练起见，在少数术语中，使用中括号表示其中可省略部分。例如：２．５中，［事件A 的］概率（ｐｒｏｂａｂｉｌｉｔｙ［ｏｆａｎｅｖｅｎｔA］），表示此术语实际定义的是“概率（ｐｒｏｂａｂｉｌｉｔｙ）”，其中本部分代替GB/T ３３５８．１-１９９３《统计学术语　第一部分　一般统计术语》，与 GB/T ３３５８．１- １９９３相比，主要变化如下： ---名称改为《统计学词汇及符号　第１部分：一般统计术语与用于概率的术语》； ---对术语条目作了较大的调整：增加了一般统计术语及用于概率的术语；将 GB/T ３３５８．１- １９９３中第４章“观测和测试结果的一般术语”及第５章“抽样方法的一般术语”中的内容移至 GB/T ３３５８的第２部分； ---增加了大量的示例及注释； ---增加了术语概念图（附录Ｂ、附录Ｃ）及定义标准中的术语所使用的方法的附录Ｄ，并将关于符号的附录Ａ改为资料性附录。本部分的附录Ａ、附录Ｂ、附录Ｃ和附录Ｄ均为资料性附录。本部分由全国统计方法应用标准化技术委员会提出并归口。本部分主要起草单位：中国科学院数学与系统科学研究院、中国标准化研究院、北京师范大学、中国科学技术大学、苏州大学。本部分主要起草人：冯士雍、陈敏、于丹、崔恒建、吴耀华、丁文兴、汪仁官、于振凡。本部分于１９９３年首次发布，本次为第一次修订。 GB/T ３３５８．１-２００９／ISO ３５３４-１：２００６引言目前版本的GB/T ３３５８．１和GB/T ３３５８．２是兼容的，其共同目标是在一致、准确而简洁的前提下，将定义所需的数学程度限制在最低水平。由于GB/T ３３５８．１是概率和统计的基础术语，所以有必要用相对严格而复杂的数学语言来表述。考虑到GB/T ３３５８．２及其他统计方法应用标准的使用者有时需要查询GB/T ３３５８．１中术语的定义，因此本部分的术语尽可能用通俗的方式来描述，并辅以注释及示例。尽管这些非正式的描述并不能取代正式的定义，但为统计专业以外的人员提供了有效的概念性的定义，能满足这些术语标准的大多数用户的需要。为了进一步适应经常使用 GB/T ３３５８．２或 GB/T ６３７９等标准的用户，通过注释和示例使GB/T ３３５８．１更易于理解。一套明确定义的，且相对完整的概率统计术语对统计标准的编制及有效使用是必需的。定义必须足够准确、且具备数学意义上的严格性，使在编制其他统计标准时避免出现概念模糊。当然，对概念的更详细的解释、背景和应用领域可在初等概率统计教材中找到。资料性附录Ｂ与附录Ｃ分别为一般统计术语与用于概率的术语提供了系列概念框图。其中一般统计术语包含六个概念图；用于概率的术语包含四个概念图。某些术语同时出现在几个不同的框图中，从而起到一组概念与另一组概念的联系作用。附录Ｄ提供了关于概念图的简要介绍及其解释。这些框图有助于本次修订，因为它们有助于描述不同术语之间的相互联系。这些框图也有助于标准文本的翻译。除非另有说明，本标准中大部分术语均在一维（单变量）场合下定义。这避免了许多术语在类似条件下进行重复定义。 GB/T ３３５８．１-２００９／ISO ３５３４-１：２００６统计学词汇及符号第１部分：一般统计术语与用于概率的术语范围 GB/T ３３５８的本部分规定了用于标准起草的一般统计术语、用于概率的术语的定义及部分术语的符号。本部分中的术语分为：ａ）　一般统计术语（第１章）；ｂ）　用于概率的术语（第２章）。附录Ａ列出了本部分推荐使用的符号。附录Ｂ和附录Ｃ是本部分所有术语条目的概念框图。１　一般统计术语１．１所考虑对象的全体。注１：总体可是真实有限或无限的，也可是完全虚构的。有时，特别是在调查抽样中也使用 “有限总体”；在一些流程性物质抽样中也使用“无限总体”。在第２章中，从概率的角度，总体在一定意义上可看作是样本空间（２．１）。注２：对于虚构的总体，允许人们想象在不同假定条件下的数据所具有的属性。因此，虚构总体在统计研究的设计阶段，特别是确定适宜样本量时非常有用。虚构总体所含对象数目可以是有限的也可以是无限的。在统计推断中，这是一个对评价统计研究证据强度特别有用的概念。注３：下面的例子能帮助理解总体这一概念：若有三个村庄被选中作人口统计或健康研究，总体即由这三个村庄的全体居民构成；若这三个村庄是从某个特定区域中的所有村庄中随机抽选出来的，则总体由该区域中的所有居民构成。１．２总体（１．１）划分成若干部分中的每一部分。注：抽样单元依赖于具体问题中所感兴趣的最小部分。抽样单元可以是一个人、一个家庭、一个学校或一个行政单位等。１．３由一个或者多个抽样单元（１．２）组成的总体（１．１）的子集。注１：根据所研究总体的情况，样本中的每个单元可是真实或抽象的个体，也可是具体的数值。注２：在GB/T ３３５８．２关于样本的定义中，包括一个抽样框的示例。抽样框在从有限总体中抽取随机样本时是必须的。１．４由样本（１．３）中每个单元获得的相关特性的值。注１：常用的同义词是“实现”和“数据”。 GB/T ３３５８．１-２００９／ISO ３５３４-１：２００６注２：本定义并没有指明值的来源或如何被获得。观测值可表示某随机变量（２．１０）的一次实现，但并不一定如此。它可以是相继用于统计分析的若干值中的一个。正确的推断需要一定的统计假定，但首先要做的是对观测值的计算概括或图形描述。仅当需要解决进一步的问题，如确定观测值落入某一指定集合的概率，统计机制才是重要而本质的。观测值分析的初始阶段通常称为数据分析。１．５观测值（１．４）的图形、数值或其他概括性描述。示例１：数值描述包括样本均值（１．１５）、样本极差（１．１０）、样本标准差（１．１７）等。示例２：图形描述包括箱线图、示意图、Ｑ-Ｑ图、正态分位图、散点图、多元散点图和直方图等。１．６由随机抽取的方法获得的样本（１．３）。注１：本定义比GB/T ３３５８．２给出的定义限制要少，样本允许来自无限总体。注２：当从有限样本空间（２．１）中抽取狀个抽样单元组成样本时，狀个抽样单元的任意一种组合都会以特定的概率（２．５）被抽中。对于调查抽样方案而言，每一种可能组合被抽中的概率可事先计算。注３：对有限样本空间的调查抽样，随机样本可以通过不同的抽样方法得到，如分层随机抽样、随机起点的系统抽样、整群抽样、与辅助变量的大小成比例的概率抽样以及其他可能的抽样。注４：本定义一般是指实际观测值（１．４）。这些观测值被认为是随机变量（２．１０）的实现，其中每个观测值都对应于一个随机变量。当由随机样本构造估计量（１．１２）、统计检验（１．４８）的检验统计量或置信区间（１．２８）时，本定义是指从样本中的抽象个体得到的随机变量而不是这些随机变量的实际观测值。注５：无限总体中的随机样本一般是从样本空间中重复抽取产生的。根据注４的解释，此时样本由独立同分布的随机变量组成。１．７〈有限总体〉给定样本量的每个子集都有相等的被抽选概率的随机样本（１．６）。注：此处的定义与GB/T ３３５８．２中的定义是一致的，仅在措辞上稍有不同。１．８由随机变量（２．１０）完全确定的函数。注１：在１．６注４的意义下，统计量是随机样本（１．６）中随机变量的函数。注２：按注１，若｛X１，X２，，X狀｝是来自未知均值（２．３５）μ和未知标准差（２．３７）σ的正态分布（２．５０）的随机样本，则样本均值（１．１５）（X１＋X２＋＋X狀）／狀是一个统计量；而［（X１＋X２＋＋X狀）／狀］-μ不是统计量，因为它包含了未知参数（２．９）μ。注３：相应于数理统计中的表述，此处给出的是统计量的一种技术性定义。英语中，统计量（ｓｔａｔｉｓｔｉｃ）的复数形式就是统计学（ｓｔａｔｉｓｔｉｃｓ），它是一门包括了统计方法应用标准中所叙述的分析方法的技术学科。１．９由随机样本（１．６）中的随机变量（２．１０）的值，依非降次序排列所确定的统计量（１．８）。示例：假设样本观测值为９，１３，７，６，１３，７，１９，６，１０，７，则次序统计量的观测值为：６，６，７，７，７，９，１０，１３，１３，１９。这些值是X（１），，X（１０）的一次实现。注１：假设随机样本（１．６）的观测值（１．４）为｛狓１，狓２，，狓狀｝，按非降的次序排列为狓（１）≤≤狓（犽）≤≤狓（狀），则（狓（１），，狓（犽），，狓（狀））是次序统计量（X（１），，X（犽），，X（狀））的观测值，狓（犽）为第犽个次序统计量的观测值。注２：在实际应用中，为获得一组数据的次序统计量，即是将数据按照注１中所述方式进行排序。将一组数据按上述方法排序后，还可获得其他几个术语定义的有用的统计量，如１．１０、１．１１等。注３：次序统计量涉及按照非降次序排列后的位置来识别的样本值。正如示例所示，将样本值（随机变量的实现）排序比将未观测的随机变量排序更容易理解。它可以通过按照非降次序排列的随机样本（１．６）来理解随机变 GB/T ３３５８．１-２００９／ISO ３５３４-１：２００６量。比如，狀个随机变量的最大值可以先于它的实现值来研究。注４：单个次序统计量是随机变量的一个特定函数。这个函数可以简单地由其在随机变量排序集合中的位置或序次（称为秩）来确定。注５：结点值会引起一些潜在的问题，特别是对于离散随机变量或者是低分辨的实现。用“非降”而不是“递增”的说法可解决这个问题。需要强调的是结点值都要保留而不能合并成一个。在上面的示例中，“６”有两个实现，所以“６”是结点值。注６：排序按照随机变量的实数值进行，而不是按照其绝对值进行。注７：次序统计量（X（１），，X（犽），，X（狀））组成狀维随机变量，狀是样本中观测值的个数。注８：次序统计量的分量也是次序统计量，而且保持其在原样本排序中的位置标识。注９：最小值，最大值以及样本量为奇数时的样本中位数（１．１３）都是特殊的次序统计量。比如样本量为１１，那么 X（１）是最小值，X（１１）是最大值，X（６）是样本中位数。１．１０最大次序统计量（１．９）与最小次序统计量的差。示例：在１．９中的示例中，样本极差的观测值为１９-６＝１３。注：在统计过程控制中，尤其当样本量相对比较小时，样本极差通常用来监测过程的离散程度随时间的变化。１．１１最大和最小次序统计量（１．９）的平均值（１．１５）。示例：１．９的示例中，中程数的观测值为（６＋１９）／２＝１２．５。注：中程数能够对较小数据集的中心提供一种快捷而简单的估计。１．１２ θ＾用于对参数θ估计（１．３６）的统计量（１．８）。注１：样本均值（１．１５）是总体均值（２．３５）μ的一个估计量。例如，对于正态分布（２．５０），样本均值是总体均值μ的估计量。注２：要估计总体的特征（如一维（元）分布（２．１６）的众数（２．２７）），一个合适的估计量可以是分布参数估计量的函数，也可以是随机样本（１．６）的复杂函数。注３：此处所讲的“估计量”是一个宽泛的概念。它包括某参数的点估计，也包括用于预测的区间估计。估计量也包括该估计量和其他特殊形式的统计量。另见１．３６注的讨论。１．１３若样本量（见GB/T ３３５８．２-２００９，１．２．２６）狀为奇数，则是第（狀＋１）／２个次序统计量（１．９）；若样本量狀是偶数，则是第狀／２与第（狀／２）＋１个次序统计量之和除以２。示例：续１．９的示例，８为样本中位数的一个实现，此时样本量为１０（偶数），第５和第６个次序统计量分别为７和９，其平均值为８。尽管严格来说样本中位数是作为一个随机变量来定义的，但在实际中也说“样本中位数为８”。注１：对于样本量为狀的随机样本（１．６），其随机变量（２．１０）按照非降顺序从１到狀排列，如果样本量为奇数，则样本中位数为第（狀＋１）／２个随机变量，如果样本量为偶数，则样本中位数为第（狀／２）个与第（狀＋１）／２个随机变量的平均值。注２：从概念上讲，对一个没有观测到的随机变量进行排序似乎是不可能的。但不经观测也可理解次序统计量的结构。在实际中，通过获得观测值并对其进行排序，从而得到次序统计量的实现。这些实现值可用于解释次序统计量的结构。注３：样本中位数是分布中间位置的一个估计，各有一半的样本单元大于等于或小于等于它。注４：样本中位数在实际问题中是有用的，它提供了一个对数据极端值不敏感的估计量。例如，中位收入和中位房价都是常用的统计指标。 GB/T ３３５８．１-２００９／ISO ３５３４-１：２００６１．１４随机样本（１．６）中随机变量（２．１０）的犽次幂的和除以和中的项数。注１：对于样本量为狀的随机样本｛X１，X２，，X狀｝，犽阶样本矩为：狀∑ 注２：本术语也称为犽阶样本原点矩。注３：一阶样本矩即为样本均值（１．１５）。注４：虽然本定义中犽可取任意值，但在实际中常用的是犽＝１［样本均值（１．１５）］，犽＝２［与样本方差（１．１６）和样本标准差（１．１７）有关］，犽＝３［与样本偏度系数（１．２０）有关］和犽＝４［与样本峰度系数（１．２１）有关］的情形。１．１５算术平均值　ａｒｉｔｈｍｅｔｉｃｍｅａｎ随机样本（１．６）中随机变量（２．１０）的和除以和中的项数。示例：续１．９中的示例，观测值的和为９７，样本量为１０，样本均值的实现为９．７。注１：在１．８中注３的意义下，样本均值作为统计量是随机样本中随机变量的函数。必须区分统计量与由随机样本中观测值（１．４）计算得出的样本均值的数值。注２：样本均值作为统计量，常用作总体均值（２．３５）的估计量。算术平均值是它的同义词。注３：对样本量为狀的随机样本｛X１，X２，，X狀｝，样本均值为：X＝１狀∑ 注４：样本均值就是一阶样本矩。注５：样本量为２时，样本均值、样本中位数（１．１３）和中程数（１．１１）皆相同。１．１６ S２随机样本（１．６）中随机变量（２．１０）与样本均值（１．１５）差的平方和用和中项数减１除。示例：续１．９中的示例，样本观测值与样本均值差的平方和为１５８．１０，样本量１０减１为９，计算得样本方差为１７．５７。注１：样本方差S２作为统计量（１．８），是随机样本中随机变量的函数。必须区分这个统计量与根据随机样本观测值（１．４）计算得出的样本方差的数值，该值称为经验样本方差或观测样本方差，通常记作狊２。注２：对样本量为狀的随机样本｛X１，X２，，X狀｝，样本均值为X，则 S２＝１狀-１∑ 注３：样本方差作为一个统计量“差不多”等于该随机变量（２．１０）与样本均值（１．１５）差的平方的平均数（其中“差不多”是指这里平均用狀-１而不是用狀作分母），用狀-１作分母是为总体方差（２．３６）提供一个无偏估计量（１．３４）。注４：狀-１称为自由度（２．５４）。注５：样本方差可以近似认为是中心化样本随机变量（２．３１）的二阶样本矩（仅以狀-１代替狀）。１．１７样本方差（１．１６）的非负平方根。示例：续１．９中的示例，观测样本方差为１７．５７，观测样本标准差为４．１９２。注１：实际中样本标准差用来估计总体标准差（２．３７）。再次强调S也是一个随机变量（２．１０），而并不是随机样本（１．６）的实现。注２：样本标准差是分布（２．１１）离散程度的一个度量。 GB/T ３３５８．１-２００９／ISO ３５３４-１：２００６１．１８样本标准差（１．１７）除以非零样本均值（１．１５）的绝对值。注：变异系数通常表示成百分数。１．１９随机变量（２．１０）与其样本均值（１．１５）的差除以样本标准差（１．１７）。示例：续１．９中的示例，观测样本均值为９．７，观测样本标准差为４．１９２，观测标准化随机变量（表示为两位小数）为： -０．１７；０．７９；-０．６４；-０．８８；０．７９；-０．６４；２．２２，-０．８８；０．０７；-０．６２。注１：标准化样本随机变量应区别于理论上的标准化随机变量（２．３３）。将随机变量标准化的目的在于使得其均值为０、标准差为１，便于解释和比较。注２：标准化样本观测值的观测样本均值为０，观测样本标准差为１。１．２０随机样本（１．６）的标准化样本随机变量（１．１９）三次幂的算术平均值。示例：续１．９中的示例，观测样本偏度系数的计算结果为０．９７１８８。如本例中的样本量为１０的情形，样本偏度系数不够稳定，因此应谨慎使用。根据注１给出的另一公式计算出的值为１．３４９８３。注１：对应于定义中公式为：狀 ∑ 有些统计软件里使用下面的公式修正样本偏度系数的偏倚（１．３３）：（狀-１）（狀-２）∑ 其中：当样本量很大时，两个公式的差别可以忽略。当狀＝１０，１００，１０００时，修偏估计值与定义中的估计值之比分别为１．３８９，１．０３１，１．００３。注２：偏度系数是对分布不对称性的度量，如果偏度系数接近０意味着真实分布近似对称。偏度系数不为零时意味着在某一侧尾部可能有极端值。有偏的数据也会在样本均值（１．１５）与样本中位数（１．１３）的差异上体现出来。正偏（右偏）数据表明可能有少数大的极端值。同样，负偏（左偏）数据表明可能有少数小的极端值。注３：样本偏度系数也是标准化样本随机变量（１．１９）的三阶样本矩。１．２１随机样本（１．６）的标准化样本随机变量（１．１９）四次幂的算术平均值。示例：续１．９中的示例，观测样本峰度系数的计算结果为２．６７４１９。如本例中的样本量为１０的情形，样本峰度系数极不稳定，因此应谨慎使用。统计软件包在计算样本峰度系数时常进行了各种修正（参见２．４０中的注３）。应用注１中的另一公式计算的值为０．４３６０５。不能直接比较２．６７４１９和０．４３６０５这两个数值。为此，应将２．６７４１９减去３（正态分布的峰度系数为３），其差为-０．３２５８１，这个数值可与０．４３６０５进行比较。注１：与定义对应的公式是：狀 ∑ 一些统计软件包使用下面公式来修正样本峰度系数的偏倚（１．３３），它表示对正态分布峰度系数（等于３）的偏离：狀（狀＋１）（狀-１）（狀-２）（狀-３）∑ （狀-１）２（狀-２）（狀-３） GB/T ３３５８．１-２００９／ISO ３５３４-１：２００６其中：当狀充分大时，上式第二项近似为３。有时为了强调与正态分布的比较，峰度表示为如２．４０中定义的值减去３。显然，实际应用者需要注意到统计软件包中是否包含任何修正。注２：峰度描述了（单峰）分布的重尾程度。对正态分布（２．５０），由于抽样随机性，样本峰度系数一般只近似，而不是恰好为３。在实际应用中正态的峰度提供了一个基准值：峰度值小于３的分布（２．１１）有比正态轻的尾部；峰度值大于３的分布有比正态重的尾部。注３：对于峰度观测值大于３很多的情形，一种可能是因为真实分布的尾部比正态尾部重，另一可能是分布中存在潜在的离群值。注４：样本峰度系数可认为是标准化随机变量的四阶样本矩。 ......

英文网页English: GB/T 3358.1-2009

相关标准: GB/T 2828.1|GB/T 6378.3|GB/T 3359|GB/T 3358.2|