
3.3 数据处理
3.3.1 平均值的置信区间
在系统误差已排除的情况下,无限次测量的随机误差的分布服从正态分布,而在实际分析测试中,测定次数是有限的,而有限次测定的随机误差并不完全服从正态分布。因此,有必要在一定的概率条件下,估计一个包含真实值的范围或区间,这个区间称为置信区间,置信区间中包含真实值的概率称为置信度,表示估计的可靠程度。英国化学家古塞特(Gosset)用统计方法推导出下式:
(3.8)
式(3.8)为总体平均值μ所在的置信区间,式中μ为无限次测量结果的平均值(若系统误差已消除,总体平均值μ可视为真实值);为有限次测量结果的平均值;n为平行测量次数,s为样本标准偏差;t为一定置信度下的概率系数。不同测定次数在各置信度下的t值如表3.1所示。
表3.1 t分布表

显然,测量次数越多,t值越小,置信区间的范围越窄,即测定平均值与总体平均值μ越接近。
【例3.1】 测定试样中某组分的含量,有一组实验数据如下:37.45%,37.20%,37.50%,37.30%,37.25%,37.58%,分别求出置信度为90%和95%时平均值的置信区间。
解:经计算可得:,s=0.0015
置信度为90%时,n=6,t=2.015,则:
即置信区间为37.26%~37.50%,此范围内包含真实值的概率为90%。
置信度为95%时:n=6,t=2.571,μ=(37.38±0.16)%,即在37.22%~37.54%区间内包含真实值的概率为95%。
显然,置信区间越大,置信度越高。
3.3.2 可疑数据的取舍
在一组平行实验数据中,往往会有个别数据,与其他数据明显相差很大,称为可疑值。如果明确知道这个数据是由于过失误差引起的,可以舍去,否则不能随意舍弃,应该根据一定的统计学方法加以判断。统计学处理取舍的方法有多种,这里介绍其中常用的方法——Q检验法。
Q检验法的基本步骤如下:
①将测定值按由小到大的顺序排列:X1,X2,…,Xn;
②计算可疑值的摒弃商Q计值,可疑值在一组测定值中不是最小(X1)就是最大(Xn),其Q计值的计算方法是用可疑值与最邻近数据之差除以极差(最大值与最小值之差,Xn-X1),即:
(3.9)
③根据测量次数n和置信度查Q值表(表3.2),得Q表,如果Q计<Q表,则应予保留,反之,则舍去可疑值。
表3.2 Q值表

注:表中Q0.90、Q0.95和Q0.99分别表示置信度为90%、95%和99%时的Q值。
【例3.2】 测定某碳酸钙试样中的含钙量,平行测定的数据如下:
39.22%,39.21%,39.10%,39.23%,39.23%,39.40%,39.24%,39.25%
试用Q检验法判断,置信度90%时是否有可疑值要舍去。
解:①先按递增顺序排列:
39.10%,39.21%,39.22%,39.23%,39.23%,39.24%,39.25%,39.40%。
②本题未指定可疑值,则先考虑最大值和最小值。
当最大值39.40%为可疑值时。
查表3.2,n=8时,Q0.90=0.47,显然Q>Q表,故39.40%应该舍去。
再检验最小值,由于39.40%已经舍去,此时该平行测定数据的最大值为39.25%。
查表3.2,n=7时,Q0.90=0.51,显然Q>Q表,故39.10%应该舍去。
③再检验新的最大值39.25%,算得其Q=0.25,而查表3.2,n=6时Q0.90=0.56,Q<Q表,所以39.25%应予保留。检验最小值39.21%,算得其Q=0.25,而查表3.2,n=6时,Q0.90=0.56,Q<Q表,所以39.21%应予保留。
通过检验,这组数据要舍去39.40%和39.10%两个数据。
分析实验结果时,应该先对数据进行检验,检查有无可疑值要舍弃,然后再进行相关的数据处理,如计算平均值、相对平均偏差等。