描述性统计分析

Contents

一、数据的计量尺度

数据计量的尺度是指对计量对象量化时采用的具体标准,它分为四类:定类尺度、序尺度、定距尺度和定比尺度。
image

二、数据的集中趋势

定义:集中趋势在统计中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点所在的位置。
度量方法:常见的指标就是平均数(mean)、分位数(median)和众数(mode)

  1. 算数平均数:一个数列的平均数等于它们的和除以它们所含的个数
    • 表示一系列数据或同级总体的平均特征的值
    • 容易受极端值影响,为了消除极端值的影响也可根据实际情况去掉极端值,例如歌手大奖赛中,去掉评委的一个最高分和最低分。
  2. 分位数:指位于最大值和最小值之间的一个数值
    • 它使得变量的一部分观察值小于或等于它,另一部分观察值大于或等于它。
    • 四分位数,一种特殊的百分位书,它不受极端值的影响。主要用于顺序数据,也可用于数值型数据,但不能用于分类数据
    • 中位数:是一种特殊的四分位数
  3. 众数:一组数中出现次数最多的变量值
    • 不受极端值的影响
    • 有的数据无众数或有多个众数
    • 对未分组定量的资料很少使用

三、数据的离中趋势

定义:离中趋势在统计学中是指一组数据在某一中心值分散的程度,它反映了各个数据远离中心点的程度。 常用指标:全距(极差)、四分位距、方差和标准差、离散系数

  1. 全距(Range):
    也称极差
    • R = 最大值-最小值
    • 受极端值影响
  2. 四分位间距
    • Q = Q3-Q1 = X(75%) - X(25%) (第三分位数-第一分位数)
    • 排除了数列两端各 25% 单位标志值的影响,反映了数列中间部分各变量值的最大值和最小值的差距。
    • 对离群值的敏感远远低于全距,受样本量的影响较小
    • 能看出我们的集中趋势
  3. 平均差
    各数值与其算数平均数离差的绝对值的算数平均数
    • 受极端值影响较小
  4. 方差与标准差
    方差是数据组中各数据值与其算数平均数离差平方的算数平均数
    • 方差的平方根就是标准差
    • 方差是反映定量数据离散程度的最常用的指标
      标准差的性质
    • 度量了偏离平均数的大小
    • 标准差指出了数列中的数离它们的平均数多远。
    • 估计正常值的范围
  5. 离散系数:标准差与其相应的均值之比
    • 两组数据的测量尺度相差较大或数据量纲的不同,或均值不同,直接使用标准差进行比较不合适,此时当使用 CV ;来衡量离散程度

四、数据的分布的测定

  1. 数据偏态及测定(Skewness)
    • 数据分布的不对称性称为偏态
    • 左偏分布:数据向左延伸更多
    • 对称分布:偏态系数 = 0
    • 右偏分布:数据向右延伸得更多(众数在左边,平均数在右边,即数据的极端值在右边)
  2. 数据峰度及其测定
    数据分布的扁平或尖峰程度,相对于标准正态分布而言。

五、数据的展示——统计图

  1. 条形图
  2. 扇形图
  3. 折线图
  4. 箱线图
    在统计学中常用箱形图来进行两组或多组数据的比较,箱形图即可以反映数据的集中趋势,又可以反映数据的离中趋势,更是找出异常值的一种常用方法。
    离群点(要么剔除,要么重点关注,展开分析)
  5. 茎叶图
  6. 直方图
    chart-choose

六、小结

在进行描述性统计时,数据分析人员习惯从上述三个方面展开分析,若将更多的因素考虑到分析模型中,就有可能得出更理想的分析结果,适当的时候使用分位数分析也是一种不错的描述性分析思想,只要能解决问题就好。


转载请注明:yezuolin的博客 » 点击阅读原文