数据分析概述

Contents

一、什么是数据分析

数据分析是指有针对性的收集、加工、整理数据,并采用统计和挖掘技术分析和解释数据的科学与艺术!
从行业角度看,数据分析是基于某种行业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的一个过程。
一个概括性的定义:数据分析是指通过某种方法和技巧对准备好的数据进行探索、分析,从中发现因果关系,内部联系和业务规律等分析结果,为特定的研究或商业目的提供参考。

二、数据分析的步骤

数据分析的过程主要包括六个步骤:
2.1. 明确分析目的和内容
数据分析的对象是谁?数据分析的商业目的?最后的结果要解决什么样的问题?

2.2. 数据收集
数据收集是一个按照确定的数据分析和框架内容,有目的地收集、整合相关数据的过程,它是数据分析的基础。
通常数据收集的方法包括观察法、访谈法、问卷法、测试法和数据库获取法。在商业数据分析中,数据收集一般都来源于数据库,这就需要用到数据库工具——SQL语言

2.3. 数据预处理
数据预处理是指对收集到的数据进行加工、整理,以便开展数据分析。
第一步:数据审查

  • 检查数据的数量(记录数)是否满足分析的最低要求
  • 变量值的内容是否与研究目的要求一致,是否全面
  • 包括利用描述性统计分析,检查各个变量的数据类型,变量值的最大值、最小值、平均数、中位数等
  • 数据个数、缺失值或空缺的个数等。

第二步:数据清洗
对数据审查过程中的明显的错误值、缺失值、异常值、可疑数据采用合适的方法,进行“清理”,使“脏”数据变为“干净”的数据。当然,数据清理还包括清楚重复值。
第三步:数据转化
数据分析强调分析对象的可比性,因此分析前需要对数据进行变换,包括无量纲处理、线性变换、汇总和聚集、适度概化、规范化,以及属性构造等
第四步:数据验证
该步骤的目的是初步评估和判断数据是否满足统计分析的需要。

2.4. 数据分析
选用特定的数据分析方法,熟练操作数据分析工具,实现从数据到知识的分析过程,从而解决商业问题。

2.5. 数据展现 数据分析的结果都是通过图、表的方式呈现的。

2.6. 报告撰写
通过分析报告,可以把分析的目的、过程、结果及方案完整的呈现出来。

  • 首先要有一个好的分析框架,并且结构清晰、主次分明、图文并茂,能够让读者一目了然。
  • 另外数据分析报告要有明确的结论、建议和解决方案,不仅要找出问题,更重要的是解决问题。

三、数据分析的方法

数据分析方法根据使用的工具和理论的难度分为四个层次:单纯的数据加工方法;数理统计分析方法,数据挖掘方法,大数据方法。
3.1 单纯的数据加工方法
这种数据分析方法侧重于数据的讲和预处理。
使用的工具一般是SQL和EXCEL。
这种方法最典型的代表就是描述性统计分析和相关分析

  1. 描述性统计分析
    描述性统计分析是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。
    描述性统计分析分为集中趋势分析、离中趋势分析和数据分布分析三个部分。
    • 集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。
    • 离中趋势分析主要靠全距、四分位距、方差、标准差等统计指标来研究数据的离中趋势。
    • 数据分布分析是指和正态分布相比,所得数据的直方图从形态上看是左偏还是右偏的,从峰度上看是尖峰的还是扁平的。
  2. 相关分析
    相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象进行相关方向及相关程度的研究。
    • 两个数据之间的单一相关关系
    • 多个数据之间的多重相关关系

3.2 基于数理统计的数据分析方法
根据概率论和微积分引出数据的分布,从数据的分布出发,进行数据的抽样推断和假设检验,由此引出方差分析、回归分析、因子分析等基于书里统计的数据分析方法。
这种分析方法一般使用SPSS Statistics、SAS EG等分析工具。

  1. 方差分析(Analysis of Variance, ANOVA)又称“变异数分析”、“F检验”。
    方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对变量有显著影响的变量
  2. 回归分析(Regression) 是确定两个或两个以上变量之间依赖的定量关系的一种统计分析方法。
    • 按照设计的自变量的数量,可分为一元回归分析和多元回归分析。
    • 按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
  3. 因子分析(Factor Analysis)
    是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减轻决策困难的分析方法。在社会经济统计研究中,因子分析常以主成分分析为基础。

3.3 基于数据挖掘的数据分析方法
数据挖掘的基本思路,更具历史数据得出某种规则,根据规则进行判断,例如分类。
工具:SPSS Modeler、SAS EM和R软件

  1. 聚类分析(Cluster Analysis)
    指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。
    聚类分析是一种探索性的分析,在分类过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类

  2. 分类分析
    (1) 决策树(Decision Treee)
    决策树是应用最广泛的归纳推理算法之一,是一种逼近离散值目标函数的方法,对噪声数据有很好的健壮性且能学习析取表达式。
    算法:ID3,C45,CART和CHAID
    优点:可以生成可理解的规则;计算量相对来说不是很大;可以处理连续和离散变量,决策树可以清晰的显示出哪些变量比较重要
    缺点:对连续的变量比较难预测;当分类太多时,错误可能会增加得比较快;一般的算法在分类时,仅根据一个属性进行分类;不是全局最优。

    (2) 人工神经网络(Artificial Neural Networks, ANNs)
    是一种应用类似于大脑神经突出链接的结构进行信息处理的数学模型。
    简单的来讲:“神经网络”就是通过输入多个非线性模型及不同模型之间的加权互联(加权的过程在隐蔽层完成),最终得到一个数据模型。其中,隐蔽层所包含的就是非线性函数。
    目前最流行的“神经网络”算法是反馈传播(Backpropagation)。该算法在多层前向型(Multilayer Feed-Forward)神经网络上进行学习,而多层前向型神经网络又是由一个输入层,一个或多个隐藏层及一个输出层组成的。
    特点:可以充分逼近任意复杂的非线性关系;所有定量或定性的信息都等势分布储存于网络类的各神经元中,故有很强的鲁棒性和容错性;采用并行分布处理方法,使得快速进行大量运算成为可能;可学习和自适应不知道或不确定的系统;能够同时处理定量、定性知识。

    (3) 贝叶斯分类方法(Bayesian Classification)
    贝叶斯分类方法是非常成熟的统计学分类方法,它主要用来预测类和成员关系的可能性。例如通过一个给定的观察值的相关属性来判断其属于一个特定类别的概率。
    已有研究表明,朴素贝叶斯分类方法作为一种简单的贝叶斯分类算法甚至可以跟决策树和神经王阔算法相媲美。

    (4) 支持向量机(Support Vector Machine, SVM)
    是机器学习研究的一个重大成果,与传统的神经网络技术相比,支持向量机不仅结构简单,而且各项技术的性能也明显提升。
    支持向量机以结构风险最小为原则。
    - 在线性的情况下,它在原空间寻找两类样本的最优分类超平面。
    - 在非线性的情况下,它使用一种非线性的映射,将原训练集数据映射到较高的维上。在新的维上,它搜索线性最佳分离超平面,使用一个适当的方法对足够高维的非线性映射。
    - 两类数据总可以被超平面分开。

    (5) 随机森林(Random Forest, RF) 是一种组合分类器,它利用Bootstrap重抽样方法从原始样本中抽取多个样本,对每个Bootstrap样本进行决策树建模,然后将这些决策树组合在一起,通过投票取出最终分类或预测结果。 大量理论和实证研究都证明了随机森林算法具有较高的预测准确率,对异常值和噪声值具有很好的容忍度,且不容易出现过拟合

  3. 关联规则(Association Rule)
    关联规则是在数据库和数据挖掘领域中被广泛研究的一种重要模型。
    关联规则数据挖掘的主要目的:是找出数据集中的频繁模式(Frequent Pattern,即多次重复出现的模式)和并发模式(Cooccurrence Relationships,即同时出现的关系),频繁和并发关系也被称为关联(Association)
    关联规则最经典的案例就是购物篮分析(Basket Analysis)。 关联规则算法不但对数值型数据集的分析又很大用途,而且在纯文本文档和网页文件中也有着重要的用途。例如发现单词之间的并发关系及Web的使用模式等。

  4. 回归分析(Regression)
    回归分析包括线性回归(Linear Regression),这里主要指多元线性回归和逻辑斯蒂回归(Logistic Regression),其中数据运营中更多使用的是逻辑回归,它包括响应预测、分类规划等内容。 用于估算多元线性回归方程中自变量系数的方法中,最常用的是最小二乘法,即找出一组对应因变量的相应参数,以使因变量的实际观测值与回归方程的预测值之间的总方差减到最小。

3.4 基于大数据的数据分析方法
理论基础是数据挖掘和分布式计算原理。大数据具有海量、快速、多燕华和有价值四个方面的重要特性。
Hadoop是一个分布式的处理系统,采用MapReduce分布式计算开发框架,并开发了HDFS分布式文件系统和HBase数据存储系统。
常用的大数据分析工具具有基于分布式系统的 Mahout、Spark、Storm。

四、数据分析的工具

EXCEL、SPSS、SAS、R

五、小结

思路和方法:针对具体的业务分析需求,先确定分析思路,然后根据这个分析思路去挑选和匹配合适的分析算法、分析技术,而且一个具体的分析需要一般都会有两种以上不同的思路和算法可以去探索,最后根据验证的效果和资源匹配等一系列因素进行综合权衡,从而决定最终的思路、算法和解决方案


转载请注明:yezuolin的博客 » 点击阅读原文