发布时间:2019-1-2 分类: 行业资讯
1在进行数据分析之前我们需要思考
正如战斗的主要指挥官影响整个战役的胜利或失败一样,数据分析师的思维在整体数据分析思想乃至分析结果中起着至关重要的作用。
2分析解决问题的问题和想法
❶定义问题(重要步骤之一):
1)首先,我们必须理解问题的本质,准确,完整,真实地表达问题。
2)其次,找出你想解决这个问题的原因?
3)最后,解决这个问题有什么意义?是否有必要解决它,或者立即解决这个问题并不是太迫切。
收集收集和整理信息:
收集和组织有关待解决问题的历史数据,类似情况和现状。例如,您可以从现有报告数据中查看当前问题点数据或一段时间的趋势;
选取选择分析方法:
1)分析准备随后提取数据要求所涉及的主要方面;
2)选择分析软件和分析方法(统计相关方法);
❹数据提取和完成(两个重要步骤):
1)根据分析内容和分析方法,提出分析所需的数据要求;
2)对于反馈数据,需要进行部分处理以更好地反映要分析的问题;
❺分析结果和结论:
1)根据分析结果,得出当前问题的一些结论。在这里,要注意分析方法和尺寸,结果的显示方式等。
2)结论需要足够的数据来支持;
实施实施和建议采取的行动:
1)对于数据分析结论,给出解决当前问题的建议;
2)一方面,建议的措施来自业务层面。另一方面,您可以对问题点进行更深入的分析,并在数据挖掘级别提供解决方案;
实施实施评估和报告组织:
1)根据措施的实施效果进行评估,并组织完成的分析过程,结果和评估报告,为未来的问题提供经验教训;
2)解释这次尚未完全解决的问题。
3准确说明问题
5W2H方法:
5W:什么,何时,何地,谁,为什么;
2H:多少,多少;
哪里——哪里有问题?
什么——有什么问题?
为什么——原因何在?
当——这个问题何时开始?
谁——它与哪个对象有关?
多少——出现次数和次数?
多少——损失多少钱?
4如何显示问题
问题结构由现状,直接原因和最终原因组成。对直接原因的初步问题的分析和最终原因的分析被称为深度分析和问题分析。
5分析方法
统计方法的三个特征总结为三句话:
1)实用性:除了事实,数据可以证明一切;
2)丰度:统计数据显示的部分是清楚的,可能更重要的是没有透露;
3)公平:每个人都应该用数据说话。
6描述性统计分析
“五点法”:最小值,四分位数,平均值,3/4分位数,最大值;
“两度”:kurtosis,skewness
六西格玛:
7变量分析方法选择
8数据挖掘分析
采矿方法分类:包括统计方法,机器学习方法,神经网络方法和数据库方法。
其中:
1)统计方法可分为:判别分析(贝叶斯判别式,Fisher判别式,非参数判别式等),聚类分析(系统聚类,动态聚类等),探索性分析(主成分分析等)等。
2)机器学习方法可分为:归纳学习方法(决策树,规则归纳等),基于实例学习,遗传算法等。
3)神经网络方法可分为:前向神经网络(BP算法等),自组织神经网络(自组织特征映射,竞争学习等)。
4)数据库方法分为:多维数据分析和OLAP技术,以及面向属性的归纳法。
关联规则:关联规则反映了事物和其他事物的相互依赖性和相关性。如果两件事或多件事之间存在某种关系,那么其中一件事可以通过其他事情来预测。
9选择分析所需的相关数据
10数据质量评估
在现实世界中,存在大量“脏数据”:
❶不完整性(数据结构设计人员,数据采集设备和数据录入人员):
1)缺少感兴趣的属性
2)感兴趣的属性缺少一些属性值
3)仅包含汇总数据,没有详细数据
噪音噪声数据(用于收集数据,数据输入人员,数据传输的设备):
1)数据包含不正确的信息
2)存在与预期值部分偏离的孤立点
❸不一致(数据结构设计人员,数据录入人员):
1)数据结构不一致
2)标签不一致
3)数据值不一致
❹数据类型冲突:
1)性别:字符串(男性,女性),字符(M,F),整数(0,1)
2)日期:日期,日期时间,刺痛
❺数据标签冲突:解决相同的名称和同义词:
学生分数,分数
度量计量单位冲突:
1)学生成绩
一个。百分比:100~0
湾五点系统:A,B,C,D,E
C。字符表示:优秀,良好,通过,失败
❼这个概念不清楚:
近期交易金额:前一个小时,昨天,本周,本月
❽关注冲突:表结构设计的根源
11数据清理处理
主要任务:
添加缺失数据
确定孤立点
处理不一致的数据
处理方法:
分箱方法:
聚类方法:检测和消除异常点
线性回归:平滑与回归
不匹配的数据人机组合检测:计算机检测到可疑点,然后由用户确认
12如何展示分析结果
►评估指标分析和政策分析
►回答关键问题并实事求是
►材料和数据应该是真实的,论证应该是令人信服的
记住:
分析视角:缺乏分析中心的想法或主线
文字表达:“一张图片两张桌子三张文字””
逻辑结构:参数,参数,参数
13分析结果提出了基本原则
数据分析结果用于准备:
确定表达主语:
►使用图形的目的:
可视化想法和想法,以加深读者或听众的印象
►使用图标时,您必须知道通过图表表达的信息
确定对比度:
►同一类别中不同项目之间的比较
►不同项目的不同类别之间的比较
►时间比较:使用时间作为项目分类的标准
►频率比较:项目分类标准占总人口的百分比
►相关比较:根据项目之间的功能关系作为项目分类的标准
►其他比较:逻辑关系的比较(因果关系,时间序列和hellip;…)
选择图形:
饼形图;直方图;折线图;雷达图;面积图;点图;气泡图;矩阵图;逻辑图… …
14如何使用图表来表示数据
有关选择图表的方法,请参阅我们之前的文章:
信息可视化图表设计
15种常见的分析模式
内容决定了提供内容的形式和形式,当时间测试通常接受表格时,它会固化成一种模式。
分析报告模式主要包括:
►Pyramid
►Comprehensive
►三个步骤
►特殊风格
►Notification
►简报风格
►工作报告风格
16分析摘要和建议措施
建议措施分类:业务水平;数据挖掘
17实施成效评估和报告编制
1)营销活动反馈数据,分析问题解决程度
累积活动历史响应数据;
活性工艺固化;
2)商业模式优化和推广
比较组,显示模型本身的优越性;
用于改进模型的营销活动数据。
通过:大数据可视化