数据分析的核心:思路 方法 –思路:业务调研+逻辑思考+创新灵感+可行建议 –方法:汇总统计,Make it Simple(切忌喧兵夺主)
数据分析的价值与定位 –百度的T序列不重视数据分析(数据分析的能力难以评价) –麦肯锡一个分析报告卖了上千万(仅有简单统计) –数据分析对一个企业有巨大价值,作用于业务发展的前(探索)期或阶段性改进期(颠覆创新),先有数据分析,才能定业务模型,再后是建模优化(机器学习)
数据分析人才 –同样的数据,仁者见仁智者见智,分析人才的不可复制性 –做好数据分析的人不一定能当老大,但至少能当军师
–数据分析对一个企业有巨大价值,作用于业务发展的前(探索)期或阶段性改进期(颠覆创新),先有数据分析,才能定业务模型,再后是建模优化(机器学习)
–优秀线:虽然竞争对手近期势头发展很猛,但实际上他突出的优势在X,劣势在Y,未来可能会采取什么行动,同时市场上的其它竞争对手也不容忽视
–满分线:针对于竞争对手的可能动作,我们有如下方面需要改进:加强优势A、B、C,与X达成进一步战略合作关系,并收购Y等等
–集合中数字越多,方差越大,应该与集合大小无关 Mean((real num - mean)^2)
在美国总统选举的各种民意测验中,关于支持率的一个常用标准是置信度为95%(误差在+-2.5%以内,置信区间宽度为5%),那么要达到这样的标准需要多少人呢?
在数据量充足的时候,加一些维度、拆的更细,使得每个小格里的样本更加类似,结论更加准确但数据不足或分拆未带来结论改变,就不能再拆,以免结果失去统计意义。
–虽然选择健康的生活方式(尽人事),我们也得听天命(自己是正态曲线的好尾巴,还是坏尾巴),但是天命整体分布可以变得更好(正态曲线的中轴向好的一面偏移)
通过如上两点,证明抽烟信息对预测是有效的,如果一个人抽烟,那么我们预测他活到70岁,否则75岁
当数据分布呈现正态分布特点(钟形的曲线)时,均值、中位数、众数都落在相同的点上。而数据分布成有偏差的特征(类似于滑梯)时,那么均值、众数、中位数就相差甚远了。
同样一份数据,2010年的前6个月,使用产品的客户数量由最初的2w,以每个月100个的速度增长。
–美国海军的死亡率是0.9%, 而同时期纽约市民的死亡率是1.6%,得出结论参军是很安全的。
在抽样统计的时候,要充分思考抽样的过程对样本造成了怎样的偏差,以及这个偏差对我们的结论有什么影响
–公司与工会发生了摩擦,于是公司进行了一项“调查”来统计多少职员对工会不满。公司公布了这样的结论:“大多数(78%)的职员反对工会,所以有必要取消工会。”
–360打官司老败诉,腾讯打官司总胜诉,周鸿祎:“真的是东方不败!与腾讯强大的法务相比,我们实力不济,自愧不如!”
最普遍的表现是将看上去极像,而完全不同的两件事混淆在一起,得出了似是而非的推理。