
1. 数据分析式思维
1.1. 在过去的十五年中,各企业在商业基础设施上大量投入,因此具备了更好的数据收集能力
1.2. 几乎每个商业环节都可以收集数据
1.2.1. 运营管理、生产制造、供应链管理、用户行为、市场营销和工作流管理等环节1.3. “数据科学”所特指的领域:从丰富的数据中获取有用的信息和知识
1.4. 如何从大数据中获取有用的信息和知识,以改善商业决策
1.5. 数据驱动型决策和大数据技术可以显著提升经营业绩。数据科学支撑着数据驱动型决策,同时依赖于“大数据”存储和工程技术,但是数据科学的原理是独立的
1.5.1. 既相互区别,又相互补充2. 数据机遇无处不在
2.1. 当大量的数据触手可及时,几乎各行各业的公司都关注通过数据开发来获得竞争优势
2.2. 数据挖掘技术最常见的应用是在营销领域,尤其是在目标市场营销、线上广告和交叉销售的推荐系统中
2.2.1. 一般客户关系管理系统使用数据挖掘技术来分析客户行为,以提高客户留存率和最大化客户价值2.2.2. 金融业使用数据挖掘技术来进行信用评分和量化交易,并在运营中用它检测欺诈行为和优化生产资源2.3. “数据科学”是一套指导人们从数据中获取知识的基本原理
2.4. “数据挖掘”则是将这些原理以具体技术的形式实现并从数据中获取知识的过程
2.5. “数据科学”比传统意义上的“数据挖掘”涵盖的范围更广,而后者则对前者的原理进行了最清晰的阐释
2.6. 用户留存是数据挖掘技术的主要应用方向之一,尤其是在电信业和金融业
2.6.1. 这些行业通常也是使用数据挖掘技术最早和最广泛的3. 数据驱动型决策
3.1. 数据科学涉及从数据的自动化分析结果中理解现象的原理、过程和技巧
3.2. 在商业领域,人们最关注的是如何改进决策过程,这也是数据科学的终极目标
3.3. 数据驱动型决策(data-driven decision-making, DDD)指的是基于数据分析做出决策,而非仅凭直觉
3.3.1. 公司DDD程度越高,其生产力就越高3.3.1.1. 即使在控制了其他众多可能的混淆因素后,结论也是如此3.3.1.2. 得分每增加一个标准差,公司的生产力就相应提高4%~6%3.3.2. DDD不但与资产收益率、股本回报率、资产利用率和公司市值正相关,而且可能与它们存在因果关系3.4. 金融业和通信业是较早使用DDD的领域,主要原因是它们的数据网络和大规模计算早已成熟,从而实现了大规模的数据聚合和数据建模,以及模型成果在决策中的应用
3.4.1. 20世纪90年代,自动化决策给银行业和消费信贷业带来了巨变,银行和电信公司应用大规模系统来管理以数据驱动的反欺诈决策3.5. 广告业正经历着一场变革,这主要是因为消费者上网的时间越来越长,以及在线系统瞬间做出广告决策的能力得到了极大提升
4. 大数据
4.1. 数据处理过程的许多方面并不属于数据科学
4.2. 数据工程和数据处理过程都是数据科学中至关重要的支撑,但它们更宽泛
4.3. 数据科学与数据工程及数据处理技术的差异
4.3.1. 数据科学需要使用数据,它通常得益于基于各种数据处理技术的复杂的数据工程,但这些技术本身并不等同于数据科学4.3.2. 数据处理技术对于许多面向数据但是与知识获取或DDD无关的业务至关重要4.3.2.1. 高效的交易处理、现代Web系统处理和线上广告营销管理等4.3.3. 不意味着可以忽略数据挖掘技术,因为很多算法正是基本概念的具体体现4.4. 大数据其实指的是大型数据集,因其过于庞大而无法使用传统的数据处理系统,所以新的处理技术应运而生
4.4.1. 大数据技术的应用程度每增加一个标准差,公司的生产力就提高1%~3%4.4.2. 每减少一个标准差,生产力就降低1%~3%4.5. 留意其他类似的行业,并从中找出大数据和数据科学进步的迹象,因为这些进步随后必将被应用于其他产业中
5. 数据与数据科学能力
5.1. 从数据中获取有用知识的能力和数据本身,都应被视作关键的战略性资产
5.2. 数据分析主要就是从现存数据中发现价值,而往往忽视了企业自身是否有足够的分析能力
5.3. 将数据和分析能力都视作战略性资产,就能清醒地认识到该对它们投入多少
5.3.1. 相互补充的5.4. 数据与数据科学能力也需要投资
5.4.1. 组建顶尖的数据科学团队虽不寻常,却能给决策带来极大帮助5.5. 通过对违约概率建模,这个行业从个人违约风险评估到大规模和市场占有率的战略都发生了变化
5.6. 数据量可以不断增长,但其对模型的贡献却有一个上限
5.6.1. (匿名的)个体消费者的交易明细数据可以大大改进模型5.6.2. 数据量越大,预测模型的表现越好5.7. 拥有较大数据资产的银行跟拥有较小数据资产的竞争者相比,享有重要的战略优势
5.7.1. 最终结果就是银行产品的采用率增加,或是客户获取成本降低,或两者兼有5.8. Harrahs赌场的一项著名投资是收集和挖掘赌场客户的数据,这项投资让它从20世纪90年代中期的一个小赌场成长为世界上最大的博彩公司(2005年收购了Caesars娱乐后)
5.9. Facebook的巨额估值要归功于其庞大且独特的数据集
5.9.1. 包括用户的信息、喜好和社交网络的结构5.9.2. 社交网络的结构对建立预测模型非常重要,因为它可以有效地帮助商家预测什么人会购买特定商品6. 数据分析式思维
6.1. 各个行业越来越多地受数据分析驱动,在这种情况下,有效地与这些行业进行互动或在这些行业中进行互动的能力,将赋予你相当大的专业优势
6.2. 管理者逐渐开始监督数据分析团队和数据分析项目,市场人员慢慢开始理解和组织数据驱动的市场活动,风险投资者必须明智地投资那些拥有大量数据资产的企业,而企业策划人员必须有能力在方案中利用数据
6.3. 一种规模更小但是更常见的情况,就是各个业务部门都面临着数据分析任务
6.4. 由于数据科学是用来支撑更好的决策的,因此数据科学家和业务方面的决策负责人必须紧密合作
6.5. 管理人员需要掌握数据分析式技能
6.5.1. 只有这些不同领域的管理人员理解数据科学的基本原理,才能真正实现业务水平的提升7. 重新审视数据挖掘和数据科学
7.1. 从数据中获取有用的知识来解决商业问题的过程可以系统地分为若干有明确定义的环节
7.2. 信息技术可以从海量数据中提取出含有信息的、描述目标实体的属性
7.3. 如果你过度关注一组数据,那么你或许可以从中获取一些模式,但这些模式可能无法推广至其他数据
7.4. 阐述和评估数据挖掘的结论时,需要谨慎地考虑它的使用场景
7.4.1. 如果目标是获取可能有用的知识,那么又该如何定义“有用”?7.4.2. 这个问题的答案很大程度上取决于它的应用场景8. 数据科学
8.1. 数据挖掘技术(如随机森林、支持向量机)、具体的应用领域(如推荐系统、广告布局优化)以及常用的大数据处理软件(如Hadoop、MongoDB)
8.2. 化学理论和化学基本原理日渐规范化,而这个领域又是非常依赖实验的,因此当时每位优秀的化学家都必须是一位合格的实验室技术员