
1. 总结
1.1. 不能简明地解释一件事,说明你对它理解得不够
1.1.1. 爱因斯坦1.2. 对数据科学实践最好的描述是分析工程和探索的结合
1.3. 商业中会存在我们需要解决的问题,而该问题很少能直接与基础的数据挖掘任务相对应
1.4. 缺少分析工程的结果是,数据挖掘的结论很可能无法用于解决商业问题
1.5. 如果没有将整个过程视作一个探索发现过程,常常会导致企业无法恰当地部署管理、激励和投资,进而导致整个项目失败
1.6. 高效的数据分析思维有助于系统地评估潜在的数据挖掘项目
2. 基本概念
2.1. 理解和接受数据科学的基本概念,会使分析工程和探索发现更加系统化,更有可能取得成功
2.2. 关于如何将数据科学应用于企业和竞争格局的一般概念,包括如何吸引、构建和培养数据科学团队,如何利用数据科学带来竞争优势,如何保持竞争优势,以及做好数据科学项目的战术原则
2.3. 数据分析式思维的一般方法有助于我们收集合适的数据、构想合适的方法
2.4. 概念包含数据挖掘流程、各种高层次的数据科学任务的集合,以及如下所述的原则
2.4.1. 在整个数据挖掘流程中,数据科学团队都应谨记亟待解决的问题和使用场景2.4.2. 数据应被视作资产,因此我们应谨慎考虑对其进行投资,以充分利用该资产2.4.3. 期望值框架有助于构造商业问题2.4.3.1. 可以让我们看到商业问题中包含的数据挖掘问题,以及商业环境带来的成本、收益和约束2.4.4. 泛化能力和过拟合:如果过度仔细地观察数据,那么总能发现其中的模式2.4.4.1. 希望这些模式也能推广到新数据中2.4.5. 把数据科学应用到结构良好的问题中或探索性数据挖掘中时,需要在数据挖掘流程的不同环节付出不同的努力2.5. 从数据中实际获取知识的一般概念
2.5.1. 识别富信息属性,即与我们关注的未知量相关或能提供其相关信息的属性2.5.2. 用数值函数模型拟合数据:选定目标(函数),并根据它选定一系列参数2.5.3. 对模型复杂度进行必要的控制,在泛化能力和过拟合之间找到平衡点2.5.4. 计算数据所描述的对象之间的相似度2.5.5. 提升度被用来度量在多大程度上特定模式比随机情况更有可能出现3. 挖掘移动设备数据
3.1. 用定位数据将可能属于同一个用户的其他设备筛选出来
3.2. 如果我们能刻画出某个移动设备的位置访问行为,就可以排除大部分可能的备选项
3.3. 在数据理解环节,我们需要决定如何确切地表示用户的设备及其定位
4. 改变对商业问题解决方案的思考方式
4.1. 在数据挖掘流程中的业务理解/数据理解环节中,“问题是什么”的概念变成了“我们到底能对数据做什么”
4.2. 事实证明,在进行精准广告或促销时,这样的改变能被所有利益相关者接受
5. 数据做不到的
5.1. 有些事情是计算机擅长的,有些则是人类擅长的,而这两者往往不尽相同
5.1.1. 人类更擅长从全世界的所有东西中区分出一些相关联的方面,并从中收集数据来支持特定任务5.1.2. 计算机则更擅长从包括大量(可能)相关变量的浩如烟海的数据中筛选重要信息,以及通过量化变量相关性来预测目标5.2. 数据科学是人类智慧和计算机技术的明智组合,能做到两者中任何一方不能单独做到的事情
5.2.1. 该过程所引入的结构强调人类之间的早期交互,从而确保了数据科学方法围绕着正确的问题应用5.2.2. 检查数据挖掘流程也能说明,人际互动不仅在任务选择和问题定义环节起关键作用5.2.3. 人类的创造力、知识和常识发挥作用的一个环节是选择正确的数据进行挖掘,而这一环节(特别是考虑它的重要性时)在数据挖掘的讨论中经常被忽略5.2.4. 人际互动也是评估环节的关键5.2.4.1. 只有人类能分辨对于特定问题而言,什么是最优化的最佳客观标准5.2.4.2. 涉及大量人类的主观判断,因为通常真正的最优化标准是无法度量的5.2.4.3. 人类必须尽可能找出最好的替代标准,并且牢记这些决定,因为它们可能是模型部署时的风险来源5.2.4.4. 需要仔细地、有时有创造力地关注最终生成的模型或模式是否真的能解决问题5.3. 数据包含了设计数据采集系统的人的信念、目的、偏见和语言用法
5.3.1. 数据的含义则会受到我们自身信念的影响5.4. 当发现数据采集过程中的偏差时,我们通常会改变对数据采样的理解
5.5. 我们需要能够识别可以因数据科学甚至是人类的参与而增值的问题
6. 隐私、道德和挖掘个人数据
6.1. 挖掘数据,尤其是个人数据,会引发不容忽视的道德问题
6.2. 隐私和改善商业决策之间的关系非常密切,因为愈发频繁的个人数据使用和愈加高效的商业决策之间似乎存在直接关系
6.2.1. 收集到的个人数据越详细,相关商业决策的质量就会越高6.2.2. 越来越少的隐私和越来越高的企业业绩之间看似有直接的关系,这从隐私和业务两个视角(有时来自同一人)同时引发了强烈的情绪6.3. 隐私是一个混乱的概念,我们无法明确其含义
7. 从众包到云包
7.1. 互联网带来的企业和“消费者”的互通,改变了劳工经济
7.2. “云劳动”的众包业务—通过互联网来控制大量独立承包商
7.3. 一种与数据科学紧密相关的云劳动是“微外包”:将大量小而定义明确的任务外包
7.4. 微外包与数据科学紧密相关,因为它改变了数据投资的经济条件和可行性
7.5. 可以通过互联网雇用廉价劳动力,以多种方法获取数据
7.6. 一分钱一分货,低价有时代表低质量
7.7. 用云劳动查找仇恨言论的正样本个体
7.8. 云劳动也可以用于在游戏式的系统中找到当前模型出错的地方,即“打败机器”