本文根据以下许可授权: Creative Commons Attribution-ShareAlike 4.0 International (创意共享署名-相同方式共享 4.0 国际)。
正如我们在设计优秀的数据产品中讨论的,创建一个有用的数据项目,不仅仅是训练一个准确的模型!我以前做咨询时,总是会基于以下考量来理解一个组织开发数据项目的背景:
- 策略:组织试图做什么(目标),以及它可以改变什么来做得更好(杠杆)?
- 数据:组织是否正在捕获必要的数据并使其可用?
- 分析:什么样的见解对组织有用?
- 实施:组织具备什么样的能力?
- 维护:有哪些系统可以跟踪运营环境的变化?
- 约束:以上每个领域有哪些约束需要考虑?
我设计了一份问卷,让客户在项目开始前填写,然后在项目过程中帮助他们完善答案。这份问卷基于我在农业、矿业、银行业、酿酒业、电信、零售等多个行业的数十年项目经验。在这里,我首次公开分享它。
组织层面
数据科学家
数据科学家应该有明确的晋升高级管理层通道,并且应该有招聘计划将数据专家直接引入高级管理层职位。在一个数据驱动的组织中,数据科学家应该是薪酬最高的员工之一。应该有系统来允许组织中的数据科学家相互协作和学习。
- 组织目前具备哪些数据科学技能?
- 如何招聘数据科学家?
- 如何在组织内部识别具备数据科学技能的人员?
- 正在寻找哪些技能?如何评估它们?这些技能是如何被选为重要的?
- 正在使用哪些数据科学咨询?在哪些情况下将数据科学外包?如何将这项工作转移给组织?
- 数据科学家的薪酬是多少?他们向谁汇报?如何保持他们的技能与时俱进?
- 数据科学家的职业发展路径是怎样的?
- 有多少高管具备强大的数据分析专长?
- 如何选择和分配数据科学家工作?
- 数据科学家可以访问哪些软件和硬件?
策略
所有数据项目都应该基于解决具有战略重要性的问题。因此,首先必须理解业务战略。
- 目前组织中最重要的5个战略问题是什么?
- 有哪些数据可以帮助处理这些问题?
- 这些问题是否正在使用数据驱动的方法?数据科学家是否正在研究这些问题?
- 组织可以最有力地影响哪些利润驱动因素?
- 对于上面列出的每一个最重要的利润驱动因素,组织可以采取哪些具体的行动和决策来影响该驱动因素,包括操作性行动(例如,打电话给客户)和战略性决策(例如,发布新产品)?
- 对于上面每一个最重要的行动和决策,有哪些可能可用的数据(无论是在组织内部,还是来自供应商,或者将来可以收集的)可能有助于更好地定位或优化该决策?
- 基于以上分析,组织内部数据驱动分析的最大机遇是什么?
- 对于每个机遇
- 它旨在影响哪个价值驱动因素?
- 它将驱动哪些具体的行动或决策?
- 这些行动和决策将如何与项目结果联系起来?
- 基于上述信息,每个项目预计的投资回报率(ROI)是多少?
- 可能影响项目的时间约束和截止日期(如果有的话)是什么?
数据
没有数据,我们就无法训练模型!数据还需要可用、集成且可验证。
- 组织拥有哪些数据平台,包括数据集市(data marts)、OLAP 多维数据集、数据仓库、Hadoop 集群、OLTP 系统、部门电子表格等等?
- 提供任何已整理的信息,概述组织的数据可用性,以及当前和未来的数据平台建设工作和计划。
- 有哪些工具和流程可在系统和格式之间移动数据?
- 不同用户组和管理员如何访问数据源?
- 组织的数据科学家和系统管理员可以使用哪些数据访问工具(例如,数据库客户端、OLAP 客户端、内部软件、SAS 等)?有多少人使用这些工具,他们在组织中的职位是什么?
- 如何向用户告知新系统、系统更改、新增和更改的数据元素等?请提供示例。
- 如何决定数据访问限制?如何管理对安全数据的访问请求?由谁管理?基于什么标准?平均响应时间是多久?有多少百分比的请求被接受?如何跟踪这些信息?
- 组织如何决定何时收集额外数据或购买外部数据?请提供示例。
- 到目前为止,使用了哪些数据来分析最近的数据驱动项目?哪些数据被发现最有用?哪些数据没用?如何判断?
- 哪些额外的内部数据可能为拟议项目的数据驱动决策提供有用见解?外部数据呢?
- 访问或整合这些数据可能存在哪些约束或挑战?
- 过去两年中,数据收集、编码、集成等方面发生了哪些变化,这些变化可能影响已收集数据的解释或可用性?
分析
数据科学家需要能够根据自身特定需求访问最新的工具。应定期评估新工具,看它们是否显著优于现有方法。
- 组织使用哪些分析工具?由谁使用?如何选择、配置和维护这些工具?
- 在客户端机器上设置额外的分析工具的流程是什么? 完成此操作的平均时间是多久? 请求的接受率是多少?
- 外部顾问构建的分析系统如何转移给组织?是否要求外部承包商限制使用的系统,以确保结果符合内部基础设施?
- 在哪些情况下使用了云计算处理?使用云计算的计划是什么?
- 在哪些情况下,为专业分析使用了外部专家?如何管理?如何识别和选择专家?
- 最近的项目尝试了哪些分析工具?
- 哪些有效,哪些无效?为什么?
- 提供迄今为止为这些项目所做工作的任何可用产出。
- 如何判断此分析结果的有效性?使用什么指标?与什么基准比较?如何知道模型是否“足够好”?
- 组织在哪些情况下使用可视化,而在哪些情况下使用表格报告,在哪些情况下使用预测建模(及类似的机器学习工具)?对于更高级的建模方法,模型如何校准和测试?请提供示例。
实施
IT 约束常常是数据项目的失败之处。务必提前考虑它们!
- 提供一些过去数据驱动项目的成功和失败实施示例,并详细说明 IT 集成和人力资本挑战,以及如何应对这些挑战。
- 在实施之前如何确认分析模型的有效性?如何对它们进行基准测试?
- 如何定义分析项目实施的性能要求(在速度和准确性方面)?
- 对于拟议的项目,请提供以下信息:
- 将使用哪些 IT 系统来支持数据驱动的决策和行动?
- 如何进行 IT 集成?
- 有哪些可能需要较少 IT 集成的替代方案?
- 哪些岗位将受到数据驱动方法的影响?
- 如何培训、监督和支持这些员工?
- 可能出现哪些实施挑战?
- 需要哪些利益相关者来确保实施成功?他们可能如何看待这些项目及其对他们的潜在影响?
维护
除非你仔细跟踪你的模型,否则你可能会发现它们将你引向灾难。
- 第三方构建的分析系统如何维护?何时转移给内部团队?
- 如何跟踪模型的有效性?组织何时决定重新构建模型?
- 如何在内部沟通数据变化,以及如何管理这些变化?
- 数据科学家如何与软件工程师合作,以确保算法正确实施?
- 何时开发测试用例,以及如何维护?
- 何时对代码进行重构?在重构过程中如何维护和验证模型的正确性和性能?
- 如何记录维护和支持需求?如何使用这些记录?
约束
对于正在考虑的每个项目,列举可能影响项目成功的潜在约束,例如:
- 是否需要修改或开发 IT 系统来使用项目结果?是否存在更简单的实现方式可以避免大量的 IT 变更?如果是,这种简化的实现是否会导致影响显著降低?
- 数据收集、分析或实施存在哪些法规约束?最近是否审查过具体的法律和判例?可能存在哪些变通方法?
- 存在哪些组织约束,包括文化、技能或结构?
- 存在哪些管理约束?
- 是否存在任何过去的分析项目可能影响组织资源如何看待数据驱动的方法?