发布时间:2020年11月20日
如何在数据分析中保持敏捷——三步让你的数据洞察力提速
近年来,数据分析应用得越来越频繁。然而,对于大多数企业而言,快速获得有意义的分析结果仍然难以实现。大家经常会遇到以下几类问题:
- 数据质量差:在准备数据用以分析时,用户经常发现数据的某些要素在收集时丢失,或捕获了错误数据。数据元素通常也缺乏标准化的定义,这会导致对结果的误判。用户最终花费了大量时间去纠正数据完整性的问题,而非通过数据分析获得洞见。
- 数据存储在孤岛:数据会随着时间的推移自然增长,在缺乏核心数据战略的情况下,数据往往会存储在各种操作和存储系统中。数据分散在多个不相连的系统上,会导致数据的混合和合并变得困难且低效,,也无法及时发现相关性和隐藏模式。
- 低估了部署机器学习模型所需的工作量:除了少数先进的科技公司,很少有企业具有足够的专业知识和规模,能够自动将机器学习模型部署到生产环境中,并随着时间的推移监控模型性能、进行持续的再培训和模型重新校准,以确保机器学习模型的有效性和相关性。
- 缺乏通用的分析工具:如果企业允许使用不同的数据分析工具,可能会阻碍团队协作以及洞见共享。
- 过度依赖数据科学家:许多企业依靠有限的几位数据科学家来承担数据分析工作,从而阻碍分析结果的快速采用,导致工作瓶颈。
接下来,我们就探讨一下可以采取哪些具体步骤来提高分析的敏捷性,以便于我们能够从数据和分析中受益,从而更快地执行决策。
通过一套正确的分析技术来实现分析敏捷性
数据虚拟化
更顺畅的数据访问通道有助于实现分析的敏捷性。为了方便、轻松地访问不同数据源,可以考虑探索数据虚拟化之类的技术,以增加企业现有数据架构的灵活性。数据虚拟化让用户能够访问、查询和集成来自不同来源的数据,无论数据源是本地的、云上的还是跨不同地理位置的。通过这种方式,可以创建一个单一的企业级平台,支持连接到任何类型的数据源,合并各种数据类型,允许集中访问数据并以仪表板、报告或高级分析用例等模式使用数据。数据虚拟化层还可以提供数据目录功能。这有助于减少从各个数据孤岛中寻找数据的耗时,促进自助服务,从而提高生产率。
此外,与传统的“提取-转换-加载”(ETL)方法相比,数据虚拟化可以更快地添加新的数据源。虚拟化还可以简化数据模型管理过程。Denodo科技公司高级总监Alex Hoehl表示,像Denodo这样的数据虚拟化解决方案会“创建一个单一的访问层,这样就可以允许数据源访问、数据安全和数据治理在一个地方进行管理,从而简化了数据管理流程”。这意味着,诸如添加新用户、更改访问权限、监控审计跟踪等数据访问管理活动,(现在也可以更快、更轻松地完成。
统一数据分析平台
为了协调整个企业使用的各种分析工具,可以考虑部署一个一致、统一的数据分析平台。一个理想的数据平台,应该允许在这个平台上进行数据准备和数据混合,还应该可以结合机器人流程自动化来自动执行某些手动的工作,尤其是一些重复而耗时的数据准备任务。同时,这个平台应该可以支持复杂任务,让数据科学家能够在高级分析模型上进行协作,从而允许机器学习模型在整个企业内轻松共享。最重要的是,一个理想的数据分析平台应自动执行模型的部署,随着时间的推移监控模型的性能,并自动进行模型的再培训和再校准,从而持续维护模型的有效性。
还有一些平台已经开发出了其它的新功能。比如,创造了无代码或有利于代码的环境,允许拖放功能,使操作更人性化。这也是选择分析平台时需要考虑的因素,因此,我们接下来将讨论操作人员对敏捷性分析的影响。
通过增强人员能力来实现分析敏捷性
我们在之前的文章《数据民主化:创建真正的数据驱动型组织的关键》中探讨了数据民主化和数据素养的话题。文章中提到,具备数据素养不仅意味着能够读取和分析数据,更重要的是,能够与数据“辩论“——挑战数据的含义,并使用数据来支持假设。数据素养不仅对数据科学家和首席执行官们来说必不可少,对于每位工作人员也不可或缺,因为他们了解数据收集的背景,并能够对如何使用这些数据提出意想不到的见解。
如今,有越来越多的工具适用于“公民数据科学家”——商业分析师,他们可能没有博士学位,但同样有能力从企业和外部海量数据中发现有价值的洞见。“公民数据科学家”是数据民主化运动的产物,而为他们提供支撑的是一系列由人工智能驱动的工具和技术。
我们之前已经提到,拥有统一数据分析平台有诸多优势。而当业务的终端用户可以轻松使用这个平台,则将进一步加快分析敏捷性,因为它减少了对数据工程师和数据科学家等专业资源的依赖。在经过培训、提升技能后,数据分析师和业务分析师可以轻松运用这一平台提供的自主服务功能。现在,无需等待数据工程师准备数据,也不需要等待数据科学家的分析结论,业务终端用户可以自行执行与数据相关的任务,从而提高终端用户的生产力和敏捷性。
Alteryx是当今市场领先的以用户为中心的商业分析平台,其公共部门解决方案市场总监Andy MacIsaac总结道:一个有效的统一分析平台会“在整个数字转换能力连续性中提供数据分析、数据科学和流程自动化功能,将商业用户、普通分析人员和信息消费者聚集在一起,加速整个企业的数据分析”。
通过强大的数据治理流程实现分析敏捷性
数据科学家表示,他们平均花费26%的时间在数据清理上[1]。从这一数字就可以看到高质量的数据可以节省的时间。
广义上讲,数据治理是对数据资产管理的授权和控制。根据完善的策略和最佳实践对数据进行适当的管理,这对于赋能企业提升信息处理与分析能力至关重要。有效的数据治理有助于避免数据中的不一致和错误,否则就会影响用于正确决策的数据洞见的准确性和完整性。数据治理包含了一系列内部政策和程序,以确保数据安全、可信、文档完备、有效管理和定期审核。
数据对任何企业来说都是宝贵资产,因此,要广泛推动数据分析的应用,就必须让使用者信任数据。通过从一开始就使用适当的治理流程来管理数据,企业可以为员工提供可信的高质量数据的访问权限,使用户可以放心地做出由数据驱动的决策,而无需耗费时间验证数据的准确性和完整性。
结论
一般而言,一个企业无法实现数据分析的敏捷性,原因往往不止一个,正如本文开头所述,可能是多种因素综合作用的结果。但是,一旦拥有了正确的数据和分析技术,再加上流程的改进以及向数据民主化转变的思维方式,我们就可以采取积极的步骤来提高数据分析的敏捷性。
参考文献
[1] 2020年数据科学状况:从炒作走向成熟;www.anaconda.com/state-of-data-science-2020