发布时间:2019年08月23日

赋能您的数据分析计划


当前,数据分析的价值不言而喻。近年来,数据分析已成为足以改变游戏规则的技术,颠覆了几十年来的行业习惯。随着分析技术的日趋成熟,越来越多的企业开始积极推动数据分析技术的应用,以寻找创新的解决方案应对各种业务需求,从欺诈预测,到定制个性化的消费者体验。

虽然已有很多成功案例广为人知,但是对大多数企业而言,数据分析技术仍然有些难以捉摸。许多公司一直在探索如何在业务中应用数据分析。不过,这些举措在很大程度上仍然局限于实验的层面,还停留在概念验证(POC)阶段。

实际上,大多数企业所面临的挑战并不仅仅是最初应用数据分析的决策,还有如何在生产环境中实施这些数据分析工作。

打造工业级别的分析解决方案,性能是关键

对于希望扩大其数据分析工作规模的公司而言,这个过程往往太过复杂,充满未知。首先,优先事项可能会发生变化。在概念验证阶段,预测准确性可能是检验成功最重要的标准。公司一般会创建一个沙盒环境,项目数据科学家可以在其中测试和试验分析模型和算法。

但是,当企业推出运用嵌入式算法的实际产品时,他们面对的是成熟的数字用户,而这些用户期待的是高质量的用户体验。算法在准确性、速度等方面的性能表现,都将对该款产品最终能否被广泛采用有所影响。

为何用户体验往往成为决定一款产品受欢迎程度的关键因素?我们不妨用谷歌的搜索引擎作为类比来试着解释一下。搜索引擎在本质上就是一个复杂的分析机器学习模型。当我们使用谷歌的搜索引擎查找信息时,我们期望得到准确的结果,而这是由算法决定的。此外,我们作为用户的另一个期待因素理所当然是检索速度。我们可不想为了一个搜索结果等上五分钟。

数据湖——数据集成的解决方案

目前,大多数概念验证是在较小的可控范围内完成的,且局限于一个企业里的几个部门。在此阶段,数据通常是在离线状态下从各种来源中手动提取,然后混合在一起进行分析,并从中得出洞见。

如果概念验证成功,接下来的目标通常是将该项目扩展到整个公司范围。这时,输入的数据量可能会成倍增长,而集成各种来源的数据就成为了一个挑战。这也意味着需要改变处理数据的基本方式。公司在开始进行分析之前,可能需要考虑建立一个数据存储库。

随着数据量、种类和速度的增长,许多公司都希望建立一个数据湖,作为一个能够容纳从多种来源获取的结构化、非结构化和半结构化等所有不同形式数据的中央存储库。数据湖会保留数据的所有属性,并支持那些对于数据的范围和目的尚不清晰的分析任务。在许多行业中,数据湖已经越来越多地被用于解决数据集成问题,以获得更清晰的可见性,消除数据孤岛。

然而,数据湖的属性也意味着,如果维护不当,它很容易变成充满劣质数据的数据沼泽,而如果依赖这些数据产生洞见,其效果无异于在能见度低的浑浊池水中潜水。

维护高质量数据,需要仰赖强大的数据治理

防止数据湖变成数据沼泽的非常可靠的一种方法是,建立强大的数据治理策略和流程,从而确保数据的完整性和质量,同时运用工具来实施这些数据治理策略。没有高质量的数据,再复杂的分析技术也无法获得理想的结果。那将只会是“无用的输入,无用的输出”。

可惜,在概念验证阶段,数据治理往往不是数据分析项目的重点。然而,当数据分析计划进入规模化生产阶段时,将会有更多的用户参与其中,风险也会更高。这时,任何因不完整或错误的数据而出的错都将比以往产生更大的影响。

因此,数据治理的防守作用至关重要,它可以确保维护数据的完整性,并降低数据处理不当的风险。

超越概念验证,不仅需要技术技能

目前更大范围的行业趋势显示,企业面临的一个很大的障碍就是吸引和留住合适的人才。

目前,数据科学是一个相对小众的领域,从事该领域工作的专业人士往往拥有IT、数学或统计学背景。然而,未来的数据科学家需要具备横跨人文、社会科学、商业等不同学科的技能。对于想要将概念验证投入生产的企业而言,这种技能差距将会是一个主要障碍。

例如,在概念验证阶段,出于方便和节省成本的考量,大多数数据科学家倾向于使用R、Python等开源语言编写高级分析算法。结果的呈现则选择简单的数据可视化格式,以方便与业务部门进行沟通。但是,要持续部署这些分析算法,就需要将它们嵌入业务用户常用的应用中。这些应用往往是采取基于Web或自定义应用的格式。在设计此类应用场景时,需要注意各种不同的构成。例如,应遵循以用户为中心的设计原则,这就需要设计思维、应用开发技能以及数据科学知识。

最终,要成功地将数据分析工作从“温室”(即概念验证阶段)转移到现实生产,需要的是兼具业务头脑和技术技能的专业人才。

从概念验证到投入生产的五个关键步骤:

数据科学模型需要嵌入到业务用户常用的应用中。性能也是一个重要因素——构建算法的代码必须进行优化,以实现在可接受的时间内交付结果。

大多数概念验证项目仅使用总生产数据的一个子集来执行。而设计和搭建适当的基础架构时,则需要匹配适当规模的数据,这很重要。有时需要像Hadoop这样的大数据架构,有时传统的数据仓库就足够了。

在生产环境中,数据量会不断增加,也会更依赖于用户选择的模型输出。为了防止发生“无用的输入,无用的输出”的情况,数据质量和数据完整性至关重要。

在概念验证期间,数据往往是从源系统脱机手工提取的,再经过转换才会执行数据分析任务。这些重复劳动最耗时耗力。在扩大应用场景后,提取——转换——加载(ETL)的过程应在最少的人工干预下实现自动化。

为了保持算法的有效性和相关性,需要使用新数据定期对其进行重新校准和重新训练。因此,需要建立系统化、结构化的方法,持续管理这些模型,这一点至关重要。

1. 在应用中部署模型

2. 估算生产环境中的数据总量

3. 实施强大的数据治理

4. 实施流程自动化

5. 执行持续的模型管理和维护

想要了解如何加强您的数据分析计划,快和我们联系吧!

点击阅读《进行分布式开发,方法要实用才行!》,了解更多相关领域内容。


分享到:

探索恩士迅(NCS)

精彩实践

如何更好地设计你的职业生涯?如何提升你的技能?

了解更多

工作机会

了解恩士迅(NCS)的精英团队,认识来自各行各业的人才。

了解更多

人才计划

了解你在恩士迅(NCS)会有怎样的职业发展机会?

了解更多

输入关键词,按回车键搜索

联系 恩士迅 (NCS)

为方便后续的跟进,请您在提交咨询表格时,尽可能填写完整信息,并指明您的具体需求。我们会尽快与您联系!

021 6141 5511

感谢您的询问!我们会尽快回复您。

Thank you for your interest.