发布时间:2019年08月23日
赋能您的数据分析计划
当前,数据分析的价值不言而喻。近年来,数据分析已成为足以改变游戏规则的技术,颠覆了几十年来的行业习惯。随着分析技术的日趋成熟,越来越多的企业开始积极推动数据分析技术的应用,以寻找创新的解决方案应对各种业务需求,从欺诈预测,到定制个性化的消费者体验。
虽然已有很多成功案例广为人知,但是对大多数企业而言,数据分析技术仍然有些难以捉摸。许多公司一直在探索如何在业务中应用数据分析。不过,这些举措在很大程度上仍然局限于实验的层面,还停留在概念验证(POC)阶段。
实际上,大多数企业所面临的挑战并不仅仅是最初应用数据分析的决策,还有如何在生产环境中实施这些数据分析工作。
打造工业级别的分析解决方案,性能是关键
对于希望扩大其数据分析工作规模的公司而言,这个过程往往太过复杂,充满未知。首先,优先事项可能会发生变化。在概念验证阶段,预测准确性可能是检验成功最重要的标准。公司一般会创建一个沙盒环境,项目数据科学家可以在其中测试和试验分析模型和算法。
但是,当企业推出运用嵌入式算法的实际产品时,他们面对的是成熟的数字用户,而这些用户期待的是高质量的用户体验。算法在准确性、速度等方面的性能表现,都将对该款产品最终能否被广泛采用有所影响。
为何用户体验往往成为决定一款产品受欢迎程度的关键因素?我们不妨用谷歌的搜索引擎作为类比来试着解释一下。搜索引擎在本质上就是一个复杂的分析机器学习模型。当我们使用谷歌的搜索引擎查找信息时,我们期望得到准确的结果,而这是由算法决定的。此外,我们作为用户的另一个期待因素理所当然是检索速度。我们可不想为了一个搜索结果等上五分钟。
数据湖——数据集成的解决方案
目前,大多数概念验证是在较小的可控范围内完成的,且局限于一个企业里的几个部门。在此阶段,数据通常是在离线状态下从各种来源中手动提取,然后混合在一起进行分析,并从中得出洞见。
如果概念验证成功,接下来的目标通常是将该项目扩展到整个公司范围。这时,输入的数据量可能会成倍增长,而集成各种来源的数据就成为了一个挑战。这也意味着需要改变处理数据的基本方式。公司在开始进行分析之前,可能需要考虑建立一个数据存储库。
随着数据量、种类和速度的增长,许多公司都希望建立一个数据湖,作为一个能够容纳从多种来源获取的结构化、非结构化和半结构化等所有不同形式数据的中央存储库。数据湖会保留数据的所有属性,并支持那些对于数据的范围和目的尚不清晰的分析任务。在许多行业中,数据湖已经越来越多地被用于解决数据集成问题,以获得更清晰的可见性,消除数据孤岛。
然而,数据湖的属性也意味着,如果维护不当,它很容易变成充满劣质数据的数据沼泽,而如果依赖这些数据产生洞见,其效果无异于在能见度低的浑浊池水中潜水。
维护高质量数据,需要仰赖强大的数据治理
防止数据湖变成数据沼泽的非常可靠的一种方法是,建立强大的数据治理策略和流程,从而确保数据的完整性和质量,同时运用工具来实施这些数据治理策略。没有高质量的数据,再复杂的分析技术也无法获得理想的结果。那将只会是“无用的输入,无用的输出”。
可惜,在概念验证阶段,数据治理往往不是数据分析项目的重点。然而,当数据分析计划进入规模化生产阶段时,将会有更多的用户参与其中,风险也会更高。这时,任何因不完整或错误的数据而出的错都将比以往产生更大的影响。
因此,数据治理的防守作用至关重要,它可以确保维护数据的完整性,并降低数据处理不当的风险。
超越概念验证,不仅需要技术技能
目前更大范围的行业趋势显示,企业面临的一个很大的障碍就是吸引和留住合适的人才。
目前,数据科学是一个相对小众的领域,从事该领域工作的专业人士往往拥有IT、数学或统计学背景。然而,未来的数据科学家需要具备横跨人文、社会科学、商业等不同学科的技能。对于想要将概念验证投入生产的企业而言,这种技能差距将会是一个主要障碍。
例如,在概念验证阶段,出于方便和节省成本的考量,大多数数据科学家倾向于使用R、Python等开源语言编写高级分析算法。结果的呈现则选择简单的数据可视化格式,以方便与业务部门进行沟通。但是,要持续部署这些分析算法,就需要将它们嵌入业务用户常用的应用中。这些应用往往是采取基于Web或自定义应用的格式。在设计此类应用场景时,需要注意各种不同的构成。例如,应遵循以用户为中心的设计原则,这就需要设计思维、应用开发技能以及数据科学知识。
最终,要成功地将数据分析工作从“温室”(即概念验证阶段)转移到现实生产,需要的是兼具业务头脑和技术技能的专业人才。
从概念验证到投入生产的五个关键步骤:
数据科学模型需要嵌入到业务用户常用的应用中。性能也是一个重要因素——构建算法的代码必须进行优化,以实现在可接受的时间内交付结果。
大多数概念验证项目仅使用总生产数据的一个子集来执行。而设计和搭建适当的基础架构时,则需要匹配适当规模的数据,这很重要。有时需要像Hadoop这样的大数据架构,有时传统的数据仓库就足够了。
在生产环境中,数据量会不断增加,也会更依赖于用户选择的模型输出。为了防止发生“无用的输入,无用的输出”的情况,数据质量和数据完整性至关重要。
在概念验证期间,数据往往是从源系统脱机手工提取的,再经过转换才会执行数据分析任务。这些重复劳动最耗时耗力。在扩大应用场景后,提取——转换——加载(ETL)的过程应在最少的人工干预下实现自动化。
为了保持算法的有效性和相关性,需要使用新数据定期对其进行重新校准和重新训练。因此,需要建立系统化、结构化的方法,持续管理这些模型,这一点至关重要。
1. 在应用中部署模型
2. 估算生产环境中的数据总量
3. 实施强大的数据治理
4. 实施流程自动化
5. 执行持续的模型管理和维护
想要了解如何加强您的数据分析计划,快和我们联系吧!
点击阅读《进行分布式开发,方法要实用才行!》,了解更多相关领域内容。