近年来,随着移动互联网、物联网、工业互联网等技术的不断发展,企业级应用面临的数据规模不断增大,数据类型异常复杂。针对这 一 问题,业界提出“数据湖(Data”这一新型的企业数据管理技术。数据湖是一个存储企业各种原始数据的大型仓库, 支持对任意规模的结构化、半结构化和非结构化数据进行集中式存储,数据按照原有结构进行存储,无须进行结构化处理;数据湖中的数据可供存取、处理、分析及传输,支撑大数据处理 、实时分析、机器学习、数据可视化等多种应用,最终支持企业的智能决策过程。
请围绕“数据湖技术及其应用”论题,依次从以下三个方面进行论述。
1.概要叙述你所参与管理或开发的软件项目,以及你在其中所承担的主要工作。
2. 详细阐述数据湖技术,并从主要数据来源、数据模式 ((Schema ))转换时机、数据存储成本、数据质量、面对用户和主要支撑应用类型等5个方面详细论述数据湖技术与数据仓库技术的差异。
3.详细说明你所参与的软件开发项目中,如何采用数据湖技术进行企业数据管理,并说明具体实施过程以及应用效果。
二、数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据。数据仓库技术需要事先 定义数据结构和数据模式(Schema)以优化快速SQL查询 ,其中结果通常用于操作报告和分析。数据经过了清 理、丰富和转换,因此可以充当用户可信任的“单一信息源”。与数据仓库不同,数据湖能够同时存储来自业务线应 用程序的关系数据,以及来自移动应用程序、物联网设备和社交媒体的非关系数据在进行数据捕获时,无须定 义数据结构或数据模式(Schema)。数据湖支持用户对数据使用不同类型的分析(如 SQL 查询、大数据分析、 全文搜索、实时分析和机器学习等),为企业智能决策提供支撑。 下面从主要数据来源、数据模式转换时机、数据存储成本、数据质量、面对用户和主要支撑应用类型等六个方面对 数据湖技术和数据仓库技术进行比较:
