早在 2011 年 LinkedIn 上,我们就开始使用
专有数据仓库。随着像“
你可能认识的人”这样的数据科学/机器学习应用程序的构建,我们稳步转向Apache Avro上的
数据湖,Apache Pig可以访问MapReduce作为分析、报告、机器学习和数据应用程序的事实来源。几年后,我们在
Uber也面临着同样的挑战,这一次是交易数据和真正的实时业务,天气或交通可以立即影响定价或预计到达时间。我们通过构建 Apache Hudi 构建了一个事务性数据湖,作为 Parquet、Presto、Spark、Flink 和 Hive 上所有数据的入口点,然后它甚至在那个术语被创造出来之前就提供了世界上第一个数据湖仓一体。