Hadoop关键字查询结果,共102项记录

Hadoop数据仓库开发实战

哪些维度进行汇总等，需要根据业务需求及明细层实际汇总频率来确定，原则上，业务使用频繁的的维度需要对这些维度建立汇总层，汇总的指标可以和业务需求共同设计完成。......
应对Hadoop集群数据疯长,这里祭出了4个治理对策！

在目前规模比较大的互联网公司中，总数据量能达到10PB甚至几十PB数据量的公司，我认为中国已经有超过了20家了。而在这些公司中，也有很多家公司的日数据增长达到100TB+了。所以我们每天都要观察......
基于Hadoop的数据分析平台搭建

为了应对随着数据量的增长、数据处理性能的可扩展性，许多企业纷纷转向Hadoop平台来搭建数据分析平台。Hadoop平台具有分布式存储及并行计算的特性，因此可轻松扩展存储结点和计算结点，解决数据......
基于Hadoop的大数据平台实施

大数据平台架构设计沿袭了分层设计的思想，将平台所需提供的服务按照功能划分成不同的模块层次，每一模块层次只与上层或下层的模块层次进行交互(通过层次边界的接口)，避免跨层的交互，这种设计......
微博广告推荐中有关Hadoop的那些事

微博，一个DAU上亿、每日发博量几千万的社交性产品，拥有庞大的数据集。如何高效得从如此规模的数据集中挖掘出有价值的信息，以增强用户粘性，提高信息传播速度，就成了重中之重。因此，我们引......
Hadoop生态系统的详细介绍

Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和MapReduce，hadoop2.0还包括YARN。......
Hadoop完全分布式安装Kafka

Kafka是由LinkedIn开发的一个分布式基于发布/订阅的消息系统，使用Scala编写，它以可水平扩展和高吞吐率而被广泛使用。......
常见的七种Hadoop和Spark项目案例

如果您的Hadoop项目将有新的突破，那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的，如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情，他们最终却会......
Hadoop与Spark常用配置参数总结

MapReduce和Spark对外提供了上百个配置参数，用户可以为作业定制这些参数以更快，更稳定的运行应用程序。本文梳理了最常用的一些MapReduce和Spark配置参数。......
Hadoop Job Scheduler作业调度器

作业资源份额的计算是根据作业的权值将集群的资源总量划分给各个可以运行的作业。默认情况下，权值基于作业优先级，每个优先级对应的权值是低一个优先级的2倍(优先级共有VERY_HIGH,HIGH,NORMAL,......

首页上一页12 3 4 5 6 7 8 9 10 ...下一页尾页