Apriori算法在Hadoop平台的并行化实现
资源描述本代码根据APROORI算法和MapReduce特点,将Apriori算法在Hadoop平台上并行化,通过并行化可以使Apriori算法处理大量的数据而不受单机运算能力的限
本专区汇聚了各类基于 Hadoop 开发的源码资源,共计 34 篇资源供开发者免费下载学习。
资源描述本代码根据APROORI算法和MapReduce特点,将Apriori算法在Hadoop平台上并行化,通过并行化可以使Apriori算法处理大量的数据而不受单机运算能力的限
Usage: hadoop jar random-seed-generator-0.1.0.jar org.mathbiol.mahout.RandomSeedGenerator
资源描述mahout中fpgrowth算法的实现。fpgrowth算法在主要用于关联分析,相比apriori算法只需要两次读取数据库。而并行的fpgrowth算法就将算法分而治之,
该包主要涉及到mapreduce中的任务分配、执行和并行处理的代码书写,给各位提供写hadoop写的任务调度的一个参考
Motivation This project is to assist normal users who are not familiar with hadoop to ut
HBtest is a novel system-level automatic testing framework towards Hadoop-based applicatio
用hadoop的mapreduce模型做了一个自动识别行业词的程序, 从算法上降低了计算量,而且分布式的话会更加快. 我用一份从51job, 智联招聘, 中华英才网等290多家招聘
Motivation/Purpose Hadoop Map/Reduce is gaining a lot of popularity in the industry and
应用背景此代码计数各个单词出现的次数从一组文件。包括制图,减速器和驱动。读取时间映射一线分为(键,值)对..从映射的输出作为输入到减速器..输出映射是关键,;——;——关键,关键,
hadoop2.5.1-workCount-源码,导入eclipse可直接运行。有需求的可以一起研究一下。
1、概述 不管程序性能有多高,机器处理能力有多强,都会有其极限。能够快速方便的横向与纵向扩展是Nut设计最重要的原则,以此原则形成以分布式并行计算为核心的架构设计。以分布式并行计
This package provides a unified framework for parallel regression algorithms using gradien