MapReduce 的join 方法有哪些 阶段实战

1、给定a、b 两个文件,各存放50 亿个url,每个url 各占64 字节,内存限制

是4G,让你找出a、b 文件共同的url

2、有一个1G 大小的一个文件,里面每一行是一个词,词的大小不超过16 字节,

内存限制大小是1M,要求返回频数最高的100 个词

3、现有海量日志数据保存在一个超级大的文件中,该文件无法直接读入内存,

要求从中提取某天出访问百度次数最多的那个IP

4、128G 如何对5T 的数据的ip 做word count

5、HDFS 上有一个sample.txt 文件,里面每行存放的是登录用户的ip,不同行可

能有相同的ip,一个mapreduce 程序找到访问次数最多的ip

6、假如有一个文件大小为1G 的文本文件,每行都不超过20 个字符,可用内存

只有100M,现需要进行对该文件进行排序,请给出思路


实操列表

百战程序员微信公众号

百战程序员微信小程序

©2014-2024 百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园
网站维护:百战汇智(北京)科技有限公司
京公网安备 11011402011233号    京ICP备18060230号-3    营业执照    经营许可证:京B2-20212637