# 编程设计

WordCount的实现过程(Mapreduce实现)
海量URL去重
海量数据排序
个数中找出最大的10000个数（top K问题）
已知某个文件内包含一些电话号码,每个号码为8位数字,统计不同号码的个数
两个文件合并的问题：给定a、b两个文件,各存放50亿个url,每个url各占用64字节,内存限制是4G,如何找出a、b文件共同的url?
有 10 个文件,每个文件 1G,每个文件的每一行存放的都是用户的 query,每个文件的query 都可能重复要求你按照 query 的频度排序还是典型的 TOP K 算法,
给 40 亿个不重复的 unsigned int 的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那 40 亿个数当中
有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M返回频数最高的100个词
用MapReduce实现一个存储kv数据的文件,对里面的v进行全量排序
Spark Streaming 计算 pv、uv、跳出率

# WordCount的实现过程(Mapreduce实现)

# 海量URL去重

通过BloomFilter去重，有一定的错误率
通过HDFS+MapReduce去重
- 使用一个reduce，map输入后将value输出，reduce得到相同的key后，value不管，则就可以去重了
- Hadoop数据去重详解 (opens new window)

# 海量数据排序

原理同上，使用一个reducer，map输入后将value输出，利用mr的自动排序，然后reducer中用一个全局的linenumer变量进行排号，这个号自增的，根据value list ，有多少个value，就输出多少次,用于处理相同值

# 个数中找出最大的10000个数（top K问题）

top K问题很适合采用MapReduce框架解决，用户只需编写一个Map函数和两个Reduce 函数，然后提交到Hadoop（采用Mapchain和Reducechain）上即可解决该问题。具体而言，
就是首先根据数据值或者把数据hash(MD5)后的值按照范围划分到不同的机器上，最好可以让数据划分后一次读入内存，这样不同的机器负责处理不同的数值范围，实际上就是Map。
得到结果后，各个机器只需拿出各自出现次数最多的前N个数据，然后汇总，选出所有的数据中出现次数最多的前N个数据，这实际上就是Reduce过程。
对于Map函数，采用Hash算法，将Hash值相同的数据交给同一个Reduce task；
对于第一个Reduce函数，采用HashMap统计出每个词出现的频率，对于第二个Reduce 函数，统计所有Reduce task，输出数据中的top K即可。
海量数据处理 - 10亿个数中找出最大的10000个数（top K问题） (opens new window)

# 已知某个文件内包含一些电话号码,每个号码为8位数字,统计不同号码的个数

本题最好的解决方法是通过使用位图法来实现。8位整数可以表示的最大十进制数值为99999999。如果每个数字对应于位图中一个bit位，那么存储8位整数大约需要99MB。因为1B=8bit，所以99Mbit折合成内存为99/8=12.375MB的内存，即可以只用12.375MB的内存表示所有的8位数电话号码的内容。
用bitmap解决海量电话号码统计问题 (opens new window)

# 两个文件合并的问题：给定a、b两个文件,各存放50亿个url,每个url各占用64字节,内存限制是4G,如何找出a、b文件共同的url?

# 有 10 个文件,每个文件 1G,每个文件的每一行存放的都是用户的 query,每个文件的query 都可能重复要求你按照 query 的频度排序还是典型的 TOP K 算法,

# 给 40 亿个不重复的 unsigned int 的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那 40 亿个数当中

# 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M返回频数最高的100个词

顺序读文件中，对于每个词x，取hash(x)%5000，然后按照该值存到5000个小文件(记为x0,x1,...x4999)中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。对每个小文件，统计每个文件中出现的词以及相应的频率(可以采用trie树/hash_map等)，并取出出现频率最大的100个词(可以用含100个结点的最小堆)，并把100个词及相应的频率存入文件，这样又得到了5000个文件。下一步就是把这5000个文件进行归并(类似与归并排序)的过程了。

https://blog.csdn.net/wj1314250/article/details/80186642 (opens new window)

# 用MapReduce实现一个存储kv数据的文件,对里面的v进行全量排序

# Spark Streaming 计算 pv、uv、跳出率

← 解决方案