MapReduce TopK统计加排序

作者:潇洒子弦     分类:算法     标签:     时间:2014.06.06     浏览:110     评论:2

Hadoop技术内幕中指出Top K算法有两步,一是统计词频,二是找出词频最高的前K个词。在网上找了很多MapReduce的Top K案例,这些案例都只有排序功能,所以自己写了个案例。 这个案例分两个步骤,第一个是就是wordCount案例,二就是排序功能。 一,统计词频 1 package TopK; 2 import java.io.IOException; 3 import java.util.StringTokenizer; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.hado [...]   阅读全文


蛙蛙推荐:蛙蛙牌正文提取算法

作者:蛙蛙池塘     分类:算法     标签:     时间:2014.06.06     浏览:107     评论:0

摘要:上次和大家讨论了一些正文提取的细节问题,这次我把一些关键问题解决了,给大家上一下代码,并做了演示,能提取不少网站的正文了,当然在功能和代码组织上还有不少改进的地方。思路:1、抓取远程网页源码,这里要实现自动判断网页编码,否则有可能抓到乱码。我是先看应答的http头的chareset,一般这个很准,但像csdn的新闻比较变态http应答的头里的chareset和网页的meta里声明的chareset不一致,所以我手工加了一下判断,如果不一致再在内存流里用网页声明的编码读取一遍源码2、把网页分割成几大块。试用了一下tidy的.net包装及HtmlParse的.net版本,都不太好用。于是我自 [...]   阅读全文


关于我

浅墨,80后程序猿,不善于前端,只会做后台。他也是地地道道的重庆崽儿,目前坐标广州。他和许多IT男一样不擅表达,也和许多摄影师一样喜欢文艺,喜欢旅行。只想记录生活写给未来的自己。

近期文章

文章归档

  1. 2015年08月 (17)
  2. 2014年06月 (6695)
  3. 2014年05月 (24)
  4. 2014年04月 (40)
  5. 2013年09月 (1)
  6. 2013年08月 (1)
  7. 2013年07月 (7)
  8. 2013年06月 (20)
  9. 2013年05月 (24)
  10. 2013年04月 (21)
  11. 2013年01月 (5)
  12. 2012年01月 (9)

标签

  1. struts2
  2. ssh
  3. wpf
  4. spring3
  5. hibernate4
  6. 数据库
  7. 串口
  8. sqlserver
  9. url重写
  10. windows应用商店应用
  11. 委托
  12. 匿名方法
  13. php
  14. 域名
  15. mysql
  16. iis
  17. Swift

随机推荐