专注收集记录技术开发学习笔记、技术难点、解决方案
网站信息搜索 >> 请输入关键词:
您当前的位置: 首页 > 信息/网络安全

云计算实战 ——爬虫部分,该如何处理

发布时间:2011-07-03 07:03:41 文章来源:www.iduyao.cn 采编人员:星星草
云计算实战 ——爬虫部分
第一部分: 需求分析
 
爬虫在项目中间的作用
• 分析用户的行为需要根据用户浏览网页的分类及特征来决定,所以获取网页内容需要爬虫
• 单线程爬虫难以满足项目的需求,需要多线程爬虫来处理
第二部分: 技术点
Wget与HttpClient
• Wget 是一个从网络上自动下载文件的自由工具 , 支持通过 HTTP 、 HTTPS 、 FTP 三个最常见的 TCP/IP 协议下载,并可以使用 HTTP 代理
• HttpClient 是 Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议
 
功能需求
• 分析网页内容取得词频

• 获取词与网页的对应关系
Page

第三部分: 代码实现
请参考视频和源码
 
私塾在线原创
------解决方案--------------------
顶一下。
友情提示:
信息收集于互联网,如果您发现错误或造成侵权,请及时通知本站更正或删除,具体联系方式见页面底部联系我们,谢谢。

其他相似内容:

热门推荐: