用HttpUrlConnection抓取网页内容

分享到:

由于项目需求,需要采集一些网站的内容。在JAVA领域中,已经存在很多良好的框架用于该应用,如httpclient,webharvest还有更多强大的框架。但由于本身项目比较单纯,且为了良好的自我控制,就决定直接用JDK中的HttpUrlConnection类来抓取网页内容。并不是说那些框架不好,而只是不适用本项目。

说明:本博的一切内容均可转载,但必须注意出处。http://www.lelelog.com(乐乐日志)

一、HttpUrlConnection连接之模拟浏览器

在诸多的网站中,特别是大型的网站,设置了必须是浏览器的请求才会回应。之所以这样设置,就是为了防止我们这种项目给他产生无意义的请求(往往这种请求都是大批量,对其服务器产生负荷)。那为了解决这个问题,我们需要在http请求中,添加属性。

HttpURLConnection urlConn;

urlConn.setRequestProperty(“User-Agent”, “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)”);

这样就设置好了,你可以随意设置你的操作系统值,浏览器值,版本,只要正确就OK了。这样就可以正常有效地访问其网站了。他可不知道你是不是浏览器。你即使是条狗,他也不知道。

 

二、完整的设置HttpUrlConnection的属性值

HttpURLConnection urlConn;

urlConn.setRequestProperty(“User-Agent”, “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)”);
        urlConn.setRequestProperty(“Accept”,
                “image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/x-shockwave-flash, application/vnd.ms-powerpoint, application/vnd.ms-excel, application/msword, */*”);
        urlConn.setRequestProperty(“Accept-Language”, “zh-cn”);
        urlConn.setRequestProperty(“UA-CPU”, “x86″);
        urlConn.setRequestProperty(“Accept-Encoding”, “gzip”);//为什么没有deflate呢
        urlConn.setRequestProperty(“Content-type”, “text/html”);
        urlConn.setRequestProperty(“Connection”, “close”); //keep-Alive,有什么用呢,你不是在访问网站,你是在采集。嘿嘿。减轻别人的压力,也是减轻自己。

        urlConn.setUseCaches(false);//不要用cache,用了也没有什么用,因为我们不会经常对一个链接频繁访问。(针对程序)
        urlConn.setConnectTimeout(6 * 1000);
        urlConn.setReadTimeout(6*1000);
        urlConn.setDoOutput(true);
        urlConn.setDoInput(true);

有什么疑问的话,可以查看JDK的API文档,这个可以实时看。至于为什么要设置 gzip,而又不设置deflate,原因如下,有些网站他不管你能接受什么压缩格式,统统也会压缩网页内容传给你。当然IE,FF能处理好这些内容。所以我们通过浏览器查看的时候完全正常。一般gzip的压缩可以将一个33K的文件压缩成7K,这样会节约不少带宽,但服务器的负荷并没有减轻,因为他要压缩文件呀。至于为什么不用deflate,是由于绝大多数网站的压缩方式是用gzip,而在有些网站中,明明是用的gzip却返回deflate的压缩标识。这有什么意义呢,所以干脆就告诉服务器,我不接受deflate,因为他太丑了,又长,哪像gzip这么潮呀。呵呵,对于浏览量大的静态网页服务器,这样做很是必要。100M的独享服务器,他也只有100M呀。

三、开始采集某个网页的内容

该方法就是传入一个HttpUrlConnection的链接,和该文件的字符集编码,就可以返回其网页内容了。

public static String getContentFromIn(HttpURLConnection urlConn, String charset) {
         BufferedReader br = null;  
           StringBuilder content = new StringBuilder(200);  
           InputStream in = null; 
            try {    
             if(null == urlConn){   
                  return "";  
               } 
               if (StringTools.isNotEmpty(urlConn.getContentEncoding())) {  
                   String encode = urlConn.getContentEncoding().toLowerCase(); 
                    if (StringTools.isNotEmpty(encode) && encode.indexOf("gzip") >= 0) { 
                        in = new GZIPInputStream(urlConn.getInputStream());  
                                  } 
                } 
            if (null == in) { 
              in = urlConn.getInputStream(); 
                }
                 if (null != in) { 
                    br = new BufferedReader(new InputStreamReader(in, charset));  
                   String line = ""; 
                    while ((line = br.readLine()) != null) {  
                       content.append(line); 
                    }       
          } 
 
        } catch (UnsupportedEncodingException e) { 
              e.printStackTrace(); 
            } 
catch (IOException e) { 
                e.printStackTrace(); 
            } finally { 
                if (null != in) { 
                    try {        
                 in.close();       
              } catch (IOException e) {  
                       e.printStackTrace();   
                  }                  
   in = null;       
          }        
         if (null != br) {  
                   try {  
                       br.close();    
                 } catch (IOException e) {    
                     e.printStackTrace();    
                 }          
           in = null;           
      }           
  }         
    return content.toString(); 
        }

至此一个简单的采集工具类诞生了,他的优美在于,代码少,不用引入任何包。纯JDK,一样能干许多事。有时不希望把本来简单的事情搞得复杂化。虽然不要创造重复的轮子,但我们不能纯拿来主义,就像这样一个简单的功能,不需要搞得太复杂。只要不DRY就可以了,这样自己也能一点点地进步。

以上有什么错误,还请包涵。。。。。。该文章来自:乐乐日志(记下每个快乐的日子)。

发表评论


注意 - 你可以用以下 HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre lang="" line="" escaped="" highlight="">