通过java获取html网页代码

编程知识更新时间:2023-04-07 12:59:47

最近这段时间想学爬虫来自己获取数据，因此找了几篇简单的java爬虫教程博客来看。令人失望的是这些爬虫基本都用不了。而复杂的爬虫又不适合初学者。由于我只是想做一个类似于脚本的东西，因此想了想，还是自己动手吧。先从获取html网页代码入手。

import java.io.BufferedReader;  
import java.io.InputStreamReader;  
import java.URL;  


public class webPageResource {  


    public static void main(String[] args) {  
        // TODO Auto-generated method stub  
        webPageResource t6=new webPageResource();  
        String htmls= t6.getPageSource("http://www.no5/browse/specialprice_p2.html","GBK");  
        System.out.println(htmls);  
    }  

    public String getPageSource(String pageUrl,String encoding) {    
        StringBuffer sb = new StringBuffer();    
        try {    
            //构建一URL对象    
            URL url = new URL(pageUrl);    
            //使用openStream得到一输入流并由此构造一个BufferedReader对象    
            BufferedReader in = new BufferedReader(new InputStreamReader(url    
                    .openStream(), encoding));    
            String line;    
            //读取www资源    
            while ((line = in.readLine()) != null) {    
                sb.append(line);    
                sb.append("\n");  
            }    
            in.close();    
        } catch (Exception ex) {    
            System.err.println(ex);    
        }    
        return sb.toString();    
    }   

}