最近这段时间想学爬虫来自己获取数据,因此找了几篇简单的java爬虫教程博客来看。令人失望的是这些爬虫基本都用不了。而复杂的爬虫又不适合初学者。由于我只是想做一个类似于脚本的东西,因此想了想,还是自己动手吧。先从获取html网页代码入手。
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.URL;
public class webPageResource {
public static void main(String[] args) {
// TODO Auto-generated method stub
webPageResource t6=new webPageResource();
String htmls= t6.getPageSource("http://www.no5/browse/specialprice_p2.html","GBK");
System.out.println(htmls);
}
public String getPageSource(String pageUrl,String encoding) {
StringBuffer sb = new StringBuffer();
try {
//构建一URL对象
URL url = new URL(pageUrl);
//使用openStream得到一输入流并由此构造一个BufferedReader对象
BufferedReader in = new BufferedReader(new InputStreamReader(url
.openStream(), encoding));
String line;
//读取www资源
while ((line = in.readLine()) != null) {
sb.append(line);
sb.append("\n");
}
in.close();
} catch (Exception ex) {
System.err.println(ex);
}
return sb.toString();
}
}
更多推荐
通过java获取html网页代码
发布评论