搜索引擎】HtmlParser"/>
【搜索引擎】HtmlParser
HtmlParser包里最重要的类Parser,下面是它的初始化(其中之一)以及初步应用,仅仅只是把目标网址里的文本内容提取出来:
package ParserStudy;import org.htmlparser.Parser;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.TextExtractingVisitor;public class TestParser {public static void main(String[] args) {// TODO Auto-generated method stubString url = "http://localhost/hello.php";try {Parser parser = new Parser(url); //url为地址parser.setEncoding("GBK"); //设置编码//提取网址里文本内容TextExtractingVisitor visitor = new TextExtractingVisitor();parser.visitAllNodesWith(visitor);String str = visitor.getExtractedText();System.out.println(str); //输出内容} catch (ParserException e) {// TODO Auto-generated catch blocke.printStackTrace();}}}
更多推荐
【搜索引擎】HtmlParser
发布评论