动态网页数据"/>
java简单实现抓取动态网页数据
在这里我分享一段简单的获取js执行后的网页数据!
1.先建立一个maven工程
在这里我随便建了一个web工程!
2.将chromedriver.exe 文件放在安装谷歌的目录:
下载地址:.34/chromedriver_win32.zip
根据你安装的Google路径比如:C:\\Program Files (x86)\\Google\\Chrome\\Application\\chromedriver.exe
3.在环境变量中的系统变量 path 中配置:
C:\\Program Files (x86)\\Google\\Chrome\\Application
(配置到Application就可以了)
4.导入jar包,pom.xml
<dependency><groupId>org.seleniumhq.selenium</groupId><artifactId>selenium-java</artifactId><version>2.44.0</version> </dependency> <dependency><groupId>org.seleniumhq.selenium</groupId><artifactId>selenium-chrome-driver</artifactId><version>2.44.0</version> </dependency> <dependency><groupId>org.seleniumhq.selenium</groupId><artifactId>selenium-server</artifactId><version>2.18.0</version> </dependency> <!-- .codecraft/webmagic-core --> <dependency><groupId>us.codecraft</groupId><artifactId>webmagic-core</artifactId><version>0.6.1</version> </dependency> <!-- .webjars.npm/phantomjs --> <dependency><groupId>org.webjars.npm</groupId><artifactId>phantomjs</artifactId><version>2.1.2</version> </dependency>
导入需要的jar包!
5.测试是否配置成功 如果启动浏览器 说明配置成功了
System.setProperty("webdriver.chrome.driver", "C:\\Program Files (x86)\\Google\\Chrome\\Application\\chromedriver.exe"); WebDriver webDriver = new ChromeDriver();
setProperty (String prop, String value); 参数: prop - 系统属性的名称。 value - 系统属性的值。
返回:系统属性的值,如果没有值,则返回null。
6.获取网页js执行后页面全部数据
System.setProperty("webdriver.chrome.driver", "C:\\Program Files (x86)\\Google\\Chrome\\Application\\chromedriver.exe"); WebDriver webDriver = new ChromeDriver(); webDriver.get("/?fr=mhd_card");//写入你要抓取的网址 WebElement webElement = webDriver.findElement(By.xpath("/html"));//获取页面全部信息 String htmlText=webElement.getAttribute("outerHTML");
webDriver.close();//必须关闭资源
WebDriver 获取网页数据信息,由By来定位,通过WebElement来解析数据!如果有兴趣的可以去看API!
简单描述一下如何获取节点数据
String hotList= webElement.findElement(By.id("hot-list")).getText();
通过getText()就能获取文本数据了!
String classText = element.findElement(By.className("className")).getText();
String label = webDriver.findElement(By.tagName("tagName")).getText();
标签 (多个以第一个为准)匹配获取文本
//可以执行jQuery查找元素,只要返回一个DOM元素 executeScript(“直接编写jQuery代码”) WebElement element = (WebElement) ((JavascriptExecutor)webDriver).executeScript("return $('#index_dlt_code')[0]");
还有很多方法,这里就不详细一一说明了!
7.获取网页js执行后的style=“dispaly:none;“的隐藏数据
((JavascriptExecutor) webDriver).executeScript("return $('#"+id+"').css('display','block');"); WebElement element = (WebElement) ((JavascriptExecutor) webDriver).executeScript("return $('#"+id+"')[0]")通过 executeScript操作jQuery 将样式修改成block就可以获取到隐藏数据了!
更多推荐
java简单实现抓取动态网页数据
发布评论