首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

java-jsoup解析html页面的内容(2)

java-jsoup解析html页面的内容(2)

除了上述的用httpclient获取页面内容外,jsoup本身也支持 字符串,链接,文档文件的解析。(只需要在工程中引用jsoup-1.3.3.jar即可)例子如下:

        public void parseString() {  
            String html = "<html><head><title>blog</title></head><body onload='test()'><p>Parsed HTML into a doc.</p></body></html>";  
            Document doc = Jsoup.parse(html);  
            System.out.println(doc);  
            Elements es = doc.body().getAllElements();  
            System.out.println(es.attr("onload"));  
            System.out.println(es.select("p"));  
        }  
      
        public void parseUrl() {  
            try {  
                Document doc = Jsoup.connect("http://www.baidu.com/").get();  
                Elements hrefs = doc.select("a[href]");  
                System.out.println(hrefs);  
                System.out.println("------------------");  
                System.out.println(hrefs.select("[href^=http]"));  
            } catch (IOException e) {  
                e.printStackTrace();  
            }  
        }  
      
        public void parseFile() {  
            try {  
                File input = new File("input.html");  
                Document doc = Jsoup.parse(input, "UTF-8");  
                // 提取出所有的编号  
                Elements codes = doc.body().select("td[title^=IA] > a[href^=javascript:view]");  
                System.out.println(codes);  
                System.out.println("------------------");  
                System.out.println(codes.html());  
            } catch (IOException e) {  
                e.printStackTrace();  
            }  
        }  






jsoup解析有很多种方法能得到同样的结构,就看你想用哪种思路。

有用id定位的  有用tagname获取的 有用class 获取的
返回列表