首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

java-jsoup解析html页面的内容(1

java-jsoup解析html页面的内容(1

主要是修改main函数里的内容 其他部分没做更改

main函数内容更改如下:

    public static void main(String[] args) {
        
        
        String url ="http://blog.csdn.net/zzq900503";
        
        initHttpClient();
        
        String content =crawlPageContent(httpClient,url);
    //    System.out.println(content);
        Document doc = Jsoup.parse(content);
        String title = doc.title();
        System.out.println(title);
        
        Element a=doc.getElementById("panel_Profile");
        
        Elements li_content=a.getElementsByTag("li");
     
        //提取方式一:
    //    for(Element i:li_content)
    //    {
    //        String tag=i.tagName();
    //        if(tag.equals("li"))
    //        {
    //            System.out.println(i.text());
    //            
    //        }
    //        
    //        
    //    }
        
        //提取方式二:
    //    for(Element i:li_content)
    //    {
    //        String tag=i.tagName();
    //        if(tag.equals("li"))
    //        {
    //            String fre_content=    i.ownText();
    //        
    //           System.out.println(fre_content);
    //           if(i.children().size()>0&&i.children()!=null)
    //           {
    //           String after_content=i.child(0).text();
    //           System.out.println(after_content);
    //           }
    //        }
    //        
    //        
    //    }
        
        
        //提取方式三:
        for(Element i:li_content)
        {
            String tag=i.tagName();
            if(tag.equals("li"))
            {
                String all_content=i.text();
                String all_string=Jsoup.clean(all_content, Whitelist.none());
            String[] all=all_string.split(":");         
               if(all.length>0&&all!=null)
               {
                   String fre_content=all[0].toString();
                   System.out.println(fre_content);
               String after_content=all[1].toString();
               System.out.println(after_content);
               }
            }
            
            
        }
        
        
        
    }



得到的结果如下:

方式一:



方式二:

返回列表