Board logo

标题: java-jsoup解析html页面的内容(1 [打印本页]

作者: look_w    时间: 2019-4-17 18:51     标题: java-jsoup解析html页面的内容(1

主要是修改main函数里的内容 其他部分没做更改

main函数内容更改如下:

    public static void main(String[] args) {
        
        
        String url ="http://blog.csdn.net/zzq900503";
        
        initHttpClient();
        
        String content =crawlPageContent(httpClient,url);
    //    System.out.println(content);
        Document doc = Jsoup.parse(content);
        String title = doc.title();
        System.out.println(title);
        
        Element a=doc.getElementById("panel_Profile");
        
        Elements li_content=a.getElementsByTag("li");
     
        //提取方式一:
    //    for(Element i:li_content)
    //    {
    //        String tag=i.tagName();
    //        if(tag.equals("li"))
    //        {
    //            System.out.println(i.text());
    //            
    //        }
    //        
    //        
    //    }
        
        //提取方式二:
    //    for(Element i:li_content)
    //    {
    //        String tag=i.tagName();
    //        if(tag.equals("li"))
    //        {
    //            String fre_content=    i.ownText();
    //        
    //           System.out.println(fre_content);
    //           if(i.children().size()>0&&i.children()!=null)
    //           {
    //           String after_content=i.child(0).text();
    //           System.out.println(after_content);
    //           }
    //        }
    //        
    //        
    //    }
        
        
        //提取方式三:
        for(Element i:li_content)
        {
            String tag=i.tagName();
            if(tag.equals("li"))
            {
                String all_content=i.text();
                String all_string=Jsoup.clean(all_content, Whitelist.none());
            String[] all=all_string.split(":");         
               if(all.length>0&&all!=null)
               {
                   String fre_content=all[0].toString();
                   System.out.println(fre_content);
               String after_content=all[1].toString();
               System.out.println(after_content);
               }
            }
            
            
        }
        
        
        
    }



得到的结果如下:

方式一:



方式二:






欢迎光临 电子技术论坛_中国专业的电子工程师学习交流社区-中电网技术论坛 (http://bbs.eccn.com/) Powered by Discuz! 7.0.0