主要是修改main函数里的内容 其他部分没做更改
main函数内容更改如下:
public static void main(String[] args) {
String url ="http://blog.csdn.net/zzq900503";
initHttpClient();
String content =crawlPageContent(httpClient,url);
// System.out.println(content);
Document doc = Jsoup.parse(content);
String title = doc.title();
System.out.println(title);
Element a=doc.getElementById("panel_Profile");
Elements li_content=a.getElementsByTag("li");
//提取方式一:
// for(Element i:li_content)
// {
// String tag=i.tagName();
// if(tag.equals("li"))
// {
// System.out.println(i.text());
//
// }
//
//
// }
//提取方式二:
// for(Element i:li_content)
// {
// String tag=i.tagName();
// if(tag.equals("li"))
// {
// String fre_content= i.ownText();
//
// System.out.println(fre_content);
// if(i.children().size()>0&&i.children()!=null)
// {
// String after_content=i.child(0).text();
// System.out.println(after_content);
// }
// }
//
//
// }
//提取方式三:
for(Element i:li_content)
{
String tag=i.tagName();
if(tag.equals("li"))
{
String all_content=i.text();
String all_string=Jsoup.clean(all_content, Whitelist.none());
String[] all=all_string.split(":");
if(all.length>0&&all!=null)
{
String fre_content=all[0].toString();
System.out.println(fre_content);
String after_content=all[1].toString();
System.out.println(after_content);
}
}
}
}
得到的结果如下:
方式一:
方式二:
|