Ⅰ 如何不讓jsoup.parse過濾標簽
//過濾內容中的非法標簽
org.jsoup.nodes.Document document = Jsoup.parse(html);
//只過濾body內容
org.jsoup.nodes.Document body = Jsoup.parse(document.body().html());
//自定義的標簽白名單
Cleaner cleaner = new Cleaner(WhitelistFactory.createWhitelist(WhitelistFactory.EPUB20));
org.jsoup.nodes.Document bodyCleaned = cleaner.clean(body);
document.body().html(bodyCleaned.html());
String newHtml = document.html();
Ⅱ jsoup 可以獲取html的標簽和屬性嗎 要怎麼獲取...
可以,例如:在aa.html文檔中: <input type="text" name="天王" id="小小" />
Document doc = Jsoup.parse(aa.html, "UTF-8", );
1.獲取input標簽:Element inputElement=doc.getElementById("小小");
2.獲取name屬性:內inputElement.name
希望對你有所幫容助
Ⅲ 用JSOUP解析HTML,怎樣刪除掉其中的一段DIV標簽及內容
主要是根據id來刪除。
Ⅳ java 利用jsoup 如何去除一段代碼中的所有html標簽,只留純文本
使用正則表達式去匹配<>這種字元,然後刪掉!
Ⅳ jsoup 過濾指定標簽問題JAVA
for(Elementlink:links){
//通過link.child(index)或link.getElementsBy<attr>(key,value)獲得部分子節點
mArrayList.add(link.text());
}
Ⅵ java 利用jsoup 如何去除一段代碼中的所有html標簽,只留純文本
document.text();
Ⅶ jsoup 中取div id標簽用#,取class標簽用. 那麼取style標簽用什麼
例:document.select("tr[style="BACKGROUND:white"]")
Ⅷ jsoup得到的結果帶標簽,球打什麼賜教怎麼去掉這些標簽
String str1 = str.text();
Ⅸ 用JSOUP解析HTML,怎樣刪除掉其中的一段DIV標簽及內容
用JSOUP解析HTML刪除掉其中的一段DIV標簽及內容的方法是根據id刪除。
使用核心方法如下:
doc.getElementById("detail_question").remove()
舉例如下:
從baseHtml這斷代碼中刪除指定id的標簽:
String baseHtml = "<div id='stylized' class='myform'>"
+ "<input id='txt_question' name='preg' type='text' disabled='disabled' style='width:150px;'>"
+ "<div id='detail_question'>Rock</div></div>";
Document doc = Jsoup.parse(baseHtml);
doc.getElementById("detail_question").remove();
Elements elements = doc.select("div");
System.out.println(elements);
輸出的結果中沒有detail_question這個div節點了:
<div id='stylized' class='myform'>
+ "<input id='txt_question' name='preg' type='text' disabled='disabled' style='width:150px;'>