htmlparser中過濾器的使用_用HTMLParser過濾掉html中所有標簽

① 如何使用Java抓取網頁上指定部分的內容

1. 你可以選擇用Java代碼來找到整個網頁的html代碼，如下
(注意在處理網頁方面的內容時，需要導入htmlparser包來支持)

import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.HtmlPage;
import org.htmlparser.Parser;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.util.NodeList;

public class htmlmover {
public static void main(String[] args){
NodeList rt= getNodeList("http://forex.hexun.com/rmbhl/");
System.out.println(rt.toHtml());
}
public static NodeList getNodeList(String url){
Parser parser = null;
HtmlPage visitor = null;
try {
parser = new Parser(url);
parser.setEncoding("GBK");
visitor = new HtmlPage(parser);
parser.visitAllNodesWith(visitor);
} catch (ParserException e) {
e.printStackTrace();
}
NodeList nodeList = visitor.getBody();
return nodeList;
}
}

以上代碼，public static NodeList getNodeList(String url) 為主體
傳入需要分析網頁的 url(String類型)，返回值是網頁Html節點List(Nodelist類型)
這個方法我沒有什麼要說的，剛開始的時候沒看懂（沒接觸過），後來用了幾次也懂點皮毛了
注意： parser.setEncoding("GBK"); 可能你的工程編碼格式是UTF-8,有錯誤的話需要改動

運行該程序

2.通過瀏覽器工具直接查看 IE是按F12 （剛開始沒發現這個方法，於是傻乎乎地找上面的代碼）

分析你所獲得的html代碼讓人眼花繚亂，不要緊，找到自己需要趴取的內容，找到它上下文有特徵的節點


<div id="sw01_con1">
<table width="655" border="0" cellspacing="0" cellpadding="0" class="hgtab">
<thead>
<tr>
<th width="85" align="center" class="th_l">交易幣種</th>
<th width="80" align="center">交易單位</th>
<th width="130" align="center">現價(人民幣)</th>
<th width="80" align="center">賣出價</th>
<th width="100" align="center">現匯買入價</th>
<th width="95" align="center">現鈔買入價</th>
</tr>
</thead>
<tbody>
<tr align="center">
<td> 英鎊</td>
<td>100</td>
<td>992.7</td>
<td>1001.24</td>
<td>993.26</td>
<td class="no">962.6</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 港幣</td>
<td>100</td>
<td>81.54</td>
<td>82.13</td>
<td>81.81</td>
<td class="no">81.16</td>
</tr>
<tr align="center">
<td> 美元</td>
<td>100</td>
<td>635.49</td>
<td>639.35</td>
<td>636.8</td>
<td class="no">631.69</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 瑞士法郎</td>
<td>100</td>
<td>710.89</td>
<td>707.78</td>
<td>702.14</td>
<td class="no">680.46</td>
</tr>
<tr align="center">
<td> 新加坡元</td>
<td>100</td>
<td>492.45</td>
<td>490.17</td>
<td>486.27</td>
<td class="no">471.25</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 瑞典克朗</td>
<td>100</td>
<td>93.66</td>
<td>93.79</td>
<td>93.04</td>
<td class="no">90.17</td>
</tr>
<tr align="center">
<td> 丹麥克朗</td>
<td>100</td>
<td>116.43</td>
<td>115.59</td>
<td>114.67</td>
<td class="no">111.13</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 挪威克朗</td>
<td>100</td>
<td>110.01</td>
<td>109.6</td>
<td>108.73</td>
<td class="no">105.37</td>
</tr>

</tbody>
</table>
</div>


大家可以看到這是一段很有規律，書寫非常規范的Html代碼（這只是第一部分，中行牌價，可以想像，接下來還會有並列的相似的3部分）

大家想截取這些節點中的數據
以下代碼仍需導入htmlparser Java支持包
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

public class Currencyrate {
public static void main(String[] args){
String url="http://forex.hexun.com/rmbhl/";
ArrayList<String> rt= getNodeList(url);
for (int i = 0; i < rt.size(); i++){
System.out.println(rt.get(i));
}
}

public static ArrayList<String> getNodeList(String url){
final ArrayList<String> result=new ArrayList<String>();
Parser parser = null;
NodeList nodeList=null;
try {
parser = new Parser(url);
parser.setEncoding("GBK");

nodeList = parser.parse(
new NodeFilter(){
@Override
public boolean accept(Node node){
Node need=node;
if(getStringsByRegex(node.getText())){
for(int i=0;i<6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
return true;
}
return false;
}
}
);
}catch (ParserException e) {
e.printStackTrace();
}
return result;
}

public static boolean getStringsByRegex(String txt) {
String regex="td class=\"no\"";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(txt);
if (m.find()){
return true;
}
return false;
}
}

廢話不多說，
public static ArrayList<String> getNodeList(String url) 主要方法
parser.setEncoding("GBK"); 需要注意，代碼編碼格式

nodeList = parser.parse(
new NodeFilter(){
@Override
public boolean accept(Node node){
}
｝
);
nodelist是html節點的列表，現在使用NodeFilter ( 節點過濾器 )實例，重載NodeFilter類中的accept()方法
在parser這個Parser類訪問整個html頁面的時候，每遇到一個html節點，就會訪問這個
accept()方法，返回True的話就會將這個節點放進nodelist中，否則就不會將這個節點放進去。這個就是NodeFilter功能。
代碼段一獲取整個html頁面時候 parser.visitAllNodesWith(visitor); 就是獲取所有節點

所以現在我們要趴取網頁上的內容，只要告訴accept()這個方法，哪些節點要放進nodelist去，即遇到哪些節點需要返回true。
於是
public boolean accept(Node node){
Node need=node;
if(getStringsByRegex(node.getText())){
for(int i=0;i<6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
return true;
}
return false;
}
Parser類在遇到節點，就把這個節點拿過去問accept()，於是accept()方法分析，如果滿足getStringsByRegex(node.getText())就要了

接下來分析getStringsByRegex()，只剩下最後一步了，大家堅持啊！

String regex="td class=\"no\"";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(txt);
if (m.find()){
return true;
}
return false;
}
大家可以發現我們索要的每一段都是
<tr align="center">
<td> 英鎊</td>
<td>100</td>
<td>992.7</td>
<td>1001.24</td>
<td>993.26</td>
<td class="no">962.6</td>
</tr>
所以只要找到<td class="no">這個節點就行了，我們用正則表達式去比較
String regex="td class=\"no\""; 這個是比較標准（正則表達式 td class=」no」其中兩個引號需要作為轉義字元來表示成\「）
變數txt是我們傳過去的需要比較的節點的node.getText()，如果符合的話m.find就是true,於是getStringsByRegex()返回true，說明這個節點就是我們所需要的哪些節點，於是
for(int i=0;i<6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
每一段html，6個為一組，先是962.6，然後是993.26，1001.24，992.7，100，英鎊分別被add進result這個ArrayList<String>中去，返回，這個ArrayList裝的就是我們需要抓取的數據

大家可以把我們所獲得的String數據數出來試試看，是不是我們需要的順序，main()函數獲得ArrayList<String>，就可以顯示到我們所需要的Java widget上去了

② 如何用htmlParser把table中的內容提取出來

SE16N通過&sap_edit可以修改表，修改表後如何查看呢。分兩步進行。1.事務碼SE16N,然後輸入表SE16N_CD_Key，輸入相應的查詢條件。例如table名,查出相應的ID2.事務碼SE16N，然後輸入表SE16N_CD_DATA,輸入相應的ID，就可以查詢到修改的內容。...

③ 如何使用htmlparser獲得指定標簽里的內容

Parser parser = new Parser(currentURL);
AndFilter filter =
new AndFilter(
new TagNameFilter("div"),
new HasAttributeFilter("id","userName")
);

NodeList nodes = parser.parse(filter);

④ 如何使用htmlparser獲得指定標簽里的內容

Parser parser = new Parser(currentURL);
AndFilter filter =
new AndFilter(
new TagNameFilter("div"),
new HasAttributeFilter("id","userName")
);

NodeList nodes = parser.parse(filter);

⑤ "用htmlparser提取網頁全部文本但是要過濾掉<script>.*</script>和<style>.*</style>之間的文本該怎摸設置

是java的HTML解析包嗎？如果是裡面有個filter 可以實現的你的功能，~~~~~~ 我記得有個解析包，可以直接去掉script和style

⑥ 用htmlparser工具，parser.extractAllNodesThatMatch(filter)和parser.parse(filter)有什麼區別

Parser p= new Parser(url);//url表示你添加的文件路徑，或者網頁，網頁可以，文件我就不知道了。
p.setEncoding("gb2312");//設定格式，以免出現中文亂碼；

⑦ 如何使用htmlparser提取網頁文本信息

HTMLParser具有小巧，快速的優點，缺點是相關文檔比較少（英文的也少），很多功能需要自己摸索。對於初學者還是要費一些功夫的，而一旦上手以後，會發現HTMLParser的結構設計很巧妙，非常實用，基本各種需求都可以滿足。比如問題中提到的提取網頁文本信息。
用以下代碼來實現提取網頁文本信息

// 提取網頁主要文本內容
public String getContent(){
content=(isHub())?getHubEntries():getTopicBlock();
System.out.println("<Content>:");
System.out.println("=========================");
System.out.println(content);
return content;
}
// 提取Hub類網頁文本內容,如yahoo,sina等門戶網
public String getHubEntries(){
StringBean bean=new StringBean();
bean.setLinks(false);
bean.setReplaceNonBreakingSpaces(true);
bean.setCollapse(true);
try {
parser.visitAllNodesWith(bean);
} catch (ParserException e) {
System.err.println("getHubEntries()-->"+e);
}
parser.reset();
return bean.getStrings();
}

// 獲取主題性(Topical)網頁文本內容：對於博客等以文字為主體的網頁效果較好
public String getTopicBlock(){

HasParentFilter acceptedFilter=new HasParentFilter(new TagNameFilter("p"));
NodeList nodes=null;
try {
nodes=parser.extractAllNodesThatMatch(acceptedFilter);
} catch (ParserException e) {
System.err.println("getTopicBlock"+e);
}

StringBuffer sb=new StringBuffer();
SimpleNodeIterator iter=nodes.elements();
while(iter.hasMoreNodes()){
Node node=iter.nextNode();
sb.append(node.getText()+"\n");
}
parser.reset();
return sb.toString();
}
另外，要知道的是
HTMLParser的核心模塊是org.htmlparser.Parser類，這個類實際完成了對於HTML頁面的分析工作。這個類有下面幾個構造函數：
public Parser ();
public Parser (Lexer lexer, ParserFeedback fb);
public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;
public Parser (String resource, ParserFeedback feedback) throws ParserException;
public Parser (String resource) throws ParserException;
public Parser (Lexer lexer);
public Parser (URLConnection connection) throws ParserException;
和一個靜態類public static Parser createParser (String html, String charset);

提供幾個常用的
對於樹型結構進行遍歷的函數，這些函數最容易理解：
Node getParent ()：取得父節點
NodeList getChildren ()：取得子節點的列表
Node getFirstChild ()：取得第一個子節點
Node getLastChild ()：取得最後一個子節點
Node getPreviousSibling ()：取得前一個兄弟（不好意思，英文是兄弟姐妹，直譯太麻煩而且不符合習慣，對不起女同胞了）
Node getNextSibling ()：取得下一個兄弟節點
取得Node內容的函數：
String getText ()：取得文本
String toPlainTextString()：取得純文本信息。
String toHtml () ：取得HTML信息（原始HTML）
String toHtml (boolean verbatim)：取得HTML信息（原始HTML）
String toString ()：取得字元串信息（原始HTML）
Page getPage ()：取得這個Node對應的Page對象
int getStartPosition ()：取得這個Node在HTML頁面中的起始位置
int getEndPosition ()：取得這個Node在HTML頁面中的結束位置
用於Filter過濾的函數：
void collectInto (NodeList list, NodeFilter filter)：基於filter的條件對於這個節點進行過濾，符合條件的節點放到list中。
用於Visitor遍歷的函數：
void accept (NodeVisitor visitor)：對這個Node應用visitor
用於修改內容的函數，這類用得比較少：
void setPage (Page page)：設置這個Node對應的Page對象
void setText (String text)：設置文本
void setChildren (NodeList children)：設置子節點列表
其他函數：
void doSemanticAction ()：執行這個Node對應的操作（只有少數Tag有對應的操作）
Object clone ()：介面Clone的抽象函數。
以上知識可以完整處理HTML頁面的所有內容
參考資料：
htmlparser官方網站下載地址
http://www.htmlparser.sourceforge.net/

⑧ 用HTMLParser過濾掉html中所有標簽,留下標題正文等內容，java

現在的網頁，取來title容易，要取到整齊的內源容，就麻煩了。既然是爬蟲，又不可能針對每個頁面都寫一遍。所以，你能解決這問題，是高智商、是值錢的。

<title>和</title>可以認為是標題，用字元串的處理方法即
<content>和</content>不是標準的HTML，不能認為之間的文字就是內容。雖然<body>和</body>是，可之間的內容也太亂了。

⑨ 如何使用htmlparser 解析頁面

HTMLParser的核心模塊是org.htmlparser.Parser類，這個類實際完成了對於HTML頁面的分析工作。這個類有下面幾個構造函數：
public Parser ();
public Parser (Lexer lexer, ParserFeedback fb);
public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;
public Parser (String resource, ParserFeedback feedback) throws ParserException;
public Parser (String resource) throws ParserException;
public Parser (Lexer lexer);
public Parser (URLConnection connection) throws ParserException;
和一個靜態類 public static Parser createParser (String html, String charset);

⑩ 如何用htmlparser修改html中標簽的內容

測試文本一測試文本二其他數據;\"; Parser parser = new Parser(); // parser.setURL parser.setInputHTML(sText); parser.setEncoding(parser.getEncoding()); NodeFilter filter = new NodeClassFilter(Span.class); NodeList list = parser.extractAllNodesThatMatch(filter); for (int i = 0; i < list.size(); i++) { if (list.elementAt(i) instanceof Span) { Span spanTag = (Span ) list.elementAt(i); textnode.setAttributeEx(textnode.getAttributeEx("name")); �0�2�0�2�0�2�0�2 �0�2 if(spanTag .getAttribute("name").equals("first")){ �0�2�0�2�0�2�0�2�0�2 �0�2 spanTag .setAttribute("value", "bbb"); �0�2�0�2�0�2�0�2�0�2 } } }�0�2我已經用span過濾掉了其他內容,部分源碼如上,我現在想將上面文本中的標簽中的name="first"的value值改為"bbb",然後返回所有文本即改過的(sText),但是不能用sText.replace()方法,因為原文本中可能有多個value="aaa"的值.�0�2大家有什麼好的建議,最好是直接可以用htmlparser處理的.謝謝問題補充：非常感謝大家的幫忙,尤其是lzj0470和ferreousbox,上面的問題已經解決, 如果現在我想將字元串"測試文本一測試文本二其他數據;" 中的"測試文本二"替換成"此處已經被替換";即返回的字元串為:

導航:首頁 > 凈水問答 > htmlparser中過濾器的使用

htmlparser中過濾器的使用

與htmlparser中過濾器的使用相關的資料