火車頭採集器如何過濾數據_火車頭採集標簽過濾

⑴ 火車頭採集時，如何顧慮同一頁面多條記錄中的重復的內容

這個好像沒有辦法因為同頁面的重復內容地址也是不一樣的啊你採集啥？帖子還是其他？網站還是要自己去更新不然會封的

⑵ 請問大家，火車頭採集器怎麼採集重復頁面，因為我在採集時，多采一次就會出現重復了

您好,在同一站點分類下的規則使用同一個網址庫您的意思是要每次運行這條採集規則都會重新採集不檢測重復網址對嗎?

編輯規則 > 第一步: 採集網址規則

在網站編碼右邊有一個檢測重復網址復選框取消勾選就不會檢測重復網址了

⑶ 火車頭採集標簽過濾

這個並不復雜，用到火車頭的兩個功能，一個是標簽過濾，一個是循環採集。這兩個功專能在編輯採集屬規則頁面里。

採集規則：

起始：<span>結尾：</span></div> 設置循環採集設置標簽過濾把網頁代碼類的都去掉

⑷ 火車頭採集器怎麼過濾除圖片標簽外的所有標簽

火車頭設置設置採集規則不是專業人士根本沒法操作的
建議你試試八爪魚採集器吧，相對簡單很多，幾分鍾就可以上手解決你的這問題。

⑸ 火車頭採集器怎麼用

作為同時使用八爪魚採集器和寫爬蟲的非技術的莫名其妙喜歡自己琢磨技術的互聯網運營喵。。。我來談談心得感想。
八爪魚有一些優勢，比如學習成本低，可視化流程，快速搭建採集系統。能直接導出excel文件和導出到資料庫中。降低採集成本，雲採集提供10個節點，也能省事不少。
不好的地方就是，即使看似很簡單了，而且還有更傻瓜化的smart模式，但是裡面的坑只有用的多的人才清楚。關於這個我在我的博客里簡單寫了寫，不過說實話心得太多，還沒仔細整理。
首先裡面的循環都是xpath元素定位，如果用單純的傻瓜化點擊定位的話，很死板，大批量採集頁面的時候很容易出錯。另外用這個工具的，因為方便，小白太多，成天有人問普通問題，他們都不會看頁面結構，也不懂xpath，很容易出現採集不全，無限翻頁等問題。
但是八爪魚採集器的ajax載入，模擬手機頁面，過濾廣告，滾動至頁面底端等功能堪稱神器，一個勾選就能搞定。寫代碼很麻煩的，實現這些功能費勁。
八爪魚畢竟只是工具，自由度肯定完敗編程。勝在方便，快速，低成本。
八爪魚判斷語錄較弱，無法進行復雜判斷，也無法執行復雜邏輯。還有就是八爪魚只有企業版才能解決驗證碼問題，一般版本無法接入打碼平台。
還有一點就是沒有ocr功能，58同城和趕集網採集的電話號碼都是圖片格式，python可以用開源圖像識別庫解決，對接進去識別便可。
除非對技術有很高要求，否則我覺得八爪魚採集器很好用，比火車採集器好用，雖然效率沒那麼高，但是比起費勁學習和研究數據包，還是用這個省事。我沒事也會在八爪魚群里解答一些規則編制的問題。
作者：極客兔子
來源：知乎

⑹ 飛飛火車頭採集器怎麼寫發布規則

1
首先講一講網站結構，通常網站結構為樹形結構，一個網站主要包以下幾種頁面：首頁、欄目頁、文章頁，其結構如下圖。
其次講一講火車頭採集原理，火車頭的運行需要一套規則來指定該如何採集所需數據，即需要編寫火車頭採集規則，編寫採集規則也是新手最頭痛的問題。
火車頭採集器通常通過網址抓取網站返回的源代碼，然後在源代碼中提取需要的信息。因此，採集數據需要先採集網址，然後再採集數據。
2
下面開始編寫採集規則：
運行LocoyPlatform.exe
3
在左側「任務列表樹」選擇一個分組點擊右鍵，選擇「新建任務」彈出新建任務對話框。填寫任務名，網站編碼一般選擇自動即可。
添加起始網址
填寫「第一步：採集網址規則」這里需要按照網站的樹形結構逐級獲取下一級結構的網址，直至獲取到內容頁的網址。先填寫起始網址，通常為目標站首頁地址。點擊「添加」，在單條網址處填上火車頭博客的首頁地址，然後依次點擊「添加」 ->「完成」。
編寫「多級網址獲取」規則
這里需要先在起始地址頁面找到所有需要採集的欄目頁的代碼區域，先查看起始頁地址的源碼，找到如圖所示代碼區域：
點擊右側「添加」按鈕打開「添加多級網址採集規則」，選擇「從頁面自動分析得到地址鏈接」單選按鈕，在下面「從該選定區域中提取網址」，「從」（左側）文本框填上欄目地址代碼區域開始之前的標志性代碼（要保證其在該頁的唯一性），「到」右側文本框填上欄目地址代碼區域結束之後的標志性代碼，在「結果網址過濾」的「必須包含」和「不得包含」文本框填上相應代碼，如果該區域沒有多餘的鏈接不需要過濾，可以不填，這里的欄目頁網址必須包含「category-」。然後點擊「保存」返回。
現在需要獲取內容頁的地址。先打開欄目頁查看源碼，查找內容頁地址存在的區域及地址規律。按照上一步的方法先填寫內容頁所在區域的起始和結束標志性代碼，然後分析這個區域中包含的鏈接與我們說需要的內容頁地址鏈接規律，添加過濾代碼。這里起始代碼為「」，結束代碼為「<div class="page" style="float:right">」過濾代碼為必須包含「read-」不得包含「#」。如圖：
需要注意的是這里文章比較多會有很多分頁，所以需要填寫「列表分頁獲取」規則。通常只需要指定分頁代碼的區域，如有必要可以填寫「組合生成列表頁分頁」規則。這里的列表分頁規則其實代碼為「<li class="pageNumber">」，結束代碼為「title="下一頁">」。如果勾選「自動識別分頁」的話，會自動提取a標簽的href屬性，如果不勾選自動識別的話，需要填寫組合生成列表頁分頁」規則。
然後保存返回，可以通過「測試網址採集」來測試規則是否正確，不正確可以返回修改規則，正確的話可以開始編寫「第二步採集內容規則」。
編寫「第二步採集內容規則」
先打開內容頁以及內容頁的源碼，找到需要提取的信息的前後代碼特徵。以提取標題和內容為例。首先復制文章標題，然後在源碼中查看該標題出現的幾處地方，找一處前後代碼在每一篇文章都一樣的地方，該例共出現了3處，第二處的代碼沒有其他干擾代碼。點擊「添加」，標簽名填「標題」，提取數據方式選擇前後截取，前後代碼分別為「<h1 class="ContentTitle"><strong>」和「</strong></h1>」。如果採集的內容需要作進一步處理（如替換刪除編碼轉換過濾html等），在下方「數據處理」點擊添加填寫相應規則。
再添加一個標簽，標簽名為「內容」，按照上述方法填寫內容的前後代碼片段，需要注意的是，前後代碼片段最好不要出現不完整的標簽（如：「<div class="Content-body"」應該寫作「<div class="Content-body">」，一個完整的標簽應該是以「<」開始，以「>」結束，如果<>之間的內容在各個內容頁有一部分不一樣，將不一樣的部分用（*）代替即可），否則提取的內容會包含部分不完整的標簽。通常正文包含的HTML會比較多，可以添加HTML過濾功能，建議僅保留段落（p）、圖片（img）、換行（br）等標簽。
測試內容採集規則
保存規則後返回採集內容規則頁面，在右側「規則測試」的典型頁面文本框填上一個內容頁的地址，然後點擊測試，如果下面顯示到的內容符合預期說明可以了，如果未獲取到內容或者獲取到內容不正確，返回檢查並修改規則。
開始採集
選擇要採集的任務規則，勾選「采網址」和「采內容」復選框，點擊工具欄「開始」按鈕。
後續工作
採集到的數據保存在資料庫，可以通過在任務名上點右鍵，選擇「打開DATA下任務文件夾」打開資料庫所在位置，該資料庫可以通過ACCESS打開和編輯。如果想要重新採集，需要通過右鍵選擇「清空該任務網址庫」和「清空任務所有採集數據」。

⑺ 火車頭採集器怎麼過濾除圖片標簽外的所有標簽

可以在html設置的位置把<img前面的勾去掉

⑻ 火車頭採集器怎麼設置正則過濾數字

1、打開您的火車頭，並打開需要替換的欄位，添加正則替換。

2、輸入正則替換語句。

(\d{2,100})

意思是替換2位以上的數字，後面的100和前面的2一個意思!

3、替換結果!

第一張有數字2017

第二張為替換後的結果，已經去掉了2017

導航:首頁 > 凈水問答 > 火車頭採集器如何過濾數據

火車頭採集器如何過濾數據

與火車頭採集器如何過濾數據相關的資料