導航:首頁 > 凈水問答 > 085345火車頭過濾規則

085345火車頭過濾規則

發布時間:2022-05-16 04:57:35

㈠ 火車頭採集標簽過濾

這個並不復雜,用到火車頭的兩個功能,一個是標簽過濾,一個是循環採集。這兩個功專能在編輯採集屬規則頁面里。

採集規則:

起始:<span>結尾:</span></div> 設置循環採集 設置標簽過濾 把網頁代碼類的都去掉

㈡ 火車頭過濾時候的正則表達式一個案例

試試這個表達式吧。
str.replace(/^[A[\x00-\xff]B]$/g,"[AB]")
如:
var str1 = "[A伊爾薩二惡豐富而B]";
var value1 = str1.replace(/^([A[\x00-\xff]B])$/g,"[AB]");
alert(value1);

㈢ 如何使用火車頭採集器採集網頁圖片詳細圖文教程

火車頭採集器採集信息分兩個步驟:
1,采網址。這一步也是就告訴軟體,有多少個網頁需要去采,並給出具體的網頁地址。
2,采內容。有了網址之後,就可以去這個網址上採集信息了,但網頁上信息眾多,軟體不知道你想采哪些。在采內容部分,就要做規則了。告訴軟體我想采什麼。
1,采網址。
網頁上的產品信息就是所想採的,即為目標。
在採集鏈接頁面里,輸入採集地址的列表頁,這里要注意無用鏈接的過濾。

然後點擊測試按鈕測試所填信息的正確性:
測試正確以後,我們對地址進行擴展,現在我們只不過是采了一張列表頁的文章地址,還有其它的列表要需要採集,其它的列表頁就在它的分頁上,我們觀察這些分布的鏈接形式,找出規律,然後批量填入網址規則。

2,內容的採集
經過上面的處理,目標產品頁的鏈接都已經能夠採到,下面我們進入內容的採集。
明確好要採集的內容以後,我們開始編寫採集規則,火車頭採集內容是採集網頁的源代碼,因此我們要打開產品頁的源代碼,找到我們要採集信息所在的位置。比如,Description欄位的採集:
找到Description的位置,找到之後,如何填寫採集規則呢,很簡單,只要將採集目標的開始字元串與結束字元串填入採集的對應位置。這里我們選取<span>Description:</span>作為開始字元串,</span>為結束字元串。值得注意的是,開始字元串必須在本頁面是唯一的,並且在其它產品頁面也存在這個字元串。本頁面唯一能使軟體找到要採集的位置,其它頁面通用,保證軟體能夠採到其它頁面的數據。
填完以後並不表示就能採集正確了,還需測試一下,排除一些無用數據,排除可在HTML標簽排除和內容排除中進行。測試成功後,這樣一個標簽就製作好了。
這里我們使用通配符來實現這一要求。我們把不通用的地方用(*)通配符來表示任意。而要採集的地址我們用參數(變數)來表示。最後我們將這段內容變為:<li id="current">(*)Compare Prices(*)<a href="[參數]" onClick="(*)">Proct Details,填入模塊,並測試是否成功。
如果測試沒有成功,那說明你填入的內容還不符合唯一且通用的標准,還需要調試。測試成功以後,可以保存,進入標簽的製作了。
這里的標簽製作與上面的是一樣的,找到要採集信息的所在地,填入開始結束字元串,並做好過濾,唯一的不同的在於所屬頁面選項里要選擇剛才製作好的模塊,這里就不贅述,直接顯示結果了。
這樣標簽就製作完成了。點擊更新以後,去掉發布選項,就可以進行任務的採集了。

㈣ 火車頭採集器,採集無規則網址,規則設置問題

網址不規則的供*代替,<span>在html過濾規則里保留

㈤ 火車頭採集器採集後想讓發布的網頁分頁少點要添加哪個標簽

既然你已經採集到數據了 那你發布時肯定分頁在你的內容裡面 你的內容要進行過濾
如果你說的是對方站點內容分頁過多 那麼就要針對他的內容進行循環採集分頁才行

㈥ 火車頭採集器怎麼過濾除圖片標簽外的所有標簽

火車頭設置設置採集規則不是專業人士根本沒法操作的
建議你試試八爪魚採集器吧,相對簡單很多,幾分鍾就可以上手解決你的這問題。

㈦ 火車頭採集器怎麼過濾刪除無用信息

火車頭採集器怎麼過濾刪除無用信息?大家在使用火車頭採集器的過程中難免會版遇見某些無用的信權息或者是自己不想要採集的數據,但是因為各種各樣的原因而無法避免。

對於文章內容頁出現的垃圾信息,我們可以通過內容替換功能將其刪除。
相對進階一點的使用替換功能過濾刪除垃圾信息還可以使用星號功能來進行模糊刪除,
舉例,我們通過採集規則設置需要採集一批新聞內容,結果這些新聞內容的標題中混入了幾個軟體下載地址,這時候我們利用過濾功能就能夠方便的解決問題。

我們可以打開標題標簽的編輯界面,選擇內容過濾,在不得包含的內容中填入下載,這樣在標題中所有包含「下載」字樣的標題就會被過濾出來。

之後,我們在詳細設置中對於過濾處理選擇刪除,就可以刪除這些我們不想要的採集內容。
合理利用火車頭採集器自帶的過濾垃圾信息的功能,就可以大大提高我們的採集質量,避免了人工審核內容的煩惱。

㈧ 飛飛火車頭採集器怎麼寫發布規則

1
首先講一講網站結構,通常網站結構為樹形結構,一個網站主要包以下幾種頁面:首頁、欄目頁、文章頁,其結構如下圖。
其次講一講火車頭採集原理,火車頭的運行需要一套規則來指定該如何採集所需數據,即需要編寫火車頭採集規則,編寫採集規則也是新手最頭痛的問題。
火車頭採集器通常通過網址抓取網站返回的源代碼,然後在源代碼中提取需要的信息。因此,採集數據需要先採集網址,然後再採集數據。
2
下面開始編寫採集規則:
運行LocoyPlatform.exe
3
在左側「任務列表樹」選擇一個分組點擊右鍵,選擇「新建任務」彈出新建任務對話框。填寫任務名,網站編碼一般選擇自動即可。
添加起始網址
填寫「第一步:採集網址規則」這里需要按照網站的樹形結構逐級獲取下一級結構的網址,直至獲取到內容頁的網址。先填寫起始網址,通常為目標站首頁地址。點擊「添加」,在單條網址處填上火車頭博客的首頁地址,然後依次點擊「添加」 ->「完成」。
編寫「多級網址獲取」規則
這里需要先在起始地址頁面找到所有需要採集的欄目頁的代碼區域,先查看起始頁地址的源碼,找到如圖所示代碼區域:
點擊右側「添加」按鈕打開「添加多級網址採集規則」,選擇「從頁面自動分析得到地址鏈接」單選按鈕,在下面「從該選定區域中提取網址」,「從」(左側)文本框填上欄目地址代碼區域開始之前的標志性代碼(要保證其在該頁的唯一性),「到」右側文本框填上欄目地址代碼區域結束之後的標志性代碼,在「結果網址過濾」的「必須包含」和「不得包含」文本框填上相應代碼,如果該區域沒有多餘的鏈接不需要過濾,可以不填,這里的欄目頁網址必須包含「category-」。然後點擊「保存」返回。
現在需要獲取內容頁的地址。先打開欄目頁查看源碼,查找內容頁地址存在的區域及地址規律。按照上一步的方法先填寫內容頁所在區域的起始和結束標志性代碼,然後分析這個區域中包含的鏈接與我們說需要的內容頁地址鏈接規律,添加過濾代碼。這里起始代碼為「<!--顯示-->」,結束代碼為「<div class="page" style="float:right">」過濾代碼為必須包含「read-」不得包含「#」。如圖:
需要注意的是這里文章比較多會有很多分頁,所以需要填寫「列表分頁獲取」規則。通常只需要指定分頁代碼的區域,如有必要可以填寫「組合生成列表頁分頁」規則。這里的列表分頁規則其實代碼為「<li class="pageNumber">」,結束代碼為「title="下一頁">」。如果勾選「自動識別分頁」的話,會自動提取a標簽的href屬性,如果不勾選自動識別的話,需要填寫組合生成列表頁分頁」規則。
然後保存返回,可以通過「測試網址採集」來測試規則是否正確,不正確可以返回修改規則,正確的話可以開始編寫「第二步採集內容規則」。
編寫「第二步採集內容規則」
先打開內容頁以及內容頁的源碼,找到需要提取的信息的前後代碼特徵。以提取標題和內容為例。首先復制文章標題,然後在源碼中查看該標題出現的幾處地方,找一處前後代碼在每一篇文章都一樣的地方,該例共出現了3處,第二處的代碼沒有其他干擾代碼。點擊「添加」,標簽名填「標題」,提取數據方式選擇前後截取,前後代碼分別為「<h1 class="ContentTitle"><strong>」和「</strong></h1>」。如果採集的內容需要作進一步處理(如替換刪除編碼轉換過濾html等),在下方「數據處理」點擊添加填寫相應規則。
再添加一個標簽,標簽名為「內容」,按照上述方法填寫內容的前後代碼片段,需要注意的是,前後代碼片段最好不要出現不完整的標簽(如:「<div class="Content-body"」 應該寫作「<div class="Content-body">」,一個完整的標簽應該是以「<」開始,以「>」結束,如果<>之間的內容在各個內容頁有一部分不一樣,將不一樣的部分用(*)代替即可),否則提取的內容會包含部分不完整的標簽。通常正文包含的HTML會比較多,可以添加HTML過濾功能,建議僅保留段落(p)、圖片(img)、換行(br)等標簽。
測試內容採集規則
保存規則後返回採集內容規則頁面,在右側「規則測試」的典型頁面文本框填上一個內容頁的地址,然後點擊測試,如果下面顯示到的內容符合預期說明可以了,如果未獲取到內容或者獲取到內容不正確,返回檢查並修改規則。
開始採集
選擇要採集的任務規則,勾選「采網址」和「采內容」復選框,點擊工具欄「開始」按鈕。
後續工作
採集到的數據保存在資料庫,可以通過在任務名上點右鍵,選擇「打開DATA下任務文件夾」打開資料庫所在位置,該資料庫可以通過ACCESS打開和編輯。如果想要重新採集,需要通過右鍵選擇「清空該任務網址庫」和「清空任務所有採集數據」。

㈨ 火車頭數據採集,規則設置問題

貌似無法避免,只能從標簽的抓取規則上來想辦法。
想辦法讓你的標簽抓取內容不為空,比如你可以把抓取內容的規則設置大一點,就算這個標簽為空,不要設置標簽的代碼過濾,應該可以抓些代碼,讓這個標簽內容不為空,那麼採集器就會正確匹配了。至於代碼的干擾,後期可以通過數據的批量處理來刪除。

閱讀全文

與085345火車頭過濾規則相關的資料

熱點內容
凈水器里的除垢球放在哪裡 瀏覽:297
小學校人均污水量標准 瀏覽:925
含鹽量高的廢水怎麼處理 瀏覽:394
廢水中的氯根對人體有什麼危害 瀏覽:691
硅溶膠去鈉離子 瀏覽:409
山西省人民醫院污水處理站 瀏覽:531
污水rbcod什麼意思 瀏覽:872
甘肅工業廢水氨氮超標怎麼辦 瀏覽:584
汽油過濾器濾芯怎麼換 瀏覽:542
關於半透膜的實驗 瀏覽:480
小霸王飲水機怎麼調時間 瀏覽:565
mvr廢水處理設備原理是什麼 瀏覽:455
尼龍纖維是半透膜嗎 瀏覽:671
過濾晶元型的叫什麼電感 瀏覽:215
樹脂乾燥的壞處 瀏覽:47
荒廢水田能幹什麼 瀏覽:538
雞蛋清能溶於蒸餾水嗎 瀏覽:624
天津濾芯廠在哪裡 瀏覽:563
離子交換器樹脂裝填量 瀏覽:149
飲可凈你選擇凈水器的初衷是什麼 瀏覽:542