<menuitem id="h7t7f"><dl id="h7t7f"><progress id="h7t7f"></progress></dl></menuitem>
<cite id="h7t7f"><strike id="h7t7f"><thead id="h7t7f"></thead></strike></cite>
<cite id="h7t7f"><strike id="h7t7f"></strike></cite>
<var id="h7t7f"></var>
<var id="h7t7f"><strike id="h7t7f"><listing id="h7t7f"></listing></strike></var>
<menuitem id="h7t7f"></menuitem>
<var id="h7t7f"></var>
<var id="h7t7f"><strike id="h7t7f"></strike></var><var id="h7t7f"><strike id="h7t7f"></strike></var><cite id="h7t7f"><video id="h7t7f"><listing id="h7t7f"></listing></video></cite>
  1. 主頁 > 站長隨筆 > 心得日志 >

火車頭采集鏈接被自動加上一段域名,鏈接出錯怎么辦!

  今天在采集一個網站的時候,規則和數據庫等信息都設置好后,放著讓他自動采集,以前都是正常的,但是今天回來看采集的進度,才看到采集的數據都是錯誤的,標題都是很抱歉,您瀏覽的頁面暫時不能訪問哦!點對應的鏈接進去看,才知道,采集到的鏈接都是404鏈接,鏈接被自動加上了一段域名,這個還是第一次看到。于是重新修改了列表采集規則。
 
   出錯的標簽:
 
   常規的文章列表文章URL應該是  <a  href="https://www.ez-party.com/123.html">才對,而該站處理成了<a href="//987studio.com/123/456.html" target="_blank">你是不是餓的慌</a>,就是把協議頭https或者http給取消了,這個 在一定程度上是可以防范很多采集程序,軟件,爬蟲的。采集后的地址列表會多一層網址,就成了https://987studio.com//987studio.com/123/456.html",這樣的話就無法正確采集內容了。

火車頭采集鏈接被自動加上一段域名,鏈接出錯怎么辦!
 
 
   解決方法
 
   在網址獲取選項里點選“手動填寫鏈接地址規則”,
 
   原來鏈接方式:<a href="//987studio.com/123/456.html" target="_blank">你是不是餓的慌</a>  那么我們規則可以這么寫
 
 
   右側腳本規則填寫 <a href="[參數]" target="_blank"> 這里的參數就是原始網址不帶協議頭的網址。
 
    實際連接:填寫 http:[參數1] 
 
   如果該網站是https的這里就填寫 https:[參數1]
 
 
 
   結果
 
   這樣會抓取到其他一些無關的內容,將選定區域設置下,再測試下網址采集就可以正確采集到網址了,保存任務,一切就都正常了!如果有遇到同樣問題的可以試下這個方法哦!

本文僅代表作者觀點,不代表本站立場。 如需轉載請注明原網址:http://www.ez-party.com/xinderizhi/430.html

聯系我們

在線咨詢:點擊這里給我發消息

微信號:

工作日:9:30-18:30,節假日休息

中文字字幕乱码在线电影_西西人体大尺度44rtnet_粉嫩粉嫩看着都硬了[11p]_试看做受三十分钟_很黄的赤裸裸美女视频_午夜男女很黄的视频