极品少妇一区二区三区精品视频,国内精品免费午夜毛片,亚洲欧美电影一区二区,麻豆一区二区

爬蟲的抓取效率怎么去提升

我們在抓取目標數據的時候,尤其是數據量比較大的時候,總覺得抓取效率比較慢。那么,有什么方法可以提高爬蟲的爬行效率呢?如何提高爬蟲的抓取效率?下面和大家簡單討論一下如何提高爬蟲的抓取效率。

1.精簡抓取流程,避免重復訪問。

在抓取數據的過程中,很大一部分時間是用來等待網絡請求的響應的,所以減少不必要的訪問次數可以節省時間,提高抓取效率。 然后需要優化流程,盡可能精簡流程,避免多個頁面重復訪問。那么減肥也是一個非常重要的手段。一般根據網址或者id來判斷唯一性,已經爬上去的不用繼續爬了。

2.多線程分布式抓取,人多力量大,爬行也是一樣。如果一臺機器不夠,就多造幾臺,如果不夠,就多造幾臺。

分發的第一步不是爬蟲的本質,也不是必須的。對于相互獨立、沒有通信的任務,可以手動劃分任務,然后在多臺機器上執行,這樣就減少了每臺機器的工作量,耗時也會翻倍。比如有200萬個網頁要抓取,5臺機器可以抓取40萬個不重復的網頁。相對來說,單機耗時縮短了5倍。

如果有需要通信的情況,比如要爬取的隊列是變化的,那么這個隊列每次爬取都會發生變化,即使任務被分割,也會出現交叉重復,因為程序運行時每臺機器要爬取的隊列都是不一樣的。在這種情況下,只有分布式的,一個主存儲隊列,其他從存儲隊列可以分別取,這樣一個隊列可以共享,互斥的抓取不會重復。

主站蜘蛛池模板: 新干县| 舒兰市| 定安县| 江达县| 梨树县| 扬州市| 宁河县| 大埔区| 开封市| 巴林右旗| 武山县| 剑阁县| 伊春市| 雅安市| 望奎县| 山丹县| 天津市| 平阴县| 乐至县| 南木林县| 时尚| 临海市| 枣强县| 宜兰市| 治多县| 蓬安县| 开江县| 清徐县| 旺苍县| 石景山区| 榆中县| 玉环县| 阳东县| 邯郸市| 保康县| 罗山县| 岗巴县| 呼图壁县| 正定县| 永靖县| 合川市|