爬蟲可以爬哪些網(wǎng)站
剛接觸爬蟲總會(huì)問這么一句:爬蟲可以爬哪些網(wǎng)站,是的,爬蟲作為強(qiáng)大的手段,哪些網(wǎng)站可以爬,哪些網(wǎng)站不能爬呢。今天來說說哪些網(wǎng)站可以爬吧。
1、新聞網(wǎng)站
新聞網(wǎng)站,所有網(wǎng)站上能看到的東西都可以收集。
可收集的內(nèi)容包括:標(biāo)題;作者;發(fā)布時(shí)間;新聞來源;二級(jí)標(biāo)題;摘要;內(nèi)容;視頻網(wǎng)站;圖片鏈接;語言;新聞?lì)愋停话l(fā)布狀態(tài);刪除狀態(tài);網(wǎng)站名稱;內(nèi)容源代碼等。
2、招聘網(wǎng)站
招聘網(wǎng)站需要強(qiáng)調(diào)需要付費(fèi)才能看到的簡歷,不能收集!非公開申請(qǐng)人的簡歷不能收集!
可以收集的包括:公司名稱;招聘崗位;網(wǎng)頁鏈接;崗位分類;工作地點(diǎn);專業(yè)需求;公司介紹;交付地址;行業(yè);工作內(nèi)容;工作要求;其他信息等。
3、論壇網(wǎng)站
論壇網(wǎng)站可以收集,包括:帖子;發(fā)帖人;發(fā)帖時(shí)間;發(fā)帖數(shù)量;發(fā)帖人關(guān)注數(shù)量;發(fā)帖內(nèi)容、回復(fù)內(nèi)容等。
4、電子商務(wù)網(wǎng)站
電子商務(wù)網(wǎng)站能否收集需要提前與技術(shù)顧問溝通,瀏覽電子商務(wù)網(wǎng)站某產(chǎn)品的用戶手機(jī)號(hào)碼無法收集。
可收集內(nèi)容:價(jià)格;名稱;關(guān)鍵字;圖片鏈接;付款人數(shù);鏈接地址等。
5、搜索引擎類
搜索引擎要用戶提供登錄帳號(hào)和關(guān)鍵字,配置非常簡單,收集時(shí)無效數(shù)據(jù)會(huì)比較多。收集到的內(nèi)容當(dāng)然也是可以看到的。
以上就是爬蟲可以爬取的網(wǎng)站,借助爬蟲技術(shù),我們能夠在短時(shí)間內(nèi)搜集到自己想要的數(shù)據(jù)。使用爬蟲時(shí)結(jié)合代理ip也是不錯(cuò)的選擇。
(推薦操作系統(tǒng):windows7系統(tǒng)、Python 3.9.1、DELL G3電腦。)