有的时候,我们本来写得好好的爬虫代码,之前还运行得Ok, 一下子突然报错了。

报错信息如下:

Http 800 Internal internet error

这是因为你的对象网站设置了反爬虫程序,如果用现有的爬虫代码,会被拒绝。

之前正常的爬虫代码如下:

from urllib.request import urlopen
...
html = urlopen(scrapeUrl)
bsObj = BeautifulSoup(html.read(), "html.parser")

这个时候,需要我们给我们的爬虫代码做下伪装,

给它添加表头伪装成是来自浏览器的请求

修改后的代码如下:

import urllib.parse
import urllib.request
from bs4 import BeautifulSoup
...
req = urllib.request.Request(scrapeUrl)
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)') 
response = urllib.request.urlopen(req) 
html = response.read()
 
bsObj = BeautifulSoup(html, "html.parser")

Ok,一切搞定,又可以继续爬了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

您可能感兴趣的文章:
  • python爬虫爬取淘宝商品比价(附淘宝反爬虫机制解决小办法)
  • 用sleep间隔进行python反爬虫的实例讲解
  • python中绕过反爬虫的方法总结
  • cookies应对python反爬虫知识点详解
  • python反爬虫方法的优缺点分析
  • python 常见的反爬虫策略
  • Python爬虫与反爬虫大战
  • Python常见反爬虫机制解决方案
  • Python反爬虫伪装浏览器进行爬虫
  • 详解python 破解网站反爬虫的两种简单方法
  • python爬虫 urllib模块反爬虫机制UA详解
  • 用python3 urllib破解有道翻译反爬虫机制详解
  • Python反爬虫技术之防止IP地址被封杀的讲解
  • Python3爬虫学习之应对网站反爬虫机制的方法分析
  • python通过伪装头部数据抵抗反爬虫的实例
  • python解决网站的反爬虫策略总结
  • Requests什么的通通爬不了的Python超强反爬虫方案!

转载请注明出处:http://www.syyashida.com/article/20230330/217672.html

随机推荐

  1. Python网络爬虫实例讲解

    聊一聊Python与网络爬虫。 1、爬虫的定义 爬虫:自动抓取互联网数据的程序。 2、爬虫的主要框架 爬虫程序的主要框架如上图所示,爬虫调度端通过URL管理器获取待爬取的URL链接,若URL管理器中存在待爬取的URL链接,爬虫调度器调用...

  2. python网络爬虫精解之pyquery的使用说明

    目录一、pyquery的介绍二、pyquery的使用1、初始化工作字符串URL文件初始化2、查找节点(1)查找子节点(2)匹配父节点(3)匹配兄弟节点3、遍历4、获取信息(1)获取属性(2)获取文本5、节点操作(1)为某个节点添加或删除一...

  3. Python网络爬虫——Appuim+夜神模拟器爬取得到APP课程数据

    一、背景介绍 随着生产力和经济社会的发展,温饱问题基本解决,人们开始追求更高层次的精神文明,开始愿意为知识和内容付费。从2016年开始,内容付费渐渐成为时尚。 罗辑思维创始人罗振宇全力打造“得到APP”就是这样一款优质的可以听音频、学通识...

  4. Python网络爬虫神器PyQuery的基本使用教程

    前言 pyquery库是jQuery的Python实现,能够以jQuery的语法来操作解析 HTML 文档,易用性和解析速度都很好,和它差不多的还有BeautifulSoup,都是用来解析的。相比BeautifulSoup完美翔实的文档,...

  5. python网络爬虫精解之Beautiful Soup的使用说明

    目录一、Beautiful Soup的介绍二、Beautiful Soup的使用1、节点选择器2、提取信息3、关联选择4、方法选择器5、CSS选择器一、Beautiful Soup的介绍 Beautiful Soup是一个强大的解析工具,...

  6. Python网络爬虫第三弹《爬取get请求的页面数据》

    一.urllib库   urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是u...

  7. 16.Python网络爬虫之Scrapy框架(CrawlSpider)

    引入 提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。 方法二:基于CrawlSpider的自动爬...

  8. python网络爬虫精解之正则表达式的使用说明

    目录一、常见的匹配规则二、常见的匹配方法1、match()2、search()3、findall()4、sub()5、compile()一、常见的匹配规则 二、常见的匹配方法 1、match() match()方法从字符串的起始位置开始...

  9. python网络爬虫第三弹(爬取get请求的页面数据)

    一.urllib库   urllib是python自带的一个用于爬虫的库,其主要作用就是通过代码模拟浏览器发送请求,其常被用到的子模块在 python3中的为urllib.request 和 urllib.parse,在python2中的...

  10. Python网络爬虫—验证是否为异常网络

    两种网络异常: 1.网页在服务器上不存在(或者获取页面的时候出现错误) 2.服务器不存在 1 from urllib.request import urlopen 2 from urllib.error import HTTPErr...