×

爬虫

解决报错requests.exceptions.ConnectionError: HTTPSConnectionPool(host=‘xxx’, port=443): Max re

doviseo doviseo 发表于2024-05-14 浏览41908 评论0
解决报错requests.exceptions.ConnectionError: HTTPSConnectionPool(host=‘xxx’, port=443): Max retries exceeded with url 使用requests时出错 由于自己也出现了这些错,借鉴网上各位大佬的经验和自己的见解,总结了以下会出现的情况 : 一、先检查一下自己的库中是否装了下面三个库 certifi、cryptography、pyOpenSSL # 没有的话请依次安装 p

爬虫

如何用Python获取网页指定内容(如何用python获取网页指定内容)

qq_kjhqwwxp qq_kjhqwwxp 发表于2024-05-13 浏览26518 评论0
Python用做数据处理还是相当不错的,如果你想要做爬虫,Python是很好的选择,它有很多已经写好的类包,只要调用,即可完成很多复杂的功能 在我们开始之前,我们需要安装一些环境依赖包,打开命令行 确保电脑中具有python和pip,如果没有的话则需要自行进行安装 之后我们可使用pip安装必备模块 requests pip install requests requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多,requests 允许你发送 H

爬虫

Python爬虫:自动评论何须学完爬虫,只需要掌握requests库即可

牙郎 牙郎 发表于2024-05-13 浏览7701 评论0
网络库requests 其实,我们有专门的网络库进行直接的网络请求与处理,它就是requests库。在我们开始讲解与使用之前,需要通过如下命令进行安装: pip install requests 首先,我们先来看看requests库可以进行哪些操作: 发送HTTP请求 上传文件 处理Cookie 支持Session会话 使用代理 身份验证 打包请求 SSL证书验证 下面,我们来一一介绍这些操作具体是如何实现的。 发送HTTP请求 与urllib与urllib3一

爬虫

python 网络爬虫全流程教学,从入门到实战(requests+bs4+存储文件)

凡间教主 凡间教主 发表于2024-05-13 浏览4704 评论0
python 网络爬虫全流程教学,从入门到实战(requests+bs4+存储文件) requests是一个Python第三方库,用于向URL地址发起请求 bs4 全名 BeautifulSoup4,是编写 python 爬虫常用库之一,主要用来解析 html 标签。 一、爬虫编写过程解析 1.1 导入库文件(请求库、解析库) #导入 requests请求库 import requests #导入bs4解析库 from bs4 import BeautifulSoup

爬虫

【笔记】Python爬虫|网页数据异步加载(结合Selenium完成)(python爬取异步加载的网页)

依然 依然 发表于2024-05-13 浏览5783 评论0
问题描述 一些网站会有很多的重定向,才能跳转到真实的资源页。然后爬虫就会报错:requests.exceptions.TooManyRedirects: Exceeded 30 redirects. 这种情况,可以直接关掉重定向,判断响应状态是301或302然后手动重定向。 参考:Python Requests:TooManyRedirects问题解决。 在手动重定向后,我又遇到了异步加载的问题。 爬取得到的页面只有“加载中”,没有实际内容。 出问题的网页是:常用来爬虫的某网站。