×

爬虫

Python电影爬虫,用Excel存储并进行数据可视化分析

福缘创业网 福缘创业网 发表于2024-04-23 浏览5376 评论0
一、爬取网页数据 1、分析网页 (1)网页数据类型 先查看网页中的数据是属于哪种类型,例如:text、json等。 (2)不同类型电影排行榜 url 的区别 然后我们分析各排行榜中的url有何不同: https://movie.douban.com/typerank?type_name=剧情&type=11&interval_id=100:90&action= https://movie.douban.com/typerank?type_

爬虫

03.获取网页源代码

百度用户23477 百度用户23477 发表于2024-04-23 浏览4969 评论0
主要内容 Resquests 库获取网页源代码 使用 Selenium 库获取网页源代码 使用requests 库 和 Selenium 库爬取网页的优缺点 一、Resquests 库获取网页源代码 1.1 使用Requests 库获取百度新闻的网页源代码 具体代码: import requests url = 'https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&a

爬虫

Python采集去哪儿旅游攻略(爬虫+数据分析),快过年了,这不得全家一起出去玩一次

上善若水 上善若水 发表于2024-04-23 浏览6214 评论0
本次目的: Python采集去哪儿旅游攻略(爬虫+数据分析) 内容介绍: 2021有哪些好玩的地方?今天用python分析适合年轻人的旅游攻略 (数据分析) 知识点: requests 发送网络请求 parsel 解析数据 csv 保存数据 第三方库: requests >>> pip install requests parsel >>> pip install parsel 模块安装: 按住键盘 win

爬虫

数据分析实战(五)基于R语言的Kmean聚类分析实战(r语言做kmeans聚类分析)

nobody nobody 发表于2024-04-23 浏览5736 评论0
1、数据爬取及预处理 1.1 基本介绍 数据来源:当当网五星图书榜单,该网页为静态网页,易爬取且翻页机制明显,在此不展开详细分析,本次爬取的内容为童书所有分类,爬取每个图书的字段如下表所示 数据字段 含义 book_title 图书标题 book_comments 评论人数 book_recommend 推荐指数 book_price_now 现价 book_price_origin 原价 book_price_cutoff 折扣 cato 图

爬虫

【pyqt、mysql、爬虫】python新冠疫情信息管理系统(详细图文)

qq_e2y8ihbd qq_e2y8ihbd 发表于2024-04-23 浏览3626 评论0
1.简介 python实验作业,正好回顾一下小学二年级学习的pyqt,优化一下以前写的框架。(大二还在写这些,有点惭愧,不想花太多时间写,于是一晚上肝完了) 1.本项目在pyqt的框架上进一步封装,基于springMVC架构和springboot架构进行二次架构设计,参考笔者之前写的:【快速调用】基于mvc架构的pyqt架构封装 2.源代码链接(欢迎stars):https://github.com/Undertone0809/COVID-19-Info-management-sys

爬虫

Python大作业——弹幕数据分析(获取url cid 弹幕 画出词云)

海子 海子 发表于2024-04-23 浏览5369 评论0
 首先要知道我们要做什么,要是茫无目的那就说明都做不了,我们这次的数据分析 步骤: ① 获取视频url ② 获取视频cid ③ 获取视频弹幕 第一步:获取视频url 解析我在弹幕里直接写了,可以自己看一看,我就不在博客里写了,不好排版 Get_Url代码部分 from bs4 import BeautifulSoup from selenium import webdriver url = 'https://space.bilibili.com/517327498/chan

爬虫

【网络爬虫】基于Selenium爬取动态网页(使用selenium爬虫并解析网页)

。 发表于2024-04-23 浏览8566 评论0
一、Selenium介绍与配置 1.Selenium简介   Selenium 是ThoughtWorks专门为Web应用程序编写的一个验收测试工具。Selenium测试直接运行在浏览器中,可以模拟真实用户的行为。支持的浏览器包括IE(7、8、9)、Mozilla Firefox、Mozilla Suite等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好地工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用户需求。 2

爬虫

Python爬虫实战-小说网站爬虫开发

xingqi xingqi 发表于2024-04-23 浏览6446 评论0
需求: 从http://www.kanunu8.com/book3/6879爬取《动物农场》所有章节的网址,再通过一个多线程爬虫将每一章的内容爬取下来。在本地创建一个“动物农场”文件夹,并将小说中的每一章分别保存到这个文件夹中。每一章保存为一个文件。 涉及到的知识点 1、requests爬虫网站内容 2、正则表达式提取内容 3、文件写入 4、多线程 插话:做这类需求,最好还是先自己想,自己实现,实现后再去看自己跟书上的有什么不一样。 单线程实现 #使用requests获取网页源代码

爬虫

爬取某家网二手房数据(详细教程)(爬取链家网二手房数据)

行者 行者 发表于2024-04-23 浏览7827 评论0
今天分享一篇爬虫教程,文章比较细致,适合刚上手的小白,老读者可以酌情加速阅读 文中涉及的代码已经测试过,可以正常跑通,文章案例的所有数据也已经成功爬取。 项目描述: 今天要分享的教程是爬取各大城市的二手房数据,实现这篇爬虫也可融汇贯通到其他相关项目。 项目实施: 1. 确定目标 我们的目标官网链接是:https://www.lianjia.com/ 对应的某个城市的二手房页面应该是:https://sz.lianjia.com/ershoufang/ JN 代表城市济

爬虫

python100例爬虫-微博评论(5) (python爬虫爬微博评论)

xinyu590 xinyu590 发表于2024-04-23 浏览4892 评论0
##今天是个“特殊”的日子## 今天是2022年04月25日,上证指数刷新了至2020年7月以来的历史新低。对于股民来说,抱怨肯定少不了。那么小编想看看他们都说了些啥。 1、目标网站 微博某博主号的文章 2、工具 a> sublime text b> python 解释器 3、网站分析 a> 找到评论对应的网址 Step1:打开源代码 发现没有任何与评论相关的信息。放弃这条路 Step2:登录网站 打开开发者工具,点击查看评论,观察Fetch/X

爬虫

案例:爬豆瓣电影Top250中的电影信息 (爬取豆瓣电影top250的信息)

xing138559 xing138559 发表于2024-04-23 浏览8007 评论0
案例:爬取豆瓣电影Top250中的电影信息 豆瓣电影Top250首页 分析请求地址 在豆瓣电影Top250首页的底部可以确定电影信息一共有10页内容,每页25个电影信息,如下图: 切换页面,可以看到浏览器的URL地址的规律如下: https://movie.douban.com/top250?start=25&filter= https://movie.douban.com/top250?start=50&filter= https://movie.do