标签：爬虫 - 🛫Qifei's Blog

如何利用Selenium实现更加高效的爬虫

1. 导语Selenium作为浏览器自动化工具，由于其可以直接执行js代码的优越性，经常被用做爬虫工具。但是，毕竟需要控制浏览器，低效率高内存始终是其难以甩掉的标签。在我个人爬虫开发中，对如何高效利用selenium有了一套个人的理解。 2. 用js注入代替selenium原生操作selenium库提供的execute_script方法使js注入成为可能。下面是一个js注入的例子 12js&...

2021-07-09 网络爬虫

阅读全文

爬取Youtube搜索结果

1：绪最近在做一个音乐下载软件，通过搜索音乐名称，下载youtube上信息匹配度最高的视频，提取其中的音频，来获取音乐。开源软件youtube-dl已经完成了视频下载和音频提取的全部工作，我要做的就是，获取目标视频的id或者视频链接，然后调用youtube-dl下载。 2：接口谷歌官方其实已经提供了获取YouTube搜索结果的api，直接调用即可。 12345678910#调用谷歌api获取...

2021-02-06 网络爬虫

阅读全文

外卖平台订单爬取之美团外卖商家版

1：root手机昨天，我利用mitmproxy成功拦截了饿了么服务器返回的订单信息。今天，我准备故技重施，获取美团订单。残酷的现实给我炽热地心浇了一盆冷水。无论我如何调整mitmproxy和美团外卖商家版，都无法获取到美团服务器返回的数据。更确切地说，美团服务器似乎发现，有这么一个小偷，准备偷取它返回给客户端地数据。因此拒绝给客户端传递数据。我在网上找了一些解答，在安卓7.0之后，安卓系统...

2020-10-17 网络爬虫

阅读全文

爬虫基础

1: 任务介绍和准备工作爬取豆瓣电影Top250的基本信息。 https://movie.douban.com/top250 编码规范： 1234567#coding=utf-8def hello(): print("hello")if __name__ = "__main__": #入口函数，控制函数的执行顺序 hello() 引入模块：目录结...

2020-07-26 学习笔记

阅读全文