博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python 爬虫:煎蛋网妹子图
阅读量:6968 次
发布时间:2019-06-27

本文共 1297 字,大约阅读时间需要 4 分钟。

使用 Headless Chrome 替代了 PhatomJS。

图片保存到指定文件夹中。

1 import requests 2 from bs4 import BeautifulSoup 3 from selenium import webdriver 4 from selenium.webdriver.chrome.options import Options 5  6 chrome_options = Options() 7 chrome_options.add_argument('--headless') 8 chrome_options.add_argument('--disable-gpu') 9 driver = webdriver.Chrome(chrome_options=chrome_options)10 dir = 'C:/spider-download/jandan-girls/'11 img_urls = []12 page_urls = ["http://jandan.net/ooxx/page-{}#comments".format(str(i)) for i in range(5, 6)]13 14 def GetImgUrl(u):15     driver.get(u)16     html = driver.page_source17     soup = BeautifulSoup(html, 'lxml')18     images = soup.select('a.view_img_link')19     for i in images:20         t = i.get('href')21         if str('gif') in str(t):22             pass23         else:24             img_url = 'http:' + t25             img_urls.append(img_url)26 27 def DownloadImg():28     n = 129     for i in img_urls:30         print('第 ' + str(n) + ' 张 ... ', end='')31         with open(dir + i[-20:], 'wb') as f:32             f.write(requests.get(i).content)33         print('OK!')34         n = n + 135 36 for u in page_urls:37     GetImgUrl(u)38 print('*** 开始下载 ***')39 DownloadImg()40 print('*** 下载完成 ***')

 

转载于:https://www.cnblogs.com/deepcho/p/jandan-girls-spider.html

你可能感兴趣的文章
一文解读Tensor到底是个啥玩意儿?(附代码)
查看>>
Mysql锁机制简单了解一下
查看>>
[20180328]不要在sys建立用户对象.txt
查看>>
Reactor-Guice 0.0.7 版本发布 ,BUG 修复,自定义模板支持
查看>>
超详细!上线一个机器学习项目你需要哪些准备?
查看>>
IIS如何设置可以让.aspx后缀的文件直接下载
查看>>
为什么区块链对中小企业至关重要?
查看>>
笨办法学 Linux 中文版 翻译完成
查看>>
js 写入图片Exif信息piexifjs
查看>>
IBM携手三菱东京日联银行 将区块链用于合同管理
查看>>
Mac 10.12安装WebStorm
查看>>
Spring Cloud启动应用时指定IP或忽略某张网卡配置
查看>>
Jenkins配置MSBuild实现自动部署2(项目实践)
查看>>
kafka好文章
查看>>
IBM发布超强量子计算机,可处理50个量子位
查看>>
如何使用Bro IDS和Intel Critical Stack分析网络活动
查看>>
Memcached的Web管理工具MemAdmin(待实践)
查看>>
嵌入式学习难点 嵌入式软件学习
查看>>
11204 ASM 在线存储迁移。
查看>>
eclipse不会自动编译的问题解决
查看>>