python将浏览器书签内容下载到本地

2024-03-16 17:03 已关闭评论

需求

网上阅读到不错的文章，收藏到google书签后想要下载到本地，方便查询。

BeautifulSoup

python提供了一个便捷的工具抓取网页的内容叫BeautifualSoup，简单用法：

#code by每日教程teachcourse.cn
from urllib.request import urlopen
from bs4 import BeautifulSoup
url='https://baidu.com'
html = urlopen(url)
bsObj = BeautifulSoup(html.read())
print(bsObj)

获取内容

获取指定网页的内容。

使用find()方法获取某一个html内容

比如：获取logo里面的内容，PC端打开网页按下F12，找到需要获取内容的html节点

#code by每日教程teachcourse.cn
#...
bsObj = BeautifulSoup(html.read())
print(bsObj.find('div',{'id':'lg'}))

将内容保存到txt文件中

# 保持到txt文件中
with open('content.txt','w', encoding='utf8') as txt_file:
    txt_file.write(logo_obj.prettify())

运行后，打印当前节点的内容

获取图片资源

获取所有的img标签，使用find_all()方法

#code by每日教程teachcourse.cn
#...
# 获取所有图片html标签
img_list=logo_obj.find_all('img')
print(img_list)

将图片保持到本地

#code by每日教程teachcourse.cn
#...
# 将图片下载本地
for img in img_list:
    url = img['src']
    filename = url.split('/')[-1]
    # 因为src缺少https:前缀，需要手动添加
    urllib.request.urlretrieve('https:'+url, filename)

封装成工具

能够将一个网页的内容下载到txt文档，同时也可以下载图片到本地，可以封装成一个工具，传入网页的url和html节点就可以拉取内容到本地。

当前文章价值8.77元，扫一扫支付后添加微信提供帮助！（如不能解决您的问题，可以申请退款）

你可能感兴趣的文章

来源：每日教程， 每日一例，深入学习实用技术教程，关注公众号TeachCourse
转载请注明出处： https://www.teachcourse.cn/3144.html ，谢谢支持！

资源分享

分类：python 标签：BeautifulSoup, lxml

评论已关闭！

ProgressBar+WebView实现自定义浏览器

9年前 (2015-11-05) 2 Android

ProgressBar+WebView控件实现自定义浏览器demo，加载web页面，显示加载进度，进度条颜色自定义，代码简单，传递Inte...

浅谈OptionMenu选项菜单

9年前 (2015-08-18) 0 Android

OptionMenu常用的方法： 1、onCreateOptionMenu(Menu)----初始化选项菜单，只在首次显示的时候调用 2、onPrepareOptionsMenu(Menu)----为程序准...

Python框架Flash_Restful安装使用

3周前 (04-10) 已关闭评论 python

要安装Python库Flask-RESTful，请确保你已经安装了Python，并且Python版本至少是2.6、2.7或3.3以上（不过鉴于Python 2.6和2.7已不再维护，建议使...

浅谈DMS

9年前 (2015-08-11) 0 Android

DMS（database Management System），即数据库管理系统

Map接口集合方法解析

8年前 (2016-06-21) 0 Java基础

Map接口和接口方法完全解析：详细说明各个接口方法的使用，分析Map接口实现类之间的区别和如何选择使用：AbstractMap、HashM...

什么是淘宝客淘宝客可以做什么

9年前 (2015-07-02) 0 生活杂谈

淘宝客是一个随着电子商务新起来后的一个新名词，它伴随着淘宝的出现而出现，淘宝客有点像现在的商品导购员

搭建独立网站不得不读的第一篇WordPress安装指南

9年前 (2015-11-01) 11 WordPress

第一篇WordPress安装指南,详细演示了安装WordPress过程,指出安装过程需要注意的问题,安装图文结合,想要搭建独立网站的朋友们...

python字符串格式化的方式

2个月前 (03-04) 已关闭评论 python

需求字符串包括变量，对一个字符串进行格式化，可以使用几种格式化的方式第一种：f'{}' 例子： # by 每日教程 course='python教程' name=f'Thi...

TreeMap方法解析

8年前 (2016-06-24) 1 Java基础

TreeMap继承AbstractMap，实现SortedMap、NavigableMap、Cloneable和Serializable接...

Android学习笔记九：Java线程、多线程和线程池

6年前 (2018-03-26) 0 面试题汇

摘要：最近在整理Android岗位面试题的答案，虽然工作已有两年，独立开发了好几个APP，但在不查资料的情况下，回答这些试题非常的困难，瞬间感觉...

◆ ◆