Python爬虫(二)
再次尝试爬取自己的博客
1 | import requests |
爬取成功!!!
爬取博客网站所有文章列表
知识点:
- 附带cookie字典
- 正则表达式实现模糊匹配
1 | import urllib |
输出如下:
得到的文档如下:
1 | https://wangzhilei.fun NULL |
爬取成功!!!
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 NULL!
1 | import requests |
爬取成功!!!
知识点:
1 | import urllib |
输出如下:
得到的文档如下:
1 | https://wangzhilei.fun NULL |
爬取成功!!!