import requestsfrom bs4 import BeautifulSoupimport osimport re#1、设置爬取网站以及网页请求url="https://image.so.com/i?ie=utf-8&src=hao_360so&q=python#/"response=requests.get(url) #对网站进行get请求并赋值给responseresponse.encoding="utf-8" #设置网页编码为utf-8html=response.text#2、对网站源代码进行解析soup=BeautifulSoup(html,'lxml')print(soup.body) #打印网页源代码二次解析网站源码的body标签内容print(soup.div) #打印网页源代码二次解析网站源码的div标签内容print(soup.ul) #打印网页源代码二次解析网站源码的ul标签内容#3、查找符合要求的内容print(soup.findAll("a")) #打印网站所有的a标签信息for text1 in soup.findAll("a"): #遍历网页源代码的a标签信息 print(text1.text) #打印图片的名称信息
运行结果如下图所示二次解析网站源码:
海报
0 条评论
38
相关文章
本站已关闭游客评论,请登录或者注册后再评论吧~