当前位置:首页 » 寻物指南 » 爬虫为什么找不到divclass

爬虫为什么找不到divclass

发布时间: 2022-09-21 23:18:24

1. 请大神帮我看看为什么我这个简单的小爬虫得不到数据急急急急急!!!

关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False即可解决。
我们观察scrapy抓包时的输出就能发现,在请求我们设定的url之前,它会先向服务器根目录请求一个txt文件:
这个文件中规定了本站点允许的爬虫机器爬取的范围(比如你不想让网络爬取你的页面,就可以通过robot来限制),因为默认scrapy遵守robot协议,所以会先请求这个文件查看自己的权限
我们在setting改变ROBOTSTXT_OBEY为False,让scrapy不要遵守robot协议,之后就能正常爬取了

2. python 爬虫求教

python爬虫,requests非常好用,建议使用。匹配结果使用re正则,列:

#-*-coding:utf-8-*-

importre


str1="""
<spanclass="title">寻梦环游记</span>
...
<spanclass="rating_num"property="v:average">9.0</span>
"""

title=re.search(r'<spanclass="title">(.*?)</span>',str1)
iftitle:
print(title.group(1))
rating=re.search(r'<spanclass="rating_num"property="v:average">(.*?)</span>',str1)
ifrating:
print(rating.group(1))

3. python爬虫小问题

你也不说一下,你用的什么框架,或者模块。python爬虫的方式太多了。
如果只是单纯的定位。
你可以搜索一下 div class='time fr'是不是唯一的,如果是就可以通过这个特征直接定位
比如:rep.xpath('//div[@class='time fr']')

4. python 怎样爬取div class=cont 里面的p span

实现方法如下:
加载到XmlDocument,查找p子节点(XPath),如果要在子节点内继续查找,用递归;
string patten_block="<div class=\"wm_sktq_l\">[\\s\\S]*</div>"
string patten_p="<p>[\\s\\S]*</p>" 用组获取。

5. java写网络爬虫,如何爬取在同一个网页中,但是已经被隐藏的div(需要点击显示更多)

这种是用js实现的。所以后面的内容实际上是动态生成的,网络爬虫抓取的是静态页面。
至于解决办法,网上有几种:

一种是使用自动化测试工具去做,比如selenium,可以模拟点击等操作,但是这个其实和爬虫还是有很大区别的。
二是利用特定的类库在后端调用js,python的倒是有,但是java的我就不清楚了。
三是自己找到相关的页面的js代码,分析出来相关的请求url,直接调新的url就行了,但是一般的js都是加密压缩的,但是你可以试试。

6. python爬虫入门测试,我写的代码有bug,但是找不到怎么办

python是当下十分火爆的编程语言,尤其在人工智能应用方面。如果有心从事编程方向的工作,最好到专业机构深入学习、多实践,更贴近市场,这样更有利于将来的发展。

7. html 没有指定class 怎么爬内容下来

可以通过标签来解决,取页面中第x个table中第x个tr的第x个td。
例:getelementsbytabname("td").item(3)

8. 写爬虫的时候,Beautifulsoup 遇到这种标签没有合上的网页应该怎么提取

如果找到这个树的话,就不要用find_all了,用find

html="""<divclass="a">文本一
<divclass="b">文本二
<aclass="c">文本三

</div>
</div>
</a>
"""
foriteminhtml:
content=item.find("div",attrs={"calss":"b"}

9. 关于爬虫爬不到数据

你这个site.xpath("/table[@class='tzlb']/a/text()").extract()是不是写错了啊

热点内容
火车为什么停的时间特别长 发布:2025-09-21 07:07:41 浏览:739
笔记本电脑性能为什么那么高 发布:2025-09-21 06:55:33 浏览:100
为什么肯德基袋子大东西小 发布:2025-09-21 06:51:24 浏览:920
为什么创建不了git文件夹 发布:2025-09-21 06:49:54 浏览:452
淘宝的真肌粉为什么那么便宜 发布:2025-09-21 06:33:40 浏览:362
为什么苹果手机打开百度有广告 发布:2025-09-21 06:24:30 浏览:601
满周岁的孩子为什么不愿意喝奶粉 发布:2025-09-21 06:23:56 浏览:351
为什么电脑上卸载软件还会自启 发布:2025-09-21 05:59:28 浏览:144
为什么产品只有到期时间 发布:2025-09-21 05:58:00 浏览:894
为什么脑子发达程度不一样 发布:2025-09-21 05:29:08 浏览:450