1. 请大神帮我看看为什么我这个简单的小爬虫得不到数据急急急急急!!!
关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False即可解决。
我们观察scrapy抓包时的输出就能发现,在请求我们设定的url之前,它会先向服务器根目录请求一个txt文件:
这个文件中规定了本站点允许的爬虫机器爬取的范围(比如你不想让网络爬取你的页面,就可以通过robot来限制),因为默认scrapy遵守robot协议,所以会先请求这个文件查看自己的权限
我们在setting改变ROBOTSTXT_OBEY为False,让scrapy不要遵守robot协议,之后就能正常爬取了
2. python 爬虫求教
python爬虫,requests非常好用,建议使用。匹配结果使用re正则,列:
#-*-coding:utf-8-*-
importre
str1="""
<spanclass="title">寻梦环游记</span>
...
<spanclass="rating_num"property="v:average">9.0</span>
"""
title=re.search(r'<spanclass="title">(.*?)</span>',str1)
iftitle:
print(title.group(1))
rating=re.search(r'<spanclass="rating_num"property="v:average">(.*?)</span>',str1)
ifrating:
print(rating.group(1))

3. python爬虫小问题
你也不说一下,你用的什么框架,或者模块。python爬虫的方式太多了。
如果只是单纯的定位。
你可以搜索一下 div class='time fr'是不是唯一的,如果是就可以通过这个特征直接定位
比如:rep.xpath('//div[@class='time fr']')
4. python 怎样爬取div class=cont 里面的p span
实现方法如下:
加载到XmlDocument,查找p子节点(XPath),如果要在子节点内继续查找,用递归;
string patten_block="<div class=\"wm_sktq_l\">[\\s\\S]*</div>"
string patten_p="<p>[\\s\\S]*</p>" 用组获取。
5. java写网络爬虫,如何爬取在同一个网页中,但是已经被隐藏的div(需要点击显示更多)
这种是用js实现的。所以后面的内容实际上是动态生成的,网络爬虫抓取的是静态页面。
至于解决办法,网上有几种:
一种是使用自动化测试工具去做,比如selenium,可以模拟点击等操作,但是这个其实和爬虫还是有很大区别的。
二是利用特定的类库在后端调用js,python的倒是有,但是java的我就不清楚了。
三是自己找到相关的页面的js代码,分析出来相关的请求url,直接调新的url就行了,但是一般的js都是加密压缩的,但是你可以试试。
6. python爬虫入门测试,我写的代码有bug,但是找不到怎么办
python是当下十分火爆的编程语言,尤其在人工智能应用方面。如果有心从事编程方向的工作,最好到专业机构深入学习、多实践,更贴近市场,这样更有利于将来的发展。
7. html 没有指定class 怎么爬内容下来
可以通过标签来解决,取页面中第x个table中第x个tr的第x个td。
例:getelementsbytabname("td").item(3)
8. 写爬虫的时候,Beautifulsoup 遇到这种标签没有合上的网页应该怎么提取
如果找到这个树的话,就不要用find_all了,用find
html="""<divclass="a">文本一
<divclass="b">文本二
<aclass="c">文本三
</div>
</div>
</a>
"""
foriteminhtml:
content=item.find("div",attrs={"calss":"b"}
9. 关于爬虫爬不到数据
你这个site.xpath("/table[@class='tzlb']/a/text()").extract()是不是写错了啊