msyz999明仕亚洲官网scrapy 抓不到肇始网页内容

初学运用scrapy,按照教程建了很小一个例子,还没有到用pipeline之类的地步,只想看看能不克不及爬东西上去。代码如下:

spider.py:

from scrapy.spider import Spider 

class newsSpiderSpider:
    name = "News"
    allowed_domains = ["people.com.cn"]
     start_urls = ["http://people.com.cn"]

    def parseself,response:
        print response.url
        filename = response.url.split/[-2]
        print filename
        openfilename,w.writeresponse.body

items.py:

import scrapy

class TutorialItemscrapy.Item:
    # define the fields for your item here like:
    # name = scrapy.Field
    pass
class newsItemItem:
    title = Field
    link = Field
    desc = Field

但是发明几个旧事网站都爬取失败了,包括:
people.com.cn
news.163.com
ifeng.com
以上几个都市报错:

 ERROR: Spider error processing <GET http://.....com> referer: None

但是,我爬tieba.baidu.com和例子中的”http://www.dmoz.org/Computers/Programming/Languages/Python/Books/”是可以趴上去东西的,也便是response是有内容的,也没有error。

我从以下几个方面改了改:
1.绕过robots.txt,在setting里把ROBOTSTXT_OBEY = False
2.禁用/启用cookie,COOKIES_ENABLED = False/True
3.设置USER_AGENT,USER_AGENT = Mozilla/5.0 Windows NT 6.1; WOW64 AppleWebKit/537.36 KHTML, like Gecko Chrome/45.0.2454.101 Safari/537.36
`

后果并没有改动,那些旧事网站还是肇始网页就爬不上去东西,讨教怎样办?

楼主,您好,我是如许处理这个题目的,第一我翻开:

scrapy shell http://people.com.cn

进入到了shell形式,然后输入:

response.url.split/[-2]

发明里面的内容为空,这时分我判定是联络网址的时分弄错了,以是,我实行了下面这个代码:

response.url.split/[-1]

发明有输入如下:

以是楼主的缘由是filename不存在,以是不会天生文档了。
尝尝吧。

你用终端测试一下试一试
http://scrapy-chs.readthedocs…

不知道你有没有仔细看scrapy的文档
http://scrapy-chs.readthedocs…

(看完/读完)这篇文章有何感想! msyz999明仕亚洲官网的分享…

发表评论

姓名 *
电子邮件 *
站点