mongodb爬取数字货币
㈠ 如何把nutch爬取的网页内容存写到MongoDB
进入nutch的安装目录,运行命令:
bin/nutch readseg -mp db/segments/20090525140014 segdb -nocontent -nofetch -nogenerate -noparse -noparsedata
db/segments/20090525140014为一个segments文件夹,segdb为存放转换后的内容的文件夹。
㈡ 如何用30行代码爬取Google Play 100万个App的数据
基础工作:
内置元素选择器
序列化存储数据
处理cookie、HTTP些东西间件
爬取 Sitemap 或者 RSS
等等
我需求爬取 Google Play 市场所 App 页面链接及载数量
首先确保配置 Python 2.7, MongoDB 数据库, 及 Python pip 包管理系统
安装应 Python 包并且项目模板:
pip install scrapy scrapy-mongodb
scrapy startproject app
cd app
scrapy genspider google
app/spider/google.py 换面内容:
`# -*- coding: utf-8 -*-
import scrapy
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.linkextractors import LinkExtractor
from app.items import GoogleItem
class GoogleSpider(CrawlSpider):
name = "google"
allowed_domains = ["play.google.com"]
start_urls = [
'',
''
]
rules = [
Rule(LinkExtractor(allow=("\.google\.com/store/apps/details", )), callback='parse_app',follow=True),
] # CrawlSpider 根据 rules 规则爬取页面并调用函数进行处理
def parse_app(self, response):
# 获取页面 URL 及载数量
item = GoogleItem()
item['url'] = response.url
item['num'] = response.xpath("//div[@itemprop='numDownloads']").xpath("text()").extract()
yield item
app/items 添加面代码:
class GoogleItem(scrapy.Item):
url = scrapy.Field()
num = scrapy.Field()
app/setting.py 面添加面代码
# 配置 scrapy-mongodb 数据库连接用于自爬取数据存入 MongoDB
ITEM_PIPELINES = [
'scrapy_mongodb.MongoDBPipeline',
]
MONGODB_URI = 'mongodb://127.0.0.1:27017'
MONGODB_DATABASE = 'scrapy'
MONGODB_COLLECTION = 'play'
没其工作连配置文件共四十行启 MongoDB项目目录运行
scrapy crawl google -s JOBDIR=app/jobs
静静等跑完吧-s JOBDIR=app/jobs 参数意思工作状态已经爬取页面数据存 app/jobs 目录即使间断运行面命令该目录恢复工作用重新始
我 Linode 低配 VPS 跑概 40 MongoDB 数据 156 万条记录2015 1 月新闻 Google Play 143 万款 App, 相信已经爬取绝数 App 页面
`> use scrapy
switched to db scrapy
> db.play.count()
1564754
> db.play.find().limit(1)
"_id" : ObjectId("55479d9da28a7c1cca449c23"), "url" : "", "num" : [ " 100,000,000 - 500,000,000 " ]()
>
㈢ 如何把nutch爬取的网页内容存写到MongoDB
网页page source 保存数据库(mongodb)每取新page source 数据库page source hash 值想等等表示更新 判断爬虫爬取间策略办 自手实现吧
㈣ 请问如何用python将爬取的数据逐条传入MongoDB数据库,请大牛指点。
物信息、统计、网页制作、计算等多个领域都体现出了强大的功能。python和其他脚本语言如java、R、Perl 一样,都可以直接在命令行里运行脚本程序。工具/原料
python;CMD命令行;windows操作系统
方法/步骤
1、首先下载安装python,建议安装2.7版本以上,3.0版本以下,由于3.0版本以上不向下兼容,体验较差。
2、打开文本编辑器,推荐editplus,notepad等,将文件保存成 .py格式,editplus和notepad支持识别python语法。
脚本第一行一定要写上 #!usr/bin/python
表示该脚本文件是可执行python脚本
如果python目录不在usr/bin目录下,则替换成当前python执行程序的目录。
3、编写完脚本之后注意调试、可以直接用editplus调试。调试方法可自行网络。脚本写完之后,打开CMD命令行,前提是python 已经被加入到环境变量中,如果没有加入到环境变量,请网络
4、在CMD命令行中,输入 “python” + “空格”,即 ”python “;将已经写好的脚本文件拖拽到当前光标位置,然后敲回车运行即可。
㈤ Python如何把爬虫爬的数据存到mongodb里
难道是img的问题。
mongodb是可以直接存的。这种写法没有问题。问题还是出在变量名与变量值上。
很简单就可以定位。你先将img换成一个字符串,如果成功了,就是img本身的格式问题。如果还不成可以试试将"id"换成"Identify"类似的这样的名子再式。2-3次试验就可以找到原因。
㈥ 如何用30行代码爬取Google Play 100万个App的数据
做你妈的春梦吧,尽搞这种虚的,这么玩命加分号有给鸡儿意思,除非google那边给开了对应的接口