第 39 篇:数据存储——MongoDB 数据库
上一篇我们学习了 MySQL,它是关系型数据库的代表。但在爬虫场景中,数据往往结构不规则、字段经常变化、嵌套层级深——这时候用 MySQL 会很痛苦:频繁改表、处理 NULL、JOIN 复杂……MongoDB就是为这种场景而生的。它是一款文档型 NoSQL 数据库,数据以 JSON(BSON)形式存储,天然适合爬虫。本篇我们将系统学习:MongoDB 的基本概念与安装;Python 驱动pymongo的完整用法;CRUD、索引、聚合管道;爬虫场景下的最佳实践;实战项目:把豆瓣 Top 250 存到 MongoDB。一、为什么选 MongoDB1.1 什么是 MongoDBMongoDB 是一个开源的文档型数据库,特点:文档存储:数据是 BSON(Binary JSON)文档,类似于 JSON;灵活模式:同一个集合里的文档可以有不同的字段;高性能:内存映射存储引擎,写入极快;高可用:副本集(Replica Set);水平扩展

相关新闻