- Python 3网络爬虫实战
- 胡松涛
- 3501字
- 2021-03-26 22:27:49
3.3 非关系型数据库存储
严格来说,非关系型数据库不是一种数据库,应该是一种数据结构化存储方法的集合,可以是文档或者“键-值对”(Key-Value Pair)等。
相比关系型数据库(比如SQLite),非关系型数据库具有以下优点:
- 格式灵活:存储数据的格式可以是“键-值”(Key-Value)形式、文档形式、图片形式等,使用灵活,应用场景广泛,而关系型数据库则只支持基础类型。
- 速度快:NoSQL可以使用硬盘或者随机存储器作为载体,而关系型数据库只能使用硬盘。
- 高扩展性。
- 成本低:NoSQL数据库部署简单,基本都是开源软件。
同时非关系型数据库与关系型数据库相比有以下缺点:
- 不提供SQL支持,学习和使用成本较高。
- 无事务处理。
- 数据结构相对复杂,复杂查询方面稍微欠缺。
这一节来重点介绍在Python中如何对非关系型数据库MongoDB进行操作。
3.3.1 安装数据库
MongoDB是一个基于分布式文件存储的数据库,由C++语言编写,旨在为Web应用提供可扩展的高性能数据存储解决方案。MongoDB是介于关系数据库和非关系数据库之间的产品,是非关系数据库中功能最丰富、最像关系数据库的。MongoDB是目前流行的NoSQL数据库之一,使用的数据类型为BSON(类似于JSON)。本小节先来介绍如何安装MongoDB数据库。
步骤01 MongoDB提供了可用于32位和64位系统的预编译二进制包,用户可以从MongoDB官网下载安装,MongoDB预编译二进制包下载地址为:
http://dl.mongodb.org/dl/win32/x86_64
注意
在MongoDB 2.2版本后已经不再支持Windows XP系统,最新版本也已经没有了32位系统的安装文件。
步骤02 根据用户所使用的系统下载对应的32位或64位的 .msi文件,下载后双击该文件,按操作提示安装即可。
步骤03 安装过程中,可以通过单击“Custom”按钮来设置安装目录,如图3-19所示。
图3-19 选择安装类型
步骤04 下一步不勾选“install mongoDB compass”选项,否则可能很长时间都在执行安装。MongoDB Compass是一个图形界面管理工具,我们可以自己到官网下载安装,下载地址:https://www.mongodb.com/download-center/compass。
MongoDB将数据目录放在db目录下。但是这个数据目录不会主动创建,我们在安装完成后需要创建它。注意,数据目录应该放在根目录下(如C:\或者D:\等)。
本例我们已经在D盘安装了MongoDB,现在创建一个data的目录,然后在data目录中创建db目录。
步骤05 安装成功之后,下面尝试运行服务器。
为了在“命令提示符”窗口中运行MongoDB服务器,必须在MongoDB目录的bin目录中执行mongod.exe文件。
D:\MongoDB\Server\3.4\bin\mongod --dbpath D:\data\db
如果执行成功,就会输出如图3-20所示的信息。
图3-20 运行服务器
步骤06 在“命令提示符”窗口中运行mongo.exe命令即可连接上MongoDB,命令如下:
D:\MongoDB\Server\3.4\bin\mongo.exe
执行命令之后将打开mongo命令窗口,如图3-21所示。
图3-21 mongo命令窗口
mongo命令窗口是一个JavaScript Shell,用户可以运行一些简单的数学运算,如图3-22所示。
图3-22 在mongo命令窗口中执行数学运算
在该窗口中,使用db命令可以查看当前操作的文档(数据库),如图3-23所示。
图3-23 使用db命令查看当前操作的文档
步骤07 要想在Python中使用MongoDB,还需要安装Python的pymongo模块。由于该模块并不是Python自带的,因此需要单独安装。使用pip安装工具即可安装该模块。
pip install pymongo
安装成功,如图3-24所示。
图3-24 成功安装pymongo模块
之后可以测试是否成功安装,在Python代码中导入pymongo模块,代码如下:
import pymongo
如果没有错误提示,就说明成功安装。
3.3.2 MongoDB概念解析
3.3.1小节成功安装了MongoDB数据库,这一小节来了解关于MongoDB的一些基本概念。
常见的SQL中的概念与MongoDB中对应的概念及其含义如表3-3所示。
表3-3 SQL与MongoDB概念对比
查看表3-3可以发现,MongoDB中一些概念与常规SQL存在不同之处,比如常规的表,MongoDB中叫作集合,常规的记录,MongoDB中叫作文档。关于这些内容将在后续学习中详细为大家介绍。
3.3.3 创建数据库
创建数据库需要使用MongoClient对象,并且指定连接的URL地址和要创建的数据库名。
下面通过示例来说明如何在数据库中创建表。
【示例3-19】创建数据库
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["runoobdb"]
以上代码首先导入pymongo模块,然后连接到本地mongodb服务,最后尝试创建数据库。
注意
在MongoDB中,数据库只有在插入内容后才会创建。也就是说,数据库创建后,要创建集合(数据表)并插入一个文档(记录),数据库才会真正创建。
下面的示例将演示如何读取MongoDB中的所有数据库,并判断指定的数据库是否存在。
【示例3-20】获取所有数据库
import pymongo myclient = pymongo.MongoClient('mongodb://localhost:27017/') dblist = myclient.list_database_names() print(dblist) if "runoobdb" in dblist: print("指定数据库已存在!") else: print("指定数据库不存在!")
以上代码调用list_database_names()方法获取当前所有的数据库,并输出获取结果,然后判断指定的数据库是否存在,并根据结果输出不同的内容。执行代码,其结果如图3-25所示。
图3-25 获取所有数据库
3.3.4 创建集合
MongoDB中的集合类似于SQL中的表。在MongoDB中要创建一个集合,可以使用数据库对象来创建。
【示例3-21】创建集合
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["runoobdb"] mycol = mydb["sites"]
以上代码通过数据库对象来创建集合,执行代码会执行创建集合操作。
注意
在MongoDB中,集合只有在插入内容后才会创建。也就是说,创建集合(数据表)后要再插入一个文档(记录),集合才会真正创建。
3.3.5 插入文档
MongoDB中的一个文档类似于SQL的表中的一条记录。要在集合中插入文档,可以调用insert_one()方法,该方法的参数是字典(name => value,键-值对)。
以下示例向sites集合中插入文档。
【示例3-22】插入文档
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["runoobdb"] mycol = mydb["sites"] mydict = { "name": "RUNOOB", "alexa": "10000", "url": "https://www.runoob.com" } x = mycol.insert_one(mydict) print(x)
以上代码通过insert_one()方法将指定的字典数据添加到集合中,并将结果输出。执行以上代码的结果如图3-26所示。
图3-26 插入文档
之所以出现如图3-26所示的结果,是因为insert_one() 方法返回InsertOneResult对象,该对象包含inserted_id属性,它是插入文档的ID值。
【示例3-23】返回插入文档的ID值
import pymongo myclient = pymongo.MongoClient('mongodb://localhost:27017/') mydb = myclient['runoobdb'] mycol = mydb["sites"] mydict = { "name": "Google", "alexa": "1", "url": "https://www.google.com" } x = mycol.insert_one(mydict) print(x.inserted_id)
以上代码通过InsertOneResult对象的inserted_id属性获取插入记录的ID值。执行代码,输出结果如图3-27所示。
图3-27 返回插入文档的ID值
如果我们在插入文档时没有指定 _id, MongoDB就会为每个文档添加唯一的ID。
除了一次插入一个文档之外,集合中还支持一次插入多个文档,调用insert_many()方法即可。该方法的第一个参数是字典列表。insert_many()方法返回InsertManyResult对象,该对象包含inserted_ids属性,该属性保存着所有插入文档的ID值。
【示例3-24】插入多个文档
以上代码定义了一个字典列表,其中包含所有需要一次性插入的文档内容,然后调用insert_many()方法将所有文档内容插入集合中。执行以上代码,其结果如图3-28所示。
图3-28 插入多个文档
3.3.6 查询集合数据
MongoDB支持从所有集合数据中进行查找,调用find和find_one方法即可查询集合中的数据,类似于SQL中的SELECT语句。
如果要查询集合中的一条数据,那么可以调用find_one()方法来查询。
【示例3-25】查询一条数据
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["runoobdb"] mycol = mydb["sites"] x = mycol.find_one() print(x)
以上代码调用find_one()方法查询一条数据,并将结果进行输出。执行以上代码,其结果如图3-29所示。
图3-29 查询一条数据
除了可以调用find_one()方法查询一条数据外,还可以调用find()方法查询集合中的所有数据,类似于SQL中的SELECT *操作。
【示例3-26】查询所有数据
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["runoobdb"] mycol = mydb["sites"] for x in mycol.find(): print(x)
以上代码调用集合的find ()方法查询所有数据,并通过遍历输出所有结果。执行以上代码,其结果如图3-30所示。
图3-30 查询所有数据
为了获取指定的结果,可以在find()中设置参数来过滤数据,类似于SQL中的SELECT语句的WHERE子句。
【示例3-27】有条件地查询数据
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["runoobdb"] mycol = mydb["sites"] myquery = { "name": "Google" } mydoc = mycol.find(myquery) for x in mydoc: print(x)
以上代码调用find ()方法查询数据时定义了字典,用于限定条件,即只返回所有name为Google的文档。执行以上代码,其结果如图3-31所示。
图3-31 限定条件的查询
3.3.7 修改记录
用户可以在MongoDB中调用update_one()方法修改文档中的记录。该方法第一个参数为查询的条件,第二个参数为要修改的字段。如果查找到的匹配数据多于一条,就只修改第一条。
下面的示例将alexa字段的值10000改为12345。
【示例3-28】修改记录
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["runoobdb"] mycol = mydb["sites"] myquery = { "alexa": "10000" } newvalues = { "$set": { "alexa": "12345" } } mycol.update_one(myquery, newvalues) print("输出修改后的sites 集合") for x in mycol.find(): print(x)
以上代码调用update_one()方法修改一条记录,参数分别为限制条件的字典与修改为新值的字典。执行以上代码,其结果如图3-32所示。
图3-32 修改记录
从图3-32的执行结果可以看到,相应记录的值已经被修改为新的指定内容。
3.3.8 数据排序
在Python中,使用MongoDB还可以通过查询结果对象的sort()方法对集合数据进行排序。sort() 方法可以指定升序或降序排序。
sort() 方法的第一个参数为要排序的字段,第二个参数指定排序规则:1为升序,-1为降序,默认为升序。
下面的示例将演示对字段alexa按升序排序。
【示例3-29】对集合中的数据进行排序
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["runoobdb"] mycol = mydb["sites"] mydoc = mycol.find().sort("alexa") for x in mydoc: print(x)
以上代码对查询的结果调用sort()方法进行排序,其中指定要排序的字段为alexa,并按升序排序。然后通过遍历输出排序后的结果。执行该代码,其结果如图3-33所示。
图3-33 数据排序
查看图3-33的执行结果,对比前面的查询结果可以发现,对alexa按照从小到大的顺序进行了排序,从1、10、100、103、109到12345,从而实现了排序操作。
3.3.9 删除文档
如果数据库集合中的文档不再需要,就可以调用delete_one()方法来删除,该方法的第一个参数为查询对象,指定要删除哪些数据。
【示例3-30】删除文档
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["runoobdb"] mycol = mydb["sites"] myquery = { "name": "Taobao" } mycol.delete_one(myquery) # 删除后输出 for x in mycol.find(): print(x)
以上代码执行集合的delete_one()方法实现删除文档的操作,其中为文档提供的参数为“键-值对”组合,即需要删除的文档的条件是name为Taobao的内容。执行以上代码将会删除指定文档,结果如图3-34所示。
图3-34 删除文档
查看图3-34的执行结果,对比前面的结果,可以发现name为Taobao的文档数据内容被成功删除。