python - PyMongo 插入具有约 100M 条记录的极其缓慢的数据库

Question

我在 MongoDB 中遇到非常慢的插入（大约 200 秒/插入），我完全不知道为什么。

我有一个匿名用户名（整数）、匿名评论 ID（整数）和评论的 CSV 文件。所有这些都作为字符串读入，但前两个字段可以转换为整数而没有任何问题。

该数据库包含 100M 记录的集合，现在正在尝试使用他们的评论 ID 构建一个映射用户，并将其写入另一个集合。大约有 60K 用户分发了 1 亿条评论。即为每个用户构建 user_id = [comment_id0,...,comment_idN] 并将其插入数据库，以便更快地获取所有用户的评论。

def save_user_comments(dataset):
    usrs = defaultdict(list)
    updatebar = tqdm(total = 100000000, desc = 'Generating user-comment map', leave = False)
    pool = mp.Pool()

    for i, (user_id, comment_id, _) in enumerate(dataset):
        usrs[str(user_id)].append(comment_id)
        updatebar.update(1)

    prev = 0
    keys, vals = list(usrs.keys()), list(usrs.values())
    results = pool.map_async(write_user, zip(keys, vals)).get()

progbar = tqdm(total = 67377, desc = 'Users Inserted', leave = False )
def write_user(itempair):
    usr, comments = itempair

    db = MongoClient(host = some_ip, port = some_port).GenderSpectrum
    table = db.user

    if db.user.find_one({'user_id': str(usr)}):
        progbar.update(1)
        return

    u_obj = {}
    obj = db.data.find_one({'user_id': str(usr)})

    u_obj['comment_ids'] = comments
    u_obj['_id'] = str(usr)
    u_obj['is_female'] = obj['is_female']
    u_obj['user_id'] = str(usr)
    db.user.insert_one(u_obj)
    progbar.update(1)
    return 1

我在这段代码中看到的唯一会减慢它的是为每个插入创建一个新连接。但是，尝试使用一个连接（同时使用单文档和多文档插入）插入 500 个文档的批次甚至更慢。顺序运行此代码也是如此。

有人有更好的建议吗？

MongoDB版本：v3.4.9

PyMongo 版本：3.5.1

Python版本：3.5.3

操作系统：Ubuntu 17.4

score 2 · Accepted Answer

插入本身可能非常快，循环的其他部分似乎很慢。如果“user_id”没有被索引，那么这可能是缓慢的部分：

db.data.find_one({'user_id': str(usr)})

在“数据”集合中的 user_id 上创建索引。只需执行一次：

db.data.create_index([('user_id', 1)])

这可能需要几分钟，之后“find_one”会快得多。

您还为每个插入创建一个新的 MongoClient，这也会降低您的代码速度。在程序运行期间创建一次 MongoClient：将其声明为全局变量，而不是“write_user”函数中的局部变量。

python - PyMongo 插入具有约 100M 条记录的极其缓慢的数据库

1 回答 1

Related

Reference