使用cPickle序列化大型字典会导致MemoryError

我正在为一组文档上的搜索引擎编写倒排索引。现在，我将索引存储为字典词典。也就是说，每个关键字都映射到docIDs->发生位置的字典。数据模型看起来像： {word：{doc_name：[location_list]}} 在内存中构建索引工作正常，但是当我尝试序列化到磁盘时，我遇到了一个MemoryError。这是我的代码：

# Write the index out to disk
serializedIndex = open(sys.argv[3], 'wb')
cPickle.dump(index, serializedIndex, cPickle.HIGHEST_PROTOCOL)

在序列化之前，我的程序使用大约50％的内存（1.6 Gb）。一旦我打电话给cPickle，我的内存使用率在崩溃之前就会猛增至80％。为什么cPickle使用如此多的内存进行序列化？有没有更好的方法来解决这个问题？

已邀请:

3 个回复

琶竞捆栓

cPickle需要使用一堆额外的内存，因为它会进行循环检测。如果您确定数据没有循环，则可以尝试使用编组模块

锹缄

你可以试试另一个泡菜库。您也可以更改一些cPickle设置。其他选项：将您的字典分成更小的部分，然后cPickle每个部分。然后在装入所有东西时将它们放回原处。对不起，这很模糊，我只是写下了我的头脑。我认为它可能仍然有用，因为没有其他人回答。

提孺局缎

您可能正在使用错误的工具来完成这项工作。如果你想保留大量的索引数据，我强烈建议使用SQLite磁盘数据库（当然，只是一个普通的数据库）和一个像SQLObject或SQL Alchemy这样的ORM。这些将处理平凡的事情，如兼容性，优化格式的目的，而不是同时将所有数据保存在内存中，以便你耗尽内存...... 补充：因为无论如何我正在做一个几乎相同的事情，但主要是因为我是一个很好的人，这里有一个似乎做你需要的演示（它会在你当前的目录中创建一个SQLite文件，然后删除它如果已经存在具有该名称的文件，那么首先将它放在空的地方）：

import sqlobject
from sqlobject import SQLObject, UnicodeCol, ForeignKey, IntCol, SQLMultipleJoin
import os

DB_NAME = "mydb"
ENCODING = "utf8"

class Document(SQLObject):
    dbName = UnicodeCol(dbEncoding=ENCODING)

class Location(SQLObject):
    """ Location of each individual occurrence of a word within a document.
    """
    dbWord = UnicodeCol(dbEncoding=ENCODING)
    dbDocument = ForeignKey('Document')
    dbLocation = IntCol()

TEST_DATA = {
    'one' : {
        'doc1' : [1,2,10],
        'doc3' : [6],
    },

    'two' : {
        'doc1' : [2, 13],
        'doc2' : [5,6,7],
    },

    'three' : {
        'doc3' : [1],
    },
}        

if __name__ == "__main__":
    db_filename = os.path.abspath(DB_NAME)
    if os.path.exists(db_filename):
        os.unlink(db_filename)
    connection = sqlobject.connectionForURI("sqlite:%s" % (db_filename))
    sqlobject.sqlhub.processConnection = connection

    # Create the tables
    Document.createTable()
    Location.createTable()

    # Import the dict data:
    for word, locs in TEST_DATA.items():
        for doc, indices in locs.items():
            sql_doc = Document(dbName=doc)
            for index in indices:
                Location(dbWord=word, dbDocument=sql_doc, dbLocation=index)

    # Let's check out the data... where can we find 'two'?
    locs_for_two = Location.selectBy(dbWord = 'two')

    # Or...
    # locs_for_two = Location.select(Location.q.dbWord == 'two')

    print "Word 'two' found at..."
    for loc in locs_for_two:
        print "Found: %s, p%s" % (loc.dbDocument.dbName, loc.dbLocation)

    # What documents have 'one' in them?
    docs_with_one = Location.selectBy(dbWord = 'one').throughTo.dbDocument

    print
    print "Word 'one' found in documents..."
    for doc in docs_with_one:
        print "Found: %s" % doc.dbName

这肯定不是实现这一目标的唯一方式（或必然是最佳方式）。 Document或Word表是否应与Location表分开，这取决于您的数据和典型用法。在您的情况下，“Word”表可能是一个单独的表，其中包含一些用于索引和唯一性的添加设置。

要回复问题请先登录或注册

使用cPickle序列化大型字典会导致MemoryError

3 个回复

发起人

inverted_index

问题状态

使用cPickle序列化大型字典会导致MemoryError

与内容相关的链接

3 个回复

发起人

inverted_index

问题状态