在python中拆分PDF文件-ValueError：int（）的无效文字，基数为10：“ \\”

| 我正在尝试将一个巨大的pdf文件拆分为几个小pdf usinf pyPdf。我正在尝试使用这个过分简化的代码：

from pyPdf import PdfFileWriter, PdfFileReader 
inputpdf = PdfFileReader(file(\"document.pdf\", \"rb\"))

for i in xrange(inputpdf.numPages):
  output = PdfFileWriter()
  output.addPage(inputpdf.getPage(i))
  outputStream = file(\"document-page%s.pdf\" % i, \"wb\")
  output.write(outputStream)
  outputStream.close()

但我收到以下错误消息：

Traceback (most recent call last):
File \"./hltShortSummary.py\", line 24, in <module>
  for i in xrange(inputpdf.numPages):
File \"/usr/lib/pymodules/python2.7/pyPdf/pdf.py\", line 342, in <lambda>
  numPages = property(lambda self: self.getNumPages(), None, None)
File \"/usr/lib/pymodules/python2.7/pyPdf/pdf.py\", line 334, in getNumPages
  self._flatten()
File \"/usr/lib/pymodules/python2.7/pyPdf/pdf.py\", line 500, in _flatten
  pages = catalog[\"/Pages\"].getObject()
File \"/usr/lib/pymodules/python2.7/pyPdf/generic.py\", line 466, in __getitem__
  return dict.__getitem__(self, key).getObject()
File \"/usr/lib/pymodules/python2.7/pyPdf/generic.py\", line 165, in getObject
  return self.pdf.getObject(self).getObject()
File \"/usr/lib/pymodules/python2.7/pyPdf/pdf.py\", line 549, in getObject
  retval = readObject(self.stream, self)
File \"/usr/lib/pymodules/python2.7/pyPdf/generic.py\", line 67, in readObject
  return DictionaryObject.readFromStream(stream, pdf)
File \"/usr/lib/pymodules/python2.7/pyPdf/generic.py\", line 517, in readFromStream
  value = readObject(stream, pdf)
File \"/usr/lib/pymodules/python2.7/pyPdf/generic.py\", line 58, in readObject
  return ArrayObject.readFromStream(stream, pdf)
File \"/usr/lib/pymodules/python2.7/pyPdf/generic.py\", line 153, in readFromStream
  arr.append(readObject(stream, pdf))
File \"/usr/lib/pymodules/python2.7/pyPdf/generic.py\", line 87, in readObject
  return NumberObject.readFromStream(stream)
File \"/usr/lib/pymodules/python2.7/pyPdf/generic.py\", line 232, in readFromStream
  return NumberObject(name)
ValueError: invalid literal for int() with base 10: \'\'

有任何想法吗？？？

已邀请:

2 个回复

净爽

这样尝试

for i in xrange(inputpdf.getNumPages()):

届甸衬丝蚕

我认为这是pypdf中的错误。在此处查看源。 NumberObject.readFromStream需要一个类似整数的字符串，但不会得到一个。可能是所讨论的pdf以某种意外的方式格式错误。

要回复问题请先登录或注册

在python中拆分PDF文件-ValueError：int（）的无效文字，基数为10：“ \\”

2 个回复

发起人

pdf

pypdf

python

问题状态

在python中拆分PDF文件-ValueError：int（）的无效文字，基数为10：“ \\”

与内容相关的链接

2 个回复

发起人

pdf

pypdf

python

问题状态