附加 Blob 未正确连接 pdf 页面
Posted
技术标签:
【中文标题】附加 Blob 未正确连接 pdf 页面【英文标题】:Append Blob not concatenating pdf pages correctly 【发布时间】:2021-07-03 07:50:54 【问题描述】:我正在使用 Azure 存储将一些 pdf 存储为 blob。我想使用 Node SDK for Azure Storage 中提供的 AppendBlob class
即时连接它们。我的问题是,即使合并的 pdf 大小正确,当我打开它时,它也只显示其中的最后一页,而不是我连接的所有页面。我在代码中犯了错误吗?如果您能深入了解这个问题,我将不胜感激。
我不想下载它们并将它们连接到代码中,因为在某些情况下,生成的 pdf 大小超过 2gb,节点无法处理。
let bundleUuid = uuidv4();
var connString = process.env.ST_ENV_01_APS_03_CONNECTION_STRING;
var appendBlobClient = new AppendBlobClient(connString, container, userId + "/bundles/" + bundleUuid + ".pdf");
await appendBlobClient.create();
context.log(userId + "/bundles/" + bundleUuid + ".pdf");
for (const basketDocumentUri of basketDocumentUris)
context.log("Fetching: " + basketDocumentUri.document_uuid + "/" + (basketDocumentUri.page_index + 1) + ".pdf")
let bbc = await containerClient.getBlockBlobClient(basketDocumentUri.document_uuid
+ "/" + (basketDocumentUri.page_index + 1) + ".pdf");
let details = await bbc.getProperties();
let url = self.generateSasTokenPDF(basketDocumentUri.document_uuid + "/"
+ (basketDocumentUri.page_index + 1) + ".pdf", "r");
try
let mbblk = 4194304
let offset = 0;
while(offset < details.contentLength)
let response = await appendBlobClient.appendBlockFromURL(url.uri,offset,mbblk);
context.log(response);
offset += mbblk;
context.log(offset);
catch (error)
context.log(error);
debugger;
callback(bundleUuid)
【问题讨论】:
我不确定这种方法是否可行。本质上,PDF 文件是具有预定义格式的二进制文件。在附加 blob 中,您只是将字节附加到现有 blob,这会使 PDF 文件的格式无效。 生成的 pdf 似乎是有效的,因为它可以正常打开,唯一的问题是它只保留了添加的最后一页。 如果您认为我的评论粗鲁,我很抱歉。我只想表达的是,我很惊讶您认为观看者显示的内容与预期不同。 关于手头的问题:正如@Gaurav 已经暗示的那样,多个 pdf 文件的连接不会导致包含所有页面的单个有效 pdf。相反,它作为 pdf 是无效的。但请注意,众所周知,pdf 查看器会尝试修复损坏的 pdf。因此,您的查看器试图修复您的文件,导致它只显示一页。 【参考方案1】:正如 Gaurav 在评论中所说,简单地将字节附加到现有 blob 会使 PDF 文件的格式无效。不下载文件就不可能与文件进行交互。
以下是将 blob 下载到 Buffer:
const containerClient = blobServiceClient.getContainerClient(containerName);
const blobClient = containerClient.getBlobClient(blobName);
// Get blob content from position 0 to the end
// In Node.js, get downloaded data by accessing downloadBlockBlobResponse.readableStreamBody
const downloadBlockBlobResponse = await blobClient.download();
const downloaded = (
await streamToBuffer(downloadBlockBlobResponse.readableStreamBody)
).toString();
console.log("Downloaded blob content:", downloaded);
// [Node.js only] A helper method used to read a Node.js readable stream into a Buffer
async function streamToBuffer(readableStream)
return new Promise((resolve, reject) =>
const chunks = [];
readableStream.on("data", (data) =>
chunks.push(data instanceof Buffer ? data : Buffer.from(data));
);
readableStream.on("end", () =>
resolve(Buffer.concat(chunks));
);
readableStream.on("error", reject);
);
使用 HummusJS 合并 PDF:
const hummus = require('hummus');
const memoryStreams = require('memory-streams');
/**
* Concatenate two PDFs in Buffers
* @param Buffer firstBuffer
* @param Buffer secondBuffer
* @returns Buffer - a Buffer containing the concactenated PDFs
*/
const combinePDFBuffers = (firstBuffer, secondBuffer) =>
var outStream = new memoryStreams.WritableStream();
try
var firstPDFStream = new hummus.PDFRStreamForBuffer(firstBuffer);
var secondPDFStream = new hummus.PDFRStreamForBuffer(secondBuffer);
var pdfWriter = hummus.createWriterToModify(firstPDFStream, new hummus.PDFStreamForResponse(outStream));
pdfWriter.appendPDFPagesFromPDF(secondPDFStream);
pdfWriter.end();
var newBuffer = outStream.toBuffer();
outStream.end();
return newBuffer;
catch(e)
outStream.end();
throw new Error('Error during PDF combination: ' + e.message);
;
combinePDFBuffers(PDFBuffer1, PDFBuffer2);
【讨论】:
我们已经实现了这样的解决方案,我们希望使用 AppendBlob 或其他一些技巧来解决内存限制,因为有时我们最终会处理大小超过 500 MB 的 pdf,我们无法转换缓冲并存储在变量中以进行操作以上是关于附加 Blob 未正确连接 pdf 页面的主要内容,如果未能解决你的问题,请参考以下文章