标签 PDF标准下的文章 - Masimaro's blog

登录

标签搜索

Masimaro

累计撰写 321 篇文章
累计收到 31 条评论

搜索到 5 篇与的结果

2024-09-18
PDF标准详解（五）——图形状态在第三节中，我们说到Q/q 这一对操作符是用来保存和还原图形状态的，那个时候只有一个简单的概念，变换矩阵是图形状态的一员，那么什么是图形状态，以及有哪些图形状态呢？本节将要描述这部分的内容图形状态一个PDF应用程序维护内部数据结构称为图形状态，它保存了当前图形控制参数。这些参数定义在全局框架，在全局框架内可执行图形操作符。例如：f（填充）操作符隐式调用当前颜色这个参数，S（描边）操作符调用了当前线框这个参数从图形状态。这个说法比较的官方，我个人的理解就是它保存了画笔画刷，线性等一系列跟画图相关的属性，在调用图形操作符时，直接采用图形状态中的参数来填充画笔画刷等。目前设备无关的图形状态参数主要有下面几个参数类型值CTMarray当前变换矩阵，例如： a b c d e f cmclipping path(internal)当前剪切路径，初始值：CropBoxcolor spaceName or array当前颜色空间，分为 fill color(填充色) & stroke color(描边色)，初始值：DeviceGraycolor(various)当前颜色。初始值：blacktext statevarious有9个图形状态参数组成，用于文本显示。line widthnumber线宽。初始值：1.0line capinteger线帽，线2端的样式。初始值：0 J（square butt cap）line joininteger线连接的样式。初始值：0 j (miter join)miter limitinteger尖角限量。初始值：10 M (11.5°)dash patternarray and number虚线。初始值：[] 0 dblend modename or array当前混合模式。初始值：Normalsoft maskdictionary or name指定阴影的形状或阴影不透明值用于透明图像模式。初始值：Nonealpha constantnumber透明度。初始值：1.0。 CA（for stroke） ca（fill）alpha sourcebooleanTrue：由 SMask 指定透明模式 <br/>false：由 CA 或 ca 指定透明值我们目前介绍过的图形状态主要有变换矩阵以及裁剪区域。剩下的会在后面的内容中依次介绍图形对象的状态变更在pdf 1.7 的标准中，有这么一张图这张图描述了图形状态描述对象的变更。图最中间的是页面对象层，包括图形状态、颜色、文本状态和标记对象等等。坐上角的连线表示，图形对象可以通过 m/re 等操作符进入对路径对象的描述，路径对象在描述完毕后可以使用f、s等操作符显示路径并回到页面对象层，或者可以通过W/W* 来进入对裁剪区域对象的描述。其他的连线也是同样的道理。理解了这个图，也就理解了基本的PDF图形操作逻辑，一般想要的绘制的图形未显示或者裁剪区域未发生作用，一般都是进入的状态不对。按照此思路进行查漏补缺一般可以解决问题本节的内容，不涉及到具体的操作符，仅仅是概念的介绍。后续将会陆续介绍上面提到的图形状态
- 2024年09月18日
- 44 阅读
- 2 评论
- 0 点赞
2024-09-06
PDF标准详解（四）——图形操作符上一节，我们了解了PDF中cm操作符，它是定义变换矩阵的。同时也了解到re是创建一个矩阵的。上一节也说过，它用来构建一个路径，具体什么是路径，路径有什么作用呢？这些将在本节给出解释图形操作符是用来在pdf中构建内容并输出到相关设备上进行显示的。pdf中我们能看到的内容几乎都是由图形操作构成的。PDF中主要有6中图形操作符：图形状态操作符（Graphics state operator）：CTM当前变换矩阵、 current color、 current clipping path。路径构造操作符（Path construction operators）：线的轨迹,，各种图形。绘制路径操作符（Path-painting operators）：填充，描边，或定义一个剪切区域。其他绘图操作符（自我描述图形对象）：图像(image)，shading。文本操作符（Text operator）：从字体（代表文本字符的字面/版式（TYPE-FACES）的描述）中选择，显示字符字形字符操作，例如前面显示hello，world 用到的Tj 操作符标记内容操作符（Marked-content Operator）： Layers这一次我们主要介绍前两个，后面的等后续慢慢介绍路径路径构建操作符路径对象主要由直线、矩形框(re)、3次贝塞尔曲线构成。对于直线来说，我们需要先使用m(moveto) 来将画笔移动到指定位置，然后使用l(lineto) 来表示将画笔移动到某一个点。例如有下面的例子3 0 obj % 页面内容流 << >> stream % 流的开始 400 400 m 100 100 l s endstream % 流结束 endobj这里我们定义了一个从 (400, 400) 到(100, 100) 的直线。在画直线的时候，m只能有一个，作为起点，而l可以有多个，每有一个l都表示从画笔的上一个点画一条直线到新的位置。例如我们可以模拟一个画一个矩形3 0 obj % 页面内容流 << >> stream % 流的开始 400 400 m 100 100 l s 100 100 m 300 100 l 300 300 l 100 300 l 100 100 l S endstream % 流结束 endobj矩形的例子比较简单，这里就不给出了。我们只需要指定起点坐标并且加上长宽最后用re 操作符作为结束符即可构建对于贝塞尔曲线来说，我们需要4个点来画出一条曲线，它们的位置如下图所示我们需要一个起始和结束位置的点，并且加上两个控制点共同组成一条贝塞尔曲线。贝塞尔曲线我们使用c来作为操作符，在构建的时候需要使用m来规定起始位置的坐标，然后再跟上上图p1, p2, p3 的坐标来控制曲线。例如下面的例子3 0 obj % 页面内容流 << >> stream % 流的开始 100 100 m 200 300 300 400 400 200 c S endstream % 流结束 endobj这样我们构建了一条如下图所示的曲线我们对上面出现的操作符做一个总结操作符含义m设置点的起始位置(moveto)l从当前位置构建一条直线到对应位置 (lineto)re构建矩形路径c构建贝塞尔曲线路径显示操作符上述操作符只能构建一个路径，而这个路径究竟该如何显示，用作何种用途，需要另外给出操作，如果仅仅构建路径，那么页面上是不会有任何显示的，例如上述的内容流，我们稍微做一下更改，去掉最后的S 操作符，我们可以发现之前显示的内容现在不显示了3 0 obj % 页面内容流 << >> stream % 流的开始 100 100 m 200 300 300 400 400 200 c % 只构建路径，而不对路径做任何操作，页面不会有路径的内容 endstream % 流结束 endobj想要显示路径，我们需要使用 S 操作符。上面的路径，我们在最后加上S 就能显示出图形了。另外我们可以使用h操作符来构建一个闭合的路径，它是在原来图形的基础之上，使用一条直线将起始点到终点的两个点连接起来构成要给封闭的区间。例如上面使用直线画矩形的例子，我们可以删掉最后一个l 操作符，并使用h 闭合，照样能形成矩形3 0 obj % 页面内容流 << >> stream % 流的开始 400 400 m 100 100 l s 100 100 m 300 100 l 300 300 l 100 300 l h S endstream % 流结束 endobj去掉h 我们将得到一个开口的矩形。这个读者可以自行尝试，这里就不给出结果了。对于上面的贝塞尔曲线的例子3 0 obj % 页面内容流 << >> stream % 流的开始 100 100 m 200 300 300 400 400 200 c h S endstream % 流结束 endobj加上h 之后将得到下面的结果描边与填充操作这里我们采用S对路径勾画出了边框，也就是描边路径，它对应的英文单词是stroke，我们也可以使用f 或者F(fill)来对路径构成的封闭区间进行填充。默认采用黑色进行填充。3 0 obj % 页面内容流 << >> stream % 流的开始 100 100 m 200 300 300 400 400 200 c h f endstream % 流结束 endobj当然也可以提前指定画刷颜色，这个我们在后面介绍颜色空间的时候再介绍如何定义画刷和画笔。另外也可以使用b或者B(both) 来同时进行描边和填充操作。非0缠绕规则和奇偶绕组规则上述图形，我们很明确的仅定义了一个简单的区域，当出现重叠的复杂区域时，该如何进行填充呢？这里有两套不同的填充规则，即非0缠绕规则和奇偶绕组规则。3 0 obj % 页面内容流 << >> stream % 流的开始 100 350 200 200 re %生成矩形左上角坐标 (100, 350) 宽高都是200 120 370 160 160 re f %按照非0缠绕规则 400 350 200 200 re %生成矩形左上角坐标 (400, 350) 宽高都是200 420 370 160 160 re f* %按照奇偶缠绕规则 endstream % 流结束 endobj这里显示的效果如下我们在这里定义了两组矩形，每组有两个矩形路径进行了重叠。第一组采用非0缠绕规则，第二组采用奇偶规则来填充。我们先以这两个图形为例，来说明这两个规则非0规则：初始化环绕数到 0 。从图形中的任意一点 P 向外任意引一条射线。每遇到一条与该线的交叉线，如果射线与路劲的顺时针相交则计数加一，否则计数减一假如环绕数不等于 0 ，则点 P 在多边形内。但是这个方法有局限性 , 不适合相交 , 或者选一条正切的射线 . 因为射线的方向是任意的 , 这个规则简单的选用射线并不碰到这些情况例如上面我们定义了两个矩形，这两个矩形划分出了两个区域，也就是图中A和B所在区域。我们从A区域随意一点往外引一条射线。从图上看，射线与两条路劲相交，并且都是顺时针相交，所以这里的技术是2。同理，B点与一条顺时针路径路径计数是1。这两个区域的计数都不是0，所以他们都需要进行填充，因此它显示的是上图左侧的效果奇偶规则：从区域内某一点向外引一条射线。简单计算与该射线相交线的数量。如果这个数是奇数，则认为点在图形内。根据这个规则，我们看到A点的计数是2，是偶数，Bdian的计数是1，是奇数。按照奇偶规则，B点需要填充，而A点不需要进行填充。所以它显示的是上图右侧的效果我们再看一个例子3 0 obj % 页面内容流 << >> stream % 流的开始 150 50 m 150 250 l 250 50 l 50 150 l 350 150 l h f 550 50 m 550 250 l 650 50 l 450 150 l 750 150 l h f* endstream % 流结束 endobj这里我们画了两个五角星，线条的顺序按照m给出的为起点，每一个l代表笔画移动的一个端点，根据上述给出的值我们可以得到对应路径的环绕方向，具体的分析过程这里就不展开了，有兴趣的小伙伴可以自己尝试着画图分析一下,然后使用pdf阅读软件打开看看效果与预估的是否一样定义裁剪区域我们利用一些操作符来定义一个路径，这些路径可以作为图形显示出来，也可以作为一个裁剪区域，在该区域中的内容显示出来，不在该区域的内容则丢弃。对于给出的路径，我们使用W (非0缠绕)或者 W*(奇偶规则)来定义一个裁剪区域。例如下面有一个例子3 0 obj % 页面内容流 << >> stream % 流的开始 100 100 200 200 re h W %将上述路径设置为裁剪路径 150 150 m 200 200 l S %在裁剪路径中，所以会显示 0 0 m 500 800 l S %只显示裁剪路径中的内容 endstream % 流结束 endobj这里我们定义了一个长宽都为200的矩形，并且使用h 将矩形区域封闭，然后使用W来将矩形内部作为裁剪区域，然后在(150, 150) 的位置画一条直线到 (200, 200) 的位置。这两个点都在矩形内部，所以会显示出来，另外再画一条从 (0, 0) 到 (500, 800) 的线条，因为这条线有一部分在裁剪区域外，一部分在裁剪区域内，所以只会显示一部分线条。最终图形呈现的效果如下总结本文主要介绍PDF中基本的图形操作符。一般构建图形的操作符有3中使用m 定义画笔的起始位置，然后使用 l 来画一条直线或者直接使用 re 操作符来绘制一个矩形还可以使用c 来构建贝塞尔曲线对于构建的路径，可以使用 h 来进行画笔起始位置和终点位置的连线，这个连线一般是一条直线。对于这个路径我们可以使用 S (stroke) 来对路劲进行描边显示或者使用 f(非0缠绕) f*(奇偶规则)进行内容的填充，又或者使用 b(B) 来描边和填充。我们可以使用 W (非0缠绕)或者 W*(奇偶规则) 来将路径作为一个裁剪区域
- 2024年09月06日
- 3 阅读
- 0 评论
- 0 点赞
2024-06-14
PDF标准详解（三）—— PDF坐标系统和坐标变换之前我们了解了PDF文档的基本结构，并且展示了一个简单的hello world。这个hello world 虽然只在页面中显示一个hello world 文字，但是包含的内容却是不少。这次我们仍然以它为切入点，来了解PDF的坐标系统以及坐标变换的相关知识图形学中二维图形变换中学我们学习了平面直角坐标系，x轴沿着水平方向从左往右递增，Y轴沿着竖直方向，从下往上坐标递增。而PDF的坐标系与数学中的坐标系相同。但是PDF的坐标是有单位的，PDF的坐标单位为磅，一般来说他们与英寸等的转化关系为1 磅 = 1/72 英寸因为PDF需要做到设备无关，也是就是在不同的显示像素和打印机上，显示的长度都一致，所以这里不能采用像素做单位。但是我们可以通过相关的接口来将这个单位转化为像素。例如在Windows平台可以通过下列的代码来获取一英寸有多少像素HDC hdc = GetDC(NULL); short cxInch = GetDeviceCaps(hdc, LOGPIXELSX); short cyInch = GetDeviceCaps(hdc, LOGPIXELSY); ReleaseDC(NULL, hdc);对于我的显示器来说，水平和竖直方向都是 1英寸=96像素有了这些概念之后，我们来看一个例子，下面是在页面的(200， 200) 位置画一个长宽都为100的正方形3 0 obj % 页面内容流<< >>stream % 流的开始200 200 100 100 re Sendstream % 流结束endobj之前说过，页面显示内容在页面流中，因此这里我们将内容放置到页面流对象中。前面的200 200 是矩形的起始位置。后面的100 100 分别是长和宽。re 代表我们要构建一个矩形，最后的S表示要显示这个图形。严格意义上来说，re 和S都是路径构造所使用的操作符。这里的矩形也不单单是一个图形，它是一个路径。关于他们的概念将在后面继续介绍。下面我们来介绍基本的2D图形变换平移假设一个点原始坐标是(x1, x2)，那么沿着x轴平移a，y轴平移b，那么平移之后点的坐标为 (x1 + a, x2 + b) ，转换成矩阵就是$$ \begin{bmatrix} x & y & 1\end{bmatrix} \begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ a & b & 1 \end{bmatrix} = \begin{bmatrix}x + a & y + b & 1\end{bmatrix} $$旋转利用中学的知识可以知道$$ x_1 = r * cos(\theta+\psi) \ = r*(cos\theta*cos\psi-sin\theta*sin\psi) \ = x*cos\theta-ysin\theta $$同理，我们可以得到$$ y_1 = r * sin(\theta+\psi) \ = r * (sin\theta*cos\psi+cos\theta*sin\psi)\ = x*sin\theta+y*cos\theta $$转换成矩阵就是$$ \begin{bmatrix} x & y & 1\end{bmatrix} \begin{bmatrix} cos\theta & sin\theta & 0 \\ -sin\theta & cos\theta & 0 \\ 0 & 0 & 1 \end{bmatrix} = \begin{bmatrix}x*cos\theta - y*sin\theta & x*sin\theta+y*cos\theta & 1\end{bmatrix} $$缩放缩放就是将坐标扩大或者缩小为原来的多少倍，我们可以很清楚的知道$$ x_1=x*a y_1=y*b $$这里的a和b都是缩放的系数利用矩阵表示就是$$ \begin{bmatrix} x & y & 1\end{bmatrix} \begin{bmatrix} a & 0 & 0 \\ 0 & b & 0 \\ 0 & 0 & 1\end{bmatrix} $$pdf 矩阵变换还有另外几种变换，这里就不一一列举了。现在我们知道二维图形的变换使用一个矩阵就能进行描述。所以PDF在变换图形的时候直接使用的是变换的矩阵。另外我们观察到对于二维变换来说，最后一列一直都是 0 0 1这三个数字。所以pdf中设置变换矩阵时忽略最后一列，仅仅保留前两列，采用6个数字$$ \begin{bmatrix}a & b & 0 \\ c & d & 0 \\ e & f & 1\end{bmatrix} $$这个矩阵在PDF中表现为 a b c d e f。回到我们之前hello的例子中，我们在 hello world 字符流开始的时候，给定了几个数字1. 0. 0. 1. 50. 700. cm各个数字之间采用空格隔开，这里数字后面跟的点表示它是一个浮点数。我们可以将这一列数字写成如下的矩阵$$ \begin{bmatrix}1.0 & 0.0 & 0 \\ 0.0 & 1.0 & 0 \\ 50.0 & 700.0 & 1 \end{bmatrix} $$这个矩阵我们叫做当前变换矩阵 (Current Transformation Matrix CTM),最后的cm表示使用该矩阵进行图形变换。它是current matrix 的缩写所以上述这一串数值的意思就是将 hello world 这个字符串平移到页面坐标 (50, 700) 的位置PDF 中控制图形变换的操作符现在我们利用这个上述知识来做一个小练习。我们将一个长宽都为100 的矩形在 (200, 200) 位置逆时针旋转45°绕任意点旋转，可以先将该点移动到坐标原点，然后按照坐标原点的进行旋转的公式进行计算，最后再将坐标点平移回原来的位置。这个过程产生3个变换矩阵平移矩阵$$ \begin{bmatrix}1 & 0 & 0 \\ 0 & 1 & 0 \\ -C_x & -C_y & 1\end{bmatrix} $$旋转矩阵$$ \begin{bmatrix}cos\theta & sin\theta & 0 \\ -sin\theta & cos\theta & 0 \\ 0 & 0 & 1\end{bmatrix} $$平移矩阵$$ \begin{bmatrix}1 & 0 & 0 \\ 0 & 1 & 0 \\ C_x & C_y & 1\end{bmatrix} $$我们将这三个矩阵相乘$$ \begin{bmatrix}1 & 0 & 0 \\ 0 & 1 & 0 \\ -C_x & -C_y & 1\end{bmatrix} * \begin{bmatrix}cos\theta & sin\theta & 0 \\ -sin\theta & cos\theta & 0 \\ 0 & 0 & 1\end{bmatrix} * \begin{bmatrix}1 & 0 & 0 \\ 0 & 1 & 0 \\ C_x & C_y & 1\end{bmatrix} $$最终得到这样一个矩阵$$ \begin{bmatrix}cos\theta & sin\theta & 0 \\ -sin\theta & cos\theta & 0 \\ C_x - C_xcos\theta+C_ysin\theta & C_y-C_xsin\theta-C_ycos\theta & 1\end{bmatrix} $$因此这里可以这样写3 0 obj % 页面内容流 << >> stream % 流的开始 200 200 100 100 re S %原始矩形 0.7 0.7 -0.7 0.7 200 -80 cm%进行坐标变换 200 200 100 100 re S %变换后的矩形 endstream % 流结束 endobj这样我们可以得到如下所示的图形这个时候我们会发现，同样是(200, 200) 的位置，在变换前和变换后，得到不一样的图形，这就说明我们的坐标系统被改变了。不再是水平和竖直方向的x y轴了。如果我们想要它变回原来的位置该怎么办？在GDI或者其他框架的图形编程中，在改变画笔、画刷等图形状态的时候，会首先保存原来的，然后更新，最后再还原。同样在PDF中，也存在有这样的保存和还原的操作符。我们使用q/Q这么一对操作符来完成保存和还原的操作。我在原来的基础上，再加一个矩形，在(400, 400) 位置画一个长宽都是100的矩形3 0 obj % 页面内容流 << >> stream % 流的开始 200 200 100 100 re S %原始矩形 0.7 0.7 -0.7 0.7 200 -80 cm%进行坐标变换 200 200 100 100 re S %变换后的矩形 400 400 100 100 re S % 这个矩形是相对于 (200, 200) 这个点旋转了45°的矩形 endstream % 流结束 endobj我们再采用q/Q这一对操作符来保存和还原图形状态3 0 obj % 页面内容流 << >> stream % 流的开始 200 200 100 100 re S %原始矩形 q 0.7 0.7 -0.7 0.7 200 -80 cm%进行坐标变换 200 200 100 100 re S %变换后的矩形 Q 400 400 100 100 re S endstream % 流结束 endobj这个时候我们发现它已经在(400, 400) 这个位置画了一个矩形。没有任何的图形变换PDF中将图形状态保存成一个栈结构，每次执行q就是将当前图形状态进行入栈，使用Q将之前保存在栈顶的图形状态进行出栈，并还原成当前图形状态。一般来说q/Q必须成对出现。好了，本节到这里就结束了。本节主要介绍了图形变换矩阵以及PDF中变换矩阵的操作符cm以及q/Q 这一对保存和还原图形状态的操作符
- 2024年06月14日
- 5 阅读
- 0 评论
- 0 点赞
2024-03-03
PDF标准详解（二）——PDF 对象上一篇文章我们介绍了一个PDF文档应该包含的最基本的结构，并且手写了一个最简单的 “Hello World” 的PDF文档。后面我们介绍新的PDF标准给出示例时将以这个文档为基础，而不再给出完整的文档示例，小伙伴想自己测试可以根据上一节的文档来进行配置。对象上一节我们看到一个个奇奇怪怪的元素，可能也好奇它们的写法，现在我们来正式介绍它们的相关内容，它们就是PDF文档中一个个的对象。PDF 支持5种基本对象：整数和实数：例如43和12.2 这种数字字符串，PDF种字符串被包裹在小括号中，例如上一节中的 (hello world), 我们也可以给字符串制定编码，这个在后面介绍名称：一般用于字典中的键，以/ 开头，例如上一节中的 /Page 就是一个名称的对象布尔值: 由关键字 true 和 false表示null 对象，由关键字 null 表示PDF支持3种复合对象数组: 包含其他对象的有序集合，数组中的元素可以是其他任何类型的对象，例如可以像 [0 0 0 0 1] 这样只包含数字，也可以像上一节中的 [2 0 R] 包含其他对象的一个引用字典: 字典是由无序对的集合组成，将名称映射到对象。字典中的映射被包含在 <<>> 对中，例如 <</Kids [2 0 R]>> 就是一个字典，它将Kids这个名称映射到 [2 0 R] 这个间接引用的对象上流：流中一般包含二进制的数据流以及描述属性的字典，一般page中的content都是一个个的流对象。间接引用间接引用形成从一个对象到另一个对象的链接，为了将PDF拆分成一个个单独的对象，我们通过间接引用将它们链接在一起，例如上一篇文章中提到的1 0 obj << /Kids [2 0 R] /Count 1 /Type /Pages >>对象中就包含间接引用，PDF解析器，知道这个对象是一个Pages对象之后，可以通过Kids 对象指定的间接引用对象知道，当前PDF文档只有一页，这个页面对象就是2 0 这个对象。这里的R 代表 reference 也就是引用，它是一个关键字，前面的 2 0 代表的是对象编号是2，世代号是0（这里我们不考虑世代号，默认的世代号都是0）流和过滤器流用于存储二进制数据，它们由字典和一大块二进制数据组成，字典根据流所放置的特定用途，列出数据的长度，以及可选的其他参数。从语法上将，流由字典组成，后跟 stream 关键字，换行符，0个或者多个字节的数据，另一个换行符，最后是一个endstream 关键字。根据上一篇文章中给出的页面流对象的定义来看4 0 obj << /Length 202 % 流的长度 >> stream %关键字 1. 0. 0. 1. 50. 700. cm % 202 字节的数据，这里是图形流，下面是图形流的数据 BT /F0 36. Tf (Hello, World!) Tj ET endstream % 流对象结束的关键字 endobj
- 2024年03月03日
- 23 阅读
- 0 评论
- 0 点赞
2024-01-18
PDF标准详解（一）——PDF文档结构已经很久没有写博客记录自己学到的一些东西了。但是在过去一年的时间中自己确实又学到了一些东西。一直攒着没有系统化成一篇篇的文章，所以今年的博客打算也是以去年学到的一系列内容为主。通过之前Vim系列教程的启发，我发现还是写一些系列文章对自己的帮助最大。它能最大化自己的学习成果，并强迫自己深入了解一些内容。所以今年我想还是以系列文章为主，如果中间有需要穿插一些bug处理或者语言特性相关的，可能也会有这方面的内容吧。好了，废话就到这里，下面开始正式介绍PDF相关的内容PDF简介PDF的全称是 Portable document format(可移植文档格式)，是描述打印页面的世界领先语言。最早于1990年代由Adobe Systems创造。早期是Adobe专有格式，直到2008年作为开放标准发布。后续经过一系列的发展，目前已经发展到了2.0版本，由于PDF完全向后兼容，并且大部分都是向前兼容的，因此，这里不打算固定在某个具体的版本，而是介绍一些PDF通用的标准和规则。PDF的文档结构PDF主要由四个部分构成，文件头、文件体、交叉引用表以及文件尾文件头将文件标识为PDF并给出它的版本号，例如%PDF-1.0 % PDF 版本号为 1.0 的文件头文件体是PDF文档的主体内容，主要由对象组成，它规定了页面信息和页面内容元素等信息交叉引用表给出了每个对象距离文件首部的地址偏移，这样在解析PDF的时候就不用从头到尾解析每个对象，而是根据需要通过交叉引用表来寻址到具体的对象地址，只单独解析某个对象，提高了解析效率文件尾给出交叉引用表的位置并且以%%EOF作为结尾PDF文件的逻辑结构一个标准的PDF文档需要在文件体中包含下列元素对象：根节点元素，类似于xml的根节点，它是整个文档的根节点对象Pages对象，它包含了PDF文档的页面信息，一般通过它来定义整个PDF文档有多少页Page 页面对象，它用来描述每个具体的页Page Content 对象，它来描述每个具体页中都有哪些对象，一般是一个字节流用来表示将在页面中显示哪些内容Page Resource 对象，它是内容的资源字典，供Content对象引用，资源包括字体、画刷、画笔等等trailer 字典，可以将它看作pdf文档对象的入口，通过它我们可以知道当前PDF文档的一些具体信息，例如根节点的位置，交叉引用表的大小它们之间的关系如下图：PDF版的Hello World说了这么多，我们来试试来自己编辑一个hello world文档，首先建立一个文本文件，将后缀改为.PDF 。我们先写上文件头：%PDF-1.0 % PDF 版本号为 1.0 的文件头主要对象我们按照之前的分析的PDF文档中需要包含的对象，来逐一定义首先给出Pages节点的定义1 0 obj % 对象1 << /Type /Pages % 这是一个页面列表 /Count 1 % 只有一页 /Kids [2 0 R] % 页面对象编号列表。这里只是对象2 >> endobj % 对象1结束对象的内容我们在后续会专门介绍，所以这里不需要额外关注它的语法，这里只需要知道1 0 obj定义了一个对象1，后续通过1 这个编号可以找到这个对象。这个对象中定义了他的类型是 Pages表示它是一个pages对象，/Count表示整个PDF文档只有一页，Kids是一个数组，表示每一页的页面对象，这里它只有一个页面对象，就是对象2接着我们定义页面对象2 0 obj << /Type /Page % 这是一个页面 /MediaBox [0 0 612 792] % 纸张尺寸为美国信肖像（612点x792点） /Resources 3 0 R % 对象3的资源引用 /Contents [4 0 R] % 图形内容在对象4中 >> endobj页面对象中我们定义了页面纸张的大小，单位是磅。因为PDF是可移植文档，它需要在不同设备上显示同样的内容，这里不能使用像素，如果使用像素，在同样尺寸的显示器上如果显示器的像素分辨率不同，那么显示的结果将会不同。所以这里一般使用磅作为单位。同时在页面对象中定义了页面中将要使用的资源以及将要显示的内容接着我们来定义资源对象3 0 obj << /Font % 字体字典 << /F0 % 只有一种字体，称为/F0 << /Type /Font % 这三行引用了内置字体Times Italic /BaseFont /Times-Italic /Subtype /Type1 >> >> >> endobj资源对象中，我们定义了一个字体资源，字体为 Times Italic，并且定义了这种字体资源的名称为 F0, 后面可以通过F0 这个名称来直接引用这个字体然后我们来定义页面内容对象4 0 obj % 页面内容流 << >> stream % 流的开始 1. 0. 0. 1. 50. 700. cm % 位置在（50,700） BT % 开始文本块 /F0 36. Tf % 在36pt选择/F0字体 (Hello, World!) Tj % 放置文本字符串 ET % 结束文本块 endstream % 流结束 endobj通过stream来定义一个流对象，在这个流对象中，我们定义它在页面的 (50, 700) 坐标位置显示字符，显示字符内容通过后面的 (Hello, World!) Tj来定义，并且定义了字符采用F0 字体，也就是上面定义的Times-Italic字体页面相关的内容我们已经定义完了，接着我们需要定义一些结构相关的对象，方便PDF解析器找到并解析页面内容。我们来定义根节点5 0 obj << /Type /Catalog %文件目录 /Pages 1 0 R %参考页面列表 >> endobj根节点包含了一个Pages定义，通过根节点就可以找到Pages节点接着我们来定义交叉引用表xref %这里我们跳过了交叉引用表的开始 0 6交叉引用表包含一些偏移地址信息，我们单纯的通过文本文档很难计算各个对象的偏移，所以这里我们只给出文档中对象数量为6，具体的地址我们先不给出，这样PDF解析器也能解析出各个对象之前我们给出了5个对象的定义，但是交叉引用表的条目却是6，这是因为交叉引用表的第一条一般是一个没有什么用处的，有效的对象从第二条定义开始。下面给出 Trailer 字典的定义trailer << /Size 6 %交叉引用表的行数 /Root 5 0 R % 参考文档目录 >>Trailer 字典以 trailer关键字开始。条目下面包括了交叉引用表的行数以及根节点的对象最后我们给出交叉引用表在PDF文档中的偏移，由于交叉引用表的内容为空，所以这里我们直接给0startxref 0 %xref表开始的字节偏移量，这里设置成0最后我们以%%EOF结尾来表示整个PDF文档结束到这里我们已经得到了一个PDF阅读器可以打开的PDF文档。我们使用PDF阅读器可以得到如下的页面PDF文档一般的读取过程不知道各位小伙伴们是否能看懂上面 Hello World 文档的定义。下面我们通过一个完整的 PDF文档来将上面所有定义的对象串起来，希望各位能对PDF文档有一个完整的认识。我们不用纠结各个部分的写法，以及为什么要这么写，只需要明白各个对象的功能即可。具体对象定义相关的语法和每个对象的详细解释将会在后面一系列文章中给出，相信那个时候再来看这个 Hello Word 文档一定会有一个更清晰的认识。再说明文档读取的过程前，我们先使用一些工具来补全这个文档，这里使用 pdftk 工具。可以在这里进行下载，完成之后，使用如下命令进行补全pdftk hello.pdf output hello-full.pdf成功后会得到如下内容%PDF-1.0 %忏嫌 1 0 obj << /Kids [2 0 R] /Count 1 /Type /Pages >> endobj 2 0 obj << /Resources 3 0 R /MediaBox [0 0 612 792] /Contents [4 0 R] /Type /Page >> endobj 3 0 obj << /Font << /F0 << /BaseFont /Times-Italic /Subtype /Type1 /Type /Font >> >> >> endobj 4 0 obj << /Length 202 >> stream % 娴佺殑寮€濮? 1. 0. 0. 1. 50. 700. cm % 浣嶇疆鍦紙50,700锛? BT % 寮€濮嬫枃鏈潡 /F0 36. Tf % 鍦?6pt閫夋嫨/F0瀛椾綋 (Hello, World!) Tj % 鏀剧疆鏂囨湰瀛楃涓? ET % 缁撴潫鏂囨湰鍧? endstream endobj 5 0 obj << /Pages 1 0 R /Type /Catalog >> endobj xref 0 6 0000000000 65535 f 0000000015 00000 n 0000000074 00000 n 0000000168 00000 n 0000000267 00000 n 0000000523 00000 n trailer << /Root 5 0 R /Size 6 >> startxref 573 %%EOF 这个我将整个PDF文档都粘贴了出来，从这里我们可以看到，它已经为我们补全了交叉引用表。下面通过整个文档来说明一般读取过程PDF解析程序，先通过文件头来确定是否是PDF文件，并且得到PDF文件的版本在文件末尾找到%%EOF 关键子，确定文件尾。接着向上查找到 startxref 关键字，该关键字后面将会给出交叉引用表的偏移，通过这个偏移地址可以找到交叉引用表接着查找trailer关键字，通过trailer关键字可以得到文档的一些信息，这里关键的是得到 Root 节点的对象。根据交叉引用表可以很块定位到Root 节点对象，也就是对象5根据Root 对象中的 Pages属性可以找到Pages对象，也就是PDF页面信息对象根据Pages对象中的Kids 数组，可以找到PDF包含的所有页面对象，这个文档只有一个页面对象找到Page 对象后可以根据 Resources 和Contents属性可以找到页面内容和页面引用的资源。例如该文档就可以使用Times-Italic字体显示 hello world字符串
- 2024年01月18日
- 7 阅读
- 0 评论
- 0 点赞