全国服务热线:400-6136-679

位置:昆明中公优就业IT培训学院 > 学校动态 > 用Python来读取PDF文件

用Python来读取PDF文件

来源:昆明中公优就业IT培训学院时间:2021/9/10 8:48:42

PDF是PortableDocumentFormat的缩写,这类文件通常使用.pdf作为其扩展名。在日常开发工作中,较容易遇到的就是从PDF中读取文本内容以及用已有的内容生成PDF文档这两个任务。
    从PDF中提取文本,在Python中,可以使用名为PyPDF2的三方库来读取PDF文件,可以使用下面的命令来安装它。
    要从PDF文件中提取文本也可以直接使用三方的命令行工具,具体的做法如下所示。


用Python来读取PDF文件


    旋转和叠加页面
    上面的代码中通过创建PdfFileReader对象的方式来读取PDF文档,该对象的getPage方法可以获得PDF文档的指定页并得到一个PageObject对象,通过PageObject对象的rotateClockwise和rotateCounterClockwise方法可以实现页面的顺时针和逆时针方向旋转,通过PageObject对addBlankPage方法可以添加一个新的空白页。
    加密PDF文件
    使用PyPDF2中的PdfFileWrite对象可以为PDF文档加密,如果需要给一系列的PDF文档设置统一的访问口令,使用Python程序来处理就会非常的方便。
    批量添加水印
    上面提到的PageObject对象还有一个名为mergePage的方法,可以两个PDF页面进行叠加,通过这个操作,我们很容易实现给PDF文件添加水印的功能。例如要给上面的“XGBoost.pdf”文件添加一个水印,我们可以先准备好一个提供水印页面的PDF文件,然后将包含水印的PageObject读取出来,然后再循环遍历“XGBoost.pdf”文件的每个页,获取到PageObject对象,然后通过mergePage方法实现水印页和原始页的合并。

领取试听课
每天限量名额,先到先得

尊重原创文章,转载请注明出处与链接:http://www.peixun360.com/1988/news/407957/违者必究! 以上就是昆明中公优就业IT培训学院 小编为您整理 用Python来读取PDF文件的全部内容。

温馨提示:提交留言后老师会第一时间与您联系!热线电话:400-6136-679