富文本编辑器保存的html内容使用itextpdf转PDF文件（css提取，内容重叠）问题解决|电子爱好者

admin管理员组
文章数量:1592311

html格式处理

使用itextpdf的XMLWorkerHelper组件转换过程中，html格式要求比较多，下面做下格式的简单处理以保证转换成功。

        //div格式转换过程中，有几率会使内容消失
        
        content = content.replaceAll("<div", "<span");
        
        content = content.replaceAll("/div>", "/span><br/>");
        

        //关闭未封闭式标签br
        content = content.replaceAll("<br[^>]*>", "<br/>");

        //处理样式background-color: transparent; IE模式下存在兼容问题，火狐谷歌正常
        content = content.replaceAll("background-color: transparent;", " ");



        //使用word拷贝到富文本生成的html内容，存在各做word标签，当然转换过程中大部分都支持，如果遇到个别的可以做下处理
//        content = content.replaceAll("<strong>", "");
//        content = content.replaceAll("</strong>", "");
//        content = content.replaceAll("<!--.*?-->", "");
//        content = content.replaceAll("<[/]?(font|FONT|xml|XML|del|DEL|ins|INS|meta|META|[ovwxpOVWXP]:\\w+)[^>]*?>", "");
//        content = content.replaceAll("<([^>]*)(?:lang|LANG|size|SIZE|face|FACE|[ovwxpOVWXP]:\\w+)=(?:'[^']*'|\"\"[^\"\"]*\"\"|[^>]+)([^>]*)>", "");

提取文本中的css样式

html中css优化是必不可少的，可以在富文本保存html的时候，对标签内容（表格、段落、字体等）使用css样式优化，目的就是转换的PDF可以更加贴近html页面样式，XMLWorkerHelper转换中可以支持css。

        public static String getCssStr(String content){
		
		String reg = "\\.([a-zA-Z0-9_]*)\\s*(\\{[^\\}]*\\})"; 
		Pattern p = Patternpile(reg);
		Matcher m = p.matcher(content);
		String cssStr="";
		while(m.find()){
			cssStr += m.group()+"  ";
		}
		System.out.println(cssStr);
		return cssStr;
	}

字体处理

html内容字体设置，可以处理中文乱码，内容重叠，字体大小，字体颜色等

package com.hundsun.cooas.manage.sec.util;

import com.itextpdf.text.BaseColor;
import com.itextpdf.text.Font;
import com.itextpdf.tool.xml.XMLWorkerFontProvider;

import java.io.File;
import java.util.Set;

public class PdfFont extends XMLWorkerFontProvider {

    //新增PDF字体：特殊字符、宋体、仿宋、黑体
    public String[] fonts = { "seguisym.ttf" ,"simsun.ttc","simfang.ttf","simhei.ttf"};

    public PdfFont() {
        super(XMLWorkerFontProvider.DONTLOOKFORFONTS);
        //获取资源文件字体
        String path = EnvironmentUtils.getWebClassPath()+"fonts"+ File.separator;
        // 注册字体
        for (String font : fonts) {
            this.register(path+font);
        }
    }

    @Override
    public Font getFont(String fontname, String encoding, boolean embedded, float size, int style, BaseColor color) {
        //Set<String> fonts2 = this.getRegisteredFonts(); //获取注册字体
        String font = fontname;
        if(font==null){
            font = "宋体";
        }
        if ("".equals(font)) {
            font = "segoe ui symbol";// 特殊字符
        }
        if(size<=0){
            size=10.5f;
        }
        return super.getFont(font, encoding, embedded, size, style, color);
    }




}

html转PDF文件

    private static void htmlToPdf(String content,String css) throws IOException, DocumentException {
        content = htmlTag(content);
        ByteArrayInputStream in = new ByteArrayInputStream(content.getBytes());
        Document document = new Document();
        
        document.setMargins(30, 30, 30, 30); // 左，右，上，下
        ByteArrayInputStream is = null;
        if(!"".equals(css)){
            is = new ByteArrayInputStream(css.getBytes());
        }
        PdfWriter writer = PdfWriter.getInstance(document, new FileOutputStream("C:\\Users\\Administrator\\Desktop\\temp.pdf"));// 创建书写器(Writer)
        document.open();
        //将html格式写入文档
        XMLWorkerHelper.getInstance().parseXHtml(writer, document, in,is,new PdfFont());
        document.close();
    }

本文标签：内容编辑器文本文件 css

版权声明：本文标题：富文本编辑器保存的html内容使用itextpdf转PDF文件（css提取，内容重叠）问题解决内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1728139699a1147201.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

pdf文件没有加密保护，仍然不能编辑的解决办法

3小时前

这类pdf文件其实是可以允许编辑的，只不过阅读器对于这类文件启用的是浏览模式，所以不能编辑。通过下面设置，来取消浏览模式。我用的是福昕浏览器，其余浏

编辑pdf文件及校准测量的方法

3小时前

pdf文件中大部分都包含了文字、图片、链接等，想要对这些不同性质的内容进行校准测量没有好的方法很难实现，下面看看小编是如何在pdf中进行校准测量的吧。首先将一个pdf编辑器下载到自己的电脑中来

如何添加、管理和删除PDF高亮文本？

3小时前

PDF高亮文本的添加、管理和删除一直是PDF文档处理必备的知识技能，在日常工作或学习中必然会遇到，但有些小伙伴却还不知道怎么处理。今天就来教大家如何为PDF文档添加、管理和删除高亮文本&#

用于PDF文件转曲，方法介绍

3小时前

PDF文件良好的视觉阅读性和通用性已经被人们所接受，在现在的办公中我们接触到了越来越多的PDF格式的文件。PDF文件有一个特性就是可以内嵌字体文件，就是说一个PDF文件如果内嵌了文件中所用到的字体

怎么删除PDF文件不要的页面？

3小时前

当我们打开一个PDF文件想要删除其中不要的一页或几页时应该如何操作？我们都知道PDF格式的安全性比较高，想要随便删除页面并不是很容易，需要使用什么工具呢&#xff1f

如何给pdf文件自动添加目录和书签？

3小时前

想要直接了解步骤的朋友，请跳转到下面的“Evermap公司的AutoBookmark插件“小节。在最近的硬盘灾难中，与积累的大批电子书一起丢失的还有我在这些资料上做的笔记和修改，这其中就包括为pdf文件手工添加的目录书签。浏览和阅读pd

秀米怎么添加附件，135编辑器如何添加附件（如Word、Excel、PPT、PDF等）

3小时前

公众号是信息发布的窗口，公众号文章的排版优秀与否，直接影响文章的质量和阅读数，所以公众号文章编辑器的选择是一件重要的事情。公众号诞生到现在，出现了一大批优秀的第三方编辑器，秀米和135编辑器就是其中较为优秀的代表，深受部分新媒体运营的喜爱。

几款主流好用的 Markdown 编辑器，值得拥有

3小时前

1、前言 Markdown编辑器 Markdown 其实在 2004 年就有了，不过之前一直很小众，这几年随着相关应用平台的发展，Markdown以其独到的优势迅速火起来了

如何给135编辑器推文添加附件

3小时前

微信公众号由于自身编辑器的原因，没有提供足够的模板和丰富的资源，所以很多人会使用135、小蚂蚁、秀米、壹伴助手等公众号编辑器，但很多人不知道如何在这些编辑器推文中添加附件&a

如何编辑PDF文件？分享几种编辑PDF文件方法

3小时前

如何编辑PDF文件呢？大家在日常中经常会使用PDF文件，难免在使用的过程中会发现文件出现的错误，更正错误地方最简单有效的方法就是直接在PDF文件上进行编辑&#xff0

捷速编辑pdf文件插入图片的方法

2小时前

有的pdf文件内容很好，但就是少了些图片让人觉得不那么完美，可pdf文件不能直接添加图片怎么办呢？没关系，小编在这教大家方法。首先准备一个pdf编辑工

【新版本来袭】ONLYOFFICE桌面编辑器8.1 —— 重塑办公效率与体验

2小时前

文章目录一、功能完善的PDF编辑器：重塑文档处理体验编辑文本插入和修改各种对象，如表格、形状、文本框、图像、艺术字、超链接、方程式等添加、旋转和删除页面添加文本注释和标注二、幻灯片版式设计&a

(转)java Springboot富文本编辑器ueditor的内容使用itext5导出为pdf文件

2小时前

转自：https:blog.csdnweixin_42259631articledetails80994935 本文讲解java在Springboot框架下使用百度的富文本编辑器ueditor&#

(转)Linux系统下PDF文件的编辑

2小时前

Linux下PDF编辑软件修改用pdfedit，加注记用xournal，合并用pdktk。当用户在寻找适宜的PDF编辑器时，Linux PDF编辑软件吸引了大家的眼球

有密码的PDF文件如何编辑？

2小时前

PDF文件带有密码，无法编辑，是因为PDF文件设置了编辑限制，导致我们没办法编辑PDF文件，想要编辑PDF文件，需要解除限制编辑才

如何编辑扫描的PDF文件？

2小时前

扫描的PDF文档是一些最难处理的文件类型。当您扫描文档并将其直接保存为PDF格式时，所有文本、图表、图形和图像都会合并到一个无法编辑的大图像文件中，如果我们要使扫描的PDF文件转换成可编辑的PDF文件，该如何操作？第1部分：为什么我不能编

怎样给PDF文件图片调整不透明度

2小时前

有很多人问小编。在PDF文件中可以调整文件中图片透明度吗，关于这个问题，小编告诉你，是可以的，使用迅捷PDF编辑器，三步教你调整好

打开PDF文件一闪一闪的解决办法

2小时前

自己修改注册表解决了，开始→运行→输入regedit，点确认→找到下面这个目录 HKEY_CURRENT_USERSoftwareMicrosoftWindowsCurrentVersi

用TexLive自带的编辑器TexWorks editor编译生成pdf

2小时前

本文主要讲述如何用TexLive自带的编辑器TexWorks editor编译生成pdf文件，其中包括编译英文和中文。刚开始打开编辑器时界面如下： 这是我新建的1.tex文件&#xff

电子爱好者 - 最新技术资讯及电子产品介绍！

富文本编辑器保存的html内容使用itextpdf转PDF文件（css提取，内容重叠）问题解决

html格式处理

提取文本中的css样式

字体处理

html转PDF文件

更多相关文章

pdf文件没有加密保护，仍然不能编辑的解决办法

最新福昕高级阅读编辑器

编辑pdf文件及校准测量的方法

如何添加、管理和删除PDF高亮文本？

用于PDF文件转曲，方法介绍

怎么删除PDF文件不要的页面？

如何给pdf文件自动添加目录和书签？

秀米怎么添加附件，135编辑器如何添加附件（如Word、Excel、PPT、PDF等）

几款主流好用的 Markdown 编辑器，值得拥有

如何给135编辑器推文添加附件

如何编辑PDF文件？分享几种编辑PDF文件方法

捷速编辑pdf文件插入图片的方法

【新版本来袭】ONLYOFFICE桌面编辑器8.1 —— 重塑办公效率与体验

(转)java Springboot富文本编辑器ueditor的内容使用itext5导出为pdf文件

(转)Linux系统下PDF文件的编辑

有密码的PDF文件如何编辑？

如何编辑扫描的PDF文件？

怎样给PDF文件图片调整不透明度

打开PDF文件一闪一闪的解决办法

用TexLive自带的编辑器TexWorks editor编译生成pdf

发表评论

推荐文章

虚拟机安装程序没有找到安装在此计算机上的硬盘驱动器,安装VMware提示无效驱动器：E: 解决方法...

u盘做成了启动盘后，如何复原

有哪些视频格式转换方法？关于使用在线转换工具的体验分享

STATA 图片编辑器导出为PDF格式 中文乱码

有什么PDF阅读器？告诉你三个好用的PDF阅读软件

热门文章

机械战警键盘ESC, F1--F12失效

thinkpad e480 f1键常亮没有声音

腾讯云 WebShell 体验

网页轻聊系统

MATLAB的p文件加密

R语言使用aov函数进行双因素方差分析（Two-way factorial ANOVA）、使用HH包中的interaction2wt函数为任何阶的双因素方差分析可视化主效应和交互作用图、箱图显示主效应

gre 填空错题整理

EasyRecovery17中文破解版本安装包下载 附带注册码激活码

Waves效果器离线安装包-Waves v9.6 Offline Install WiN-MAC

谷歌浏览器安全证书不受信任_windows7系统下谷歌浏览器提示该网站的安全证书不受信任如何解决...

最新文章

java实现silk音频文件转换成mp3

Pazera Free MP4 To MP3 Converter 1.6 中文64位+32位便携版，免费的视频转换器

探秘NCM2MP3：轻松将网易云音乐NCM格式转为MP3

12 个顶级音频转换器软件（免费）

MP3转换器下载 - 通用mp3转换器

任何格式的声音转换，MP3转换为g711

如何将wav转换成mp3？这里有几个转换教程

【鸿蒙开发】音频格式的转换

手机录音ogg格式怎么转换mp3

MP3转换器电脑版哪个好用？让我来揭开谜底

轻松几步：从B站视频提取音频并转换为MP3音频

2024年最佳选择：推荐五款好用的转换器MP3

你知道mp3转换器怎么用吗？分享在线音频转换mp3怎么弄

手机otg转HTml,手机如何用OTG转换器导入mp3

mp3转换器怎么用？盘点4种高效转换方法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

STATA 图片编辑器导出为PDF格式中文乱码

EasyRecovery17中文破解版本安装包下载附带注册码激活码

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载