使用pageoffice的坑|电子爱好者

admin管理员组
文章数量:1662626

我需要读取pageoffice编辑保存后的文档内容，但是我们新建的word文件大多数都是iso88591格式的，所以读出后都是乱码，用了各种解码编码都不行，pageoffice生成的.htm文件本身是gb2312格式的，所以我用gb2312格式读出再转utf-8格式后没有出现乱码

具体核心代码如下

File fi=new File(htmlPath);
       if(fi.exists()) {
           try {
           ByteArrayOutputStream outHtml = new ByteArrayOutputStream();
           InputStream inn = new FileInputStream(fi);
           byte[] buffer = new byte[4096];
           int len = 0;
           while((len = inn .read(buffer))!= -1 ){
           outHtml.write(buffer,0,len);
           }
           byte[] data = outHtml.toByteArray();
           htm=new String(data,"gb2312");
           htm=gb2312ToUtf8(htm);
           htm=htm.replaceAll(FileName,allcommonimagePath);
           }catch(IOException e) {
               e.printStackTrace();
               return false;
           }
       }


       // 将 GB2312 编码格式的字符串转换为 UTF-8 格式的字符串：

public static String gb2312ToUtf8(String str) {

String urlEncode = "" ;

try {
urlEncode = URLEncoder.encode (str, "UTF-8" );

} catch (UnsupportedEncodingException e) {

e.printStackTrace();

}

return urlEncode;

}

但是对于生成的word文件怎么试都不行，读出都是乱码，我使用文件流写入另外一个文件也没乱码问题啊，后来发现因为两个文件编码格式都是iso88591,所以正常，

后来看资料说poi方式可以正常读出，试了一下果然可以，喜出望外，不料又带来了新的问题，poi的方式在不同电脑上会表现出不一样的，我的word编辑器是wps,使用如下方式读出文件内容（jar包自己网上找，我记得我用的是3.16，但是有个高版本的确没有，这里也被坑）
FileInputStream fis = new FileInputStream(file);
HWPFDocument cx = new HWPFDocument(fis);
txtContent=cx.getDocumentText();

但是到了同事电脑（office）上却没有反应，查看日志报错了，错误the supplied data appears to be in the office 2007+xml,you are calling the part of POI that with OLE2 office Document .you need to call a different part of POI to process this data(eq XSSF of HSSF)
大致意思就是我需要调用不同的POI去处理不同的文档，网上看了一下XSSF表示2007+（2007之后的excel），HSSF支持2007-（2007之前的），
等效猜想word在HWPFD和XWPFD也是类似的特性，网上查了一下HWPF 是 POI 支持 Word(97-2003) 的 Java 组件，支持读写Word文档，但是写功能目前只实现一部分，XWPF是 POI 支持 Word 2007+ 的 Java组件
而我使用的的wps，我就郁闷了，于是查了一下wps和office的区别，wps兼容office，office不兼容wps，国产委屈脸。。
查看了一下解压安装包，发现我的wps外层文件夹是office6，也就解释通了我用了office6可以同事的office2007不行。
可能使用HWPFD和XWPFD对于wps和office来说就像excel对应XSSF和HSSF一样的特性，我试了wps的两个版本，office6和office7用XWPF都不行，但是用HWPDF确可以，office2007和office2013用XWPDF可以。
所以为了让用户都能读到数据，无论安装office还是wps,我就用了如下的写法：
File file=new File(pgFilePath);//创建一个新的file实例
       if(file.exists()){
           FileInputStream fis = new FileInputStream(file);
           logger.debug("读取内容前");
           XWPFDocument doc=null;
           try {
               OPCPackage po=OPCPackage.open(fis);
               doc = new XWPFDocument(po);
           } catch (InvalidFormatException e) {
               // TODO Auto-generated catch block
               e.printStackTrace();
           } catch (IOException e) {
               // TODO Auto-generated catch block
               e.printStackTrace();
           }finally{
               if(doc!=null){
                   XWPFWordExtractor extractor = new XWPFWordExtractor(doc);
                   txtContent = extractor.getText();
                   extractor.close();
                   }else{
                       HWPFDocument cx = new HWPFDocument(fis);
                       txtContent=cx.getDocumentText();
                       cx.close();
                       fis.close();
                   }
return txtContent;
           }
       }else{
           return txtContent;
       }

以为问题解决了，但是一直出现
org.apache.poi.poifs.filesystem.NotOLE2FileException: Invalid header signature; read 0x0000000000000000, expected 0xE11AB1A1E011CFD0 - Your file appears not to be a valid OLE2 document
，郁闷，单独用XWPDF或者HWPFD都行，这样一起为什么不行
弄了好久没弄好，然后看到这里
https://stackoverflow/questions/33879515/notole2fileexception-invalid-header-signature-read-0x0000000000000000-expecte
So that explains why I get this error the next time I run the program and try to write the workbook on the same Excel file.
猛然悟出原来是自己习惯问题，文件流这里一直强调使用完需要关闭，我第一次   OPCPackage po=OPCPackage.open(fis);使用了FileInputStream,但是没有关闭，因为我的是wps，所以会走else,但是上一次的额fileinputstream并没有关闭，就直接想接着使用第二次，
两个连接用到inputstream，所以出现了该错误，改成如下后问题解决，不管if还是else都保证了文件字节流关闭，问题解决。

File file=new File(pgFilePath);//创建一个新的file实例
       if(file.exists()){
           FileInputStream fis = new FileInputStream(file);
           logger.debug("读取内容前");
           XWPFDocument doc=null;
           try {
               OPCPackage po=OPCPackage.open(fis);
               doc = new XWPFDocument(po);
           } catch (InvalidFormatException e) {
               // TODO Auto-generated catch block
               e.printStackTrace();
           } catch (IOException e) {
               // TODO Auto-generated catch block
               e.printStackTrace();
           }finally{
               if(doc!=null){
                   XWPFWordExtractor extractor = new XWPFWordExtractor(doc);
                   txtContent = extractor.getText();
                   extractor.close();
                   fis.close();
                   }else{
                       fis.close();
                       fis = new FileInputStream(file);
                       HWPFDocument cx = new HWPFDocument(fis);
                       txtContent=cx.getDocumentText();
                       cx.close();
                       fis.close();
                   }
return txtContent;
           }
       }else{
           return txtContent;
       }

本文标签： PageOffice

版权声明：本文标题：使用pageoffice的坑内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1729954988a1217279.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

使用pageoffice的坑

更多相关文章

卓正PageOffice客户端安装步骤

谷歌浏览器反复提示PageOffice安装

pageoffice for java_PageOffice for Java免费版下载

PageOffice 5.2 试用版注册使用

卓正PageOffice试用版与正式版的区别

PageOffice国产版原理说明

pageoffice 破解 php,pageoffice for php

pageoffice 破解 php,pageoffice+thinkphp结合

pageoffice

pageoffice如何离线申请_pageOffice的使用

使用Pageoffice打开Office word报错0x80040154、POBrowse问题

PageOffice运行出现当前页面的脚本发生错误，被呼叫方拒绝接收呼叫

PageOffice免费试用过期后再次启用操作

PageOffice常用功能之-痕迹保留、键盘批注、手写批注

使用pageoffice在线打开word文档，如何给保存页面传到

pageoffice常见问题处理

[PageOffice]关于PageOffice你要知道的一些细节及避坑1.0

使用PageOffice--Word文档全文检索

PageOffice在浏览器中处理office软件

使用pageoffice的坑

发表评论

推荐文章

【半监督分割】CPCL（2023CVPR）

Android版本历史变迁

Charles设置代理后，手机无法上网

数据库的基本常识

iOS APP 转让避坑指南

热门文章

OFD转PDF格式免费在线转换

Li‘s 影像组学视频学习笔记(18)-使用MRIcroGL软件格式转换、勾画ROI

双拼与五笔同时共用（附五笔词库txt）

angr内存模拟部分源码阅读

每天一个挨打小技巧——从电脑上的WiFi痕迹推测一个人的行踪

爱奇艺私有云Serverless实践

H5和微信小程序直播开发

聚类算法(2)--Mean Shift

APP上架各大应用市场对比

超简单数据库加密防止数据泄露

最新文章

WinPE下安装ISO格式Win系统

玩转这5大分布式存储平台，Facebook也能在区块链上跑起来！

区块链对人工智能的变革：去中心化将带来数据新范式

权益证明生态系统

MATLAB R2022a 安装教程

阿里云操作系统镜像地址

程序员必须要懂的计算机核心概念

《2024 年 7 月 17 日最新开发者服务 API 推荐》

好用的XManager6 注册机

软考信息安全工程师笔记(第二章--密码学基础与应用)

制作系统QCOW2格式的系统镜像

BDB 入门篇 第1章 Berkeley DB Java Edition简介

Python获取高德POI(关键词搜索法)

SM2算法第三篇：实现SM2秘钥交换协议的算法流程

MATLAB安装步骤详解

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

BDB 入门篇第1章 Berkeley DB Java Edition简介

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载