目录

1     读docx文件

1.1     通过XWPFWordExtractor读

1.2     通过XWPFDocument读

2     写docx文件

2.1     直接通过XWPFDocument生成

2.2     以docx文件作为模板

POI在读写word docx文件时是通过xwpf模块来进行的,其核心是XWPFDocument。一个XWPFDocument代表一个docx文档,其可以用来读docx文档,也可以用来写docx文档。XWPFDocument中主要包含下面这几种对象:

l  XWPFParagraph:代表一个段落。

l  XWPFRun:代表具有相同属性的一段文本。

l  XWPFTable:代表一个表格。

l  XWPFTableRow:表格的一行。

l  XWPFTableCell:表格对应的一个单元格。

1       读docx文件

跟读doc文件一样,POI在读docx文件的时候也有两种方式,通过XWPFWordExtractor和通过XWPFDocument。在XWPFWordExtractor读取信息时其内部还是通过XWPFDocument来获取的。

1.1     通过XWPFWordExtractor读

在使用XWPFWordExtractor读取docx文档的内容时,我们只能获取到其文本,而不能获取到其文本对应的属性值。下面是一段使用XWPFWordExtractor来读取docx文档内容的示例代码:

Java代码  

public class XwpfTest {

/**

* 通过XWPFWordExtractor访问XWPFDocument的内容

* @throws Exception

*/

@Test

public void testReadByExtractor() throws Exception {

InputStream is = new FileInputStream("D:\\test.docx");

XWPFDocument doc = new XWPFDocument(is);

XWPFWordExtractor extractor = new XWPFWordExtractor(doc);

String text = extractor.getText();

System.out.println(text);

CoreProperties coreProps = extractor.getCoreProperties();

this.printCoreProperties(coreProps);

this.close(is);

}

/**

* 输出CoreProperties信息

* @param coreProps

*/

private void printCoreProperties(CoreProperties coreProps) {

System.out.println(coreProps.getCategory());   //分类

System.out.println(coreProps.getCreator()); //创建者

System.out.println(coreProps.getCreated()); //创建时间

System.out.println(coreProps.getTitle());   //标题

}

/**

* 关闭输入流

* @param is

*/

private void close(InputStream is) {

if (is != null) {

try {

is.close();

} catch (IOException e) {

e.printStackTrace();

}

}

}

}

1.2     通过XWPFDocument读

在通过XWPFDocument读取docx文档时,我们就可以获取到文本比较精确的属性信息了。比如我们可以获取到某一个XWPFParagraph、XWPFRun或者是某一个XWPFTable,包括它们对应的属性信息。下面是一个使用XWPFDocument读取docx文档的示例:

Java代码  

public class XwpfTest {

/**

* 通过XWPFDocument对内容进行访问。对于XWPF文档而言,用这种方式进行读操作更佳。

* @throws Exception

*/

@Test

public void testReadByDoc() throws Exception {

InputStream is = new FileInputStream("D:\\table.docx");

XWPFDocument doc = new XWPFDocument(is);

List paras = doc.getParagraphs();

for (XWPFParagraph para : paras) {

//当前段落的属性

//       CTPPr pr = para.getCTP().getPPr();

System.out.println(para.getText());

}

//获取文档中所有的表格

List tables = doc.getTables();

List rows;

List cells;

for (XWPFTable table : tables) {

//表格属性

//       CTTblPr pr = table.getCTTbl().getTblPr();

//获取表格对应的行

rows = table.getRows();

for (XWPFTableRow row : rows) {

//获取行对应的单元格

cells = row.getTableCells();

for (XWPFTableCell cell : cells) {

System.out.println(cell.getText());;

}

}

}

this.close(is);

}

/**

* 关闭输入流

* @param is

*/

private void close(InputStream is) {

if (is != null) {

try {

is.close();

} catch (IOException e) {

e.printStackTrace();

}

}

}

}

2       写docx文件

2.1     直接通过XWPFDocument生成

在使用XWPFDocument写docx文件时不需要像使用HWPFDocument写doc文件那样必须从一个doc文件开始,我们可以直接new一个空的XWPFDocument,之后再往这个XWPFDocument里面填充内容,然后再把它写入到对应的输出流中。下面是使用XWPFDocument生成docx文件的示例代码:

Java代码  

public class XwpfTest {

/**

* 基本的写操作

* @throws Exception

*/

@Test

public void testSimpleWrite() throws Exception {

//新建一个文档

XWPFDocument doc = new XWPFDocument();

//创建一个段落

XWPFParagraph para = doc.createParagraph();

//一个XWPFRun代表具有相同属性的一个区域。

XWPFRun run = para.createRun();

run.setBold(true); //加粗

run.setText("加粗的内容");

run = para.createRun();

run.setColor("FF0000");

run.setText("红色的字。");

OutputStream os = new FileOutputStream("D:\\simpleWrite.docx");

//把doc输出到输出流

doc.write(os);

this.close(os);

}

/***

* 写一个表格

* @throws Exception

*/

@Test

public void testWriteTable() throws Exception {

XWPFDocument doc = new XWPFDocument();

//创建一个5行5列的表格

XWPFTable table = doc.createTable(5, 5);

//这里增加的列原本初始化创建的那5行在通过getTableCells()方法获取时获取不到,但通过row新增的就可以。

//    table.addNewCol(); //给表格增加一列,变成6列

table.createRow(); //给表格新增一行,变成6行

List rows = table.getRows();

//表格属性

CTTblPr tablePr = table.getCTTbl().addNewTblPr();

//表格宽度

CTTblWidth width = tablePr.addNewTblW();

width.setW(BigInteger.valueOf(8000));

XWPFTableRow row;

List cells;

XWPFTableCell cell;

int rowSize = rows.size();

int cellSize;

for (int i=0; i

row = rows.get(i);

//新增单元格

row.addNewTableCell();

//设置行的高度

row.setHeight(500);

//行属性

//       CTTrPr rowPr = row.getCtRow().addNewTrPr();

//这种方式是可以获取到新增的cell的。

//       List list = row.getCtRow().getTcList();

cells = row.getTableCells();

cellSize = cells.size();

for (int j=0; j

cell = cells.get(j);

if ((i+j)%2==0) {

//设置单元格的颜色

cell.setColor("ff0000"); //红色

} else {

cell.setColor("0000ff"); //蓝色

}

//单元格属性

CTTcPr cellPr = cell.getCTTc().addNewTcPr();

cellPr.addNewVAlign().setVal(STVerticalJc.CENTER);

if (j == 3) {

//设置宽度

cellPr.addNewTcW().setW(BigInteger.valueOf(3000));

}

cell.setText(i + ", " + j);

}

}

//文件不存在时会自动创建

OutputStream os = new FileOutputStream("D:\\table.docx");

//写入文件

doc.write(os);

this.close(os);

}

/**

* 关闭输出流

* @param os

*/

private void close(OutputStream os) {

if (os != null) {

try {

os.close();

} catch (IOException e) {

e.printStackTrace();

}

}

}

}

2.2     以docx文件作为模板

当然,我们也可以像写doc文件那样,先以一个docx文件作为模板,然后建立基于该docx文件的XWPFDocument对象,再把里面一些变化的信息在运行时进行替换,之后将XWPFDocument进行输出就可以了。所不同的是XWPFDocument中没有像HWPFDocument中那样的Range可以用来直接替换内容。而且底层的XWPFParagraph和XWPFRun也不支持直接将文本进行替换。倒是XWPFRun提供了一个设置文本的方法,不过新的文本不会替换旧的文本,而是会追加到原来的文本之后。现在的一个做法是先找出含有需要替换的变量的XWPFRun,然后将其移除,之后在原来的位置新增一个XWPFRun,其对应的文本是替换变量之后的文本。不过你设置的那个的变量的位置不一定就在一个XWPFRun里面,它有可能会被拆分到两个甚至更多的XWPFRun中,所以不是很有必要的话还是不推荐使用这种方式。

假设我们有一个docx文件,其内容是这样的:

之后我们以该文件作为模板,利用相关数据把里面的变量进行替换,然后把替换后的文档输出到另一个docx文件中。具体做法如下:

Java代码  

public class XwpfTest {

/**

* 用一个docx文档作为模板,然后替换其中的内容,再写入目标文档中。

* @throws Exception

*/

@Test

public void testTemplateWrite() throws Exception {

Map params = new HashMap();

params.put("reportDate", "2014-02-28");

params.put("appleAmt", "100.00");

params.put("bananaAmt", "200.00");

params.put("totalAmt", "300.00");

String filePath = "D:\\word\\template.docx";

InputStream is = new FileInputStream(filePath);

XWPFDocument doc = new XWPFDocument(is);

//替换段落里面的变量

this.replaceInPara(doc, params);

//替换表格里面的变量

this.replaceInTable(doc, params);

OutputStream os = new FileOutputStream("D:\\word\\write.docx");

doc.write(os);

this.close(os);

this.close(is);

}

/**

* 替换段落里面的变量

* @param doc 要替换的文档

* @param params 参数

*/

private void replaceInPara(XWPFDocument doc, Map params) {

Iterator iterator = doc.getParagraphsIterator();

XWPFParagraph para;

while (iterator.hasNext()) {

para = iterator.next();

this.replaceInPara(para, params);

}

}

/**

* 替换段落里面的变量

* @param para 要替换的段落

* @param params 参数

*/

private void replaceInPara(XWPFParagraph para, Map params) {

List runs;

Matcher matcher;

if (this.matcher(para.getParagraphText()).find()) {

runs = para.getRuns();

for (int i=0; i

XWPFRun run = runs.get(i);

String runText = run.toString();

matcher = this.matcher(runText);

if (matcher.find()) {

while ((matcher = this.matcher(runText)).find()) {

runText = matcher.replaceFirst(String.valueOf(params.get(matcher.group(1))));

}

//直接调用XWPFRun的setText()方法设置文本时,在底层会重新创建一个XWPFRun,把文本附加在当前文本后面,

//所以我们不能直接设值,需要先删除当前run,然后再自己手动插入一个新的run。

para.removeRun(i);

para.insertNewRun(i).setText(runText);

}

}

}

}

/**

* 替换表格里面的变量

* @param doc 要替换的文档

* @param params 参数

*/

private void replaceInTable(XWPFDocument doc, Map params) {

Iterator iterator = doc.getTablesIterator();

XWPFTable table;

List rows;

List cells;

List paras;

while (iterator.hasNext()) {

table = iterator.next();

rows = table.getRows();

for (XWPFTableRow row : rows) {

cells = row.getTableCells();

for (XWPFTableCell cell : cells) {

paras = cell.getParagraphs();

for (XWPFParagraph para : paras) {

this.replaceInPara(para, params);

}

}

}

}

}

/**

* 正则匹配字符串

* @param str

* @return

*/

private Matcher matcher(String str) {

Pattern pattern = Pattern.compile("\\$\\{(.+?)\\}", Pattern.CASE_INSENSITIVE);

Matcher matcher = pattern.matcher(str);

return matcher;

}

/**

* 关闭输入流

* @param is

*/

private void close(InputStream is) {

if (is != null) {

try {

is.close();

} catch (IOException e) {

e.printStackTrace();

}

}

}

/**

* 关闭输出流

* @param os

*/

private void close(OutputStream os) {

if (os != null) {

try {

os.close();

} catch (IOException e) {

e.printStackTrace();

}

}

}

}

经过上面的代码所示的过程处理后,我们替换变量后新输出来的docx文件的内容是这样的:

poi 读取word标题_【转载】poi读取word文档相关推荐

  1. python使用xlrd读取xlsx文件_$ 用python处理Excel文档(1)——用xlrd模块读取xls/xlsx文档...

    本文主要介绍xlrd模块读取Excel文档的基本用法,并以一个GDP数据的文档为例来进行操作. 1. 准备工作: 1. 安装xlrd:pip install xlrd 2. 准备数据集:从网上找到的1 ...

  2. poi tl 判断空值_使用poi-tl操作word模板

    使用poi-tl操作word模板 1.导入jar包支持 com.deepoove poi-tl 1.8.2 2.建立word模板 在电脑E盘中建立word模板:"E:\templete.do ...

  3. java读写word框架_[原创]java读写word文档,完美解决方案

    作项目的过程当中,常常须要把数据里里的数据读出来,通过加工,以word格式输出. 在网上找了不少解决方案都不太理想,偶尔发现了PageOffice,一个国产的Office插件,开发调用很是简单!比网上 ...

  4. 微信公众号怎么添加Word、Excel、PPT、PDF文档下载链接?

    因为公司业务的增长,公司着急需要招聘几个新人到新开的业务线,火线上岗.考虑到公司公众号运营多年,有一定的用户基础,所以HR小姐姐在征求了老板的意见后,决定在公众号发表一篇招聘文.在征求了几个部门的用人 ...

  5. 信创办公--基于WPS的Word最佳实践系列(快速统一文档格式)

    信创办公–基于WPS的Word最佳实践系列(快速统一文档格式) 项目背景 在一篇长文档中,会存在标题和正文的部分,而作为标题,就应该具有和正文有所区分的特殊格式.如果要一个一个标题进行设置,里面的重复 ...

  6. android 抓取webview中的所有图片_如何一键提取PDF文档中的所有图片?

    原标题:如何一键提取PDF文档中的所有图片? 目前PDF文档被大家广泛应用,主要是因为PDF文档在传输和转换的过程中比较稳定,所以PDF格式几乎是办公文件格式的首选.大家都知道PDF文档转换格式以及编 ...

  7. 比Word更优雅的记笔记/写文档/交报告方式

    比Word更优雅的记笔记/写文档/交报告方式 markdown+vscode->pdf 背景 最近在上的一门<信息系统开发工具>课老师要求实验以后都要交实验报告,但是和以往不同的是, ...

  8. 怎么批量删除 Word、PDF、PPT 以及 Excel 文档中的空白页?

    概要:「我的ABC软件工具箱」提供了删除空白页的功能,轻轻松松就可以实现批量删除文档中的空白页.目前支持 Word.PDF.PPT 以及 Excel 等格式文件文件.操作非常的方便,处理也非常高效! ...

  9. word 2010打不开03格式文档解决办法

    word 2010打不开03格式文档解决办法,右键属性,点击提示框下部"解除锁定",确认后,再双击文件就能打开了.

  10. 奔图无线版的打印机_手机端WPS打印文档的操作步骤

    奔图无线版的打印机_手机端WPS打印文档的操作步骤 操作思路: 1. 先到打印机上打印出一份打印机自己内部的热点WiFi名称和密码: 2. 然后手机端连接这个热点WiFi(会整个手机断开网络的哦,连流 ...

最新文章

  1. Shell中的循环语句for、while、until实例讲解
  2. Java程序结合Aapche Ant进行远程服务器文件备份
  3. sql语句列名为变量(Spring Boot+mybitis实验环境)
  4. 有向无环图的拓扑排序
  5. java 使用适当的签名_关于数字签名和policy文件设置!
  6. linux6.5 查看分辨率命令,centos6.5跟centos7的top命令中移动查看顺序的指令怎么不一样...
  7. ios 各种锁的使用性能比较
  8. JMX监测JVM报错
  9. OpenHarmony啃论文俱乐部玩法攻略
  10. 数学建模【开会总结】
  11. photoshop cc2019快捷键
  12. Microsoft Office LTSC ProPlus 2021 Volume(含:Project + Visio)离线命令方式安装说明(原创)
  13. 苹果鼠标怎么连接_用手机连接鼠标和键盘的方法(安卓和苹果都可以)
  14. 从无刷直流电动机控制系统电磁兼容设计,谈电磁干扰原理
  15. linux telnet命令 220,Linux使用telnet命令的方法(2)
  16. layUI穿梭框前后端的交互
  17. 『HTML5实现人工智能』小游戏《井字棋》发布,据说IQ上200才能赢【算法代码讲解+资源打包下载】...
  18. 音频标准AES的一点理解
  19. 副业怎么样通过手游达到月入过万
  20. Android Studio制作.so库实践

热门文章

  1. Java用WebSocket + tail命令实现Web实时日志
  2. docker安装eclipse che
  3. http://www.guokr.com/blog/475765/
  4. 使用Git和远程代码库
  5. 01背包 Codeforces Round #267 (Div. 2) C. George and Job
  6. android中的MotionEvent 及其它事件处理
  7. 微软在Windows 8之后将放弃Windows品牌
  8. 用root进行telnet登陆
  9. QT第三方串口类Win_QextSerialPort,串口工具插拔后无法继续使用问题
  10. mysql批量插入数据