type
date
status
slug
summary
tags
category
password
icon
最近帮网友处理数据报告,有几个需要修改的地方,虽然一份份改过去其实也不是特别麻烦,但是为什么不尝试一下半自动化呢?
借助google的notebooklm,于是开始了研究:
刚开始的思路就是简单的“替换”,在数据报告的模板中需要修改的地方输入特征词,比如<地址><联系人>等,再让python去找到特征词所在的位置,然后直接替换。
结果是成功的,但不完全成功。
因为py处理docx似乎没有文字格式的惯性,所以替换进去的文本不仅没有原来的格式,甚至会破坏所在行整行文字原本的格式。
经过和llm的一番调教,最后采用了另一种方案。
直接替换便不再可行,而是改为了先清空,再往里面输入内容的方案,如:
因为日期部分并没有那么奇怪的格式,所以直接替换了:
但这些对llm来说很简单就能处理,麻烦的地方在于docx中的表格。
因为llm读pdf是没有表格格式的,所以在llm眼中,没有格式的东西要怎么处理格式,于是这部分便没法再借助llm了,只能自己研究。
索性python-docx属实知名,随便一搜就有很多参考,最后采用了硬定位的方式勉强解决了问题(你就说能不能用吧.webp)
后续优化:
- 作者:Alice Aierlanta
- 链接:blog.aierlanta.net/article/15fde645-d080-80c6-a8d4-c7bd4959951a
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。