01 FileCodeBox

一个基于FastAPI+SQLite3开发的文本和文件分享的服务。

支持分享文件、口令提取文件等功能，无需注册即可完成文件提取。

你可以将文字、文件使用拖拽、粘贴或是点击上传的方式，放到该工具中，设置文件可保留天数，获取取件口令。

你可以将它当成一个文件快递柜，输入口令即可分享文本和文件内容。

02 doccano

一款开源的文本标记工具。提供文本分类、序列标记、情感分析、文本摘要等功能，帮助快速完成打标工作，支持中文和多人协作。

它可以为文本分类、序列标记和序列到序列任务提供注释功能。你可以为情绪分析、命名实体识别、文本摘要等创建标记数据。创建项目后，上传数据并开始注释，就能够在数小时内构建一个数据库。

03 pdf2docx

一款开源的PDF转Word转换服务，一个可以将PDF转换成docx文件的Python库。

该项目通过PyMuPDF库提取PDF文件中的数据，例如文本，图像和图纸等，然后采用python-docx库解析内容的布局、段落、图片、表格等，最后自动生成docx文件。

04 OCRmyPDF

一个可以把PDF文件变成可搜索文件的工具。它使用Tesseract OCR引擎，将PDF的内容识别成文本，然后给PDF文件增加OCR文本层。用以实现可搜索和复制PDF的内容，当前支持100多种语言。

支持从常规PDF生成可搜索的PDF/A文件；将OCR文本准确地放置在图像下方，以方便复制/粘贴；支持保持原始嵌入图像的精确分辨率等多种功能。

05 Pycorrector

不要认为自己的母语是中文，就不需要学习了，我们也可能会在中文上“犯错误”。

这是一个中文文本纠错工具，支持中文音似、形似（或变体字）、语法错误纠正等，python3开发。可用于中文拼音、笔画输入法的错误纠正。

依据语言模型检测错别字位置，通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。帮助解决在文本识别模型处理后，对识别结果中个别词汇错误进行纠错。

今天的文本文档处理工具就给大家分享到这里，希望在工作上帮助到你！

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/65833.html

分享5个开源文本文档处理工具

01 FileCodeBox

02 doccano

03 pdf2docx

04 OCRmyPDF

05 Pycorrector

相关推荐

发表回复