大家好,欢迎来到IT知识分享网。
处理文本文档,是工作中的必备技能。我们需要分享它、编辑它、标记它、转换它、搜索它,还需要谨慎细心让自己不要弄错它。今天给大家分享几个开源免费的文本文档处理工具。
01 FileCodeBox
一个基于FastAPI+SQLite3开发的文本和文件分享的服务。
支持分享文件、口令提取文件等功能,无需注册即可完成文件提取。
你可以将文字、文件使用拖拽、粘贴或是点击上传的方式,放到该工具中,设置文件可保留天数,获取取件口令。
你可以将它当成一个文件快递柜,输入口令即可分享文本和文件内容。
02 doccano
一款开源的文本标记工具。提供文本分类、序列标记、情感分析、文本摘要等功能,帮助快速完成打标工作,支持中文和多人协作。
它可以为文本分类、序列标记和序列到序列任务提供注释功能。你可以为情绪分析、命名实体识别、文本摘要等创建标记数据。创建项目后,上传数据并开始注释,就能够在数小时内构建一个数据库。
03 pdf2docx
一款开源的PDF转Word转换服务,一个可以将PDF转换成docx文件的Python库。
该项目通过PyMuPDF库提取PDF文件中的数据,例如文本,图像和图纸等,然后采用python-docx库解析内容的布局、段落、图片、表格等,最后自动生成docx文件。
04 OCRmyPDF
一个可以把PDF文件变成可搜索文件的工具。它使用Tesseract OCR引擎,将PDF的内容识别成文本,然后给PDF文件增加OCR文本层。用以实现可搜索和复制PDF的内容,当前支持100多种语言。
支持从常规PDF生成可搜索的PDF/A文件;将OCR文本准确地放置在图像下方,以方便复制/粘贴;支持保持原始嵌入图像的精确分辨率等多种功能。
05 Pycorrector
不要认为自己的母语是中文,就不需要学习了,我们也可能会在中文上“犯错误”。
这是一个中文文本纠错工具,支持中文音似、形似(或变体字)、语法错误纠正等,python3开发。可用于中文拼音、笔画输入法的错误纠正。
依据语言模型检测错别字位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。帮助解决在文本识别模型处理后,对识别结果中个别词汇错误进行纠错。
今天的文本文档处理工具就给大家分享到这里,希望在工作上帮助到你!
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/65833.html