大家好,欢迎来到IT知识分享网。
1 案例描述
【葡语词典】为例,我们将该 mdx 格式词典文件中汉葡术语分别提取出来,制作成 xlsx 格式的术语表。
(1)打开 GetDict.exe,导入【葡语词典.mdx】词典文件,将词典转出为 TXT 文件
(2)使用 EditPad Pro 编辑器打开刚导出的 TXT 文件,观察内容结构,查找替换去除冗余代码
图2 EditPad Pro编辑
(3)将提取的中葡双语粘贴到 Excel 表格中,表头分别设置为 zh-CN 和 pt-PT
P.S. 如有需要,推荐使用 Glossary Converter,将 xlsx 术语表转为 sdltb 和 tbx 格式术语库
2 操作限制
对更加复杂的词典文件,采用同样方法将提取的中英双语粘贴到 Excel 表格中,结果如图所示,仅能将英文部分分列出来,尚无法将其词性、音标、释义、例句等项分列。
图 4、5、6 重复上述操作
对于这种情况,我们可以使用AI来剔除冗余信息,首先选取部分词条,转为txt文件,因为大部分AI不接受excel插件
图7 TXT文件格式
将该文件输入Claude2-100k,并提出明确指令,分列中文、英文、词性信息,形成excel,即可得到如下所示结果。
图8 AI筛选结果
3 注意事项
- 案例不要存在知识产权问题
- 案例不要出现敏感话题
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。
– END –
原创来源:北外CAT课程展示-周昱龙 陈嘉铭
推文编辑:李丹
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/79853.html