如何用Python一次性翻译十万条数据

如何用Python一次性翻译十万条数据前段时间, 我想翻译一个文档, 比较大, 研究一番, 最后还是只有走上写代码这条路. 我不需要高质量翻译, 机器翻译就可以了, 毋庸置疑, 谷歌

大家好,欢迎来到IT知识分享网。如何用Python一次性翻译十万条数据"

前段时间, 我想翻译一个文档, 比较大, 研究一番, 最后还是只有走上写代码这条路. 我不需要高质量翻译, 机器翻译就可以了, 毋庸置疑, 谷歌的翻译质量是最好的, 或者说是我最满意的. 于是就寻找(Python)翻译库, 一番操作下来都不满意, 其中一个比较受欢迎, 但是按照常规(说明文档)方式安装下来, 调用直接报错, 我知道这肯定是可以解决的, 可能哪里出了点小问题, 毕竟很多人用, 后面好像看见说是版本不对, 要稍微指定一下版本. 我没有去尝试, 到现在我也没有用上那个, 因为我自己写了一个 Python翻译库 pygtrans

为什么取这个名字呢? 因为想得好多个名字都被占用了.

含义: Python Google Translate, Python谷歌翻译


基本功能

  • 获取语言支持列表
  • 自动检测语言, 支持批量
  • 文本/HTML 翻译, 支持批量
  • 支持 TTS

安装

pip install pygtrans
复制代码

pip install pygtrans -i https://pypi.org/simple
复制代码

必要时可以加个 –upgrade 参数

完全掌握

快速入门

from pygtrans import Translate

client = Translate()

# 检测语言
text = client.detect('Answer the question.')
assert text.language == 'en'

# 翻译句子
text = client.translate('Look at these pictures and answer the questions.')
assert text.translatedText == '看这些图片,回答问题。'

# 批量翻译
texts = client.translate([
    'Good morning. What can I do for you?',
    'Read aloud and underline the sentences about booking a flight.',
    'May I have your name and telephone number?'
])
assert [text.translatedText for text in texts] == [
    '早上好。我能为你做什么?', 
    '大声朗读并在有关预订航班的句子下划线。', 
    '可以给我你的名字和电话号码吗?'
]

# 翻译到日语
text = client.translate('请多多指教', target='ja')
assert text.translatedText == 'お知らせ下さい'

# 翻译到韩语
text = client.translate('请多多指教', target='ko')
assert text.translatedText == '조언 부탁드립니다'

# 文本到语音
tts = client.tts('やめて', target='ja')
open('やめて.mp3', 'wb').write(tts)
复制代码

pygtrans中总共有6个模块

  1. Translate: 翻译模块
  2. ApiKeyTranslate: 使用谷歌翻译APIKEY进行翻译的模块
  3. TranslateResponse: 翻译的响应模块
  4. LanguageResponse: 获取语言支持列表响应的模块
  5. DetectResponse: 语言检测响应模块
  6. Null: 表示一个失败的对象, 因为有时可能会失败

一些限制

  1. Translate: 暂未发现任何限制, 但这不是官网提供的标准方法, 无法得到任何保证.
  2. ApiKeyTranslate:
  3. 限制批量翻译数量 128 以内, 即一次性只能翻译 128 条句子, 在代码中, 这一个限制已经容错, 无需考虑.
  4. 限制翻译整体内容大小 102400 bytes, 即一次性只能翻译 100KB 内容. 在使用 pygtrans 过程中, 只需要注意, 不要让单条句子超过这个 100KB 限制即可.

这两个翻译模块, 都是不需要楼梯的, 不过 ApiKeyTranslate 可能需要 money, 虽然官方提供了试用. 并且由于其限制, 在接受本文标题任务[如何用Python一次性翻译十万条句子]时, 虽然亲测可以胜任, 但还是不及 Translate 用着刺激, 所以本文不介绍 ApiKeyTranslate

如何判断一个请求(翻译/调用方法)是否成功

from pygtrans import Translate, Null

client = Translate()
text = client.translate('Hello')
if isinstance(text, Null):
    print("翻译失败")
    # 失败信息(原因)
    print(text.msg)
else:
    print("翻译成功")
复制代码

一般不判断, 直接使用

使用Translate

# 导包导模块
from pygtrans import Translate

# 创建翻译对象
"""
:param target: str: (可选) 目标语言, 默认: ``zh-CN``, :doc:`查看完整列表 <target>`
:param source: str: (可选) 源语言, 默认: ``auto`` (自动检测), :doc:`查看完整列表 <source>`
:param _format: str: (可选) 文本格式, ``text`` | ``html``, 默认: ``html``
:param user_agent: str: (可选) 用户代理, 这个参数很重要, 不设置或错误设置非常容易触发 **429 Too Many Requests** 错误,
    默认: ``GoogleTranslate/6.18.0.06.376053713 (Linux; U; Android 11; GM1900)``, 所以用户可以不用提供.
    这个默认 ``User-Agent`` 很稳定, 暂时未发现 ``429 错误``, 如果出现 ``429``, 建议 **模仿默认 进行构造**,
    或者进行 `反馈 <https://github.com/foyoux/pygtrans/issues/new>`_
    最新版中, 已改为了随机.
:param domain: str: (可选) 域名 ``google.com`` 及其可用平行域名 (如: ``google.cn``), 默认: ``google.cn``
:param proxies: (可选) eg: proxies = {'http': 'http://localhost:10809', 'https': 'http://localhost:10809'}
"""
client = Translate()
复制代码

支持语言列表

  1. 翻译单条句子
"""翻译文本, 支持批量, 支持 html
:param q: str: 字符串或字符串列表
:param target: str: (可选)  目标语言, 默认: ``self.target``, :doc:`查看支持列表 <target>`
:param source: str: (可选)  源语言, 默认: ``self.source``, :doc:`查看支持列表 <source>`
:param _format: str: (可选) 文本格式, ``text`` | ``html``, 默认: ``self.format``
:return: 成功则返回: :class:`pygtrans.TranslateResponse.TranslateResponse` 对象,
    或 :class:`pygtrans.TranslateResponse.TranslateResponse` 对象列表, 这取决于 `参数: q` 是字符串还是字符串列表.
    失败则返回 :class:`pygtrans.Null.Null` 对象
"""
text = client.translate("google")
assert text.translatedText == '谷歌'
复制代码
  1. 检测语言
"""语言检测
:param q: 需要检测的内容, 不支持批量, 如需批量, 请参阅: :func:`translate_and_detect`.
:return: 成功则返回 :class:`pygtrans.DetectResponse.DetectResponse` 对象,
    失败则返回 :class:`pygtrans.Null.Null` 对象
"""
text = client.detect('你好')
assert text.language == 'zh-CN'
复制代码
  1. 没有批量检测方法, 只有批量检测并翻译的方法
"""检测并翻译
与 :class:`translate` 相同, 
区别是 ``TranslateResponse`` 对象的 ``detectedSourceLanguage`` 属性可用
"""
text = client.translate_and_detect('谷歌翻译')
assert text.detectedSourceLanguage == 'zh-CN'
texts = client.translate_and_detect(['谷歌', 'Translate'])
assert texts[0].detectedSourceLanguage == 'zh-CN'
assert texts[1].detectedSourceLanguage == 'en'
复制代码
  1. 从中文翻译到英语
text = client.translate('中国', target='en')
assert text.translatedText == 'China'
复制代码
  1. 以文本格式翻译
# 默认是以html格式进行翻译的, 要以文本格式翻译, 指定 `_format='txt'` 即可
text = client.translate("""<!DOCTYPE html>
<html lang=en>
  <meta charset=utf-8>
  <meta name=viewport content="initial-scale=1, minimum-scale=1, width=device-width">
""", _format='txt')

print(text)
# TranslateResponse(translatedText='<!DOCTYPE html>\n<html 语言=zh>\n  <元字符集=utf-8>\n  <meta name=viewport content="initial-scale=1, minimum-scale=1, width=device-width">', detectedSourceLanguage=None, model=None)

# 我们注意到, 不该翻译的也被翻译了, 如果使用html格式翻译, 就可以解决这个问题
复制代码
  1. 以html格式进行翻译
# 默认是以html格式进行翻译的, 要以文本格式翻译, 指定 `_format='txt'` 即可
text = client.translate("""<!DOCTYPE html>
<html lang=en>
  <meta charset=utf-8>
  <meta name=viewport content="initial-scale=1, minimum-scale=1, width=device-width">
""")

print(text)
# TranslateResponse(translatedText='<!DOCTYPE html>\n<html lang=en>\n  <meta charset=utf-8>\n  <meta name=viewport content="initial-scale=1, minimum-scale=1, width=device-width">', detectedSourceLanguage=None, model=None)

# 现在就正常了
复制代码

回到我们的主题

如何用Python一次性翻译十万条句子?

如何用Python一次性翻译十万条句子?

如何用Python一次性翻译十万条句子?

假设字符串列表words, len(words)>100000

texts = client.translate(words)
# 大概等待20s左右, 执行完毕
len(texts) == len(words)
for i in range(10):
	print(words[i][:20], texts[i][:10])
复制代码

不知道其他的可不可以, 反正我觉得这个挺牛逼的, 毕竟可是经常有限制 5000 的说法.

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/52828.html

(0)
上一篇 2024-04-29 11:00
下一篇 2024-04-30 07:25

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

关注微信