前面我们介绍过可以从网站获取平行语料库。
但不少翻译朋友反映不知道如何操作。
好吧,这次我就直接把语料给你了。
有人爬取了维基百科的内容,制作了平行语料库。 该语料库称为:
#: 1620 对中 135M
包括1.35亿个平行句子,1620个语言对。 整个数据包大小为65G。
够强大吗?
这个语料库也有缺点,因为是从维基百科爬虫爬取的,所以有些翻译可能不够准确,但试想一下,即使只有一半的语料库被准确翻译,对我们的翻译、语言学习和学习也会有很大帮助。研究。
如何使用这些语料库? 建议制作平行语料库,可参考这篇文章:
当然,在1620个语言对中,还有外语-外语对,例如英语-俄语语言对。
还有55个外语-汉语语言对,这55个语言对涉及的外语有:
英语、阿塞拜疆语、阿拉伯语、保加利亚语、波斯尼亚语、加泰罗尼亚语、捷克语、丹麦语、德语、希腊语、世界语、西班牙语、爱沙尼亚语、巴斯克语、波斯语、芬兰语、法语、加利西亚语、希伯来语、印地语、克罗地亚语、匈牙利语、印度尼西亚语、冰岛语、意大利语、韩语、立陶宛语、马其顿语、马拉地语、荷兰语、挪威语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛文尼亚语、阿尔巴尼亚语、塞尔维亚语、泰米尔语、泰卢固语、土耳其语、他加禄语、鞑靼语、越南语等等。
如何获取,请在我们的公众号“搬砖巴别塔”后台回复对应的外语,例如“越南语”,我们将向您发送越汉平行语料库。
生活中并不缺少语料,而是缺少发现语料的眼睛。 对语料库制作感兴趣的朋友,我们一起努力学习吧。