您的位置  > 德语常识

每日一练|有人爬取了维基百科,做成了平行语料

前面我们介绍过可以从网站获取平行语料库。

但不少翻译朋友反映不知道如何操作。

好吧,这次我就直接把语料给你了。

有人爬取了维基百科的内容,制作了平行语料库。 该语料库称为:

#: 1620 对中 135M

包括1.35亿个平行句子,1620个语言对。 整个数据包大小为65G。

够强大吗?

每日一练|有人爬取了维基百科,做成了平行语料

这个语料库也有缺点,因为是从维基百科爬虫爬取的,所以有些翻译可能不够准确,但试想一下,即使只有一半的语料库被准确翻译,对我们的翻译、语言学习和学习也会有很大帮助。研究。

如何使用这些语料库? 建议制作平行语料库,可参考这篇文章:

当然,在1620个语言对中,还有外语-外语对,例如英语-俄语语言对。

还有55个外语-汉语语言对,这55个语言对涉及的外语有:

英语、阿塞拜疆语、阿拉伯语、保加利亚语、波斯尼亚语、加泰罗尼亚语、捷克语、丹麦语、德语、希腊语、世界语、西班牙语、爱沙尼亚语、巴斯克语、波斯语、芬兰语、法语、加利西亚语、希伯来语、印地语、克罗地亚语、匈牙利语、印度尼西亚语、冰岛语、意大利语、韩语、立陶宛语、马其顿语、马拉地语、荷兰语、挪威语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛文尼亚语、阿尔巴尼亚语、塞尔维亚语、泰米尔语、泰卢固语、土耳其语、他加禄语、鞑靼语、越南语等等。

如何获取,请在我们的公众号“搬砖巴别塔”后台回复对应的外语,例如“越南语”,我们将向您发送越汉平行语料库。

生活中并不缺少语料,而是缺少发现语料的眼睛。 对语料库制作感兴趣的朋友,我们一起努力学习吧。

本站涵盖的内容、图片、视频等数据,部分未能与原作者取得联系。若涉及版权问题,请及时通知我们并提供相关证明材料,我们将及时予以删除!谢谢大家的理解与支持!

Copyright © 2023