您的位置 首页 > 德语阅读

语料库德语?怎样创建一个用于外语教学的语料库

大家好,关于语料库德语很多朋友都还不太明白,不过没关系,因为今天小编就来为大家分享关于怎样创建一个用于外语教学的语料库的知识点,相信应该可以解决大家的一些困惑和问题,如果碰巧可以解决您的问题,还望关注下本站哦,希望对各位有所帮助!

关于语料库语言学的基础教程,推荐《语料库语言学》(黄昌宁、李涓子,2007),《语料库语言学导论》(杨惠中,2002)。

语料库德语?怎样创建一个用于外语教学的语料库

首先,建设语料库之前,要明确以下几个问题:

一,你希望建设的语料库是静态语料库还是动态的。静态语料库,也叫参照语料库,一旦建成,就不再改变其结构和内容。动态语料库,也叫监控语料库,不断地更新以反映现代语言的变迁。比如,教育部语言文字信息管理司建设的国家语言监测语料库,涵盖了各种主流媒体语料库,包括平面媒体、有声媒体和网络媒体,以及教育教材和少数民族语料库。我们经常看到的年度媒体流行语,年度网络语言使用调查,包括语言文字舆情监测等,都是在这个语料库的基础上完成的语言监测。而个人自建的小型语料库,很难有足够的人力物力投入的监控语料库的建设中,所以多为静态语料库。

二,你所建的语料库是否具有代表性平衡性

里奇(Leech,1991)曾指出,一个语料库具有代表性,是指在该语料库上获得的分析结果可以概括成为这种语言整体或其指定部分的特性。尽管一个样本不足以代表一种特定的题材或主题,然而由大量各类样本组成的一个语料库可以成为一种语言的代表。(黄昌宁、李涓子,2007)

平衡性是指对语言各种形态、各类体裁、个时间段等的覆盖。早期的大多数语料库是偏爱用书面语的,甚至是只有书面语。即使现在书面语的语料库也要比口语的多,因为书面语语料更易采集。而体裁也尚无广泛承认的分类方法,难以衡量究竟各类体裁在语料库中应占多大比例。语料库需要涵盖的时间有多少,比如文学作品仅收集本世纪的,还是上世纪的。这些都是平衡性要考虑的问题。

三,你的语料库规模如何。语料库不管有多大,同这种语言的总体相比仍然是微不足道的。样本越大则代表性越好。但是语料库不管多大,同这种语言的总体相比仍然微不足道,因此语料库的内容也很重要。

四,语料的的规模是量,内容就是质。内容最根本的要求是真实:其一是要收集实际使用中的文本,不能是语言学家或研究者自己杜撰的文本;其二是要收集符合条件的文本。比如在建立学习者语料库时,要研究学术真实的语言能力,就不能把学生抄袭的作文收进语料库。(杨惠中,2002)

接下来就是建设语料库了。建设时首先要确定语料的来源,可以下载或保存已有的电子文本,比如电子版的新闻、书籍等;或者自己输入,比如学生的作文;也可以通过扫描并文字识别的方式。在设计语料库时,如之前所说的建设标准,要确定是建设口语还是书面语语料库,是正式的还是文学的语言,语言是否具有典型性,以及文本的产生时间。还要注意语料的大小,需要多少样本,每个样本应该包含多少词。注意在文本的采集中,应尽量采集完整的文本。语料库中的每个样本都是一个完整的文本,这比只收录文本的一部分要好。

如果你想建的是用于教学的语料库,我有两种理解:一你希望从语料库中提取某些语言现象,观察母语者是怎样使用该语言现象的,辅助语法、词汇等教学;二是你想建一个学习者语料库,观察该语言的外语学习者对此种语言的使用情况,比如通过对国内英语专业学生作文进行错误分析,辅助语言教学。

如果适合你的研究,可以优先选用现成的语料库。英语母语者语料库方面,比如LOBCorpus、BrownCorpus,其他的还有比如Longman语料库、BNC(BritishNationalCorpus)语料库、LLC口语语料库等。汉语的比如北大的人民日报语料库,国家语委现代汉语通用平衡语料库。国内的学习者语料库方面有CLEC(ChineseLearnerEnglishCorpus)语料库、SWECCL(SpokenandWrittenEnglishCorpusofChineseLearners)语料库、COLSEC(CollegeLearners'SpokenEnglishCorpus)语料库等。北外还有多语种在线语料库检索平台,不知道校外网站能不能访问。这些语料库都是由各大学和语言研究机构投入了大量人力物力建设出来的,相比之下比自建的语料库规模更大、更具代表性,因此基于这些语料库的研究更有说服力。

如果你觉得现成的语料库不适合自己的研究,还是需要自建,可以依托数字媒体,更快速的建设语料库。若你需要新闻类文本,可以用LexisNexis,这里有多语种的报刊杂志新闻篇章,可以根据自己的需要下载,汇集成语料库。

自建学习者语料库,举个栗子,比如你想做错误分析,或者研究学生对于某一语言现象的掌握情况,可以选取某一届学生在英语考试或平时写作练习中的作文作为语料,不同阶段的作文属于不同的子语料库,比如大一下学期期末考试的作文,和大三下学期期末考试的作文,做两个子语料库。通过对比,可以看出学生对于此种语言现象的掌握情况在学习进程中是否有提高或无改变甚至退步。

如果想自建的语料库是针对某语言考试的,倒让我想起来一个。CLC(CambridgeLearnerCorpus)语料库,是我在准备雅思考试的时候在雅思书后面发现的,介绍如下:

TheCambridgeLearnerCorpus(CLC)isauniquecollectionofover95,000exampapersfromCambridgeESOL.ItshowsrealmistakesstudentsmakeandhighlightsthepartsofEnglishwhichcauseproblemsforlearners.TheCLChasbeendevelopedbyCambridgeUniversityPresswithUniversityofCambridgeESOLexaminationstohelpinwritingmaterialsforlearnersofEnglish.CambridgeEnglishCorpus

总之,自建语料库就是要求人们尽力用所能获得的条件来建设一个可供自己研究需要的语料库的过程。

我硕士论文做的就是母语者口语语料库,口语语料是从IDS下载的DatenbankfürGesprochenesDeutsch,在DGD上注册以后就能下载语料了,网址是这个:

http://agd.ids-mannheim.de/korpus_index.shtml

点击红圈圈里DGD的那个蓝色的小标志,就能进入DGD的下载页面(要登录哦),是这个样子的

左边可以看到各种Korpora,右边有这些子语料库的介绍、录音、转写等等,可以下载,,这个可以作为你的Referenzkorpus用。

口语语料做标注是一件很头疼的事情,转写下来的口语篇章每篇动辄好几千有的上万Token,要是再做日常对话的标注就更想死,那些母语者说出的口语写下来简直就认不出来,标注前要自己先设计好Tag。标注软件我用的是AnnoTool,方便好用。标注时必须是.doc格式在word文档里标注,如果下载的语料是.txt或者.pdf等等,记得先转换格式。

讲到的LaurenceAnthony的这个软件,可以在他的网站上免费下载最新的软件:

这个软件可以搜索多种语言,反正汉语是可以的,日语我不太清楚,你可以看看有没有日语的编码。

关于错误分析的文献肯定很多,我没做这方面的研究不清楚,不过论文我可以推荐一篇,我们上一届的优秀论文,《KorpusbasiertediachroneVergleichsuntersuchungdergrammatischenKompetenzvonchinesischenGermanistikstudenten》,不知道知网能不能下到。这篇论文用的是北外在建的一个德语学习者语料库,做的是错误分析,可参考。

关于语料库德语和怎样创建一个用于外语教学的语料库的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。

本站涵盖的内容、图片、视频等数据,部分未能与原作者取得联系。若涉及版权问题,请及时通知我们并提供相关证明材料,我们将及时予以删除!谢谢大家的理解与支持!

Copyright © 2023