在线客服
语料库(corpus)在语言学上意指大量的文本,通常经过整理,具有既定格式与标记。事实上,语料库英文 “text corpus”的含义即为“body of text”,通俗的理解就是“别人曾经说过的话”,尤指母语用户。 语料库的基本特征是:
(1)语料库中存放的是在语言的实际使用中真实出现过的语言材料,是对语言文字使用的动态追踪;
(2)语料库是以电子计算机为载体承载语言知识的基础资源,容量一般在亿词次以上;
(3)真实语料需要经过加工、分析和处理,才能成为有用的资源,目前加工深度已从词法级向句法和语义级发展;
(4)通过观察和测量语料流通度的变化情况,可以追踪到语言成分的产生,成长和消亡;
动态更新的“活”语料库在逻辑上就是一个“老师”,英文语料库可以回答学员一些典型的英文用法问题:
- 英美人说不说“open the light”?
-“overcome ... difficulty”和“overcome ... problem”哪个更地道?
- 如何用英文表达“符合...标准”?
- 夸别人“beautiful”,英美人流行怎么说?
当前语料库的主要类型
单语语料库:库中语料由单语种构成,可用于跟踪该语种的当前语言用法习惯;
双语对齐语料库:库中语料包含对应的译文,可用于机器翻译、双语词典编纂等应用中;
音视频语料库:由音视频数据构成的语料,可用于语言模仿学习、同声翻译的训练等;