语言材料有哪些?

东方敏杰东方敏杰最佳答案最佳答案

1、语料库 什么是语料库,它有什么作用呢?简单地说,语料库就是储存有文本数据的计算机文件。它的作用就是提供大规模的语言数据,以供我们进行统计分析。比如,对于「语言研究」而言,最大的语料库莫过于「帕斯卡语料(Pascal Corpus)」了。这是一个由法语句子所组成的大型数据集,包含了 600 万句由计算机生成的法语句子,可供我们进行语言统计数据。类似的,中文领域最有名的语料库莫过于「现代汉语语法信息库」了,收录了大约 5.3 万条含有标注语法信息的中文句子。这些句子都是经过严格筛选的,语料质量很高。

2、大数据 现在大家都处于大数据时代,那么什么才算大数据呢?简言之,大数据就是规模大、类型多、值量高的数据集合。就语言学而言,自然语言处理领域遇到的大数据一般都是从互联网中收集获得的,其特点自然是规模巨大、来源多样、处理速度快且成本低。

当然,语言学研究除了需要大量原始数据之外,还需要对这些数据进行清洗、标注、抽提取特征等处理工作。然而,单靠人工来完成如此庞大的工程是无法想象的,因此我们需要借助计算机技术来帮助我们完成这一系列任务。

我来回答
请发表正能量的言论,文明评论!