新文科背景下语料库应用研究高端论坛（2号通知）

新文科背景下语料库应用研究高端论坛（2号通知）

2024-11-07 23:05

北京航空航天大学

摘要：This paper investigates disciplinary variation in academic discourse by focusing on constraints of epistemology and disciplinary culture on language use in relation to knowledge construction. Drawing on Becher’s (1987,1989) classificatory framework for disciplinary grouping and by utilizing data from the Beijing CARE (Beijing Collection of Academic Research Essays) corpus, we focus on the frequent evaluative it patterns (Hunston & Francis 2000) in research articles of four disciplines, namely, physics, computer science, history and education, as representatives of so-called hard-pure, hard-applied, soft-pure and soft-applied disciplines respectively. We use the technique of correspondence analysis to treat the data, before probing into relationships between the distribution of it patterns and the corresponding epistemological factors of the four disciplines under study. The findings indicate that differences in uses of the evaluative it patterns largely correspond to the broad distinctions, i.e., hard vs. soft and pure vs. applied. It is argued that epistemological precepts shape the use of language to a large extent. Nevertheless, due to the impact of unique disciplinary culture and interdisciplinary trend, research communities are prone to certain discipline-specific conventions for linguistic choices for their knowledge construction. Therefore the relationship between epistemology and langue use is not definitive, nor generative in nature. Particularly, for so-called pure vs. applied disciplines, the constraints are not consistent.

大数据时代的语料库文本与数据

李文中

浙江工商大学

摘要：随着网络技术的发展和信息的聚积，语料库概念的边界在不断被拓展，其形态也在产生很大的变化，原来的一些重要设计原则，如抽样和代表性、样本均衡性、文本的涵义等，都需要重新思考。随着语料库的进一步发展，以上概念可能会变为动态的、相对性的操作考量：用什么样的语料库、做什么、是否有效？而这些决策将不再是语料库开发者的主要责任，而是由使用者根据自己的研究进行设定。从某种意义上讲，传统语料库所收集的文本并不是严格意义上的原态文本：文本的版式、字体、呈现形态、插图、附文，以及其他副文本信息等，在转换成纯文本格式时都会丢失，更不用说现在日趋多样化的网络超文本，如音视频、动画、可视化图形、图片、互动、链接等。从更广泛的意义上讲，人的世界都是文本；问题在于我们的测量能力。未来的语料库可能需要对所有的文本元素进行范畴化，并进行有效标记和编码。虽然我们难以预测语料库到底能发展到哪一步，但至少需要对语料库的发展持一种开放的心态。

没有人能站在一个适当的位置，去规定语料库该怎么用、不该怎么用；就是有人这么做，也不会有人听。语料库从一出现就是有多个源头、多种用途的，如自然语言处理和机器翻译用语料库同样出现很早。但在语料库研究评价上，始终存在对待语料库数据的态度问题：是从语料库中寻找证据（evidence）？还是从数据出发获得发现？对这个问题的不同回答，决定了语言事实和数据在研究中的角色和地位。当然我们可以说不存在纯粹的客观事实，或者不存在没有理论的数据；在大多数情况下，我们只能看到我们愿意看到或能够看到的东西。

计算机对语料库的作用不仅是提高效率的问题。巨量的语料与计算机强大的检索能力，彻底改变了人们对语言的观察：一是视角的改变，计算机检索大大突破了个人基于知识经验的心理搜索以及人工文献检索，也突破了个人知识搜索的心理定势及障碍，让我们看到直觉无法企及的东西；二是视野的改变，重复与变异同时呈现，促使我们重新审视规律与变化的关系；三是工具对思想的促生作用，大量超乎预期和直觉的语言事实凸显，需要得到新的描述和解释。从这个意义上讲，人们先是改变了工具，最后受工具改变。语料库的工具性使我们无法预测到底能用它得到什么。语料量越大，变异性越强；语料时间越近，语言使用的多样性变化越大。

数据是语料库研究探索的起点和入口，真正的文本意义分析必须从数据回到文本，文本是第一阶数据（the first-order data）。唯理论或唯技术都会让我们误入歧途。数据不会说话，说话的是人。不对数据做邪恶的事，不用数据做邪恶的事。

大数据之大，越来越超出人自然感知的把控能力。数据可视化的重要性日益显著，我们赖之观察和把握高速增加的数据，测量日益复杂的数据关系，探索有价值的话题和研究方向。但是，图形是受作图者操控的，美丽的图形中存在花招和陷阱。我们只有真正掌握它，才不会在其中沉沦。

在大数据时代，语料库本身就是一种语言大数据。作为语言研究者，需要自觉培养一种数据意识，即充分掌握其来源、范畴、结构、处理机制，以及其呈现的结果与结论的关系，以文本的视角看语言，以数据的眼光看文本。只有通晓这一切，才不会被眼花缭乱的数据分析及可视化图形所迷惑，也才有能力去思考数据应用的前景与难题，去进行数据批判。人文永远是第一性的，数据只是人的行为痕迹。

广外-兰卡汉语学习者语料库的研发及其应用

徐海

广东外语外贸大学

摘要：广外-兰卡汉语学习者语料库（Guangwai-Lancaster Chinese Learner Corpus）是目前所知第一个公开的、语料相对平衡的汉语学习者语料库。该语料库规模接近130万词次，语料在语体、二语任务、母语背景、二语水平、性别等方面具有平衡性和代表性特点。该语料库具有广泛的应用前景，可较好显示汉语第二语言学习者在字词、短语、句法、语用等层面出现的语误，揭示其汉语使用能力的发展规律，为汉语第二语言习得理论和实践相关问题提供实证支持，从而有助于提高汉语二语教学的学习效率。

当学术英语遇到自然语言处理——情感视角

雷蕾

华中科技大学

摘要：自然语言处理技术给学术英语研究带来了哪些变化？语言研究者面临哪些机遇与挑战？本发言以两项学术英语情感分析实证研究为例，讨论语言研究者如何应对大数据时代的机遇与挑战。

从经典CIA到基于EUM模型的多重比较再到语料库驱动的二语实验范式——兼谈学习者语料库语言学的研究使命与疆土开拓

陆军

扬州大学

摘要：自Granger(1998)提出中介语对比分析法（CIA）以来，基于语料库的学习者语言研究广泛开展，开发了“过少使用”、“过多使用”和“误用”等分析技术，取得学习者语言与目标语在形式、意义和功能上有较大偏离、而与母语趋于一致等重要发现，从而形成了目标语知识缺乏、母语影响显著等推测或假设。不过，基于经典CIA模型的研究似乎未能直接验证相关假设、也未能把二语形式、意义和功能的偏离整合起来讨论。为此，我们开发了基于扩展意义单位（EUM）模型的多重比较：同时包括了目标语、母语与学习者语言的多重比较，并且把各比较都置于词语搭配、类联接、语义趋向和语义韵四个共选层面开展，一定程度上实现了学习者语言的形式、意义和功能特征的深度描述以及母语影响等假设的验证，拓宽了学习者语料库应用和研究的范围。