分享好友 最新资讯首页 最新资讯分类 切换频道
新文科背景下语料库应用研究高端论坛(2号通知)
2024-11-07 23:05

卫乃兴

新文科背景下语料库应用研究高端论坛(2号通知)

北京航空航天大学

摘要This paper investigates disciplinary variation in academic discourse by focusing on constraints of epistemology and disciplinary culture on language use in relation to knowledge construction. Drawing on Becher’s (1987,1989) classificatory framework for disciplinary grouping and by utilizing data from the Beijing CARE (Beijing Collection of Academic Research Essays) corpus, we focus on the frequent evaluative it patterns (Hunston & Francis 2000) in research articles of four disciplines, namely, physics, computer science, history and education, as representatives of so-called hard-pure, hard-applied, soft-pure and soft-applied disciplines respectively. We use the technique of correspondence analysis to treat the data, before probing into relationships between the distribution of it patterns and the corresponding epistemological factors of the four disciplines under study. The findings indicate that differences in uses of the evaluative it patterns largely correspond to the broad distinctions, i.e., hard vs. soft and pure vs. applied. It is argued that epistemological precepts shape the use of language to a large extent. Nevertheless, due to the impact of unique disciplinary culture and interdisciplinary trend, research communities are prone to certain discipline-specific conventions for linguistic choices for their knowledge construction. Therefore the relationship between epistemology and langue use is not definitive, nor generative in nature. Particularly, for so-called pure vs. applied disciplines, the constraints are not consistent.

大数据时代的语料库文本与数据

李文中

浙江工商大学

摘要:随着网络技术的发展和信息的聚积,语料库概念的边界在不断被拓展,其形态也在产生很大的变化,原来的一些重要设计原则,如抽样和代表性、样本均衡性、文本的涵义等,都需要重新思考。随着语料库的进一步发展,以上概念可能会变为动态的、相对性的操作考量:用什么样的语料库、做什么、是否有效?而这些决策将不再是语料库开发者的主要责任,而是由使用者根据自己的研究进行设定。从某种意义上讲,传统语料库所收集的文本并不是严格意义上的原态文本:文本的版式、字体、呈现形态、插图、附文,以及其他副文本信息等,在转换成纯文本格式时都会丢失,更不用说现在日趋多样化的网络超文本,如音视频、动画、可视化图形、图片、互动、链接等。从更广泛的意义上讲,人的世界都是文本;问题在于我们的测量能力。未来的语料库可能需要对所有的文本元素进行范畴化,并进行有效标记和编码。虽然我们难以预测语料库到底能发展到哪一步,但至少需要对语料库的发展持一种开放的心态。

  没有人能站在一个适当的位置,去规定语料库该怎么用、不该怎么用;就是有人这么做,也不会有人听。语料库从一出现就是有多个源头、多种用途的,如自然语言处理和机器翻译用语料库同样出现很早。但在语料库研究评价上,始终存在对待语料库数据的态度问题:是从语料库中寻找证据(evidence)?还是从数据出发获得发现?对这个问题的不同回答,决定了语言事实和数据在研究中的角色和地位。当然我们可以说不存在纯粹的客观事实,或者不存在没有理论的数据;在大多数情况下,我们只能看到我们愿意看到或能够看到的东西。

  计算机对语料库的作用不仅是提高效率的问题。巨量的语料与计算机强大的检索能力,彻底改变了人们对语言的观察:一是视角的改变,计算机检索大大突破了个人基于知识经验的心理搜索以及人工文献检索,也突破了个人知识搜索的心理定势及障碍,让我们看到直觉无法企及的东西;二是视野的改变,重复与变异同时呈现,促使我们重新审视规律与变化的关系;三是工具对思想的促生作用,大量超乎预期和直觉的语言事实凸显,需要得到新的描述和解释。从这个意义上讲,人们先是改变了工具,最后受工具改变。语料库的工具性使我们无法预测到底能用它得到什么。语料量越大,变异性越强;语料时间越近,语言使用的多样性变化越大。

  数据是语料库研究探索的起点和入口,真正的文本意义分析必须从数据回到文本,文本是第一阶数据(the first-order data)。唯理论或唯技术都会让我们误入歧途。数据不会说话,说话的是人。不对数据做邪恶的事,不用数据做邪恶的事。

 大数据之大,越来越超出人自然感知的把控能力。数据可视化的重要性日益显著,我们赖之观察和把握高速增加的数据,测量日益复杂的数据关系,探索有价值的话题和研究方向。但是,图形是受作图者操控的,美丽的图形中存在花招和陷阱。我们只有真正掌握它,才不会在其中沉沦。

  在大数据时代,语料库本身就是一种语言大数据。作为语言研究者,需要自觉培养一种数据意识,即充分掌握其来源、范畴、结构、处理机制,以及其呈现的结果与结论的关系,以文本的视角看语言,以数据的眼光看文本。只有通晓这一切,才不会被眼花缭乱的数据分析及可视化图形所迷惑,也才有能力去思考数据应用的前景与难题,去进行数据批判。人文永远是第一性的,数据只是人的行为痕迹。

广外-兰卡汉语学习者语料库的研发及其应用

徐海

广东外语外贸大学

摘要:广外-兰卡汉语学习者语料库(Guangwai-Lancaster Chinese Learner Corpus)是目前所知第一个公开的、语料相对平衡的汉语学习者语料库。该语料库规模接近130万词次,语料在语体、二语任务、母语背景、二语水平、性别等方面具有平衡性和代表性特点。该语料库具有广泛的应用前景,可较好显示汉语第二语言学习者在字词、短语、句法、语用等层面出现的语误,揭示其汉语使用能力的发展规律,为汉语第二语言习得理论和实践相关问题提供实证支持,从而有助于提高汉语二语教学的学习效率。

当学术英语遇到自然语言处理——情感视角

雷蕾

华中科技大学

摘要:自然语言处理技术给学术英语研究带来了哪些变化?语言研究者面临哪些机遇与挑战?本发言以两项学术英语情感分析实证研究为例,讨论语言研究者如何应对大数据时代的机遇与挑战。

从经典CIA到基于EUM模型的多重比较再到语料库驱动的二语实验范式——兼谈学习者语料库语言学的研究使命与疆土开拓

陆军

扬州大学

摘要:自Granger(1998)提出中介语对比分析法(CIA)以来,基于语料库的学习者语言研究广泛开展,开发了“过少使用”、“过多使用”和“误用”等分析技术,取得学习者语言与目标语在形式、意义和功能上有较大偏离、而与母语趋于一致等重要发现,从而形成了目标语知识缺乏、母语影响显著等推测或假设。不过,基于经典CIA模型的研究似乎未能直接验证相关假设、也未能把二语形式、意义和功能的偏离整合起来讨论。为此,我们开发了基于扩展意义单位(EUM)模型的多重比较:同时包括了目标语、母语与学习者语言的多重比较,并且把各比较都置于词语搭配、类联接、语义趋向和语义韵四个共选层面开展,一定程度上实现了学习者语言的形式、意义和功能特征的深度描述以及母语影响等假设的验证,拓宽了学习者语料库应用和研究的范围。

最新文章
#### 文案生成器免费版:无需投资即可享受智能服务
在数字时代,内容创作已成为多人的日常工作之一。无论是社交媒体运营、广告文案撰写,还是网络小说创作,高效地产出优质内容都是
再看快速排序(QuickSort)
      快速排序是一个十分伟大的算法,作为再一次的学习,写一写快排以及和快排相关的问题。 1.基本的快速排序方
阿里伴侣配合阿里巴巴打造全方位线上推广
在当今竞争激烈的电商时代,企业的线上推广至关重要。阿里巴巴作为全球知名的电商平台,为众多企业提供了广阔的发展空间。而阿里
Python大数据分析&人工智能教程 - Scrapy工作原理详解与实操案例
Scrapy是一个开源的、用Python编写的高性能网络爬虫框架,用于抓取网站数据和提取结构性数据。它是基于Twisted异步网络框架构建
AI智能写作助手:一站式解决内容创作、文章润色与高效写作的全面工具
在信息爆炸的时代内容创作已经成为企业、媒体和个人展现自我、传递价值的不可或缺手。面对海量的信息与日益增强的内容品质需求高
你的站点抗压么?推荐一款超方便的开源压测工具
这里是 HelloGitHub 推出的《讲解开源项目》系列,本期介绍一款标星 17.7k 纯 Go 语言实现的 HTTP(S) 压测工具——vegetaVegeta
【系统架构设计】计算机网络
OSI/RM 结构模型 1977年,国际标准化组织为适应网络标准化发展的需求,制定了开放系统互联参考模型(Open System Interconnectio
全世界规模最大战争排名,第一名居然是清朝时期!
自打人类走上进化这条路,就想着法儿想要证明【一伙人就该被另一伙人支配】。古罗马角斗士时代一方有多大势力,就看他有多少人的
python tk随机内容生成器
MyRandom ran=new MyRandom();System.out.println(ran.nextString(1));System.out.println(ran.nextString(50, OnlyNum));System
ai自动写文章在线 在线写文章自动生成器
身为文案工作者,我深感写作之重要且充满挑战。如今,随着人工智能(AI)写作平台的出现,我的写作历程出现了巨大变革。在此,很