国内可外用免费语料库下载资源汇总, 语言翻译必备：国内外23个语料库推荐

Posted 2020-10-08

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了国内可外用免费语料库下载资源汇总, 语言翻译必备：国内外23个语料库推荐相关的知识，希望对你有一定的参考价值。

国内可外用免费语料库下载资源汇总

(一) 国家语委
1.国家语委现代汉语语料库http://www.cncorpus.org/
现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快，功能更强，同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字，为分词和词性标注语料。

2.古代汉语语料库http://www.cncorpus.org/login.aspx
网站现在还增加了一亿字的古代汉语生语料，研究古代汉语的也可以去查询和下载。同时，还提供了分词、词性标注软件、词频统计、字频统计软件，基于国家语委语料库的字频词频统计结果和发布的词表等，以供学习研究语言文字的老师同学使用。

(二) 北京大学计算语言学研究所
《人民日报》标注语料库http://www.icl.pku.edu.cn/icl_res/
《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布，供自由下载。

(三) 北京语言大学
汉语国际教育技术研发中心：HSK动态作文语料库http://202.112.195.192:8060/hsk/login.asp
语言研究所：北京口语语料查询系统（B J K Y）http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

（四）台湾中央研究院
中研院语料库ＷＷＷ版所有功能均开放使用，但为防主机资源耗用过剧及顾及数据传输之实际限制，暂以检索结果为限制的条件：院内检索限两万行数据，院外检索限两千行数据。

1.现代汉语平衡语料库http://www.sinica.edu.tw/SinicaCorpus/
专门针对语言分析而设计的，每个文句都依词断开，并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上，是现代汉语无穷多的语句中一个代表性的样本。现有语料库主要针对语言分析而设计，由中央研究院信息所、语言所词库小组完成，内含有简介、使用说明，现行的语料库是4.0的版本。

2.古汉语语料库http://www.sinica.edu.tw/ftms-bin/ftmsw
古汉语语料库包含以下五个语料库: 上古汉语、中古汉语(含大藏经)、近代汉语、其他、出土文献。部分数据取自史语所汉籍全文数据库，故两者间略有重迭。此语料库之出土文献语料库，全部取自史语所汉简小组所制作的数据库。

3.近代汉语标记语料库http://www.sinica.edu.tw/Early_Mandarin/
为应汉语史研究需求而建构的语料库。目前素语料库所搜集的语料已含盖上古汉语（先秦至西汉）、中古汉语（东汉魏晋南北朝）、近代汉语（唐五代以后）大部分的重要语料，并己陆续开放使用；在标记语料库方面，上古汉语及近代汉语都已有部分语料完成标注的工作，并视结果逐步提供上线检索。

4.树图数据库http://treebank.sinica.edu.tw/
「中文句結構樹資料庫」(Sinica Treebank Version 3.0) 包含了6個檔案，61,087個中文樹圖，361,834個詞，是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中抽取句子，經由電腦剖析成結構樹，並加以人工修正、檢驗後所得的成果。在中文句結構樹中，我們標示了中文句語意和語法的訊息。此一「中文句結構樹資料庫」目前開放網上檢索及資料移轉，以供學者專家在中文句法、語意關係研究參考之用。另有1000個句結構樹開放下載。

5.中英双语知识本体词网http://bow.sinica.edu.tw/
结合词网，知识本体，与领域标记的词汇知识库。

6.搜文解字http://words.sinica.edu.tw/
包含「搜词寻字」、「文学之美」、「游戏解惑」、「古文字的世界」四个单元，可由部件、部首、字、音、词互查，并可查询在四书、老、庄、唐诗中的出处，及直接连结到出处，阅读原文。

7.文国寻宝记http://www.sinica.edu.tw/wen/
在搜文解字的基础之上，以华语文学习者为对象，进一步将字、词、音的检索功能与国编、华康、南一等三种版本的国小国语课本结合，与唐诗三百首、宋词三百首、红楼梦、水浒传等文学典籍结合，提供网络上国语文学习的素材。

8.唐诗三百首http://cls.admin.yzu.edu.tw/300/
以国中、小学学生为主要使用对象，提供吟唱、绘画、书法等多媒体数据，文字数据报含作者生平、读音标注、翻译、批注、评注、典故出处等资料；检索点包含作者、诗题、诗句、综合资料、体裁分类等；检索结果可以列出全文，并选择标示相关之文字及多媒体数据。并提供了一套可以自动检查格律、韵脚、批改的「依韵入诗格律自动检测索引教学系统」，协助孩子们依韵作诗，协助教师批改习作。

9.汉籍电子文献http://www.sinica.edu.tw/~tdbproj/handy1/
包含整部25史整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。

10.红楼梦网络教学研究数据中心http://cls.hs.yzu.edu.tw/HLM/home.htm
元智大学中国文学网络系统研究室所开发的「网络展书读—中国文学网络系统」，为研究中心负责人罗凤珠老师主持，红楼梦是其中一个子系统，其他还包括善本书、诗经、唐宋诗词、作诗填词等子系统。此网站为国内Internet最大中国文学研究数据库，提供用户最完整的中国文学研究数据。

（五）中国传媒大学
1.中国传媒大学文本语料库检索系统
http://ling.cuc.edu.cn/RawPub/
2.在线分词标注系统
http://ling.cuc.edu.cn/cucseg/
3.新词语研究资源库
http://ling.cuc.edu.cn/newword/web/index.asp
4.音视频语料检索系统
http://ling.cuc.edu.cn/mmcpub（目前系统正在升级改造中）

（六）哈尔滨工业大学
哈工大信息检索研究室对外共享语料库资源http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
该语料库为汉英双语语料库，10万对齐双语句对，文本文件格式，同义词词林扩展版，77,343条词语，秉承《同义词词林》的编撰风格，同时采用五级编码体系，多文档自动文摘语料库，40个主题，文本文件格式，同一主题下是同一事件的不同报道，汉语依存树库，不带关系5万句，带关系1万句，LTML化，分词、词性、句法部分人工标注，可以图形化查看，问答系统问题集，6264句，已标注问题类型，LTML化，分词、词性、句法、词义、浅层语义等程序处理得到，单文档自动文摘语料库，211篇，分不同体裁，LTML化，文摘句标注，分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序处理得到。

（七）清华大学
汉语均衡语料库TH-ACorpus：http://www.lits.tsinghua.edu.cn/ainlp/source.htm（似乎在改版，一直上不去）

（八）香港教育学院
语言资讯科学中心及其语料库实验室http://www.livac.org/index.php?lang=sc
自1995年开始，以「共时」方式处理了超常的大量汉语语料，通过精密的技术，累积众多精确的统计数据，建立了LIVAC (Linguistic Variation in Chinese Speech Communities)共时语料库。本语料库最大特点是采用「共时性」视窗模式，严谨地定时分别收集来自多地的定量同类语料，可供各种客观的比较研究，方便有关的信息科技发展与应用。此外，语料库又兼顾了「历时性」，方便各方人士客观地观察与研究视窗内的有代表性的语言发展全面动态。

（九）中国科学院计算技术研究所
跨语言语料库http://mtgroup.ict.ac.cn/new/resource/index.php（目前不可用，不知道是否在升级）
目前的双语句对数据库中有约180,000对已对齐的中英文句子。本数据库支持简单的中英文查询服务。查询结果包括句对编号、中文句子、英文句子、句对来源。

（十）中文语言资源联盟
中文语言资源联盟http://www.chineseldc.org/
(Chinese Linguistic Data Consortium,简称ChineseLDC)的建立。ChineseLDC是吸收国内高等院校,科研机构和公司参加的开放式语言资源联盟。其目的是建成能代表当今中文信息处理水平的,通用的中文语言信息知识库。ChineseLDC 将建设和收集中文信息处理所需要的各种语言资源,包括词典,语料库,数据,工具等。在建立和收集语言资源的基础上,分发资源,促成统一的标准和规范,推荐给用户,并且针对中文信息处理领域的关键技术建立评测机制,为中文信息处理的基础研究和应用开发提供支持。（之所以排名这么后，是因为是国家出钱的项目，却没有什么免费资源。）

国外语料库资源（链接皆可用，内有语料库简介）

1. 杨百翰大学

杨百翰大学语料库http://view.byu.edu/杨百翰大学的Mark Davies教授开发的语料库统一检索平台，整合了美国当代英语语料库、美国历史英语语料库、美国时代杂志语料库、BNC、西班牙语料库、葡萄牙语料库等6个语料库的资源。该网站每月有60,000人的使用量，也许是目前最广泛使用的网络语料库。

2. 联合国官方资料库
联合国文件数据库（提供80万份六种语言平行文档）http://documents.un.org/simple.asp
本文件系统包括了1993年以来联合国印发的所有正式文件。不过，联合国的早期文件也逐日添加到本系统。本文件系统也提供从1946年以来联合国大会、安全理事会、经济及社会理事会和托管理事会通过的所有决议。本系统不提供新闻稿、联合国出版物、联合国条约汇编或新闻部印发的新闻材料。由日本捐赠的3万多份数字化文件已被增添进正式文件系统。

3. 兰开斯特大学
兰开斯特汉语语料库 (LCMC) http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474
应学术界对免费对公众开放的平衡的现代汉语语料库的需求的情况下筹建的。 LCMC 语料库是由兰开斯特大学语言学系承担的并得到英国经社研究委员会资助（项目代号：RES-000-220135）的研究项目。 LCMC语料库是与 Freiburg-LOB Corpus of British English (即FLOB)平行对应的汉语语料库，它有助于我们从事汉语的单语和英汉双语的对比研究。通过该网址可以免费索取LCMC预料用于研究之用。http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474

4. 语言开放典藏社群（OLAC）
OLAC（Open Language Archives Community）http://search.language-archives.org/index.html语言开放典藏社群是由个人或组织所组成的国际性合作协会。许多种类的协会需要语言资源，如：语言学家、工程师、教师、演说家，也有许多机构提供片段性的架构，如：文件管理器、软件开发者和出版者。理论上，用户希望透过单一接口便可以取得任何需要的资源，其中资源种类涵盖：①资料（Data）：任何描述语言的相关信息；②工具（Tool）：有助于创造、浏览、查询或使用语言数据的计算器资源；③建议（Advice）：譬如，告知使用者什么资源具有高可靠度？在此情境中哪一种工具适合采用？当新的数据衍生出时该如何创造？但实际上，却有着语言资源散布在不同的网站、使用者无法得到想要的资源、语言资源在不同网站拥有不同名字（Name）造成召回率(recallrate)低，在其他领域有相同意义，造成正确率低（precision rate）、许多语言资源并非以文字为基础、不确定是否有建议适当软件，以及所提出的建议是否中肯…等问题。OLAC由此诞生。藉由下列步骤进行创造世界性语言资源的虚拟图书馆：针对语言资源数字典藏发展一致性的实践指引；发展网络上具有互操作性且提供存取相关语言资源的储存器（Repositories）和服务中心。简介可以参看http://140.109.18.114/blog/?p=1049

5. SKETCHENGINE多语言语料库
www.sketchengine.co.uk
每个邮箱可以注册一次，免费期是一个月，免费期过了就再注册一个邮箱，再注册一次。其中汉语语料库是没有加工的生语料库，使用价值不大。关键是其中的英语语料库实际上是原来要付费才能使用的BNC，可以好好利用。

6. COCA———美国当代英语语料库(Corpus of Contemporary A2merican English)
http://www.americancorpus.org/
由美国B righam Young University的M ark Davies教授开发的高达3.6亿词汇的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。与其它语料库不同的是它是免费在线供大家使用,给全世界英语学习者带来了福音,是不可多得的一个英语学习宝库,也是观察美国英语使用和变化的一个绝佳窗口。

国内外语料库建设一览

北京大学语言信息工程系捷译双语语料库Web对齐工具（自动+手动）开放注册
访问地址在 http://aligner.pkucat.com
文档：http://aligner.pkucat.net/doc/html/
如果有需要者可以给 [email protected] 老师写信申请，说明身份和理由即可。
http://bbs.pkucat.com/modcp.php?action=moderate&op=members

已证实可用的英汉平行语料库(部分)

--TEC
http://www.umist.ac.uk/ctis/research/research-overview.htm
翻译语料库方面则以英国曼彻斯特大学科技学院(UMIST) 翻译研究中心1995年创建的世界上第一个翻译语料库( Translational EnglishCorpus , TEC) 最为著名。该语料库主要收集从各国语言翻译成英语的文本,目前已有上千万词的语料(目标是5 千万词) ,分小说(约占80 %) 传记、报纸和期刊4 个子库。它并不要求必须双语对齐。
该库不仅对语料进行了附码标注,还带有许多超语言信息的标注,如对译者情况(包括译者姓名、性别、民族、职业、翻译方向等) 、翻译方式、翻译类型、源语、原书情况、出版社等等均一一予以标注。

--北大双语语料库
北大计算语言学研究所的双语语料库，英汉对齐的句子已有5万多对，并开发了相应的对齐工具和双语语料库管理软件。正在此基础上做汉英对照短语库，预计规模将达数十万条。

--中英双语在线（CEO）测试开通
网址为 http://www.fleric.org.cn/ceo/

--紅樓夢漢英平行語料庫
http://score.crpp.nie.edu.sg/hlm/index.htm

-- The Babel English-Chinese Parallel Corpus
http://www.lancs.ac.uk/fass/projects...abel/babel.htm

The Babel English-Chinese Parallel Corpus,which was created on our research project Contrasting English and Chinese (ESRC Award Reference RES-000-23-0553),consists of 327 English articles and their translations in Mandarin Chinese. Of these 115 texts (121,493 English tokens plus 135,493 Chinese tokens) were collected from the World of English between October 2000 and February 2001 while the remaining 212 texts (132,140 English tokens plus 151,969 Chinese tokens) were collected from Time from September 2000 to January 2001. The corpus contains a total of 544,095 words (253,633 English words and 287,462 Chinese tokens). Here is a list of the titles of the articles included in the corpus.

The corpus is tagged for part of speech and aligned at the sentence level. The English texts were tagged using the CLAWS C7 tagset while Chinese texts were tagged using the Peking University tagset. Sentence alignment was done automatically and corrected by hand. The corpus is also marked for paragraph and sentence. But different markup systems were adopted for the two subcorpora. For the component of the World of English, sentences were marked consecutively throughout whereas for Time, sentences were marked within each paragraph.

The Babel parallel corpus can be accessed via the ParaConc Web or mysql interface (both hosted at The Institute of Education, Singapore). Users can search in either English or Chinese texts. The concordancer returns matched whole sentences and their translations as well as the their locations. At the bottom of the resulting concordance page is a query report that indicate the query strings and distribution of matches. Users can also specify the format the output concordances as POS-tagged or plain texts.

--上海交通大学语言工程研究所目前有JDEST,LOB,BROWN,CLEC四个语料库共计700万词可供网上检索, 并可以对检索和统计数据结果下载.
http://corpus.sjtu.edu.cn/WebCast/

--The Translational English Corpus (TEC)
http://www.llc.manchester.ac.uk/ctis/research/english-corpus/
http://ronaldo.cs.tcd.ie/tec/jnlp/

--English Chinese Parallel Concordancer (E-C Concord)
The Hong Kong Institute of Education.
Project leader: Dr. Wang Lixun. Program designers: Chris Greaves, Wang Lixun
http://ec-concord.ied.edu.hk/paraconc/index.htm

--Academia Sinica Balanced Corpus of Modern Chinese 中央研究院现代汉语平衡语料库
http://www.sinica.edu.tw/SinicaCorpus/

--Lancaster Corpus of Mandarin Chinese
http://bowland-files.lancs.ac.uk/cor...gi-bin/conc.pl
may be changed to
http://www.lancs.ac.uk/fass/projects/corpus/LCMC/

--People‘s Daily 2000 corpus
some related information here
http://www.lancs.ac.uk/fass/projects/corpus/pdc2000/default.htm
--A Parallel Corpus of Chinese Legal Texts 中國法律文件漢英平行語料庫
http://score.crpp.nie.edu.sg/law/index.htm

--语料库语言学与英语教育教学。华南师范大学外国语言文化学院语料库语言学研究室
http://sfs.scnu.edu.cn/corpus4u/default.aspx

语料库工具

http://www.fleric.org.cn/crg/tools.htm 北外语料库语言学沙龙
Beiwai Corpus Research Group (CRG)

Corpus tools developed by group members
Chi-square and loglikelihood Calculator, （卡方检验和对数似然率计算工具）
TreeTagger for Windows, （语料库词性标注工具TreeTagger的Windows界面）
Colligator 1.0 & 2.0, （语料库类联接分析工具）
PatternBuilder 1.0, （赋码语料库检索辅助工具）
The Edinburgh Associative Thesaurus (EAT) for Windows，（爱丁堡联想词库Windows查询工具）
Wordlist Tools 1.0 Beta，（词表分析工具）
My Good Old Blackboard，（我的电子黑板）
BFSU Stanford Parser 1.0，（英文自动句法分析工具）。
BFSU Stanford POS Tagger 1.0，（英文自动词性赋码工具）。
BFSU Sentence Collector 1.0，（例句提取工具）。
BFSU NewWord Marker 1.0，（生词标注工具）。
BFSU Sentence Segmenter 1.0，（英文自动分句工具）。
Web Colligator。
Collocator 1.0: A collocation extraction tool，（搭配分析工具）。
Log-likelihood ratio calculator，（对数似然率计算器）。
Readability Analyzer 1.0 ，（英文文本可读性分析工具）。

Other free corpus tools
AntConc: A free concordancer（跟WordSmith主要功能接近的语料库索引工具）
Range: Vocabulary coverage tools（基于底表的分级词汇测量工具）

语料库检索软件Paraconc 和Multiconcord：

Paraconc由Barlow制作（该软件的演示版可在网上下载），该软件的特点是可以进行多达四种语言的同时检索，或者是一个原文的三个译本的检索。这一软件的特点是可以灵活定义语言、索引行的大小、标注符号的隐显，而且支持通配符检索。

Multiconcord也是一个在Windows窗口下运行的软件。这种软件和Paraconc在检索功能上相似，但检索结果在呈现方式上不同。另外，Paraconc可以检索纯文本格式的文件；Multiconcord 则需要一个Minimark 程序来最低程度地标记文本，如< p > (段落) 和< s > （句子）。

【新书推介】《语料库与翻译》

Original 2017-04-06 管新潮陶友兰当代外语研究

技术分享

语料库与翻译

技术分享

管新潮陶友兰著

（复旦大学出版社，2017）

第1章绪论

1.1 语料库的起源与发展

1.1.1 语料库的定义

1.1.2代表性语料库及其特征

1.2 语料库的类型

1.2.1 单语与双语（多语）类型

1.2.2 平行与可比类型

1.2.3 通用与专用类型

1.2.4 单向与双向（多向）类型

1.2.5 小结

1.3 语料库语言学与翻译学

1.3.1 语料库语言学

1.3.2 语料库翻译学

1.4 本书概要

本章亮点：

l 对具有代表性的18种语料库进行了概述

l 对各种语料库类型的定义与作用进行了说明

l 对语料库语言学和语料库翻译学进行了实用性介绍

第2章语料库技术和翻译技术

2.1 引言

2.2 语料库技术

2.2.1 语料格式转换工具

2.2.2 语料降噪工具

2.2.3 语料对齐工具

2.2.4 语料库检索和分析工具

2.2.5 问题与展望

2.3 翻译技术

2.3.1 文档管理类工具

2.3.2 源文准备类工具

2.3.3 译文处理类工具

2.3.4 翻译管理类工具

2.3.5 语料管理类工具

2.3.6 本地化工具

2.3.7 问题与展望

本章亮点：

l 实例介绍如何针对不同的PDF文档利用不同的转换工具，达到最佳效果

l 举例说明如何使用最强降噪工具WORD软件

l 系统介绍语料对齐工具、原则、效果与检索和应用

l 详细描述系统的翻译技术需要用到的六大类工具：

文档管理类工具——内容管理系统、撰写系统、桌面排版系统

源文准备类工具——文字处理软件、语音识别软件

译文处理类工具——计算机辅助翻译、机器翻译、校订工具

翻译管理类工具——翻译管理系统、质量保证工具、项目管理软件

语料管理类工具——翻译记忆工具、术语管理工具

第3章语料库创建流程

3.1 引言

3.2 语料库的设计

3.3 语料采集和降噪

3.3.1 语料采集

3.3.2 语料降噪

3.4 语料对齐及其保存格式

3.4.1 语料对齐

3.4.2 语料对齐保存格式

3.5 语料库应用

3.5.1 案例1：计算机辅助翻译项目应用

3.5.2 案例2：以组合语料库训练翻译能力

3.5.3 案例3：某大型客车制造企业的语料质量提升

3.5.4 案例4：对法律法规术语外译的建议

3.5.5 案例5：语料库证据在美国的法庭应用

3.5.6 案例6：两岸三地英汉科普历时平行语料库

3.5.7 案例7：德汉《资本论》双语平行语料库

本章亮点：

l 介绍语料库设计需要关注的设计参数

l 讲述语料选择原则与操作标准、库容规模、文件名命名等细节

l 提出如何给语料降噪，如何进行语料对齐操作以及保存格式、格式互换等，有些是作者个人实践心得，具体说明创建过程中遇到的不同问题以及解决方案

l 列举了具有代表性的七个语料库案例，说明如何在翻译实践中利用语料库提升翻译效果和质量，如以组合语料库训练翻译能力、语料库证据的法庭应用等

第4章语料库质量

4.1 引言

4.2 语料库质量的多维性

4.2.1 语料库的设计质量

4.2.2 语料的翻译质量

4.2.3 语料的采集与降噪质量

4.2.4 平行语料库的对齐质量

4.2.5 应用于具体项目的语料组合质量

4.3 源自于翻译实践的语料库质量

4.3.1 相关标准的翻译流程设置

4.3.2 质量保证理念与工具

4.3.3 句对库中的高质量句对

4.4 应用于译学研究的语料库质量

本章亮点：

l 首次对语料库质量进行了多维性描述，包括语料库的设计质量、语料的翻译质量、语料的采集与降噪质量、平行语料库的对齐质量、语料组合质量

l 分析了源自于翻译实践的语料库质量存在的一些问题，并提出相应对策

l 根据译文错误类型与翻译质量关系模型，尝试提出翻译质量评估建模

l 提出专门的质量保证理念来解决翻译质量问题

第5章语料库与翻译实践

5.1 引言

5.1.1 计算机辅助翻译的特点

5.1.2 计算机辅助翻译的分类

5.2 语料库与记忆库

5.2.1 语料库与记忆库的区别

5.2.2 记忆库的创建与维护

5.2.3 记忆库的匹配

5.2.4 记忆库的更新与组合

5.2.5 记忆库的其他作用

5.3 翻译项目中语料库的使用

5.3.1 双语平行语料库的翻译应用

5.3.2 可比语料库的翻译应用

5.3.3 单语语料库的翻译应用

5.4 双语平行语料库数据挖掘

5.4.1 专业通用词概念

5.4.2 法律双语平行语料库的数据挖掘

5.4.3 医学双语平行语料库的数据挖掘

5.5 译入非母语时的语料库作用

5.5.1 汉译外现状

5.5.2 语料库的应用

5.6 大规模句对库与机器翻译

5.6.1 句对库的定义和质量

5.6.2 计算机辅助翻译与机器翻译的结合

本章亮点：

l 区别语料库和记忆库之间的关系，论述记忆库的创建、维护、匹配、更新、组合等概念与功能

l 实例演示如何在翻译项目中使用双语平行语料库、可比语料库或单语语料库

l 论述一种最大提升翻译实践成效的创新方法：从双语平行语料库（如医学、法律）中挖掘出特定领域专属的专业通用词，实践证明效果显著

l 阐述如何确保句对库的质量，如何将所获取的句对归入相关的领域，如何以高质量的句对来实现机器翻译

第6章语料库与翻译教学

6.1 引言

6.2 基于语料库的翻译教学实践

6.2.1 使用语料库自主学习

6.2.2 创建学习者语料库

6.2.3 学生自建英汉平行语料库

6.3 语料库与翻译教材编写

6.3.1 实现翻译教材具体内容和相关语料库链接

6.3.2 确定语料难易程度

6.3.3 以真实语料编写翻译例句并提供多种译文范例

6.4 翻译教学语料库平台设计与构想

本章亮点：

l 教会学生如何使用语料库进行自主学习

l 教会学生如何创建学习者语料库、英汉平行语料库

l 引导教师利用语料库编写翻译教材

l 设计与构想一体化翻译教学语料库平台

附录

汉英双语对照术语表

本书特点

提笔写作本书的目的在于对自己20多年来从事翻译实践经验的总结，具体说是对翻译实践与翻译技术、语料库、翻译教学等相结合的实践经验的总结，期望能够通过经验总结进而在翻译实践理论上有所长进。文中所呈现的经总结归纳后的文字表述定能对翻译实践和MTI教学实践有所帮助。本人自认为本书已经具备了以下三大特点：

l 对翻译实践的可应用性；

l 对MTI教学的可适应性；

l 对翻译理论的可拓展性。

第一，对翻译实践的可应用性。本书所呈现的知识均以本人多年来所做的大量翻译实践为依据，可以说有近80%的内容是完全依赖于经验的总结、归纳、提炼和升华。这是可应用性特点的一种面向翻译实践的体现。另一体现是将经过总结、归纳、提炼和升华后的文字表述交由业界专家审定，确认其对具体翻译实践具有指导意义后才予以定稿。本书对翻译实践的可应用性还体现在散落于书中不同章节的各种有关翻译或语料库技术应用的“小技巧”。

第二，对MTI教学的可适应性。MTI教学中的计算机辅助翻译是翻译技术的一部分或其中的一个环节，其并不能代表整个翻译技术。因而，翻译技术的MTI教学有其复杂性，即如何将不同的翻译技术知识揉合在一起并有效地传授给学生，以及如何教会学生以习得的翻译技术知识去解决实际应用问题。因为技术在不断更新和进步，而且更新和进步的速度在不断加快，现有的技术可能会在若干年后不见其踪影。由此可见，翻译技术或语料库技术教学的关键并不在于教会某项技术，而是如何使学生习得应用技术去解决问题的能力。

第三，对翻译理论的可拓展性。一种理论的产生在其初始阶段必然是进行实验，然后是总结归纳，最后才上升为理论层面。翻译技术理论的产生也不例外。翻译技术有多面内容可供学术研究，如人机互动翻译的边界研究、技术环境下的翻译策略、技术背景下的译者行为研究、企业翻译研究，等等。

作者简介

管新潮，职业译者，长期从事德英汉翻译实践，至今已累计翻译和审校德英汉字数达3000万（包括审校）；主要翻译领域涉及海洋工程与船舶制造（英语）、医学（英语）、法律（德语）、机电（德语）等；建有各类相关语料库，如英汉医学平行语料、英汉海洋工程平行语料库、英汉法律平行语料库、德汉合同文本平行语料库、马克思《资本论》德汉平行语料库（百年）等。曾经或正在为国际知名企业提供语言服务解决方案，如德国劳氏船级社、挪威船级社、艾斯维尔出版社和施普林格出版社、华为技术公司、毕马威咨询公司等。现任上海交通大学外国语学院MTI导师。

语言翻译必备：国内外23个语料库推荐

2016-10-29 译匠

语料库通常指为语言研究收集的、用电子形式保存的语言材料，由自然出现的书面语或口语的样本汇集而成，用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。下面推荐一些优质的语料库资源。

国内语料库资源

1. 国家语委现代汉语语料库

　http://www.cncorpus.org

　现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快，功能更强，同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字，为分词和词性标注语料。

2. 国家语委古代汉语语料库

　http://www.cncorpus.org/login.aspx

　网站现在还增加了一亿字的古代汉语生语料，研究古代汉语的也可以去查询和下载。同时，还提供了分词、词性标注软件、词频统计、字频统计软件，基于国家语委语料库的字频词频统计结果和发布的词表等，以供学习研究语言文字的老师同学使用。

3. 北京大学“《人民日报》标注语料库”

　http://www.icl.pku.edu.cn/icl_res

4. 北大语料库——北京大学中国语言学研究中心

　http://ccl.pku.edu.cn/corpus.asp

　北大语料库由“现代汉语语料库”、“古代汉语语料库”、“汉英双语语料库”三个语料库组成。其中，北大计算语言学研究所的双语语料库，英汉对齐的句子已有5万多对，并开发了相应的对齐工具和双语语料库管理软件。正在此基础上做汉英对照短语库，预计规模将达数十万条。（汉英双语语料库目前仅对北大校内用户开放）

5. 北京语言大学高翻学院的“高翻记忆库”

　http://stitm.blcu.edu.cn

6. 清华大学汉语均衡语料库TH-ACorpus

　http://www.lits.tsinghua.edu.cn/ainlp/source.htm

7. 中央研究院“现代汉语平衡语料库”

　http://www.sinica.edu.tw/SinicaCorpus

　专门针对语言分析而设计的，每个文句都依词断开，并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上，是现代汉语无穷多的语句中一个代表性的样本。现有语料库主要针对语言分析而设计，由中央研究院信息所、语言所词库小组完成，内含有简介、使用说明，现行的语料库是4.0的版本。

8. 中央研究院“近代汉语标记语料库”

　http://app.sinica.edu.tw/kiwi/pkiwi/index.html

9. 中央研究院汉籍电子文献（瀚典全文检索系统）

　http://hanji.sinica.edu.tw

　包含整部25史整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。

10. 红楼梦网络教学研究资料中心

　　http://cls.hs.yzu.edu.tw/HLM/home.htm

　　元智大学中国文学网络系统研究室所开发的“网络展书读—中国文学网络系统”，为研究中心负责人罗凤珠老师主持，红楼梦是其中一个子系统，其他还包括善本书、诗经、唐宋诗词、作诗填词等子系统。此网站为国内Internet最大中国文学研究数据库，提供用户最完整的中国文学研究数据。

11. 《红楼梦》汉英平行语料库

　　http://corpus.usx.edu.cn/hongloumeng/images/shiyongshuoming.htm

12. 搜文解字

　　http://words.sinica.edu.tw

　　包含“搜词寻字”、“文学之美”、“游戏解惑”、“古文字的世界”四个单元，可由部件、部首、字、音、词互查，并可查询在四书、老、庄、唐诗中的出处，及直接连结到出处，阅读原文。

13. 中国传媒大学“传媒语言语料库在线分词标注系统”

　　http://ling.cuc.edu.cn/cucseg

14. 中国传媒大学“媒体语言语料库（MLC）”

　　http://ling.cuc.edu.cn/RawPub

15. 哈工大信息检索研究室对外共享语料库资源

　　http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm

　　该语料库为汉英双语语料库，10万对齐双语句对，同义词词林扩展版。77,343条词语，秉承《同义词词林》的编撰风格，同时采用五级编码体系，多文档自动文摘语料库。40个主题，同一主题下是同一事件的不同报道。汉语依存树库，不带关系5万句，带关系1万句，LTML化，分词、词性、句法部分人工标注，可以图形化查看。问答系统问题集，6264句，已标注问题类型，LTML化，分词、词性、句法、词义、浅层语义等程序处理得到。单文档自动文摘语料库，211篇，分不同体裁，LTML化，文摘句标注，分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序处理得到。

16. 香港教育学院“LIVAC汉语共时语料库”

　　http://www.livac.org/index.php?lang=sc

　　自1995年开始，以“共时”方式处理了超常的大量汉语语料，通过精密的技术，累积众多精确的统计数据，建立了LIVAC（Linguistic Variation in Chinese Speech Communities）共时语料库。本语料库最大特点是采用“共时性”视窗模式，严谨地定时分别收集来自多地的定量同类语料，可供各种客观的比较研究，方便有关的信息科技发展与应用。此外，语料库又兼顾了“历时性”，方便各方人士客观地观察与研究视窗内的有代表性的语言发展全面动态。

17. 中文语言资源联盟

　　http://www.chineseldc.org

　　Chinese Linguistic Data Consortium（简称ChineseLDC）是吸收国内高等院校,科研机构和公司参加的开放式语言资源联盟。其目的是建成能代表当今中文信息处理水平的，通用的中文语言信息知识库。ChineseLDC将建设和收集中文信息处理所需要的各种语言资源，包括词典、语料库、数据、工具等。在建立和收集语言资源的基础上，分发资源，促成统一的标准和规范，推荐给用户，并且针对中文信息处理领域的关键技术建立评测机制，为中文信息处理的基础研究和应用开发提供支持。（之所以排名这么后，是因为是国家出钱的项目，却没有什么免费资源。）

技术分享

国外语料库资源

1. 杨百翰大学语料库

　http://view.byu.edu

　杨百翰大学的Mark Davies教授开发的语料库统一检索平台，整合了美国当代英语语料库、美国历史英语语料库、美国时代杂志语料库、BNC、西班牙语料库、葡萄牙语料库等6个语料库的资源。该网站每月有60,000人的使用量，也许是目前最广泛使用的网络语料库。

2. 联合国文件数据库

　http://documents.un.org/simple.asp

　本文件系统包括了1993年以来联合国印发的所有正式文件。不过，联合国的早期文件也逐日添加到本系统。本文件系统也提供从1946年以来联合国大会、安全理事会、经济及社会理事会和托管理事会通过的所有决议。本系统不提供新闻稿、联合国出版物、联合国条约汇编或新闻部印发的新闻材料。由日本捐赠的3万多份数字化文件已被增添进正式文件系统。

3. 兰开斯特汉语语料库（LCMC）

　http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474

　应学术界对免费对公众开放的平衡的现代汉语语料库的需求的情况下筹建的。LCMC语料库是由兰开斯特大学语言学系承担的并得到英国经社研究委员会资助（项目代号：RES-000-220135）的研究项目。 LCMC语料库是与 Freiburg-LOB Corpus of British English (即FLOB)平行对应的汉语语料库，它有助于我们从事汉语的单语和英汉双语的对比研究。通过上述网址可以免费索取LCMC预料用于研究之用。

4. 语言开放典藏社群（OLAC）

　http://search.language-archives.org/index.html

　Open Language Archives Community（OLAC），语言开放典藏社群是由个人或组织所组成的国际性合作协会。许多种类的协会需要语言资源，如：语言学家、工程师、教师、演说家，也有许多机构提供片段性的架构，如：文件管理器、软件开发者和出版者。理论上，用户希望透过单一接口便可以取得任何需要的资源，其中资源种类涵盖：①资料（Data）：任何描述语言的相关信息；②工具（Tool）：有助于创造、浏览、查询或使用语言数据的计算器资源；③建议（Advice）：譬如，告知使用者什么资源具有高可靠度？在此情境中哪一种工具适合采用？当新的数据衍生出时该如何创造？但实际上，却有着语言资源散布在不同的网站、使用者无法得到想要的资源、语言资源在不同网站拥有不同名字（Name）造成召回率（recall rate）低，在其他领域有相同意义，造成正确率低（precision rate）、许多语言资源并非以文字为基础、不确定是否有建议适当软件，以及所提出的建议是否中肯……等问题。OLAC由此诞生。

5. SKETCHENGINE多语言语料库

　http://www.sketchengine.co.uk

　每个邮箱可以注册一次，免费期是一个月，免费期过了就再注册一个邮箱，再注册一次。其中汉语语料库是没有加工的生语料库，使用价值不大。关键是其中的英语语料库实际上是原来要付费才能使用的BNC，可以好好利用。

6. 美国当代英语语料库（COCA）

　http://www.americancorpus.org

　Corpus of Contemporary American English（COCA），由美国Brigham Young University的Mark Davies教授开发的高达3.6亿词汇的美国最新当代英语语料库，是当今世界上最大的英语平衡语料库。与其它语料库不同的是它是免费在线供大家使用，给全世界英语学习者带来了福音，是不可多得的一个英语学习宝库，也是观察美国英语使用和变化的一个绝佳窗口。

以上是关于国内可外用免费语料库下载资源汇总, 语言翻译必备：国内外23个语料库推荐的主要内容，如果未能解决你的问题，请参考以下文章

清华大学刘洋--基于深度学习的机器翻译--- 低资源/多模态

做项目一定用得到的NLP资源分类版