利用srilm构建大语言模型

  原理上,语言模型模型越大,机器翻译质量越好,但是当语言模型的训练集非常大时,例如GB级别的时候,受限于时间和机器的内存等因素,传统的ngram-count训练方式无法满足实际需要,因此srilm的FAQ中提到了训练语言模型的方法,基本思想就是将大文件拆分成多个小文件,然后再将多个小文件的coun[……]

阅读全文

Ubuntu 11.04 32位系统下 SRILM 的配置详解

首先,安装依赖的软件包:

  1.C/C++ compiler:编译器gcc 3.4.3及以上版本,本机实验环境为gcc 4.5.2

  2.GNU make:构建和管理工程的工具,解释Makefile里的指令,描述了整个工程所有文件的编译顺序和编译规则。这里是为了控制 SRILM 的编译和安装

 [……]

阅读全文

统计机器翻译开源软件介绍

1.第一个开源的统计机器翻译工具包——Egypt

  Egypt 是在 1999 年约翰霍普金斯大学统计机器翻译夏季讨论班上,由一些研究人员共同合作开发的统计机器翻译工具包。它包括 4 个模块:

  Whittle: 语料库预处理模块;

  GI[……]

阅读全文

如何运行Moses

1. Moses的历史

  Moses是Pharaoh的升级版本,增加了许多功能。它是一个基于短语的统计机器翻译系统,整个系统用C++语言写成,从训练到解码完全开放源代码,可以运行在Linux平台和Windows平台。它有两大特点:

  1.1 Factored Transla[……]

阅读全文