SRILM初体验

  |   0 评论   |   223 浏览

背景

初体验

环境准备

下载

打开官方下载页面,填写信息,然后下载源代码。

我这里下载的版本为:srilm-1.7.2.tar.gz,大小为63MB,md5值为b8d2be62b128de012d7a732cda679b22

编译

根据INSTALL文档,简述如下:

  1. 修改Makefile文件
SRILM=自己的实际路径
  1. 编译
make World

结果保存在以下目录中

        bin/
        lib/
        include/

测试

make test

部分结果

*** Running test adapt-marginals ***

real	0m4.923s
user	0m4.823s
sys	0m0.079s
adapt-marginals: stdout output IDENTICAL.
adapt-marginals: stderr output IDENTICAL.

使用

这里使用了 ptb数据集。

从语料中生成n-gram计数文件

ngram-count -read count.txt -order 3 -lm test.lm -interpolate -kndiscount

结果

count.txt

从n-gram计数文件中生成语言模型

ngram-count -read count.txt -order 3 -lm test.lm -interpolate -kndiscount

结果

test.lm

从语言模型计算测试集的困惑度

$ ngram -ppl data/ptb.test.txt -order 3 -lm test.lm

结果

file data/ptb.test.txt: 3761 sentences, 78669 words, 4794 OOVs
0 zeroprobs, logprob= -173834.8 ppl= 173.4205 ppl1= 225.4726

参考

评论

发表评论

validate