• TextMatrix
    http://code.google.com/p/textmatrix/
    TextMatrix是基于标准C++开发的一个跨平台(Windows,Linux)的用于文本分类或挖掘的开源项目。最早开始于2006年底,是我在学习C++的过程中逐渐开发的。
    可以同时处理中英文文本(目前支持的中文文本编码格式是GB2312,GBK),具有中文分词,英文Stemming,停用词滤除,抽取基于字或词的Ngram特征,生成基于SuffixTree的KeySub...