博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
开源中文检索软件CoreSeek之初体验
阅读量:7005 次
发布时间:2019-06-27

本文共 836 字,大约阅读时间需要 2 分钟。

  hot3.png

   国人开发的CoreSeek实际是上基于Sphinx的定制版,使用mmseg进行中文分词并实现中文搜索。

    官网提供了详细的安装说明和的rpm安装包,由于笔者需要在CentOS 6 x86_64上运行,得自行打包。笔者已完成源码包的封装: 、 。

    相对,CoreSeek需要安装中文分词库mmseg。测试方法就是在示例数据库里插入一些中文字符串:

    然后重建索引就可以自动分词,并查询中文了:

    特别需要注意的就是,要统一字符编码。笔者统一使用UTF-8,示例MySQL数据库对应表的属性是:

CREATE TABLE `documents` (

  `id` int(11) NOT NULL AUTO_INCREMENT,
  `group_id` int(11) NOT NULL,
  `group_id2` int(11) NOT NULL,
  `date_added` datetime NOT NULL,
  `title` varchar(255) COLLATE utf8_unicode_ci NOT NULL,
  `content` text COLLATE utf8_unicode_ci NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=14 DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci

 

    另外就是CoreSeek的配置文件中需要指定字符集,详细配置请解开查看详细。笔者编译过程开启了对unixodbc、mmseg、mysql和python的支持:

    并打包了php的api库、日志分割以及系统服务:

   需要中文分词搜索的,用CoreSeek真是扛扛的!唯一美中不足的就是内置的Sphinx版本还比较老旧,对新功能的支持可能没那么好。需要大家大力支持,促进国人软件的发展!

转载于:https://my.oschina.net/kisops/blog/152190

你可能感兴趣的文章
Ubuntu下安装 jdk6
查看>>
poj 1733(带权并查集+离散化)
查看>>
利用curl抓取远程页面内容
查看>>
Oracle中查询表字段基本信息、主键、外键(整理)
查看>>
grunt安装_
查看>>
RavenDb学习(一)设计模式介绍
查看>>
Android 2.3 不支持印度文
查看>>
SQL server 分页方法小结
查看>>
C#多线程应用:子线程更新主窗体控件的值(二)
查看>>
[LeetCode] Median of Two Sorted Arrays
查看>>
2000年互联网泡沫
查看>>
解决Tomcat 6.0 只支持 J2EE 1.2, 1.3, 1.4, and Java EE 5 Web modules
查看>>
C#模板引擎 DotLiquid
查看>>
libSVM介绍(二)
查看>>
Java Resource路径小结
查看>>
UITabBarController
查看>>
[Aaronyang] 写给自己的WPF4.5 笔记16[多线程]
查看>>
如果将一维数组编程一个字符串
查看>>
codeforces B. Ohana Cleans Up
查看>>
PHP 对象 “==” 与 “===”
查看>>