深蓝词库转换2.0发布——支持仓颉、注音、五笔、郑码、二笔等
一、支持多种编码的Rime输入法。Rime输入法是一款跨平台的输入法框架,在Windows下叫小狼毫,Linux下叫中州韵,Mac下叫鼠须管。这个输入法框架异常强大,支持各种常用的输入法,而且还可以通过简单的配置自定义输入法。深蓝词库转换在1.9版本中增加了对Rime拼音输入法的支持,现在在2.0中进行了增强,除了拼音外,还能够导入导出五笔、注音、仓颉和其他输入法编码。例如要将一个QQ拼音的分类词库转换成Rime的五笔词库,那么在深蓝词库转换中选择qpyd格式的词库源,目标输入法选择“Rime中州韵”,系统弹出输入法类型选择窗口,在下拉框中选择“五笔”并确定:
然后单击“转换按钮”即可完成词库的转换,将转换结果保存到硬盘上。
接下来到Rime输入法中(以小狼毫为例),选择“用户词典管理”选项,打开词典管理窗口,选中左侧的wubi86,然后单击“导入文本码表”即可完成词库的导入。
用同样的方法,可以导入注音(与地球拼音使用同一个词库,terra_pinyin),仓颉(cangjie5)。当然还有明月拼音(luna_pinyin)。特别要感谢Rime输入法的作者佛振的指点,才能完成对仓颉输入法词库的生成,在仓颉输入法中对一个词进行编码相当特别,不像郑码、五笔的编码那么简单。二、支持多种编码的小小输入法。小小输入法也是Rime输入法一样是一个通用的输入法框架,可以支持多个平台(Windows、Linux等),多个输入法编码。之前1.9版已经支持小小输入法的拼音,在2.0版中进行了增强,能够支持:五笔、郑码、二笔、拼音和其他编码。比如要将一个搜狗细胞词库转换为小小输入法的郑码词库,那么可以在深蓝词库转换中选择该scel细胞词库作为源,目标词库选择“小小输入法”,系统会弹出一个编码类型选择窗口,在下拉列表中选择“郑码”,然后单击确定按钮:
单击“转换”按钮即可将词库转换为郑码格式,然后保存到硬盘上。
接下来将保存的词库文件复制到小小输入法的安装目录mb文件夹下。然后在小小输入法的属性设置窗口中,左侧选择“郑码”,右侧分词库中输入该词库的路径。
单击“确定”按钮,回到小小输入法,在郑码模式下,我们输入郑码便能够匹配我们导入的词库,如图所示:
同样的方法,可以将五笔、二笔、拼音导入到小小输入法中。
百度手机输入法管理社-制作组----专业负责丰富百度手机输入法词库、皮肤库,制作微博素材等工作,目前招收人员,期待您的加入。
>>Mozilla/5.0 (Windows NT 5.1; rv:19.0) Gecko/20100101 Firefox/19.0
一、支持多种编码的Rime输入法。Rime输入法是一款跨平台的输入法框架,在Windows下叫小狼毫,Linux下叫中州韵,Mac下叫鼠须管。这个输入法框架异常强大,支持各种常用的输入法,而且还可以通过简单的配置自定义输入法。深蓝词库转换在1.9版本中增加了对Rime拼音输入法的支持,现在在2.0中进行了增强,除了拼音外,还能够导入导出五笔、注音、仓颉和其他输入法编码。例如要将一个QQ拼音的分类词库转换成Rime的五笔词库,那么在深蓝词库转换中选择qpyd格式的词库源,目标输入法选择“Rime中州韵”,系统弹出输入法类型选择窗口,在下拉框中选择“五笔”并确定:
然后单击“转换按钮”即可完成词库的转换,将转换结果保存到硬盘上。
接下来到Rime输入法中(以小狼毫为例),选择“用户词典管理”选项,打开词典管理窗口,选中左侧的wubi86,然后单击“导入文本码表”即可完成词库的导入。
用同样的方法,可以导入注音(与地球拼音使用同一个词库,terra_pinyin),仓颉(cangjie5)。当然还有明月拼音(luna_pinyin)。特别要感谢Rime输入法的作者佛振的指点,才能完成对仓颉输入法词库的生成,在仓颉输入法中对一个词进行编码相当特别,不像郑码、五笔的编码那么简单。二、支持多种编码的小小输入法。小小输入法也是Rime输入法一样是一个通用的输入法框架,可以支持多个平台(Windows、Linux等),多个输入法编码。之前1.9版已经支持小小输入法的拼音,在2.0版中进行了增强,能够支持:五笔、郑码、二笔、拼音和其他编码。比如要将一个搜狗细胞词库转换为小小输入法的郑码词库,那么可以在深蓝词库转换中选择该scel细胞词库作为源,目标词库选择“小小输入法”,系统会弹出一个编码类型选择窗口,在下拉列表中选择“郑码”,然后单击确定按钮:
单击“转换”按钮即可将词库转换为郑码格式,然后保存到硬盘上。
接下来将保存的词库文件复制到小小输入法的安装目录mb文件夹下。然后在小小输入法的属性设置窗口中,左侧选择“郑码”,右侧分词库中输入该词库的路径。
单击“确定”按钮,回到小小输入法,在郑码模式下,我们输入郑码便能够匹配我们导入的词库,如图所示:
同样的方法,可以将五笔、二笔、拼音导入到小小输入法中。百度手机输入法管理社-制作组----专业负责丰富百度手机输入法词库、皮肤库,制作微博素材等工作,目前招收人员,期待您的加入。
>>Mozilla/5.0 (Windows NT 5.1; rv:19.0) Gecko/20100101 Firefox/19.0
打开雅虎奇摩输入法的偏好设置窗口,在词汇选项卡中单击“导入自订词数据库”按钮即可将我们的词库导入其中。我们也可以单击“启动词汇编辑程式”按钮,进入词汇编辑工具,再单击文件菜单的数据库导入选项,导入我们保存的词库文件。
导入成功后,便可在雅虎奇摩输入法中输入我们导入的词汇。六、增加了对仓颉平台输入法的支持。仓颉平台输入法是一款基于小小输入法进行开发的输入法。在仓颉之友可以下载,也提供详细的帮助。深蓝词库转换支持仓颉五的编码。使用其他词库可以转换为仓颉平台的词库。对于仓颉平台的词库设置方法与小小输入法非常类似,首先需要将词库转换为仓颉平台的词库保存到硬盘。
接下来将转换的词库文件复制到C:\cjsys\yong\mb,然后在仓颉输入法的设置窗口中,切换到五仓世纪选项卡,为分词库添加我们的分词库文件路径。
添加后即可在仓颉平台中输入我们导入的词汇。七、增强了对各五笔和郑码输入法的支持。在之前的版本中,虽然名义上支持五笔输入法和郑码输入法,但是实际上是只取其中的汉字,直接忽略编码,所以各种拼音输入法不支持导出为带编码的五笔或郑码词库。在新版的深蓝词库转换中,可以为每个词生成五笔编码,郑码编码。所以在2.0版本中,可以选择:极点五笔、极点郑码、小鸭五笔等作为目标数据库,将各种源词库导入其中。八、增强自定义规则的功能。自定义规则功能允许用户指定外部的编码文件,指定词语的编码生成规则,词语、编码、词频的排序、分隔符等。比如我们有一个自定义的编码表,该表中给出了每个汉字的编码,一字一码,Tab分割。然后想对一堆词语进行编码,于是操作如下:在深蓝词库转换中选择源词库和其输入法。在目标词库中选择“自定义”,系统将弹出自定义词库编码窗口,再单击右上角匹配规则设置按钮,设置匹配规则如下:
是说我们导出的词库文件,编码不是拼音编码,不包含词频,先显示编码,后显示汉字,之间用空格隔开。对于2字词,3字词和4字及以上的词,编码规则为各个字取一部分。下面的文本框中给出了预览效果。然后回到自定义词库编码窗口,选择一个编码文件,这里我们选中行列30输入法的Mapping表作为编码文件。单击测试编码按钮可以看到在行列30输入法下的编码样子。
单击确定回到主窗口,单击转换按钮便可实现将指定的源词库转换为自定义词库。










