1. 首先下载iSiloXC for Linux,并安装libchm-bin。ubuntu/debian用户可以直接apt-get,gentoo对应的ebuild名称为dev-libs/chmlib,其它发行版用户可能要自己编译。
2. 解压缩chm文档:
extract_chmlib source.chm target
然后查看一下target里面的内容,把index.html或类似的table of contents找出来。
3. 准备iSiloXC转换时必须的文件。常规只需要准备ixl文件即可,从这里下载一个样板,然后进行如下修改,把<hotsync></hotsync>段落改为:
<files><path>result.pdb</path></files>
然后把source里面的path改为该index.html的路径。注意这里有一个很关键的地方,就是设置MaximumDepth和MaximumOfflineDepth,这决定了iSiloXC需要去处理的链接的深度,该值太大会浪费不必要的资源,太小则不能完全得到你想要的东西,最好自己试一下。
4. 一切就绪之后,运行:
iSiloXC -xvv mypdb.ixl
然后就等吧。如果是镜像网站的话,可能还是需要较多的时间的。
另外,对于openoffice文档,可以直接输出成html再转换。而对于pdf文档,当然首选的方法是直接用pdf阅读器看,实在不行的话这里可以pdf转换为html,然后再自己转换吧(详贴在这里)
ps: 顺便学了一下html语言中的特殊字符:< 要用 <来表示,而> 要用>来表示。还是蛮有趣的
Update:iSiloXC可能不识别linux下的特殊字符如\ 等,所以可能要酌情更改一下html文件。另外,chm解压出来可能并没有可用的index.html文件,可以考虑自己做一个。
没有评论:
发表评论