软件使用说明
参 数 参 数 设 置 说 明
目录页面 一般输入文章的目录页(显示有目录的页面)的地址,也存在其他可能性(对于天涯社区,可以是任意页面)。
起始页面 一般输入要采集的文章的起始章节的地址,也存在其他可能性(对于天涯社区,该参数标识要采集的回复的作者)。
结束页面 一般输入要采集的文章的结束章节的地址,也存在其他可能性(对于天涯社区,该参数标识要采集的回复的最小字符数)。
删除相同标题行 勾选时表示要删除章节第一行中和文章章节标题相同的字符串。
小章节识别 勾选时会自动合并小章节的内容为一个章节,例如:第一章(1)、第二章(2)……等合并成第一章(1)。
无标题的复选框 这个是界面上没有标题的复选框,是选择超文本纯文本化的模式,勾选的时候精确转换,不会掉字,但速度稍慢。
编码选择 这个是选择采集后的文章保存为文件时的编码模式,以适应不同的移动设备。
站点配置说明
参 数 参 数 配 置 说 明
特殊说明 有些站点的文章存在多种配置,除特殊说明,在这里使用 || 来分开各个配置,程序会逐个对配置进行处理,找到合适的配置。
参数表达式 在这里使用正则表达式来获取各个参数的值。.*?:代表任意字符 ;(.*?):代表我们需要的值。此外还有一些特殊字符,具体大家可以看一下程序自带配置里面的设置和正则表达式的说明。
[****] 站点的域名,也就是 :// 和第一个 / 之间的字符串。
tagName 可选参数,设置站点的名称。该参数存在时,将在支持的站点列表里面显示该站点的超链接,建议使用四个字来命名。
tagSort 可选参数,设置是否自动对文章章节的链接进行排序。仅在章节的链接排序错乱时设置该参数,参数值设置为 1,例如:QQ原创、搜狐原创。
tagUrl 可选参数,设置链接的合并模式。不设置该参数时,使用网址合并模式;参数值设置为 1 时,链接直接和目录页的地址组合,例如:九界原创。
tagHtml 可选参数,设置是否自动处理目录页里的脚本。仅用在目录是由脚本生成的站点,例如:QQ原创、逍遥小说。
tagCharset 可选参数,设置页面的编码。不设置该参数时,程序会自动判断页面的编码,但有时会判断错误,造成取书失败;设置该参数时,使用 || 来分开,按顺序分别对应“目录、页面一、页面二”的编码,页面一和页面二在后面说明。
tagTitle 必选参数,设置文章的标题。找不到标题时会使用“找不到书名”来作为标题。
tagAuthor 必选参数,设置文章的作者。找不到作者时会使用“××”代表作者未知。
tagVolume 可选参数,设置文章的卷集名称。不设置该参数时,将不查找文章的卷集名称;设置该参数时,将查找文章的卷集名称,找不到也不会影响正文的获取。
tagChapter 必选参数,设置文章章节的链接以及名称。在设置表达式时,必须包含两个(.*?),按顺序代表链接和名称。
tagText 必选参数,设置文章的正文。就是从章节的链接页面(页面一)里获取正文信息,一般会直接获取正文内容。也存在着获取的内容是链接,也就是文章的正文在另一个页面(页面二)里时,就需要设置两个正则表达式来分别处理这两个页面,使用 || 分开,例如:起点中文(脚本正文)、四月原创(脚本正文)、搜狐原创(页面跳转)。
tagDel 可选参数,设置正文里要删除的内容。主要是删除一些网站使用的防盗贴措施生成的乱七八糟的东西,例如:晋江原创、凤鸣原创、四月原创。
tagNext 可选参数,设置文章的正文。有些网站的正文内容不是一页就显示完的,是分几页来显示,就需要获取这几页的页面链接,例如:花雨原创。