FictionDown是一款网络小说爬取工具,支持自动校对、多格式转换,解决章节缺失和章节顺序错乱的问题,内置了简单的广告过滤,实际上大部分需要手动删除! 软件特色 以起点为样本,多站点多线程爬取校对 支持导出txt,以兼容大多数阅读器 支持导出markdown,可以用pandoc转换成epub,保留书本信息、卷结构、作者信息 内置简单的广告过滤(现在还不完善) 用Golang编写,安装部署方便,外部依赖只有PhantomJS 使用方法 输入起点链接 获取到书本信息,开始爬取每章内容,遇到vip章节放入Example中作为校对样本 手动设置笔趣阁等盗版小说的对应链接,tamp字段 再次启动,开始爬取,只爬取VIP部分,并跟Example进行校对 手动编辑对应的缓存文件,手动删除广告和某些随机字符(有部分是关键字,可能会导致pandoc内存溢出或者样式错误) d -f md生成markwown 用pandoc转换成epub,pandoc -o xxxx.epub xxxx.md 功能介绍 未实现功能 爬取起点的时候带上Cookie,用于爬取已购买章节 支持刺猬猫(即“欢乐书客”) 支持直接输出epub,不需要pandoc 支持小说站内搜索 多线程转换md 整理main包中的面条逻辑 整理命令行参数风格 在windows下,md转换到epub时有路径问题 完善广告过滤 简化使用步骤 优化log输出 书本简介也应该为HTML。即<p>??</p>而不是现在的用\t和\n 更新日志 小说站内搜索 命令行整理 修改站点匹配结构 各个输出格式略作整理