Tio Boot DocsTio Boot Docs
Home
  • java-db
  • api-table
  • Enjoy
  • Tio Boot Admin
  • ai_agent
  • translator
  • knowlege_base
  • ai-search
  • 案例
Abount
  • Github
  • Gitee
Home
  • java-db
  • api-table
  • Enjoy
  • Tio Boot Admin
  • ai_agent
  • translator
  • knowlege_base
  • ai-search
  • 案例
Abount
  • Github
  • Gitee
  • 01_tio-boot 简介

    • tio-boot:新一代高性能 Java Web 开发框架
    • tio-boot 入门示例
    • Tio-Boot 配置 : 现代化的配置方案
    • tio-boot 整合 Logback
    • tio-boot 整合 hotswap-classloader 实现热加载
    • 自行编译 tio-boot
    • 最新版本
    • 开发规范
  • 02_部署

    • 使用 Maven Profile 实现分环境打包 tio-boot 项目
    • Maven 项目配置详解:依赖与 Profiles 配置
    • tio-boot 打包成 FastJar
    • 使用 GraalVM 构建 tio-boot Native 程序
    • 使用 Docker 部署 tio-boot
    • 部署到 Fly.io
    • 部署到 AWS Lambda
    • 到阿里云云函数
    • 使用 Deploy 工具部署
    • 胖包与瘦包的打包与部署
    • 使用 Jenkins 部署 Tio-Boot 项目
    • 使用 Nginx 反向代理 Tio-Boot
    • 使用 Supervisor 管理 Java 应用
  • 03_配置

    • 配置参数
    • 服务器监听器
    • 内置缓存系统 AbsCache
    • 使用 Redis 作为内部 Cache
    • 静态文件处理器
    • 基于域名的静态资源隔离
    • DecodeExceptionHandler
  • 04_原理

    • 生命周期
    • 请求处理流程
    • 重要的类
  • 05_json

    • Json
    • 接受 JSON 和响应 JSON
    • 响应实体类
  • 06_web

    • 概述
    • 文件上传
    • 接收请求参数
    • 接收日期参数
    • 接收数组参数
    • 返回字符串
    • 返回文本数据
    • 返回网页
    • 请求和响应字节
    • 文件下载
    • 返回视频文件并支持断点续传
    • http Session
    • Cookie
    • HttpRequest
    • HttpResponse
    • Resps
    • RespBodyVo
    • /zh/06_web/19.html
    • 全局异常处理器
    • 异步
    • 动态 返回 CSS 实现
    • 返回图片
    • Transfer-Encoding: chunked 实时音频播放
    • Server-Sent Events (SSE)
    • 接口访问统计
    • 接口请求和响应数据记录
    • 自定义 Handler 转发请求
    • 使用 HttpForwardHandler 转发所有请求
    • 跨域
    • 添加 Controller
    • 常用工具类
    • HTTP Basic 认证
    • WebJars
    • JProtobuf
  • 07_validate

    • 数据紧校验规范
    • 参数校验
  • 08_websocket

    • 使用 tio-boot 搭建 WebSocket 服务
    • WebSocket 聊天室项目示例
  • 09_java-db

    • java‑db
    • 操作数据库入门示例
    • SQL 模板
    • 数据源配置与使用
    • ActiveRecord
    • Model
    • 生成器与 Model
    • Db 工具类
    • 批量操作
    • 数据库事务处理
    • Cache 缓存
    • Dialect 多数据库支持
    • 表关联操作
    • 复合主键
    • Oracle 支持
    • Enjoy SQL 模板
    • Java-DB 整合 Enjoy 模板最佳实践
    • 多数据源支持
    • 独立使用 ActiveRecord
    • 调用存储过程
    • java-db 整合 Guava 的 Striped 锁优化
    • 生成 SQL
    • 通过实体类操作数据库
    • java-db 读写分离
    • Spring Boot 整合 Java-DB
    • like 查询
    • 常用操作示例
    • Druid 监控集成指南
    • SQL 统计
  • 10_api-table

    • ApiTable 概述
    • 使用 ApiTable 连接 SQLite
    • 使用 ApiTable 连接 Mysql
    • 使用 ApiTable 连接 Postgres
    • 使用 ApiTable 连接 TDEngine
    • 使用 api-table 连接 oracle
    • 使用 api-table 连接 mysql and tdengine 多数据源
    • EasyExcel 导出
    • EasyExcel 导入
    • TQL(Table SQL)前端输入规范
    • ApiTable 实现增删改查
    • 数组类型
    • 单独使用 ApiTable
  • 11_aop

    • JFinal-aop
    • Aop 工具类
    • 配置
    • 配置
    • 独立使用 JFinal Aop
    • @AImport
    • 原理解析
  • 12_cache

    • Caffine
    • Jedis-redis
    • hutool RedisDS
    • Redisson
    • Caffeine and redis
    • CacheUtils 工具类
    • 使用 CacheUtils 整合 caffeine 和 redis 实现的两级缓存
    • 使用 java-db 整合 ehcache
    • 使用 java-db 整合 redis
    • Java DB Redis 相关 Api
    • redis 使用示例
  • 13_认证和权限

    • hutool-JWT
    • FixedTokenInterceptor
    • 使用内置 TokenManager 实现登录
    • 用户系统
    • 重置密码
    • 匿名登录
    • Google 登录
    • 权限校验注解
    • Sa-Token
    • sa-token 登录注册
    • StpUtil.isLogin() 源码解析
    • 短信登录
    • 移动端微信登录实现指南
    • 移动端重置密码
  • 14_i18n

    • i18n
  • 15_enjoy

    • tio-boot 整合 Enjoy 模版引擎文档
    • 引擎配置
    • 表达式
    • 指令
    • 注释
    • 原样输出
    • Shared Method 扩展
    • Shared Object 扩展
    • Extension Method 扩展
    • Spring boot 整合
    • 独立使用 Enjoy
    • tio-boot enjoy 自定义指令 localeDate
    • PromptEngine
    • Enjoy 入门示例-擎渲染大模型请求体
    • Enjoy 使用示例
  • 16_定时任务

    • Quartz 定时任务集成指南
    • 分布式定时任务 xxl-jb
    • cron4j 使用指南
  • 17_tests

    • TioBootTest 类
  • 18_tio

    • TioBootServer
    • tio-core
    • 内置 TCP 处理器
    • 独立启动 UDPServer
    • 使用内置 UDPServer
    • t-io 消息处理流程
    • tio-运行原理详解
    • TioConfig
    • ChannelContext
    • Tio 工具类
    • 业务数据绑定
    • 业务数据解绑
    • 发送数据
    • 关闭连接
    • Packet
    • 监控: 心跳
    • 监控: 客户端的流量数据
    • 监控: 单条 TCP 连接的流量数据
    • 监控: 端口的流量数据
    • 单条通道统计: ChannelStat
    • 所有通道统计: GroupStat
    • 资源共享
    • 成员排序
    • ssl
    • DecodeRunnable
    • 使用 AsynchronousSocketChannel 响应数据
    • 拉黑 IP
    • 深入解析 Tio 源码:构建高性能 Java 网络应用
  • 19_aio

    • ByteBuffer
    • AIO HTTP 服务器
    • 自定义和线程池和池化 ByteBuffer
    • AioHttpServer 应用示例 IP 属地查询
    • 手写 AIO Http 服务器
  • 20_netty

    • Netty TCP Server
    • Netty Web Socket Server
    • 使用 protoc 生成 Java 包文件
    • Netty WebSocket Server 二进制数据传输
    • Netty 组件详解
  • 21_netty-boot

    • Netty-Boot
    • 原理解析
    • 整合 Hot Reload
    • 整合 数据库
    • 整合 Redis
    • 整合 Elasticsearch
    • 整合 Dubbo
    • Listener
    • 文件上传
    • 拦截器
    • Spring Boot 整合 Netty-Boot
    • SSL 配置指南
    • ChannelInitializer
    • Reserve
  • 22_MQ

    • Mica-mqtt
    • EMQX
    • Disruptor
  • 23_tio-utils

    • tio-utils
    • HttpUtils
    • Notification
    • 邮箱
    • JSON
    • 读取文件
    • Base64
    • 上传和下载
    • Http
    • Telegram
    • RsaUtils
    • EnvUtils 使用文档
    • 系统监控
    • 毫秒并发 ID (MCID) 生成方案
  • 24_tio-http-server

    • 使用 Tio-Http-Server 搭建简单的 HTTP 服务
    • tio-boot 添加 HttpRequestHandler
    • 在 Android 上使用 tio-boot 运行 HTTP 服务
    • tio-http-server-native
    • handler 常用操作
  • 25_tio-websocket

    • WebSocket 服务器
    • WebSocket Client
  • 26_tio-im

    • 通讯协议文档
    • ChatPacket.proto 文档
    • java protobuf
    • 数据表设计
    • 创建工程
    • 登录
    • 历史消息
    • 发消息
  • 27_mybatis

    • Tio-Boot 整合 MyBatis
    • 使用配置类方式整合 MyBatis
    • 整合数据源
    • 使用 mybatis-plus 整合 tdengine
    • 整合 mybatis-plus
  • 28_mongodb

    • tio-boot 使用 mongo-java-driver 操作 mongodb
  • 29_elastic-search

    • Elasticsearch
    • JavaDB 整合 ElasticSearch
    • Elastic 工具类使用指南
    • Elastic-search 注意事项
    • ES 课程示例文档
  • 30_magic-script

    • tio-boot 整合 magic-script
  • 31_groovy

    • tio-boot 整合 Groovy
  • 32_firebase

    • 整合 google firebase
    • Firebase Storage
    • Firebase Authentication
    • 使用 Firebase Admin SDK 进行匿名用户管理与自定义状态标记
    • 导出用户
    • 注册回调
    • 登录注册
  • 33_文件存储

    • 文件上传数据表
    • 本地存储
    • 使用 AWS S3 存储文件并整合到 Tio-Boot 项目中
    • 存储文件到 腾讯 COS
  • 34_spider

    • jsoup
    • 爬取 z-lib.io 数据
    • 整合 WebMagic
    • WebMagic 示例:爬取学校课程数据
    • Playwright
    • Flexmark (Markdown 处理器)
    • tio-boot 整合 Playwright
    • 缓存网页数据
  • 36_integration_thirty_party

    • tio-boot 整合 okhttp
    • 整合 GrpahQL
    • 集成 Mailjet
    • 整合 ip2region
    • 整合 GeoLite 离线库
    • 整合 Lark 机器人指南
    • 集成 Lark Mail 实现邮件发送
    • Thymeleaf
    • Swagger
    • Clerk 验证
  • 37_dubbo

    • 概述
    • dubbo 2.6.0
    • dubbo 2.6.0 调用过程
    • dubbo 3.2.0
  • 38_spring

    • Spring Boot Web 整合 Tio Boot
    • spring-boot-starter-webflux 整合 tio-boot
    • Tio Boot 整合 Spring Boot Starter
    • Tio Boot 整合 Spring Boot Starter Data Redis 指南
  • 39_spring-cloud

    • tio-boot spring-cloud
  • 40_mysql

    • 使用 Docker 运行 MySQL
    • /zh/42_mysql/02.html
  • 41_postgresql

    • PostgreSQL 安装
    • PostgreSQL 主键自增
    • PostgreSQL 日期类型
    • Postgresql 金融类型
    • PostgreSQL 数组类型
    • PostgreSQL 全文检索
    • PostgreSQL 查询优化
    • 获取字段类型
    • PostgreSQL 向量
    • PostgreSQL 优化向量查询
    • PostgreSQL 其他
  • 43_oceanbase

    • 快速体验 OceanBase 社区版
    • 快速上手 OceanBase 数据库单机部署与管理
    • 诊断集群性能
    • 优化 SQL 性能指南
    • /zh/43_oceanbase/05.html
  • 50_media

    • JAVE 提取视频中的声音
    • Jave 提取视频中的图片
    • /zh/50_media/03.html
  • 51_asr

    • Whisper-JNI
  • 54_native-media

    • java-native-media
    • JNI 入门示例
    • mp3 拆分
    • mp4 转 mp3
    • 使用 libmp3lame 实现高质量 MP3 编码
    • Linux 编译
    • macOS 编译
    • 从 JAR 包中加载本地库文件
    • 支持的音频和视频格式
    • 任意格式转为 mp3
    • 通用格式转换
    • 通用格式拆分
    • 视频合并
    • VideoToHLS
    • split_video_to_hls 支持其他语言
    • 持久化 HLS 会话
  • 55_telegram4j

    • 数据库设计
    • /zh/55_telegram4j/02.html
    • 基于 MTProto 协议开发 Telegram 翻译机器人
    • 过滤旧消息
    • 保存机器人消息
    • 定时推送
    • 增加命令菜单
    • 使用 telegram-Client
    • 使用自定义 StoreLayout
    • 延迟测试
    • Reactor 错误处理
    • Telegram4J 常见错误处理指南
  • 56_telegram-bots

    • TelegramBots 入门指南
    • 使用工具库 telegram-bot-base 开发翻译机器人
  • 60_LLM

    • 简介
    • AI 问答
    • /zh/60_LLM/03.html
    • /zh/60_LLM/04.html
    • 增强检索(RAG)
    • 结构化数据检索
    • 搜索+AI
    • 集成第三方 API
    • 后置处理
    • 推荐问题生成
    • 连接代码执行器
    • 避免 GPT 混乱
    • /zh/60_LLM/13.html
  • 61_ai_agent

    • 数据库设计
    • 示例问题管理
    • 会话管理
    • 历史记录
    • 对接 Perplexity API
    • 意图识别与生成提示词
    • 智能问答模块设计与实现
    • 文件上传与解析文档
    • 翻译
    • 名人搜索功能实现
    • Ai studio gemini youbue 问答使用说明
    • 自建 YouTube 字幕问答系统
    • 自建 获取 youtube 字幕服务
    • 通用搜索
    • /zh/61_ai_agent/15.html
    • 16
    • 17
    • 18
    • 在 tio-boot 应用中整合 ai-agent
    • 16
  • 62_translator

    • 简介
  • 63_knowlege_base

    • 数据库设计
    • 用户登录实现
    • 模型管理
    • 知识库管理
    • 文档拆分
    • 片段向量
    • 命中测试
    • 文档管理
    • 片段管理
    • 问题管理
    • 应用管理
    • 向量检索
    • 推理问答
    • 问答模块
    • 统计分析
    • 用户管理
    • api 管理
    • 存储文件到 S3
    • 文档解析优化
    • 片段汇总
    • 段落分块与检索
    • 多文档解析
    • 对话日志
    • 检索性能优化
    • Milvus
    • 文档解析方案和费用对比
    • 离线运行向量模型
  • 64_ai-search

    • ai-search 项目简介
    • ai-search 数据库文档
    • ai-search SearxNG 搜索引擎
    • ai-search Jina Reader API
    • ai-search Jina Search API
    • ai-search 搜索、重排与读取内容
    • ai-search PDF 文件处理
    • ai-search 推理问答
    • Google Custom Search JSON API
    • ai-search 意图识别
    • ai-search 问题重写
    • ai-search 系统 API 接口 WebSocket 版本
    • ai-search 搜索代码实现 WebSocket 版本
    • ai-search 生成建议问
    • ai-search 生成问题标题
    • ai-search 历史记录
    • Discover API
    • 翻译
    • Tavily Search API 文档
    • 对接 Tavily Search
    • 火山引擎 DeepSeek
    • 对接 火山引擎 DeepSeek
    • ai-search 搜索代码实现 SSE 版本
    • jar 包部署
    • Docker 部署
    • 爬取一个静态网站的所有数据
    • 网页数据预处理
    • 网页数据检索与问答流程整合
  • 65_java-linux

    • Java 执行 python 代码
    • 通过大模型执行 Python 代码
    • MCP 协议
    • Cline 提示词
    • Cline 提示词-中文版本
  • 66_manim

    • 简介
    • Manim 开发环境搭建
    • 生成场景提示词
    • 生成代码
    • 完整脚本示例
    • 语音合成系统
    • Fish.audio TTS 接口说明文档与 Java 客户端封装
    • 整合 fishaudio 到 java-uni-ai-server 项目
    • 执行 Python (Manim) 代码
    • 使用 SSE 流式传输生成进度的实现文档
    • 整合全流程完整文档
    • HLS 动态推流技术文档
    • manim 分场景生成代码
    • 分场景运行代码及流式播放支持
    • 分场景业务端完整实现流程
    • Maiim布局管理器
    • 仅仅生成场景代码
    • 使用 modal 运行 manim 代码
    • Python 使用 Modal GPU 加速渲染
    • Modal 平台 GPU 环境下运行 Manim
    • Modal Manim OpenGL 安装与使用
    • 优化 GPU 加速
    • 生成视频封面流程
    • Java 调用 manim 命令 执行代码 生成封面
    • Manim 图像生成服务客户端文档
    • manim render help
    • 显示 中文公式
    • manimgl
    • EGL
    • /zh/66_manim/30.html
    • /zh/66_manim/31.html
    • 成本核算
    • /zh/66_manim/33.html
  • 70_tio-boot-admin

    • 入门指南
    • 初始化数据
    • token 存储
    • 与前端集成
    • 文件上传
    • 网络请求
    • 图片管理
    • /zh/70_tio-boot-admin/08.html
    • Word 管理
    • PDF 管理
    • 文章管理
    • 富文本编辑器
  • 71_tio-boot

    • /zh/71_tio-boot/01.html
    • Swagger 整合到 Tio-Boot 中的指南
    • HTTP/1.1 Pipelining 性能测试报告
  • 80_性能测试

    • 压力测试 - tio-http-serer
    • 压力测试 - tio-boot
    • 压力测试 - tio-boot-native
    • 压力测试 - netty-boot
    • 性能测试对比
    • TechEmpower FrameworkBenchmarks
    • 压力测试 - tio-boot 12 C 32G
  • 99_案例

    • 封装 IP 查询服务
    • tio-boot 案例 - 全局异常捕获与企业微信群通知
    • tio-boot 案例 - 文件上传和下载
    • tio-boot 案例 - 整合 ant design pro 增删改查
    • tio-boot 案例 - 流失响应
    • tio-boot 案例 - 增强检索
    • tio-boot 案例 - 整合 function call
    • tio-boot 案例 - 定时任务 监控 PostgreSQL、Redis 和 Elasticsearch
    • Tio-Boot 案例:使用 SQLite 整合到登录注册系统
    • tio-boot 案例 - 执行 shell 命令

爬取 z-lib.io 数据

本文将详细介绍如何对 z‑lib.io 进行数据爬取,将关键数据入库,并利用 PostgreSQL 的全文检索功能对书名、作者、出版社、备注等字段建立搜索索引。内容包括网站数据分析、数据表设计、全文检索字段维护(手动更新和触发器自动更新)、以及使用 Java 与 Jsoup 爬取网页、解析数据并批量插入数据库的完整示例代码。


1. 目标网站数据分析

在正式编写爬虫之前,我们需要对目标网站的 HTML 结构进行详细分析,确定各个关键字段所在的位置及其解析方法。以下内容展示了页面中的部分示例代码及说明:

1.1 页面示例

  • 书单页面示例:
    URL:https://z-lib.io/booklists
    书单页面示例

  • 单本书页面示例:
    URL:https://z-lib.io/book/17617977
    书籍页面示例

1.2 目标数据及 HTML 分析

通过分析示例页面,可以获得以下关键信息:

  1. Request Code

    • 页面位置:
      Request Code : <span id="reqcode" class="text-success">ZLIBIO3965975</span>
      
    • 说明:该字段用于唯一标识页面中提到的请求码,解析时使用 #reqcode 选择器获取内容。
  2. 书名 (title)

    • 页面位置:
      <h1 itemprop="name">习近平新时代中国特色社会主义思想概论</h1>
      
    • 说明:书名位于 <h1> 标签中,通过 h1[itemprop=name] 选择器获取文本内容。
  3. 作者 (author)

    • 页面位置:
      <a class="color1" ... itemprop="author">习近平新时代中国特色社会主义思想概论编写组</a>
      
    • 说明:作者信息通过 [itemprop=author] 选择器获取,包含完整的作者描述。
  4. 出版社 (publisher)

    • 页面位置:
      <div class="bookProperty property_publisher">
        <div class="property_label">Publisher:</div>
        <div class="property_value">高等教育出版社</div>
      </div>
      
    • 说明:使用 .bookProperty.property_publisher .property_value 选择器获取出版社名称。
  5. 出版年份 (publish_year)

    • 页面位置:
      <div class="bookProperty property_year">
        <div class="property_label">Year:</div>
        <div class="property_value">2023</div>
      </div>
      
    • 说明:通过 .bookProperty.property_year .property_value 选择器获取年份,需转换为数字。
  6. 页数 (pages)

    • 页面位置:
      <div class="bookProperty property_pages">
        <div class="property_label">Pages:</div>
        <div class="property_value">
          <span title="Pages paperback">367</span>
        </div>
      </div>
      
    • 说明:利用 .bookProperty.property_pages .property_value 选择器,进一步提取 <span> 内的数字。
  7. 语言 (language)

    • 页面位置:
      <div class="bookProperty property_language">
        <div class="property_label">Language:</div>
        <div class="property_value text-capitalize">chinese</div>
      </div>
      
    • 说明:通过 .bookProperty.property_language .property_value 获取语言信息。
  8. 分类 (category)

    • 页面位置:
      页面中虽然显示 “Categories:”,但示例页面中可能没有实际分类值(有时仅出现 “Suggest Category” 按钮)。
    • 说明:根据页面实际情况存储为空字符串或设为 N/A。
  9. 官方渠道 (official_channel)

    • 页面位置:
      <a class="btn btn-primary dlButton addDownloadedBook" href="https://t.me/Zlib_IO" ...> Official channel </a>
      
    • 说明:可以选择保存链接 https://t.me/Zlib_IO 或按钮文字 Official channel。
  10. 装帧形式 (paperback)

    • 页面位置:
      <button type="button" class="btn btn-default dropdown-toggle button-paperback" ...>
        Paperback <span class="caret"></span>
      </button>
      
    • 说明:按钮文本为 Paperback。
  11. 浏览次数 (view_count)

    • 说明:页面中未直接提供浏览次数,通常设定为 0。
  12. 评论数量 (comment_count)

    • 页面位置:
      <div class="book-comments-info">0 comments</div>
      
    • 说明:通过 .book-comments-info 获取文本,并提取其中的数字。
  13. 文件信息 (files)

    • 说明:一般用于存储封面图片、附件等信息,格式采用 JSON。
  14. 来源 URL (source_url)

    • 页面位置:
      <link rel="canonical" href="https://z-lib.io/book/17617977" />
      
    • 说明:可直接使用当前 URL 作为数据来源。
  15. 额外信息:ISBN 信息

    • 页面位置:
      <div class="bookProperty property_isbn">
        <div class="property_label">ISBN 10:</div>
        <div class="property_value">0143469134</div>
      </div>
      <div class="bookProperty property_isbn">
        <div class="property_label">ISBN 13:</div>
        <div class="property_value">9780143469131</div>
      </div>
      
    • 说明:可通过遍历 div.bookProperty.property_isbn 区块,依据 label 内容判断获取 ISBN 10、ISBN 13 或综合的 ISBN 信息。

通过以上 HTML 分析,我们可以为每个字段确定对应的 CSS 选择器和解析规则,从而在代码中准确提取数据。


2. 数据表设计

2.1 创建数据表

我们在数据库中创建一张 mc_books 表,设计时除了书籍基本信息外,还需要为全文检索预留一个 tsvector 类型字段(如 fts 字段),便于组合多个字段(如书名、作者、出版社、描述)生成全文检索向量。

DROP TABLE IF EXISTS mc_books;
CREATE TABLE mc_books (
    ID BIGINT NOT NULL PRIMARY KEY,
    request_code VARCHAR(64), -- 页面中提到的“请求码”
    title VARCHAR(2048) NOT NULL, -- 书名
    description TEXT,
    author VARCHAR(2048), -- 作者
    rating VARCHAR(2048),
    publisher VARCHAR(2048), -- 出版社
    publish_year INT, -- 出版年份
    pages INT, -- 页数
    language VARCHAR(64), -- 语言
    category VARCHAR(128), -- 分类(如政治、思想理论等)
    view_count INT DEFAULT 0, -- 浏览次数
    isbn_10 VARCHAR(256),
    isbn_13 VARCHAR(256),
    isbn VARCHAR(256),
    comment_count INT DEFAULT 0, -- 评论数量
    files JSON, -- 文件信息(JSON 格式)
    source_url VARCHAR(256), -- 来源 URL
    fts tsvector, -- 全文检索字段
    -- 以下为基础字段
    remark VARCHAR(256),
    creator VARCHAR(64) DEFAULT '',
    create_time TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
    updater VARCHAR(64) DEFAULT '',
    update_time TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
    deleted SMALLINT DEFAULT 0,
    tenant_id BIGINT NOT NULL DEFAULT 0
);

2.2 手动维护 fts 字段

如果希望在插入或更新时由应用层计算 tsvector 值,可以使用 PostgreSQL 的 to_tsvector 函数,示例如下(以英文分词为例;中文需要额外安装中文分词插件或使用第三方分词库):

UPDATE public.mc_books
SET fts = to_tsvector('english',
    coalesce(title, '') || ' ' ||
    coalesce(author, '') || ' ' ||
    coalesce(publisher, '') || ' ' ||
    coalesce(description, '')
);

这样,我们将 title、author、publisher、description 等字段组合起来生成全文检索向量。

2.3 使用触发器自动维护 fts 字段

为了避免每次手动更新,我们可以利用 PostgreSQL 的触发器,在每次插入或更新时自动维护 fts 字段。具体步骤如下:

  1. 创建更新函数:在函数中调用 to_tsvector 对新数据生成检索向量。

  2. 创建触发器:在 mc_books 表上创建触发器,使其在 INSERT 或 UPDATE 操作前自动调用更新函数。

示例代码:

-- 1. 创建更新 FTS 的函数
CREATE OR REPLACE FUNCTION mc_books_fts_update() RETURNS trigger AS $$
BEGIN
    NEW.fts := to_tsvector('english',
        coalesce(NEW.title, '') || ' ' ||
        coalesce(NEW.author, '') || ' ' ||
        coalesce(NEW.publisher, '') || ' ' ||
        coalesce(NEW.description, '')
    );
    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

-- 2. 在 mc_books 表上创建触发器
CREATE TRIGGER trg_mc_books_fts_update
BEFORE INSERT OR UPDATE
    ON public.mc_books
    FOR EACH ROW
    EXECUTE PROCEDURE mc_books_fts_update();

这样,每次执行 INSERT 或 UPDATE 时,fts 字段都会自动更新,无需额外手动维护。

2.4 创建全文检索索引

为了提高查询效率,我们在 fts 字段上建立 GIN 索引:

CREATE INDEX idx_mc_books_fts ON public.mc_books USING GIN (fts);

查询示例(使用全文检索语法):

SELECT *
FROM public.mc_books
WHERE fts @@ to_tsquery('english', 'My & Teacher');

注意:如果使用中文分词,需在 to_tsvector 和 to_tsquery 时指定相应的中文分词器(如 zhparser),并做好额外插件配置。


3. 爬取网站数据

在本节中,我们使用 Java 语言配合 Jsoup 解析 HTML 数据,并利用 OkHttp 进行 HTTP 请求。下面给出完整代码示例,包含两部分:

  • 一份示例代码用于解析关键字段并打印(供调试参考)
  • 一份示例代码实现将爬取的数据插入到 PostgreSQL 数据库中

3.1 使用 Jsoup 解析示例(打印数据)

下面代码通过遍历页面 id,构造 URL,然后使用 Jsoup 解析 HTML 页面,从中提取各个字段的数据。

package com.litongjava.book.spider.services;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import com.litongjava.tio.utils.http.OkHttpClientPool;

import lombok.extern.slf4j.Slf4j;
import okhttp3.Call;
import okhttp3.Request;
import okhttp3.Response;

@Slf4j
public class BookSpider {
  // 模拟浏览器请求头,防止被反爬虫机制拦截
  String userAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36";
  // URL 模板,根据 id 替换
  String urlTemplate = "https://z-lib.io/book/%d";

  public void index() {
    // 可根据实际需求调整最大 id
    int max = 100;
    for (int i = 1; i < max; i++) {
      fetch(i);
    }
  }

  public void fetch(int i) {
    String url = String.format(urlTemplate, i);

    Request request = new Request.Builder().url(url)
        .get()
        .addHeader("User-Agent", userAgent)
        .addHeader("Accept", "*/*")
        .addHeader("Host", "z-lib.io")
        .addHeader("Connection", "keep-alive")
        .build();

    Call newCall = OkHttpClientPool.get3600HttpClient().newCall(request);
    String htmlContent = null;
    int code = 0;
    try (Response response = newCall.execute()) {
      code = response.code();
      htmlContent = response.body().string();
    } catch (IOException e) {
      e.printStackTrace();
      return;
    }

    if (code == 200) {
      Document doc = Jsoup.parse(htmlContent, "UTF-8");

      // 1. Request Code
      Element reqcodeEl = doc.selectFirst("#reqcode");
      String requestCode = reqcodeEl != null ? reqcodeEl.text() : "";

      // 2. Title
      Element titleEl = doc.selectFirst("h1[itemprop=name]");
      String title = titleEl != null ? titleEl.text() : "";

      // 3. Author
      Element authorEl = doc.selectFirst("[itemprop=author]");
      String author = authorEl != null ? authorEl.text() : "";

      // 4. Description
      Element bookDescriptionBox = doc.getElementById("bookDescriptionBox");
      String description = bookDescriptionBox != null ? bookDescriptionBox.html() : "";

      // 5. Publisher
      Element publisherEl = doc.selectFirst(".bookProperty.property_publisher .property_value");
      String publisher = publisherEl != null ? publisherEl.text() : "";

      // 6. Year
      Element yearEl = doc.selectFirst(".bookProperty.property_year .property_value");
      int publishYear = 0;
      if (yearEl != null) {
        try {
          publishYear = Integer.parseInt(yearEl.text().trim());
        } catch (NumberFormatException e) {
          // 若内容不是纯数字,则 publishYear 保持为 0
        }
      }

      // 7. Pages
      Element pagesEl = doc.selectFirst(".bookProperty.property_pages .property_value");
      int pages = 0;
      if (pagesEl != null) {
        String pagesText = pagesEl.text();
        try {
          pages = Integer.parseInt(pagesText.trim());
        } catch (NumberFormatException e) {
          // 转换失败时保持 pages = 0
        }
      }

      // 8. Language
      Element langEl = doc.selectFirst(".bookProperty.property_language .property_value");
      String language = langEl != null ? langEl.text() : "";

      // 9. Category
      Element categoryEl = doc.selectFirst(".bookProperty.property_categories .property_value");
      String category = categoryEl != null ? categoryEl.text() : "";

      // 10. Paperback 下的链接(如 Amazon、Barnes & Noble 等)
      Elements paperbackLinks = doc.select(".menu-content.menu-content_paperback .menu-row a.menu__link_paperback");
      List<String> paperbackLinkList = new ArrayList<>();
      for (Element link : paperbackLinks) {
        String linkHref = link.attr("href");
        String linkText = link.text(); // 例如 "Amazon", "Barnes & Noble", "Bookshop.org"
        paperbackLinkList.add(linkText + " => " + linkHref);
      }

      // 11. view_count —— 网页未提供,设定为 0
      int viewCount = 0;

      // 12. comment_count
      Element commentCountEl = doc.selectFirst(".book-comments-info");
      int commentCount = 0;
      if (commentCountEl != null) {
        String text = commentCountEl.text(); // 例如 "0 comments"
        text = text.replaceAll("\\D+", ""); // 去除非数字字符
        try {
          commentCount = Integer.parseInt(text);
        } catch (NumberFormatException e) {
          // 转换失败时保持 commentCount = 0
        }
      }

      // 13. Rating(示例只取 interestScore)
      Element ratingDetail = doc.selectFirst(".book-rating-detail");
      String interestScore = null;
      if (ratingDetail != null) {
        Element interestEl = ratingDetail.selectFirst(".book-rating-interest-score");
        interestScore = interestEl != null ? interestEl.text() : "";
      }

      // 14. source_url(取当前 url)
      String sourceUrl = url;

      // 15. 封面图片 URL
      Element coverImgEl = doc.selectFirst(".details-book-cover-content img");
      String coverImgUrl = coverImgEl != null ? coverImgEl.attr("src") : "";

      // 16. 获取 ISBN 10、ISBN 13、ISBN
      String isbn10 = "";
      String isbn13 = "";
      String isbn = "";

      Elements isbnProps = doc.select("div.bookProperty.property_isbn");
      for (Element e : isbnProps) {
        Element labelEl = e.selectFirst(".property_label");
        Element valEl = e.selectFirst(".property_value");
        if (labelEl == null || valEl == null) {
          continue;
        }
        String labelText = labelEl.text().trim();
        String valueText = valEl.text().trim();
        // 根据 label 判断具体类型
        if (labelText.contains("ISBN 10")) {
          isbn10 = valueText; // 例如 "0143469134"
        } else if (labelText.contains("ISBN 13")) {
          isbn13 = valueText; // 例如 "9780143469131"
        } else if (labelText.equals("ISBN:") || labelText.contains("ISBN")) {
          // 可能为 "9780143469131, 0143469134"
          isbn = valueText;
        }
      }

      // 打印结果
      System.out.println("== Book Info ==");
      System.out.println("requestCode  : " + requestCode);
      System.out.println("title        : " + title);
      System.out.println("description  : " + description);
      System.out.println("author       : " + author);
      System.out.println("rating       : " + interestScore);
      System.out.println("publisher    : " + publisher);
      System.out.println("publishYear  : " + publishYear);
      System.out.println("pages        : " + pages);
      System.out.println("language     : " + language);
      System.out.println("category     : " + category);
      System.out.println("viewCount    : " + viewCount);
      System.out.println("commentCount : " + commentCount);
      System.out.println("sourceUrl    : " + sourceUrl);
      System.out.println("coverImgUrl  : " + coverImgUrl);

      // 打印 paperbackLinks 信息
      System.out.println("== Paperback Links ==");
      for (String linkInfo : paperbackLinkList) {
        System.out.println("   " + linkInfo);
      }

      // 打印 ISBN 信息
      System.out.println("ISBN 10: " + isbn10);
      System.out.println("ISBN 13: " + isbn13);
      System.out.println("ISBN   : " + isbn);

    } else {
      // 非 200 状态码,根据需求进行处理
      System.out.println("HTTP status != 200, code=" + code + ", url=" + url);
    }
  }
}

3.2 插入数据库示例

在实际应用中,我们会将解析到的数据组装成数据库记录,并批量插入到 mc_books 表中。下面是完整示例代码,采用 JFinal 的 ActiveRecord 框架(或你项目中对应的数据库操作工具),通过 OkHttp 抓取网页数据,并将数据以 Row 的形式保存到数据库。

package com.litongjava.book.spider.services;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.postgresql.util.PGobject;

import com.jfinal.kit.Kv;
import com.litongjava.db.activerecord.Db;
import com.litongjava.db.activerecord.Row;
import com.litongjava.kit.PgObjectUtils;
import com.litongjava.tio.utils.http.OkHttpClientPool;
import com.litongjava.tio.utils.json.JsonUtils;

import lombok.extern.slf4j.Slf4j;
import okhttp3.Call;
import okhttp3.Request;
import okhttp3.Response;

@Slf4j
public class BookSpider {
  // 模拟浏览器 UA 信息
  String userAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36";
  // URL 模板,根据 id 替换
  String urlTemplate = "https://z-lib.io/book/%d";

  public void index() {
    // 根据需要设置最大 id,此处示例用较大值
    int max = 22525200;
    // 临时存储待插入的 Row 集合
    List<Row> rows = new ArrayList<>();
    for (int i = 1; i < max; i++) {
      log.info("fetch:{}", i);
      // 如果数据库中不存在此 id 的记录,则进行爬取
      if (!Db.exists("mc_books", "id", i)) {
        Row row = fetch(i);
        if (row != null) {
          rows.add(row);
        }
        try {
          // 为防止访问太频繁,加上适当延时
          Thread.sleep(500);
        } catch (InterruptedException e) {
          e.printStackTrace();
        }
        // 每批次达到一定数量后,执行批量保存
        if (rows.size() > 10) {
          Db.batchSave("mc_books", rows, rows.size());
          rows.clear();
        }
      }
    }
  }

  public Row fetch(int i) {
    String url = String.format(urlTemplate, i);

    Request request = new Request.Builder().url(url)
        .get()
        .addHeader("User-Agent", userAgent)
        .addHeader("Accept", "*/*")
        .addHeader("Host", "z-lib.io")
        .addHeader("Connection", "keep-alive")
        .build();

    Call newCall = OkHttpClientPool.get3600HttpClient().newCall(request);
    String htmlContent = null;
    int code = 0;
    try (Response response = newCall.execute()) {
      code = response.code();
      htmlContent = response.body().string();
    } catch (IOException e) {
      e.printStackTrace();
      return null;
    }

    if (code == 200) {
      Document doc = Jsoup.parse(htmlContent, "UTF-8");

      // 1. Request Code
      Element reqcodeEl = doc.selectFirst("#reqcode");
      String requestCode = reqcodeEl != null ? reqcodeEl.text() : "";

      // 2. Title
      Element titleEl = doc.selectFirst("h1[itemprop=name]");
      String title = titleEl != null ? titleEl.text() : "";

      // 3. Author
      Element authorEl = doc.selectFirst("[itemprop=author]");
      String author = authorEl != null ? authorEl.text() : "";

      // 4. Description
      Element bookDescriptionBox = doc.getElementById("bookDescriptionBox");
      String description = bookDescriptionBox != null ? bookDescriptionBox.html() : "";

      // 5. Publisher
      Element publisherEl = doc.selectFirst(".bookProperty.property_publisher .property_value");
      String publisher = publisherEl != null ? publisherEl.text() : "";

      // 6. Year
      Element yearEl = doc.selectFirst(".bookProperty.property_year .property_value");
      int publishYear = 0;
      if (yearEl != null) {
        try {
          publishYear = Integer.parseInt(yearEl.text().trim());
        } catch (NumberFormatException e) {
          // 如果抓取到的内容不是纯数字,则保持 publishYear=0
        }
      }

      // 7. Pages
      Element pagesEl = doc.selectFirst(".bookProperty.property_pages .property_value");
      int pages = 0;
      if (pagesEl != null) {
        String pagesText = pagesEl.text();
        try {
          pages = Integer.parseInt(pagesText.trim());
        } catch (NumberFormatException e) {
          // 转换失败时保持 pages = 0
        }
      }

      // 8. Language
      Element langEl = doc.selectFirst(".bookProperty.property_language .property_value");
      String language = langEl != null ? langEl.text() : "";

      // 9. Category
      Element categoryEl = doc.selectFirst(".bookProperty.property_categories .property_value");
      String category = categoryEl != null ? categoryEl.text() : "";

      // 10. Paperback 下的链接(本示例暂不做详细处理)
      // 注释代码如需要可参考上面示例

      // 11. view_count —— 网页未提供,设定为 0
      int viewCount = 0;

      // 12. comment_count
      Element commentCountEl = doc.selectFirst(".book-comments-info");
      int commentCount = 0;
      if (commentCountEl != null) {
        String text = commentCountEl.text(); // 例如 "0 comments"
        text = text.replaceAll("\\D+", ""); // 去除非数字字符
        try {
          commentCount = Integer.parseInt(text);
        } catch (NumberFormatException e) {
          // 保持 commentCount = 0
        }
      }

      // 13. Rating(示例只取 interestScore)
      Element ratingDetail = doc.selectFirst(".book-rating-detail");
      String interestScore = null;
      if (ratingDetail != null) {
        Element interestEl = ratingDetail.selectFirst(".book-rating-interest-score");
        interestScore = interestEl != null ? interestEl.text() : "";
      }

      // 14. source_url —— 使用当前 url 作为来源
      String sourceUrl = url;

      // 15. 封面图片 URL
      Element coverImgEl = doc.selectFirst(".details-book-cover-content img");
      String coverImgUrl = coverImgEl != null ? coverImgEl.attr("src") : null;

      // 16. 获取 ISBN 10、ISBN 13、ISBN
      String isbn10 = "";
      String isbn13 = "";
      String isbn = "";

      Elements isbnProps = doc.select("div.bookProperty.property_isbn");
      for (Element e : isbnProps) {
        Element labelEl = e.selectFirst(".property_label");
        Element valEl = e.selectFirst(".property_value");
        if (labelEl == null || valEl == null) {
          continue;
        }
        String labelText = labelEl.text().trim();
        String valueText = valEl.text().trim();
        if (labelText.contains("ISBN 10")) {
          isbn10 = valueText;
        } else if (labelText.contains("ISBN 13")) {
          isbn13 = valueText;
        } else if (labelText.equals("ISBN:") || labelText.contains("ISBN")) {
          isbn = valueText;
        }
      }

      // 将解析到的字段组装成 Row
      Row row = new Row();
      row.set("id", Long.valueOf(i))
         .set("request_code", requestCode)
         .set("title", title)
         .set("description", description)
         .set("author", author)
         .set("rating", interestScore)
         .set("publisher", publisher)
         .set("publish_year", publishYear)
         .set("pages", pages)
         .set("language", language)
         .set("category", category)
         .set("view_count", viewCount)
         .set("isbn_10", isbn10)
         .set("isbn_13", isbn13)
         .set("isbn", isbn)
         .set("comment_count", commentCount)
         .set("source_url", sourceUrl);

      // 如果封面图片 URL 不为空,则将其存储在 files 字段(JSON 格式)
      if (coverImgUrl != null) {
        Kv kv = Kv.by("url", coverImgUrl);
        List<Kv> kvs = new ArrayList<Kv>();
        kvs.add(kv);
        String json = JsonUtils.toJson(kvs);
        PGobject pgObject = PgObjectUtils.json(json);
        row.set("files", pgObject);
      }

      return row;
    } else {
      log.info("HTTP status != 200, code=" + code + ", url=" + url);
      return null;
    }
  }
}

4. 总结

  1. 网页数据分析:

    • 通过查看页面源代码,确定数据所在的 HTML 标签与类名。
    • 根据页面示例,使用如 selectFirst、select 等 CSS 选择器提取数据,例如:
      • #reqcode 获取请求码
      • h1[itemprop=name] 获取书名
      • [itemprop=author] 获取作者
      • .bookProperty.property_publisher .property_value 获取出版社
      • 依此类推……
  2. 数据表设计:

    • 建表时为需要全文检索的字段预留 tsvector 类型字段。
    • 既可以在应用层手动维护 fts 字段,也可以通过触发器自动更新。
  3. 全文检索配置:

    • 使用 to_tsvector 生成检索向量,并在 fts 字段上建立 GIN 索引。
    • 查询时利用 @@ to_tsquery('english', '查询关键词') 实现全文检索。
    • 中文全文检索需额外配置中文分词插件(如 zhparser)。
  4. 爬虫实现:

    • 使用 OkHttp 获取网页内容,通过 Jsoup 解析 HTML 并提取数据。
    • 处理数字数据时需注意异常处理,如解析年份、页数、评论数量时可能遇到格式问题。
    • 部分字段(如 view_count)网页未提供,根据实际需求设定默认值。
  5. 入库操作:

    • 利用批量插入提高数据保存效率。
    • 防止重复抓取时,可先查询数据库中是否已存在记录。
  6. 其他注意事项:

    • 目标站点可能存在反爬机制,可通过延时、UA 伪装、代理等方式应对。
    • 网页结构若发生变化,解析逻辑需要适时调整,建议做好异常处理。

通过本文的介绍与完整示例代码,你可以实现对 z‑lib.io 网站数据的全量爬取,并利用 PostgreSQL 的全文检索功能为搜索需求提供支持。希望本篇文档能为你的项目提供参考和帮助。

Edit this page
Last Updated:
Contributors: Tong Li
Prev
jsoup
Next
整合 WebMagic