Tio Boot DocsTio Boot Docs
Home
  • java-db
  • api-table
  • Enjoy
  • Tio Boot Admin
  • ai_agent
  • translator
  • knowlege_base
  • ai-search
  • 案例
Abount
  • Github
  • Gitee
Home
  • java-db
  • api-table
  • Enjoy
  • Tio Boot Admin
  • ai_agent
  • translator
  • knowlege_base
  • ai-search
  • 案例
Abount
  • Github
  • Gitee
  • 01_tio-boot 简介

    • tio-boot:新一代高性能 Java Web 开发框架
    • tio-boot 入门示例
    • Tio-Boot 配置 : 现代化的配置方案
    • tio-boot 整合 Logback
    • tio-boot 整合 hotswap-classloader 实现热加载
    • 自行编译 tio-boot
    • 最新版本
    • 开发规范
  • 02_部署

    • 使用 Maven Profile 实现分环境打包 tio-boot 项目
    • Maven 项目配置详解:依赖与 Profiles 配置
    • tio-boot 打包成 FastJar
    • 使用 GraalVM 构建 tio-boot Native 程序
    • 使用 Docker 部署 tio-boot
    • 部署到 Fly.io
    • 部署到 AWS Lambda
    • 到阿里云云函数
    • 使用 Deploy 工具部署
    • 胖包与瘦包的打包与部署
    • 使用 Jenkins 部署 Tio-Boot 项目
    • 使用 Nginx 反向代理 Tio-Boot
    • 使用 Supervisor 管理 Java 应用
  • 03_配置

    • 配置参数
    • 服务器监听器
    • 内置缓存系统 AbsCache
    • 使用 Redis 作为内部 Cache
    • 静态文件处理器
    • 基于域名的静态资源隔离
    • DecodeExceptionHandler
  • 04_原理

    • 生命周期
    • 请求处理流程
    • 重要的类
  • 05_json

    • Json
    • 接受 JSON 和响应 JSON
    • 响应实体类
  • 06_web

    • 概述
    • 文件上传
    • 接收请求参数
    • 接收日期参数
    • 接收数组参数
    • 返回字符串
    • 返回文本数据
    • 返回网页
    • 请求和响应字节
    • 文件下载
    • 返回视频文件并支持断点续传
    • http Session
    • Cookie
    • HttpRequest
    • HttpResponse
    • Resps
    • RespBodyVo
    • /zh/06_web/19.html
    • 全局异常处理器
    • 异步
    • 动态 返回 CSS 实现
    • 返回图片
    • Transfer-Encoding: chunked 实时音频播放
    • Server-Sent Events (SSE)
    • 接口访问统计
    • 接口请求和响应数据记录
    • 自定义 Handler 转发请求
    • 使用 HttpForwardHandler 转发所有请求
    • 跨域
    • 添加 Controller
    • 常用工具类
    • HTTP Basic 认证
    • WebJars
    • JProtobuf
  • 07_validate

    • 数据紧校验规范
    • 参数校验
  • 08_websocket

    • 使用 tio-boot 搭建 WebSocket 服务
    • WebSocket 聊天室项目示例
  • 09_java-db

    • java‑db
    • 操作数据库入门示例
    • SQL 模板
    • 数据源配置与使用
    • ActiveRecord
    • Model
    • 生成器与 Model
    • Db 工具类
    • 批量操作
    • 数据库事务处理
    • Cache 缓存
    • Dialect 多数据库支持
    • 表关联操作
    • 复合主键
    • Oracle 支持
    • Enjoy SQL 模板
    • Java-DB 整合 Enjoy 模板最佳实践
    • 多数据源支持
    • 独立使用 ActiveRecord
    • 调用存储过程
    • java-db 整合 Guava 的 Striped 锁优化
    • 生成 SQL
    • 通过实体类操作数据库
    • java-db 读写分离
    • Spring Boot 整合 Java-DB
    • like 查询
    • 常用操作示例
    • Druid 监控集成指南
    • SQL 统计
  • 10_api-table

    • ApiTable 概述
    • 使用 ApiTable 连接 SQLite
    • 使用 ApiTable 连接 Mysql
    • 使用 ApiTable 连接 Postgres
    • 使用 ApiTable 连接 TDEngine
    • 使用 api-table 连接 oracle
    • 使用 api-table 连接 mysql and tdengine 多数据源
    • EasyExcel 导出
    • EasyExcel 导入
    • TQL(Table SQL)前端输入规范
    • ApiTable 实现增删改查
    • 数组类型
    • 单独使用 ApiTable
  • 11_aop

    • JFinal-aop
    • Aop 工具类
    • 配置
    • 配置
    • 独立使用 JFinal Aop
    • @AImport
    • 原理解析
  • 12_cache

    • Caffine
    • Jedis-redis
    • hutool RedisDS
    • Redisson
    • Caffeine and redis
    • CacheUtils 工具类
    • 使用 CacheUtils 整合 caffeine 和 redis 实现的两级缓存
    • 使用 java-db 整合 ehcache
    • 使用 java-db 整合 redis
    • Java DB Redis 相关 Api
    • redis 使用示例
  • 13_认证和权限

    • hutool-JWT
    • FixedTokenInterceptor
    • 使用内置 TokenManager 实现登录
    • 用户系统
    • 重置密码
    • 匿名登录
    • Google 登录
    • 权限校验注解
    • Sa-Token
    • sa-token 登录注册
    • StpUtil.isLogin() 源码解析
    • 短信登录
    • 移动端微信登录实现指南
    • 移动端重置密码
  • 14_i18n

    • i18n
  • 15_enjoy

    • tio-boot 整合 Enjoy 模版引擎文档
    • 引擎配置
    • 表达式
    • 指令
    • 注释
    • 原样输出
    • Shared Method 扩展
    • Shared Object 扩展
    • Extension Method 扩展
    • Spring boot 整合
    • 独立使用 Enjoy
    • tio-boot enjoy 自定义指令 localeDate
    • PromptEngine
    • Enjoy 入门示例-擎渲染大模型请求体
    • Enjoy 使用示例
  • 16_定时任务

    • Quartz 定时任务集成指南
    • 分布式定时任务 xxl-jb
    • cron4j 使用指南
  • 17_tests

    • TioBootTest 类
  • 18_tio

    • TioBootServer
    • tio-core
    • 内置 TCP 处理器
    • 独立启动 UDPServer
    • 使用内置 UDPServer
    • t-io 消息处理流程
    • tio-运行原理详解
    • TioConfig
    • ChannelContext
    • Tio 工具类
    • 业务数据绑定
    • 业务数据解绑
    • 发送数据
    • 关闭连接
    • Packet
    • 监控: 心跳
    • 监控: 客户端的流量数据
    • 监控: 单条 TCP 连接的流量数据
    • 监控: 端口的流量数据
    • 单条通道统计: ChannelStat
    • 所有通道统计: GroupStat
    • 资源共享
    • 成员排序
    • ssl
    • DecodeRunnable
    • 使用 AsynchronousSocketChannel 响应数据
    • 拉黑 IP
    • 深入解析 Tio 源码:构建高性能 Java 网络应用
  • 19_aio

    • ByteBuffer
    • AIO HTTP 服务器
    • 自定义和线程池和池化 ByteBuffer
    • AioHttpServer 应用示例 IP 属地查询
    • 手写 AIO Http 服务器
  • 20_netty

    • Netty TCP Server
    • Netty Web Socket Server
    • 使用 protoc 生成 Java 包文件
    • Netty WebSocket Server 二进制数据传输
    • Netty 组件详解
  • 21_netty-boot

    • Netty-Boot
    • 原理解析
    • 整合 Hot Reload
    • 整合 数据库
    • 整合 Redis
    • 整合 Elasticsearch
    • 整合 Dubbo
    • Listener
    • 文件上传
    • 拦截器
    • Spring Boot 整合 Netty-Boot
    • SSL 配置指南
    • ChannelInitializer
    • Reserve
  • 22_MQ

    • Mica-mqtt
    • EMQX
    • Disruptor
  • 23_tio-utils

    • tio-utils
    • HttpUtils
    • Notification
    • 邮箱
    • JSON
    • 读取文件
    • Base64
    • 上传和下载
    • Http
    • Telegram
    • RsaUtils
    • EnvUtils 使用文档
    • 系统监控
    • 毫秒并发 ID (MCID) 生成方案
  • 24_tio-http-server

    • 使用 Tio-Http-Server 搭建简单的 HTTP 服务
    • tio-boot 添加 HttpRequestHandler
    • 在 Android 上使用 tio-boot 运行 HTTP 服务
    • tio-http-server-native
    • handler 常用操作
  • 25_tio-websocket

    • WebSocket 服务器
    • WebSocket Client
  • 26_tio-im

    • 通讯协议文档
    • ChatPacket.proto 文档
    • java protobuf
    • 数据表设计
    • 创建工程
    • 登录
    • 历史消息
    • 发消息
  • 27_mybatis

    • Tio-Boot 整合 MyBatis
    • 使用配置类方式整合 MyBatis
    • 整合数据源
    • 使用 mybatis-plus 整合 tdengine
    • 整合 mybatis-plus
  • 28_mongodb

    • tio-boot 使用 mongo-java-driver 操作 mongodb
  • 29_elastic-search

    • Elasticsearch
    • JavaDB 整合 ElasticSearch
    • Elastic 工具类使用指南
    • Elastic-search 注意事项
    • ES 课程示例文档
  • 30_magic-script

    • tio-boot 整合 magic-script
  • 31_groovy

    • tio-boot 整合 Groovy
  • 32_firebase

    • 整合 google firebase
    • Firebase Storage
    • Firebase Authentication
    • 使用 Firebase Admin SDK 进行匿名用户管理与自定义状态标记
    • 导出用户
    • 注册回调
    • 登录注册
  • 33_文件存储

    • 文件上传数据表
    • 本地存储
    • 使用 AWS S3 存储文件并整合到 Tio-Boot 项目中
    • 存储文件到 腾讯 COS
  • 34_spider

    • jsoup
    • 爬取 z-lib.io 数据
    • 整合 WebMagic
    • WebMagic 示例:爬取学校课程数据
    • Playwright
    • Flexmark (Markdown 处理器)
    • tio-boot 整合 Playwright
    • 缓存网页数据
  • 36_integration_thirty_party

    • tio-boot 整合 okhttp
    • 整合 GrpahQL
    • 集成 Mailjet
    • 整合 ip2region
    • 整合 GeoLite 离线库
    • 整合 Lark 机器人指南
    • 集成 Lark Mail 实现邮件发送
    • Thymeleaf
    • Swagger
    • Clerk 验证
  • 37_dubbo

    • 概述
    • dubbo 2.6.0
    • dubbo 2.6.0 调用过程
    • dubbo 3.2.0
  • 38_spring

    • Spring Boot Web 整合 Tio Boot
    • spring-boot-starter-webflux 整合 tio-boot
    • Tio Boot 整合 Spring Boot Starter
    • Tio Boot 整合 Spring Boot Starter Data Redis 指南
  • 39_spring-cloud

    • tio-boot spring-cloud
  • 40_mysql

    • 使用 Docker 运行 MySQL
    • /zh/42_mysql/02.html
  • 41_postgresql

    • PostgreSQL 安装
    • PostgreSQL 主键自增
    • PostgreSQL 日期类型
    • Postgresql 金融类型
    • PostgreSQL 数组类型
    • PostgreSQL 全文检索
    • PostgreSQL 查询优化
    • 获取字段类型
    • PostgreSQL 向量
    • PostgreSQL 优化向量查询
    • PostgreSQL 其他
  • 43_oceanbase

    • 快速体验 OceanBase 社区版
    • 快速上手 OceanBase 数据库单机部署与管理
    • 诊断集群性能
    • 优化 SQL 性能指南
    • /zh/43_oceanbase/05.html
  • 50_media

    • JAVE 提取视频中的声音
    • Jave 提取视频中的图片
    • /zh/50_media/03.html
  • 51_asr

    • Whisper-JNI
  • 54_native-media

    • java-native-media
    • JNI 入门示例
    • mp3 拆分
    • mp4 转 mp3
    • 使用 libmp3lame 实现高质量 MP3 编码
    • Linux 编译
    • macOS 编译
    • 从 JAR 包中加载本地库文件
    • 支持的音频和视频格式
    • 任意格式转为 mp3
    • 通用格式转换
    • 通用格式拆分
    • 视频合并
    • VideoToHLS
    • split_video_to_hls 支持其他语言
    • 持久化 HLS 会话
  • 55_telegram4j

    • 数据库设计
    • /zh/55_telegram4j/02.html
    • 基于 MTProto 协议开发 Telegram 翻译机器人
    • 过滤旧消息
    • 保存机器人消息
    • 定时推送
    • 增加命令菜单
    • 使用 telegram-Client
    • 使用自定义 StoreLayout
    • 延迟测试
    • Reactor 错误处理
    • Telegram4J 常见错误处理指南
  • 56_telegram-bots

    • TelegramBots 入门指南
    • 使用工具库 telegram-bot-base 开发翻译机器人
  • 60_LLM

    • 简介
    • AI 问答
    • /zh/60_LLM/03.html
    • /zh/60_LLM/04.html
    • 增强检索(RAG)
    • 结构化数据检索
    • 搜索+AI
    • 集成第三方 API
    • 后置处理
    • 推荐问题生成
    • 连接代码执行器
    • 避免 GPT 混乱
    • /zh/60_LLM/13.html
  • 61_ai_agent

    • 数据库设计
    • 示例问题管理
    • 会话管理
    • 历史记录
    • 对接 Perplexity API
    • 意图识别与生成提示词
    • 智能问答模块设计与实现
    • 文件上传与解析文档
    • 翻译
    • 名人搜索功能实现
    • Ai studio gemini youbue 问答使用说明
    • 自建 YouTube 字幕问答系统
    • 自建 获取 youtube 字幕服务
    • 通用搜索
    • /zh/61_ai_agent/15.html
    • 16
    • 17
    • 18
    • 在 tio-boot 应用中整合 ai-agent
    • 16
  • 62_translator

    • 简介
  • 63_knowlege_base

    • 数据库设计
    • 用户登录实现
    • 模型管理
    • 知识库管理
    • 文档拆分
    • 片段向量
    • 命中测试
    • 文档管理
    • 片段管理
    • 问题管理
    • 应用管理
    • 向量检索
    • 推理问答
    • 问答模块
    • 统计分析
    • 用户管理
    • api 管理
    • 存储文件到 S3
    • 文档解析优化
    • 片段汇总
    • 段落分块与检索
    • 多文档解析
    • 对话日志
    • 检索性能优化
    • Milvus
    • 文档解析方案和费用对比
    • 离线运行向量模型
  • 64_ai-search

    • ai-search 项目简介
    • ai-search 数据库文档
    • ai-search SearxNG 搜索引擎
    • ai-search Jina Reader API
    • ai-search Jina Search API
    • ai-search 搜索、重排与读取内容
    • ai-search PDF 文件处理
    • ai-search 推理问答
    • Google Custom Search JSON API
    • ai-search 意图识别
    • ai-search 问题重写
    • ai-search 系统 API 接口 WebSocket 版本
    • ai-search 搜索代码实现 WebSocket 版本
    • ai-search 生成建议问
    • ai-search 生成问题标题
    • ai-search 历史记录
    • Discover API
    • 翻译
    • Tavily Search API 文档
    • 对接 Tavily Search
    • 火山引擎 DeepSeek
    • 对接 火山引擎 DeepSeek
    • ai-search 搜索代码实现 SSE 版本
    • jar 包部署
    • Docker 部署
    • 爬取一个静态网站的所有数据
    • 网页数据预处理
    • 网页数据检索与问答流程整合
  • 65_java-linux

    • Java 执行 python 代码
    • 通过大模型执行 Python 代码
    • MCP 协议
    • Cline 提示词
    • Cline 提示词-中文版本
  • 66_manim

    • 简介
    • Manim 开发环境搭建
    • 生成场景提示词
    • 生成代码
    • 完整脚本示例
    • 语音合成系统
    • Fish.audio TTS 接口说明文档与 Java 客户端封装
    • 整合 fishaudio 到 java-uni-ai-server 项目
    • 执行 Python (Manim) 代码
    • 使用 SSE 流式传输生成进度的实现文档
    • 整合全流程完整文档
    • HLS 动态推流技术文档
    • manim 分场景生成代码
    • 分场景运行代码及流式播放支持
    • 分场景业务端完整实现流程
    • Maiim布局管理器
    • 仅仅生成场景代码
    • 使用 modal 运行 manim 代码
    • Python 使用 Modal GPU 加速渲染
    • Modal 平台 GPU 环境下运行 Manim
    • Modal Manim OpenGL 安装与使用
    • 优化 GPU 加速
    • 生成视频封面流程
    • Java 调用 manim 命令 执行代码 生成封面
    • Manim 图像生成服务客户端文档
    • manim render help
    • 显示 中文公式
    • manimgl
    • EGL
    • /zh/66_manim/30.html
    • /zh/66_manim/31.html
    • 成本核算
    • /zh/66_manim/33.html
  • 70_tio-boot-admin

    • 入门指南
    • 初始化数据
    • token 存储
    • 与前端集成
    • 文件上传
    • 网络请求
    • 图片管理
    • /zh/70_tio-boot-admin/08.html
    • Word 管理
    • PDF 管理
    • 文章管理
    • 富文本编辑器
  • 71_tio-boot

    • /zh/71_tio-boot/01.html
    • Swagger 整合到 Tio-Boot 中的指南
    • HTTP/1.1 Pipelining 性能测试报告
  • 80_性能测试

    • 压力测试 - tio-http-serer
    • 压力测试 - tio-boot
    • 压力测试 - tio-boot-native
    • 压力测试 - netty-boot
    • 性能测试对比
    • TechEmpower FrameworkBenchmarks
    • 压力测试 - tio-boot 12 C 32G
  • 99_案例

    • 封装 IP 查询服务
    • tio-boot 案例 - 全局异常捕获与企业微信群通知
    • tio-boot 案例 - 文件上传和下载
    • tio-boot 案例 - 整合 ant design pro 增删改查
    • tio-boot 案例 - 流失响应
    • tio-boot 案例 - 增强检索
    • tio-boot 案例 - 整合 function call
    • tio-boot 案例 - 定时任务 监控 PostgreSQL、Redis 和 Elasticsearch
    • Tio-Boot 案例:使用 SQLite 整合到登录注册系统
    • tio-boot 案例 - 执行 shell 命令

tio-boot 整合 Playwright

简介

在使用 Playwright 进行网页数据抓取时,每次启动 Playwright 都会带来较大的性能开销。为了解决这一问题,可以在服务启动时初始化 Playwright,并在服务关闭时正确释放资源,从而显著提升性能。本文将介绍如何使用 TioBoot 整合 Playwright,实现高效的网页数据获取服务,并探讨 BrowserContextPool 的设计理念以及线程安全相关的注意事项。

整合示例

1. 添加依赖

在你的 pom.xml 文件中添加 Playwright 的依赖:

<dependency>
  <groupId>com.microsoft.playwright</groupId>
  <artifactId>playwright</artifactId>
  <version>1.27.0</version> <!-- 请检查最新版本 -->
</dependency>

2. 线程安全的使用

在早期的实现中,为每个请求创建新的 Playwright 实例和浏览器上下文,如下所示:

import com.litongjava.annotation.RequestPath;
import com.litongjava.model.body.RespBodyVo;
import com.microsoft.playwright.Browser;
import com.microsoft.playwright.BrowserContext;
import com.microsoft.playwright.BrowserType;
import com.microsoft.playwright.BrowserType.LaunchOptions;
import com.microsoft.playwright.Page;
import com.microsoft.playwright.Playwright;

import lombok.extern.slf4j.Slf4j;

@RequestPath("/playwrite")
@Slf4j
public class PlaywriteTestController {

  LaunchOptions launchOptions = new BrowserType.LaunchOptions().setHeadless(false);

  public RespBodyVo newContext() {
    String link1 = "https://studentservices.stanford.edu/calendar/academic-dates/stanford-academic-calendar-2024-2025";
    //显示网页
    for (int i = 0; i < 3; i++) {
      try (Playwright playwright = Playwright.create()) {
        BrowserType chromium = playwright.chromium();
        try (Browser broswer = chromium.launch(launchOptions);) {
          try (BrowserContext context = broswer.newContext()) {
            try (Page page = context.newPage()) {
              //显示窗口
              page.navigate(link1);
              String bodyText = page.innerText("body");
            } catch (Exception e) {
              log.error("Error getting content from {}: {}", link1, e.getMessage(), e);
            }
          }
        }
      }
    }

    try {
      Thread.sleep(200000);
    } catch (InterruptedException e) {
      e.printStackTrace();
    }
    return RespBodyVo.ok();
  }

}

为什么 BrowserContextPool 要创建对应数量的 Playwright、Browser 和 BrowserContext?

在 BrowserContextPool 的设计中,我们预先创建了固定数量的 Playwright、Browser 和 BrowserContext 实例,并将它们存入各自的线程安全队列中。这么做有以下几个原因:

  1. 减少启动开销:Playwright 和浏览器实例的启动过程消耗较大,通过在服务启动时预先创建这些实例,可以避免在每次请求时重新启动,从而大幅提升响应速度。

  2. 资源复用:通过池化管理,可以复用已经创建的实例,减少重复创建和销毁对象的资源消耗,提高资源利用率。

  3. 应对高并发请求:在高并发场景下,提前创建多个实例可以同时处理多个请求,避免因为等待资源创建而导致的延迟。

  4. 线程安全的管理:使用 BlockingQueue 等线程安全数据结构,可以确保在多线程环境下安全地获取和归还资源。

线程安全性分析

需要注意的是,Playwright 中的 BrowserContext 和 Page 对象都是线程不安全的。这意味着:

  • 在同一时间内,不能在多个线程中共享同一个 BrowserContext 或 Page 实例,否则可能导致数据竞争、状态混乱等问题。
  • 每个线程在使用 BrowserContext 或 Page 时,应该确保其独占性,或者从资源池中获取专属的实例进行操作。

在我们的实现中,为每次具体网页操作从池中获取一个 BrowserContext,创建新的 Page 进行页面操作。操作完成后,关闭 Page 并将 BrowserContext 归还池中。这种设计有效地避免了在多个线程之间共享不安全的对象,确保了线程安全。

public static String getHtml(String url) {
  BrowserContext context = null;
  Page page = null;
  String content = "";
  try {
    // 从池中获取一个上下文,最多等待5秒
    context = contextPool.acquire(5, TimeUnit.SECONDS);
    if (context == null) {
      throw new RuntimeException("无法获取 BrowserContext");
    }
    page = context.newPage();
    page.navigate(url);
    content = page.content();
  } catch (InterruptedException e) {
    Thread.currentThread().interrupt();
    throw new RuntimeException("获取 BrowserContext 被中断", e);
  } finally {
    if (page != null) {
      page.close();
    }
    // 将上下文归还池中
    if (context != null) {
      contextPool.release(context);
    }
  }
  return content;
}

BrowserContext 与 Page 的线程安全性

  • 线程不安全:由于 BrowserContext 和 Page 不是线程安全的,同一实例不能并发使用。如果在不同线程中共享同一个实例,会产生不可预知的行为。因此,每个线程应当获取自己独立的 BrowserContext 和 Page 实例。

  • 活动状态的 BrowserContext:当通过 Browser.newContext() 方法创建一个新的 BrowserContext 时,它会智能地处于“活动状态”,这意味着该上下文已经准备好接受页面创建和导航等操作。每个 BrowserContext 通常关联一个或多个 Page 对象,用于执行具体的网页操作。Browser 同时只能运行一个 BrowserContext 处于活动状态

通过这种方式,系统在每个请求处理期间只使用自己的上下文和页面,避免了线程安全问题。页面操作完成后,通过关闭 Page 并将 BrowserContext 归还到池中,使得资源得以高效复用。

2. Playwright 实例管理

为了解决性能瓶颈,我们设计了一个 BrowserContextPool,在服务启动时初始化一定数量的 Playwright、Browser 和 BrowserContext 实例,并将它们放入线程安全的池中复用。

package com.litongjava.perplexica.instance;

import java.util.concurrent.BlockingQueue;
import java.util.concurrent.LinkedBlockingQueue;
import java.util.concurrent.TimeUnit;

import com.microsoft.playwright.Browser;
import com.microsoft.playwright.BrowserContext;
import com.microsoft.playwright.BrowserType;
import com.microsoft.playwright.BrowserType.LaunchOptions;
import com.microsoft.playwright.Playwright;

public class BrowserContextPool {
  private final BlockingQueue<Playwright> playwrightPool;
  private final BlockingQueue<Browser> brwoserPool;
  private final BlockingQueue<BrowserContext> browserContextPool;

  public BrowserContextPool(int poolSize) {
    this.playwrightPool = new LinkedBlockingQueue<>(poolSize);
    this.brwoserPool = new LinkedBlockingQueue<>(poolSize);
    this.browserContextPool = new LinkedBlockingQueue<>(poolSize);
    LaunchOptions launchOptions = new BrowserType.LaunchOptions().setHeadless(true);
    // 预先创建上下文并放入池中
    for (int i = 0; i < poolSize; i++) {
      Playwright playwright = Playwright.create();
      playwrightPool.offer(playwright);

      Browser brwoser = playwright.chromium().launch(launchOptions);
      brwoserPool.offer(brwoser);

      BrowserContext browserContext = brwoser.newContext();
      //browserContext.newPage();
      browserContextPool.offer(browserContext);
    }
  }

  /**
   * 从池中获取一个 BrowserContext。如果池为空,则等待指定时间后返回null。
   */
  public BrowserContext acquire(long timeout, TimeUnit unit) throws InterruptedException {
    return browserContextPool.poll(timeout, unit);
  }

  /**
   * 将使用完毕的 BrowserContext 归还到池中
   */
  public void release(BrowserContext context) {
    if (context != null) {
      browserContextPool.offer(context);
    }
  }

  /**
   * 释放池中所有的 BrowserContext 资源
   */
  public void close() {
    for (Playwright context : playwrightPool) {
      context.close();
    }
    playwrightPool.clear();
    for (Browser context : brwoserPool) {
      context.close();
    }
    brwoserPool.clear();

    for (BrowserContext context : browserContextPool) {
      context.close();
    }
    browserContextPool.clear();
  }
}

package com.litongjava.maxkb.playwright;

import java.util.concurrent.TimeUnit;

import com.litongjava.tio.utils.environment.EnvUtils;
import com.microsoft.playwright.BrowserContext;
import com.microsoft.playwright.Page;

public enum PlaywrightBrowser {
  INSTANCE;

  // 定义池化管理器
  public static BrowserContextPool contextPool;
  static {
    // 初始化上下文池,假设池大小为10,可根据需要调整
    if(EnvUtils.isDev()) {
      contextPool = new BrowserContextPool(2);
    }else {
      contextPool = new BrowserContextPool(Runtime.getRuntime().availableProcessors() * 2);
    }
  }

  public static void init() {
  }

  public static void close() {
    // 关闭上下文池中的所有上下文
    contextPool.close();
  }

  public static String getHtml(String url) {
    BrowserContext context = null;
    Page page = null;
    String content = "";
    try {
      // 从池中获取一个上下文,最多等待5秒
      context = contextPool.acquire(5, TimeUnit.SECONDS);
      if (context == null) {
        throw new RuntimeException("无法获取 BrowserContext");
      }
      page = context.newPage();
      page.navigate(url);
      content = page.content();
    } catch (InterruptedException e) {
      Thread.currentThread().interrupt();
      throw new RuntimeException("获取 BrowserContext 被中断", e);
    } finally {
      if (page != null) {
        page.close();
      }
      // 将上下文归还池中
      if (context != null) {
        contextPool.release(context);
      }
    }
    return content;
  }

  public static String getBodyContent(String url) {
    BrowserContext context = null;
    Page page = null;
    String textContent = "";
    try {
      context = contextPool.acquire(5, TimeUnit.SECONDS);
      if (context == null) {
        throw new RuntimeException("无法获取 BrowserContext");
      }
      page = context.newPage();
      page.navigate(url);
      textContent = page.innerText("body");
    } catch (InterruptedException e) {
      Thread.currentThread().interrupt();
      throw new RuntimeException("获取 BrowserContext 被中断", e);
    } finally {
      if (page != null) {
        page.close();
      }
      if (context != null) {
        contextPool.release(context);
      }
    }
    return textContent;
  }

  public static BrowserContext acquire() {
    try {
      return contextPool.acquire(60, TimeUnit.SECONDS);
    } catch (InterruptedException e) {
      throw new RuntimeException(e.getMessage(), e);
    }
  }

  public static void release(BrowserContext context) {
    contextPool.release(context);
  }
}

4. Playwright 配置类

在服务启动时初始化 Playwright,并在服务关闭时自动释放资源,确保高效的资源管理。

package com.litongjava.perplexica.config;

import com.litongjava.annotation.AConfiguration;
import com.litongjava.annotation.Initialization;
import com.litongjava.hook.HookCan;
import com.litongjava.perplexica.instance.PlaywrightBrowser;
import com.litongjava.tio.utils.environment.EnvUtils;

import lombok.extern.slf4j.Slf4j;

@AConfiguration
@Slf4j
public class PlaywrightConfig {

  @Initialization
  public void config() {
    if(EnvUtils.getBoolean("playwright.enable",false)) {
      // 启动
      log.info("start init playwright");
      PlaywrightBrowser.init();
      log.info("end init playwright");

      // 服务关闭时,自动关闭浏览器和 Playwright 实例
      HookCan.me().addDestroyMethod(() -> {
        PlaywrightBrowser.close();
      });
    }
  }
}

以上配置确保:

  • 在服务启动时调用 PlaywrightBrowser.init() 初始化资源池。
  • 在服务关闭时,通过注册的销毁方法自动关闭所有 Playwright 和浏览器实例,防止资源泄漏。

5. 测试线程是否安全

  public RespBodyVo newContext2() {
    String link1 = "https://studentservices.stanford.edu/calendar/academic-dates/stanford-academic-calendar-2024-2025";
    //模拟20个用户
    for (int i = 1; i < 20; i++) {
      TioThreadUtils.submit(() -> {
        //显示网页
        for (int j = 0; j < 3; j++) {
          BrowserContext context = PlaywrightBrowser.acquire();
          try (Page page = context.newPage()) {
            //显示窗口
            page.navigate(link1);
            String bodyText = page.innerText("body");
          } catch (Exception e) {
            log.error("Error getting content from {}: {}", link1, e.getMessage(), e);
          }
          PlaywrightBrowser.release(context);
        }

        try {
          Thread.sleep(200000);
        } catch (InterruptedException e) {
          e.printStackTrace();
        }
      });
    }

    return RespBodyVo.ok();
  }

6.多线程爬取网页

说明:

  • 使用 @AConfiguration 和 @Initialization 注解,在服务启动时自动创建 Browser 实例。
  • 将 Playwright 和 Chromium 浏览器的启动设置为无头模式,适合服务器环境。
  • 在服务销毁时,利用 TioBootServer 的 addDestroyMethod 方法,确保浏览器和 Playwright 实例被正确关闭,避免资源泄漏。
package com.litongjava.perplexica.services;

import java.util.ArrayList;
import java.util.List;
import java.util.concurrent.ExecutionException;
import java.util.concurrent.Future;

import com.litongjava.perplexica.instance.PlaywrightBrowser;
import com.litongjava.perplexica.vo.ChatWsRespVo;
import com.litongjava.perplexica.vo.CitationsVo;
import com.litongjava.tio.core.ChannelContext;
import com.litongjava.tio.core.Tio;
import com.litongjava.tio.utils.hutool.FilenameUtils;
import com.litongjava.tio.utils.thread.TioThreadUtils;
import com.litongjava.tio.websocket.common.WebSocketResponse;
import com.microsoft.playwright.BrowserContext;
import com.microsoft.playwright.Page;

import lombok.extern.slf4j.Slf4j;

@Slf4j
public class SpiderService {

  public StringBuffer spider(ChannelContext channelContext, long answerMessageId, List<CitationsVo> citationList) {
    ChatWsRespVo<String> vo;
    WebSocketResponse websocketResponse;
    //5.获取内容
    StringBuffer pageContents = new StringBuffer();
    for (int i = 0; i < citationList.size(); i++) {
      String link = citationList.get(i).getLink();
      String suffix = FilenameUtils.getSuffix(link);
      if ("pdf".equals(suffix)) {
        log.info("skip:{}", suffix);
      } else {
        String bodyText = null;
        try {
          bodyText = PlaywrightBrowser.getBodyContent(link);
        } catch (Exception e) {
          log.error(e.getMessage(), e);
          vo = ChatWsRespVo.message(answerMessageId + "", "Error Failed to get " + link + " " + e.getMessage());
          websocketResponse = WebSocketResponse.fromJson(vo);
          if (channelContext != null) {
            Tio.bSend(channelContext, websocketResponse);
          }
          continue;
        }
        pageContents.append("source " + (i + 1) + " " + bodyText).append("\n\n");
      }
    }
    return pageContents;
  }

  public StringBuffer spiderAsync(ChannelContext channelContext, long answerMessageId, List<CitationsVo> citationList) {
    List<Future<String>> futures = new ArrayList<>();

    for (int i = 0; i < citationList.size(); i++) {
      final int index = i;
      final String link = citationList.get(i).getLink();

      Future<String> future = TioThreadUtils.submit(() -> {
        String suffix = FilenameUtils.getSuffix(link);
        if ("pdf".equalsIgnoreCase(suffix)) {
          log.info("skip:{}", suffix);
          return "";
        } else {
          BrowserContext context = PlaywrightBrowser.acquire();
          try (Page page = context.newPage()) {
            page.navigate(link);
            String bodyText = page.innerText("body");
            return "source " + (index + 1) + " " + bodyText + "\n\n";
          } catch (Exception e) {
            log.error("Error getting content from {}: {}", link, e.getMessage(), e);
            ChatWsRespVo<String> vo = ChatWsRespVo.message(answerMessageId + "", "Error Failed to get " + link + " " + e.getMessage());
            WebSocketResponse websocketResponse = WebSocketResponse.fromJson(vo);
            if (channelContext != null) {
              Tio.bSend(channelContext, websocketResponse);
            }
            return "";
          } finally {
            PlaywrightBrowser.release(context);
          }
        }
      });
      futures.add(future);
    }

    StringBuffer pageContents = new StringBuffer();
    for (Future<String> future : futures) {
      try {
        String result = future.get();
        if (result != null) {
          pageContents.append(result);
        }
      } catch (InterruptedException | ExecutionException e) {
        log.error("Error retrieving task result: {}", e.getMessage(), e);
      }
    }

    return pageContents;
  }
}

转为 markdown

通过控制器实现网页内容获取和 Markdown 转换功能。

网页内容获取控制器

package com.litongjava.playwright.controller;

import com.litongjava.annotation.RequestPath;
import com.litongjava.playwright.instance.PlaywrightBrowser;
import com.litongjava.tio.boot.http.TioRequestContext;
import com.litongjava.tio.http.common.HttpResponse;
import com.litongjava.tio.http.server.util.Resps;

import lombok.extern.slf4j.Slf4j;

@RequestPath("/playwright")
@Slf4j
public class PlaywrightController {

  @RequestPath()
  public HttpResponse index(String url) {
    log.info("访问的 URL: {}", url);

    String content = PlaywrightBrowser.getContent(url);

    // 返回网页内容
    return Resps.html(TioRequestContext.getResponse(), content);
  }
}

Markdown 转换控制器

package com.litongjava.playwright.controller;

import com.litongjava.annotation.RequestPath;
import com.litongjava.playwright.instance.PlaywrightBrowser;
import com.litongjava.tio.boot.http.TioRequestContext;
import com.litongjava.tio.http.common.HttpResponse;
import com.litongjava.tio.http.server.util.Resps;
import com.vladsch.flexmark.html2md.converter.FlexmarkHtmlConverter;

import lombok.extern.slf4j.Slf4j;

@RequestPath("/markdown")
@Slf4j
public class MarkdownController {
  @RequestPath()
  public HttpResponse markdown(String url) {
    log.info("访问的 URL: {}", url);

    String html = PlaywrightBrowser.getContent(url);

    // 创建转换器实例
    FlexmarkHtmlConverter converter = FlexmarkHtmlConverter.builder().build();

    // 将 HTML 转换为 Markdown
    String markdown = converter.convert(html);

    // 返回网页内容
    return Resps.html(TioRequestContext.getResponse(), markdown);
  }
}

启动类

package com.litongjava.playwright;

import com.litongjava.annotation.AComponentScan;
import com.litongjava.playwright.instance.PlaywrightBrowser;
import com.litongjava.tio.boot.TioApplication;

@AComponentScan
public class PlaywrightApp {
  public static void main(String[] args) {
    boolean download = false;
    for (String string : args) {
      if ("--download".equals(string)) {
        download = true;
        break;
      }
    }
    if (download) {
      System.out.println("download start");
      PlaywrightBrowser.getContent("https://tio-boot.litongjava.com/");
      PlaywrightBrowser.close();
      System.out.println("download end");
    } else {
      long start = System.currentTimeMillis();
      TioApplication.run(PlaywrightApp.class, args);
      long end = System.currentTimeMillis();
      System.out.println((end - start) + "ms");
    }
  }
}

测试

部署服务后,可以通过以下地址进行测试:

  • 获取网页内容:

    http://localhost/playwright?url=https://www.sjsu.edu/registrar/calendar/fall-2024.php
    
  • 获取 Markdown 格式的网页内容:

    http://localhost/markdown?url=https://www.sjsu.edu/registrar/calendar/fall-2024.php
    

访问上述地址时,服务将返回指定网页的 HTML 内容或转换后的 Markdown 内容。

构建 Docker 镜像

为了简化部署过程,使用 Docker 容器化 Playwright 服务。以下是 Dockerfile 的配置示例:

# 第一阶段:构建
FROM litongjava/maven:3.8.8-jdk8u391 AS builder

WORKDIR /src
COPY pom.xml /src/
COPY src /src/src

RUN mvn package -DskipTests -Pproduction

# 第二阶段:运行
FROM litongjava/jdk:8u391-stable-slim

WORKDIR /app
COPY --from=builder /src/target/playwright-server-1.0.0.jar /app/

# 安装 Chromium 浏览器
RUN apt update && apt install chromium -y && rm -rf /var/lib/apt/lists/* /var/cache/apt/archives/*

# 下载 Playwright 所需的浏览器依赖
RUN java -jar /app/playwright-server-1.0.0.jar --download

# 启动应用
CMD ["java", "-Xmx900m", "-Xms512m", "-jar", "playwright-server-1.0.0.jar"]

使用以下命令构建 Docker 镜像:

docker build -t litongjava/playwright-server:1.0.0 .

总结

本文介绍了如何将 Playwright 整合到 TioBoot 中,并通过 Docker 实现高效部署。通过在服务启动时加载 Playwright 实例,并在服务关闭时释放资源,显著提升了服务的响应性能。此方法特别适合需要频繁进行网页抓取或自动化测试的场景。

主要优势:

  • 性能优化:避免每次请求都启动浏览器,减少启动开销。
  • 资源管理:通过统一管理 Playwright 实例,确保资源高效利用和正确释放。
  • 易于部署:使用 Docker 容器化,简化部署流程,提升环境一致性。
  • 扩展性强:封装为 Web 服务,便于集成到现有系统,并对外提供标准 API 接口。

通过合理利用上述方法,可以在高并发、低延时的应用场景中,实现高效、可靠的网页数据获取服务,提升整体系统性能和用户体验。

Edit this page
Last Updated:
Contributors: Tong Li
Prev
Flexmark (Markdown 处理器)
Next
缓存网页数据