Tio Boot DocsTio Boot Docs
Home
  • java-db
  • api-table
  • Enjoy
  • Tio Boot Admin
  • ai_agent
  • translator
  • knowlege_base
  • ai-search
  • 案例
Abount
  • Github
  • Gitee
Home
  • java-db
  • api-table
  • Enjoy
  • Tio Boot Admin
  • ai_agent
  • translator
  • knowlege_base
  • ai-search
  • 案例
Abount
  • Github
  • Gitee
  • 01_tio-boot 简介

    • tio-boot:新一代高性能 Java Web 开发框架
    • tio-boot 入门示例
    • Tio-Boot 配置 : 现代化的配置方案
    • tio-boot 整合 Logback
    • tio-boot 整合 hotswap-classloader 实现热加载
    • 自行编译 tio-boot
    • 最新版本
    • 开发规范
  • 02_部署

    • 使用 Maven Profile 实现分环境打包 tio-boot 项目
    • Maven 项目配置详解:依赖与 Profiles 配置
    • tio-boot 打包成 FastJar
    • 使用 GraalVM 构建 tio-boot Native 程序
    • 使用 Docker 部署 tio-boot
    • 部署到 Fly.io
    • 部署到 AWS Lambda
    • 到阿里云云函数
    • 使用 Deploy 工具部署
    • 胖包与瘦包的打包与部署
    • 使用 Jenkins 部署 Tio-Boot 项目
    • 使用 Nginx 反向代理 Tio-Boot
    • 使用 Supervisor 管理 Java 应用
  • 03_配置

    • 配置参数
    • 服务器监听器
    • 内置缓存系统 AbsCache
    • 使用 Redis 作为内部 Cache
    • 静态文件处理器
    • 基于域名的静态资源隔离
    • DecodeExceptionHandler
  • 04_原理

    • 生命周期
    • 请求处理流程
    • 重要的类
  • 05_json

    • Json
    • 接受 JSON 和响应 JSON
    • 响应实体类
  • 06_web

    • 概述
    • 文件上传
    • 接收请求参数
    • 接收日期参数
    • 接收数组参数
    • 返回字符串
    • 返回文本数据
    • 返回网页
    • 请求和响应字节
    • 文件下载
    • 返回视频文件并支持断点续传
    • http Session
    • Cookie
    • HttpRequest
    • HttpResponse
    • Resps
    • RespBodyVo
    • /zh/06_web/19.html
    • 全局异常处理器
    • 异步
    • 动态 返回 CSS 实现
    • 返回图片
    • Transfer-Encoding: chunked 实时音频播放
    • Server-Sent Events (SSE)
    • 接口访问统计
    • 接口请求和响应数据记录
    • 自定义 Handler 转发请求
    • 使用 HttpForwardHandler 转发所有请求
    • 跨域
    • 添加 Controller
    • 常用工具类
    • HTTP Basic 认证
    • WebJars
    • JProtobuf
  • 07_validate

    • 数据紧校验规范
    • 参数校验
  • 08_websocket

    • 使用 tio-boot 搭建 WebSocket 服务
    • WebSocket 聊天室项目示例
  • 09_java-db

    • java‑db
    • 操作数据库入门示例
    • SQL 模板
    • 数据源配置与使用
    • ActiveRecord
    • Model
    • 生成器与 Model
    • Db 工具类
    • 批量操作
    • 数据库事务处理
    • Cache 缓存
    • Dialect 多数据库支持
    • 表关联操作
    • 复合主键
    • Oracle 支持
    • Enjoy SQL 模板
    • Java-DB 整合 Enjoy 模板最佳实践
    • 多数据源支持
    • 独立使用 ActiveRecord
    • 调用存储过程
    • java-db 整合 Guava 的 Striped 锁优化
    • 生成 SQL
    • 通过实体类操作数据库
    • java-db 读写分离
    • Spring Boot 整合 Java-DB
    • like 查询
    • 常用操作示例
    • Druid 监控集成指南
    • SQL 统计
  • 10_api-table

    • ApiTable 概述
    • 使用 ApiTable 连接 SQLite
    • 使用 ApiTable 连接 Mysql
    • 使用 ApiTable 连接 Postgres
    • 使用 ApiTable 连接 TDEngine
    • 使用 api-table 连接 oracle
    • 使用 api-table 连接 mysql and tdengine 多数据源
    • EasyExcel 导出
    • EasyExcel 导入
    • TQL(Table SQL)前端输入规范
    • ApiTable 实现增删改查
    • 数组类型
    • 单独使用 ApiTable
  • 11_aop

    • JFinal-aop
    • Aop 工具类
    • 配置
    • 配置
    • 独立使用 JFinal Aop
    • @AImport
    • 原理解析
  • 12_cache

    • Caffine
    • Jedis-redis
    • hutool RedisDS
    • Redisson
    • Caffeine and redis
    • CacheUtils 工具类
    • 使用 CacheUtils 整合 caffeine 和 redis 实现的两级缓存
    • 使用 java-db 整合 ehcache
    • 使用 java-db 整合 redis
    • Java DB Redis 相关 Api
    • redis 使用示例
  • 13_认证和权限

    • hutool-JWT
    • FixedTokenInterceptor
    • 使用内置 TokenManager 实现登录
    • 用户系统
    • 重置密码
    • 匿名登录
    • Google 登录
    • 权限校验注解
    • Sa-Token
    • sa-token 登录注册
    • StpUtil.isLogin() 源码解析
    • 短信登录
    • 移动端微信登录实现指南
    • 移动端重置密码
  • 14_i18n

    • i18n
  • 15_enjoy

    • tio-boot 整合 Enjoy 模版引擎文档
    • 引擎配置
    • 表达式
    • 指令
    • 注释
    • 原样输出
    • Shared Method 扩展
    • Shared Object 扩展
    • Extension Method 扩展
    • Spring boot 整合
    • 独立使用 Enjoy
    • tio-boot enjoy 自定义指令 localeDate
    • PromptEngine
    • Enjoy 入门示例-擎渲染大模型请求体
    • Enjoy 使用示例
  • 16_定时任务

    • Quartz 定时任务集成指南
    • 分布式定时任务 xxl-jb
    • cron4j 使用指南
  • 17_tests

    • TioBootTest 类
  • 18_tio

    • TioBootServer
    • tio-core
    • 内置 TCP 处理器
    • 独立启动 UDPServer
    • 使用内置 UDPServer
    • t-io 消息处理流程
    • tio-运行原理详解
    • TioConfig
    • ChannelContext
    • Tio 工具类
    • 业务数据绑定
    • 业务数据解绑
    • 发送数据
    • 关闭连接
    • Packet
    • 监控: 心跳
    • 监控: 客户端的流量数据
    • 监控: 单条 TCP 连接的流量数据
    • 监控: 端口的流量数据
    • 单条通道统计: ChannelStat
    • 所有通道统计: GroupStat
    • 资源共享
    • 成员排序
    • ssl
    • DecodeRunnable
    • 使用 AsynchronousSocketChannel 响应数据
    • 拉黑 IP
    • 深入解析 Tio 源码:构建高性能 Java 网络应用
  • 19_aio

    • ByteBuffer
    • AIO HTTP 服务器
    • 自定义和线程池和池化 ByteBuffer
    • AioHttpServer 应用示例 IP 属地查询
    • 手写 AIO Http 服务器
  • 20_netty

    • Netty TCP Server
    • Netty Web Socket Server
    • 使用 protoc 生成 Java 包文件
    • Netty WebSocket Server 二进制数据传输
    • Netty 组件详解
  • 21_netty-boot

    • Netty-Boot
    • 原理解析
    • 整合 Hot Reload
    • 整合 数据库
    • 整合 Redis
    • 整合 Elasticsearch
    • 整合 Dubbo
    • Listener
    • 文件上传
    • 拦截器
    • Spring Boot 整合 Netty-Boot
    • SSL 配置指南
    • ChannelInitializer
    • Reserve
  • 22_MQ

    • Mica-mqtt
    • EMQX
    • Disruptor
  • 23_tio-utils

    • tio-utils
    • HttpUtils
    • Notification
    • 邮箱
    • JSON
    • 读取文件
    • Base64
    • 上传和下载
    • Http
    • Telegram
    • RsaUtils
    • EnvUtils 使用文档
    • 系统监控
    • 毫秒并发 ID (MCID) 生成方案
  • 24_tio-http-server

    • 使用 Tio-Http-Server 搭建简单的 HTTP 服务
    • tio-boot 添加 HttpRequestHandler
    • 在 Android 上使用 tio-boot 运行 HTTP 服务
    • tio-http-server-native
    • handler 常用操作
  • 25_tio-websocket

    • WebSocket 服务器
    • WebSocket Client
  • 26_tio-im

    • 通讯协议文档
    • ChatPacket.proto 文档
    • java protobuf
    • 数据表设计
    • 创建工程
    • 登录
    • 历史消息
    • 发消息
  • 27_mybatis

    • Tio-Boot 整合 MyBatis
    • 使用配置类方式整合 MyBatis
    • 整合数据源
    • 使用 mybatis-plus 整合 tdengine
    • 整合 mybatis-plus
  • 28_mongodb

    • tio-boot 使用 mongo-java-driver 操作 mongodb
  • 29_elastic-search

    • Elasticsearch
    • JavaDB 整合 ElasticSearch
    • Elastic 工具类使用指南
    • Elastic-search 注意事项
    • ES 课程示例文档
  • 30_magic-script

    • tio-boot 整合 magic-script
  • 31_groovy

    • tio-boot 整合 Groovy
  • 32_firebase

    • 整合 google firebase
    • Firebase Storage
    • Firebase Authentication
    • 使用 Firebase Admin SDK 进行匿名用户管理与自定义状态标记
    • 导出用户
    • 注册回调
    • 登录注册
  • 33_文件存储

    • 文件上传数据表
    • 本地存储
    • 使用 AWS S3 存储文件并整合到 Tio-Boot 项目中
    • 存储文件到 腾讯 COS
  • 34_spider

    • jsoup
    • 爬取 z-lib.io 数据
    • 整合 WebMagic
    • WebMagic 示例:爬取学校课程数据
    • Playwright
    • Flexmark (Markdown 处理器)
    • tio-boot 整合 Playwright
    • 缓存网页数据
  • 36_integration_thirty_party

    • tio-boot 整合 okhttp
    • 整合 GrpahQL
    • 集成 Mailjet
    • 整合 ip2region
    • 整合 GeoLite 离线库
    • 整合 Lark 机器人指南
    • 集成 Lark Mail 实现邮件发送
    • Thymeleaf
    • Swagger
    • Clerk 验证
  • 37_dubbo

    • 概述
    • dubbo 2.6.0
    • dubbo 2.6.0 调用过程
    • dubbo 3.2.0
  • 38_spring

    • Spring Boot Web 整合 Tio Boot
    • spring-boot-starter-webflux 整合 tio-boot
    • Tio Boot 整合 Spring Boot Starter
    • Tio Boot 整合 Spring Boot Starter Data Redis 指南
  • 39_spring-cloud

    • tio-boot spring-cloud
  • 40_mysql

    • 使用 Docker 运行 MySQL
    • /zh/42_mysql/02.html
  • 41_postgresql

    • PostgreSQL 安装
    • PostgreSQL 主键自增
    • PostgreSQL 日期类型
    • Postgresql 金融类型
    • PostgreSQL 数组类型
    • PostgreSQL 全文检索
    • PostgreSQL 查询优化
    • 获取字段类型
    • PostgreSQL 向量
    • PostgreSQL 优化向量查询
    • PostgreSQL 其他
  • 43_oceanbase

    • 快速体验 OceanBase 社区版
    • 快速上手 OceanBase 数据库单机部署与管理
    • 诊断集群性能
    • 优化 SQL 性能指南
    • /zh/43_oceanbase/05.html
  • 50_media

    • JAVE 提取视频中的声音
    • Jave 提取视频中的图片
    • /zh/50_media/03.html
  • 51_asr

    • Whisper-JNI
  • 54_native-media

    • java-native-media
    • JNI 入门示例
    • mp3 拆分
    • mp4 转 mp3
    • 使用 libmp3lame 实现高质量 MP3 编码
    • Linux 编译
    • macOS 编译
    • 从 JAR 包中加载本地库文件
    • 支持的音频和视频格式
    • 任意格式转为 mp3
    • 通用格式转换
    • 通用格式拆分
    • 视频合并
    • VideoToHLS
    • split_video_to_hls 支持其他语言
    • 持久化 HLS 会话
  • 55_telegram4j

    • 数据库设计
    • /zh/55_telegram4j/02.html
    • 基于 MTProto 协议开发 Telegram 翻译机器人
    • 过滤旧消息
    • 保存机器人消息
    • 定时推送
    • 增加命令菜单
    • 使用 telegram-Client
    • 使用自定义 StoreLayout
    • 延迟测试
    • Reactor 错误处理
    • Telegram4J 常见错误处理指南
  • 56_telegram-bots

    • TelegramBots 入门指南
    • 使用工具库 telegram-bot-base 开发翻译机器人
  • 60_LLM

    • 简介
    • AI 问答
    • /zh/60_LLM/03.html
    • /zh/60_LLM/04.html
    • 增强检索(RAG)
    • 结构化数据检索
    • 搜索+AI
    • 集成第三方 API
    • 后置处理
    • 推荐问题生成
    • 连接代码执行器
    • 避免 GPT 混乱
    • /zh/60_LLM/13.html
  • 61_ai_agent

    • 数据库设计
    • 示例问题管理
    • 会话管理
    • 历史记录
    • 对接 Perplexity API
    • 意图识别与生成提示词
    • 智能问答模块设计与实现
    • 文件上传与解析文档
    • 翻译
    • 名人搜索功能实现
    • Ai studio gemini youbue 问答使用说明
    • 自建 YouTube 字幕问答系统
    • 自建 获取 youtube 字幕服务
    • 通用搜索
    • /zh/61_ai_agent/15.html
    • 16
    • 17
    • 18
    • 在 tio-boot 应用中整合 ai-agent
    • 16
  • 62_translator

    • 简介
  • 63_knowlege_base

    • 数据库设计
    • 用户登录实现
    • 模型管理
    • 知识库管理
    • 文档拆分
    • 片段向量
    • 命中测试
    • 文档管理
    • 片段管理
    • 问题管理
    • 应用管理
    • 向量检索
    • 推理问答
    • 问答模块
    • 统计分析
    • 用户管理
    • api 管理
    • 存储文件到 S3
    • 文档解析优化
    • 片段汇总
    • 段落分块与检索
    • 多文档解析
    • 对话日志
    • 检索性能优化
    • Milvus
    • 文档解析方案和费用对比
    • 离线运行向量模型
  • 64_ai-search

    • ai-search 项目简介
    • ai-search 数据库文档
    • ai-search SearxNG 搜索引擎
    • ai-search Jina Reader API
    • ai-search Jina Search API
    • ai-search 搜索、重排与读取内容
    • ai-search PDF 文件处理
    • ai-search 推理问答
    • Google Custom Search JSON API
    • ai-search 意图识别
    • ai-search 问题重写
    • ai-search 系统 API 接口 WebSocket 版本
    • ai-search 搜索代码实现 WebSocket 版本
    • ai-search 生成建议问
    • ai-search 生成问题标题
    • ai-search 历史记录
    • Discover API
    • 翻译
    • Tavily Search API 文档
    • 对接 Tavily Search
    • 火山引擎 DeepSeek
    • 对接 火山引擎 DeepSeek
    • ai-search 搜索代码实现 SSE 版本
    • jar 包部署
    • Docker 部署
    • 爬取一个静态网站的所有数据
    • 网页数据预处理
    • 网页数据检索与问答流程整合
  • 65_java-linux

    • Java 执行 python 代码
    • 通过大模型执行 Python 代码
    • MCP 协议
    • Cline 提示词
    • Cline 提示词-中文版本
  • 66_manim

    • 简介
    • Manim 开发环境搭建
    • 生成场景提示词
    • 生成代码
    • 完整脚本示例
    • 语音合成系统
    • Fish.audio TTS 接口说明文档与 Java 客户端封装
    • 整合 fishaudio 到 java-uni-ai-server 项目
    • 执行 Python (Manim) 代码
    • 使用 SSE 流式传输生成进度的实现文档
    • 整合全流程完整文档
    • HLS 动态推流技术文档
    • manim 分场景生成代码
    • 分场景运行代码及流式播放支持
    • 分场景业务端完整实现流程
    • Maiim布局管理器
    • 仅仅生成场景代码
    • 使用 modal 运行 manim 代码
    • Python 使用 Modal GPU 加速渲染
    • Modal 平台 GPU 环境下运行 Manim
    • Modal Manim OpenGL 安装与使用
    • 优化 GPU 加速
    • 生成视频封面流程
    • Java 调用 manim 命令 执行代码 生成封面
    • Manim 图像生成服务客户端文档
    • manim render help
    • 显示 中文公式
    • manimgl
    • EGL
    • /zh/66_manim/30.html
    • /zh/66_manim/31.html
    • 成本核算
    • /zh/66_manim/33.html
  • 70_tio-boot-admin

    • 入门指南
    • 初始化数据
    • token 存储
    • 与前端集成
    • 文件上传
    • 网络请求
    • 图片管理
    • /zh/70_tio-boot-admin/08.html
    • Word 管理
    • PDF 管理
    • 文章管理
    • 富文本编辑器
  • 71_tio-boot

    • /zh/71_tio-boot/01.html
    • Swagger 整合到 Tio-Boot 中的指南
    • HTTP/1.1 Pipelining 性能测试报告
  • 80_性能测试

    • 压力测试 - tio-http-serer
    • 压力测试 - tio-boot
    • 压力测试 - tio-boot-native
    • 压力测试 - netty-boot
    • 性能测试对比
    • TechEmpower FrameworkBenchmarks
    • 压力测试 - tio-boot 12 C 32G
  • 99_案例

    • 封装 IP 查询服务
    • tio-boot 案例 - 全局异常捕获与企业微信群通知
    • tio-boot 案例 - 文件上传和下载
    • tio-boot 案例 - 整合 ant design pro 增删改查
    • tio-boot 案例 - 流失响应
    • tio-boot 案例 - 增强检索
    • tio-boot 案例 - 整合 function call
    • tio-boot 案例 - 定时任务 监控 PostgreSQL、Redis 和 Elasticsearch
    • Tio-Boot 案例:使用 SQLite 整合到登录注册系统
    • tio-boot 案例 - 执行 shell 命令

Whisper-JNI

简介

Whisper 是 OpenAI 开发的一个基于 Transformer 的语音识别模型,能够处理多种语言并生成高度准确的语音到文本转录。该模型最初是基于 Python 和机器学习框架(如 PyTorch)构建的,因此开发者必须依赖 Python 和相应的库来进行语音识别任务。

Whisper

OpenAI 开源了 Whisper 模型,最初设计是为了在 Python 生态系统中进行高效的语音识别。以下是其原理和技术要点:

  1. Python 和 Transformer 模型:Whisper 基于 Transformer 神经网络架构,这种架构在自然语言处理 (NLP) 和语音识别任务中表现非常出色。它通过堆叠多个自注意力 (self-attention) 机制来处理语音和文本之间的转换。Whisper 模型的核心组件使用 Python 编写,并依赖于诸如 PyTorch 这样的深度学习框架。
  2. 依赖 Python 和高性能硬件:Whisper 的默认实现需要 Python 环境和 GPU 支持,这使得它适合构建在研究环境或具有强大计算能力的服务器上。然而,这也带来了部署的复杂性,尤其是在轻量级或嵌入式设备上运行时。

Whisper.cpp

whisper.cpp 是由 ggerganov 开源的一个项目,旨在解决 OpenAI Whisper 模型的 Python 依赖问题。它实现了一个纯 C++ 的版本,避免了 Python 和 GPU 的强依赖,能够更方便地在没有 GPU 或轻量级的系统上运行。

whisper.cpp 解决的问题:

  • 跨平台支持:通过 C++ 实现,whisper.cpp 可以在 Windows、Linux 和 macOS 等平台上运行,且不依赖于 Python 生态。这极大简化了部署环境的复杂性。
  • 轻量级和高效:由于它是用 C++ 编写的,whisper.cpp 可以更好地利用 CPU 进行推理,适合在资源有限的设备(如嵌入式系统)上运行。
  • 无需 GPU 加速:与原始的 OpenAI Whisper 不同,whisper.cpp 允许在没有 GPU 的情况下运行模型,尽管在性能上可能稍有折中。

Whisper-JNI 的解决方案

whisper-jni 是基于 whisper.cpp 进一步封装的项目,由 GiviMAD 开发。该项目为 Java 环境提供了 JNI(Java Native Interface)绑定,使得 Java 开发者可以直接调用 whisper.cpp 的功能,而无需深入理解 C++。

whisper-jni 解决的问题:

  • Java 开发集成:许多企业应用和服务是基于 Java 构建的。whisper-jni 将 whisper.cpp 的功能集成到 Java 环境中,允许开发者使用 Java 调用 Whisper 模型进行语音识别,而无需切换到其他编程语言(如 Python)。
  • 简化 C++ 调用:通过 JNI 封装,开发者无需直接与 C++ 代码交互,可以使用 Java 方法调用 Whisper 模型。这大大简化了应用集成的难度。

笔者 Whisper-JNI 的改造:Java 1.8 版本

虽然 whisper-jni 实现了将 whisper.cpp 集成到 Java 中,但默认情况下该库依赖于 Java 11 及以上的特性。然而,许多企业级应用仍然在使用 Java 1.8,这导致 whisper-jni 在这些环境中不可用。

为了满足 Java 1.8 用户的需求,笔者对 whisper-jni 进行了改造,使其能够在 Java 1.8 环境下运行。主要的改造点包括:

  1. Java 1.8 兼容性:通过修改代码中的语法和依赖项,移除了 Java 11 中引入的特性,使得该项目能够在 Java 1.8 环境下正常编译和运行。
  2. 优化 JNI 调用:对 JNI 代码进行调整,以确保在 Java 1.8 环境中调用 C++ 库时保持高效和稳定。
  3. 推送 Maven 仓库:笔者将改造后的 whisper-jni 项目推送到 Maven 中,以便开发者可以轻松依赖并使用这个适用于 Java 1.8 的版本。

总结

  • Whisper (OpenAI):基于 Python 和 Transformer 模型的语音识别系统,性能出色但依赖复杂。
  • Whisper.cpp:通过 C++ 实现的轻量级版本,摆脱了对 Python 和 GPU 的依赖,能够在更多平台上运行。
  • Whisper-JNI:基于 whisper.cpp 的 Java 封装,使 Java 开发者能够在 Java 项目中使用 Whisper 模型。
  • 我对 Whisper-JNI 的改造:专为 Java 1.8 环境进行的改造,确保企业应用能够无缝集成 Whisper 模型,并且推送到 Maven 仓库,便于开发者使用。

这使得 Java 开发者能够在不升级 JDK 的前提下,在 Java 1.8 环境中高效地使用 Whisper 进行语音识别。

whisper-jni 入门示例

Maven 坐标

<dependency>
  <groupId>com.litongjava</groupId>
  <artifactId>whisper-jni</artifactId>
  <version>1.6.1</version>
</dependency>

加载模型和推理示例

以下代码展示了如何加载 Whisper 模型并进行音频文件的推理操作:

package com.litongjava.ai.server.utils;
import java.io.File;
import java.io.IOException;
import java.nio.ByteBuffer;
import java.nio.ByteOrder;
import java.nio.ShortBuffer;
import java.nio.file.Path;
import java.nio.file.Paths;

import javax.sound.sampled.AudioInputStream;
import javax.sound.sampled.AudioSystem;
import javax.sound.sampled.UnsupportedAudioFileException;

import io.github.givimad.whisperjni.WhisperContext;
import io.github.givimad.whisperjni.WhisperFullParams;
import io.github.givimad.whisperjni.WhisperJNI;
import io.github.givimad.whisperjni.WhisperSamplingStrategy;

public class WhisperSpeechRecognitionExample {

  public static void main(String[] args) throws Exception {
    // 加载模型文件
    Path modelFile = Paths.get("ggml-large-v3-turbo.bin");
    File file = modelFile.toFile();
    if (!file.exists() || !file.isFile()) {
      throw new RuntimeException("缺少模型文件: " + file.getAbsolutePath());
    }

    // 加载音频文件
    Path audioFilePath = Paths.get("samples/jfk.wav");
    File sampleFile = audioFilePath.toFile();
    if (!sampleFile.exists() || !sampleFile.isFile()) {
      throw new RuntimeException("缺少音频样本文件");
    }

    // 初始化 Whisper 库
    WhisperJNI.LoadOptions loadOptions = new WhisperJNI.LoadOptions();
    loadOptions.logger = System.out::println;
    WhisperJNI.loadLibrary(loadOptions);
    WhisperJNI.setLibraryLogger(null);

    WhisperJNI whisper = new WhisperJNI();
    WhisperContext ctx = whisper.init(modelFile);

    // 读取音频样本数据
    float[] samples = readAudioSamples(sampleFile);

    // 设置推理参数
    WhisperFullParams params = new WhisperFullParams(WhisperSamplingStrategy.GREEDY);
    int result = whisper.full(ctx, params, samples, samples.length);

    if (result != 0) {
      throw new RuntimeException("识别失败,错误码: " + result);
    }

    // 输出识别结果
    String transcription = whisper.fullGetSegmentText(ctx, 0);
    System.out.println("识别结果: " + transcription);

    ctx.close();
  }

  // 读取音频样本数据
  private static float[] readAudioSamples(File audioFile) throws UnsupportedAudioFileException, IOException {
    AudioInputStream audioInputStream = AudioSystem.getAudioInputStream(audioFile);

    ByteBuffer captureBuffer = ByteBuffer.allocate(audioInputStream.available());
    captureBuffer.order(ByteOrder.LITTLE_ENDIAN);

    int read = audioInputStream.read(captureBuffer.array());
    if (read == -1) {
      throw new IOException("文件为空");
    }

    ShortBuffer shortBuffer = captureBuffer.asShortBuffer();
    float[] samples = new float[captureBuffer.capacity() / 2];
    int i = 0;
    while (shortBuffer.hasRemaining()) {
      samples[i++] = Math.max(-1f, Math.min(((float) shortBuffer.get()) / (float) Short.MAX_VALUE, 1f));
    }
    return samples;
  }
}

代码解释

  1. 模型加载:代码通过 WhisperJNI.init() 方法加载 .bin 模型文件。
  2. 音频读取:readAudioSamples() 方法读取音频文件,并将其转换为浮点数数组,以便 Whisper 进行处理。
  3. 推理过程:调用 whisper.full() 方法对音频数据进行推理。识别成功后,可以通过 whisper.fullGetSegmentText() 获取文本结果。
  4. 日志管理:通过 WhisperJNI.LoadOptions 配置日志输出。此处使用 System.out::println 来打印日志。

封装为 Web 服务

由于 WhisperJNI 实例是线程不安全的,当多个线程同时调用 WhisperJNI 时,可能会出现调用异常。为了解决这个问题,我们将 WhisperJNI 封装为 WhisperJniService,并将 WhisperJniService 放入 ThreadLocal 中,以确保每个线程都有自己的 WhisperJniService 实例,从而避免线程安全问题。

为什么使用 ThreadLocal

1. 线程安全问题

WhisperJNI 实例是线程不安全的,这意味着多个线程同时访问同一个实例可能会导致竞态条件、数据不一致或其他不可预见的异常。这在高并发环境下尤为重要,因为多个请求可能会并行处理音频转录任务。

2. ThreadLocal 的作用

ThreadLocal 提供了一种机制,使得每个线程都可以拥有自己独立的变量副本。这意味着即使多个线程同时访问同一个 ThreadLocal 变量,每个线程都会看到自己独立的实例,避免了线程间的干扰。

在本项目中,通过 ThreadLocal<WhisperJniService>,每个线程在第一次访问时会初始化一个独立的 WhisperJniService 实例,并将其绑定到当前线程。后续该线程再次访问时,会直接使用该实例,而不会与其他线程共享。这确保了 WhisperJNI 的线程安全性。

3. 提高并发性能

使用 ThreadLocal 的主要优势在于:

  • 避免锁机制:传统的线程安全措施(如使用 synchronized 关键字)会引入锁竞争,影响性能。而 ThreadLocal 通过为每个线程提供独立实例,避免了共享资源的竞争,从而提升了并发性能。

  • 减少资源开销:尽管每个线程都有自己的 WhisperJniService 实例,但由于 WhisperJNI 的实例创建和初始化开销较高,通过 ThreadLocal 可以确保每个线程只初始化一次,避免了重复创建的资源浪费。

  • 简化代码设计:无需在方法内部进行复杂的线程同步或资源管理,ThreadLocal 自动为每个线程管理独立实例,简化了代码逻辑,提高了代码的可维护性。

4. 使用 ThreadLocal 的注意事项

  • 内存泄漏:在使用 ThreadLocal 时,需要注意及时清理不再使用的实例,尤其是在使用线程池的环境下。如果线程被复用而 ThreadLocal 没有被清理,可能会导致内存泄漏。

    在本项目中,可以在适当的位置(如服务关闭时)调用 threadLocalWhisper.remove() 来清理 ThreadLocal 中的实例。

  • 实例共享:确保通过 ThreadLocal 管理的实例仅在单个线程中使用,避免在不同线程间传递或共享这些实例。

WhisperJniService 类

package com.litongjava.ai.asr.service;

import java.io.IOException;
import java.nio.file.Path;
import java.util.ArrayList;
import java.util.List;

import com.litongjava.ai.asr.model.WhisperSegment;

import io.github.givimad.whisperjni.WhisperContext;
import io.github.givimad.whisperjni.WhisperFullParams;
import io.github.givimad.whisperjni.WhisperJNI;

public class WhisperJniService {

  private WhisperJNI whisper = null;
  private WhisperContext ctx = null;

  /**
   * 初始化 WhisperJNI 上下文
   *
   * @param path 模型文件路径
   * @throws IOException 如果初始化失败
   */
  public void initContext(Path path) throws IOException {
    whisper = new WhisperJNI();
    ctx = whisper.init(path);
  }

  /**
   * 进行完整的转录并返回带时间戳的转录段
   *
   * @param params     转录参数
   * @param samples    音频样本数据
   * @param numSamples 样本数量
   * @return 转录段列表
   */
  public List<WhisperSegment> fullTranscribeWithTime(WhisperFullParams params, float[] samples, int numSamples) {
    int result = whisper.full(ctx, params, samples, numSamples);
    if (result != 0) {
      throw new RuntimeException("转录失败,错误代码:" + result);
    }
    int numSegments = whisper.fullNSegments(ctx);
    ArrayList<WhisperSegment> segments = new ArrayList<>(numSegments);

    for (int i = 0; i < numSegments; i++) {
      String text = whisper.fullGetSegmentText(ctx, i);
      long start = whisper.fullGetSegmentTimestamp0(ctx, i);
      long end = whisper.fullGetSegmentTimestamp1(ctx, i);
      segments.add(new WhisperSegment(start, end, text));
    }
    return segments;
  }

  /**
   * 关闭 WhisperJNI 上下文
   */
  public void close() {
    if (ctx != null) {
      ctx.close();
    }
  }
}

LocalTinyWhisper 单例类

package com.litongjava.ai.asr.single;

import java.io.IOException;
import java.nio.file.Path;
import java.nio.file.Paths;
import java.util.List;
import java.util.concurrent.Callable;
import java.util.concurrent.ExecutionException;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;

import com.litongjava.ai.asr.model.WhisperSegment;
import com.litongjava.ai.asr.service.WhisperJniService;

import io.github.givimad.whisperjni.WhisperFullParams;
import io.github.givimad.whisperjni.WhisperJNI;
import lombok.extern.slf4j.Slf4j;

@Slf4j
public enum LocalTinyWhisper {
  INSTANCE;

  private final ExecutorService executorService;
  private final ThreadLocal<WhisperJniService> threadLocalWhisper;
  private final WhisperFullParams defaultParams = new WhisperFullParams();

  LocalTinyWhisper() {
    try {
      WhisperJNI.loadLibrary();
    } catch (IOException e1) {
      e1.printStackTrace();
    }
    // 模型文件路径
    String userHome = System.getProperty("user.home");
    String modelName = "ggml-tiny.bin";
    Path path = Paths.get(userHome, ".cache", "whisper", modelName);

    int availableProcessors = Runtime.getRuntime().availableProcessors();
    log.info("可用处理器数量: {}", availableProcessors);
    this.executorService = Executors.newFixedThreadPool(Math.max(1, availableProcessors - 1));

    // 初始化 ThreadLocal,以确保每个线程有独立的 WhisperJniService 实例
    threadLocalWhisper = ThreadLocal.withInitial(() -> {
      WhisperJniService whisper = new WhisperJniService();
      try {
        whisper.initContext(path);
      } catch (IOException e) {
        throw new RuntimeException(e);
      }
      return whisper;
    });

    defaultParams.printProgress = false;
  }

  /**
   * 进行完整的转录并返回带时间戳的转录段
   *
   * @param audioData  音频数据
   * @param numSamples 样本数量
   * @param params     转录参数
   * @return 转录段列表
   */
  public List<WhisperSegment> fullTranscribeWithTime(float[] audioData, int numSamples, WhisperFullParams params) {
    Callable<List<WhisperSegment>> task = () -> {
      WhisperJniService whisper = threadLocalWhisper.get();
      if (params != null) {
        log.info("使用自定义参数: {}", params);
        return whisper.fullTranscribeWithTime(params, audioData, numSamples);
      } else {
        return whisper.fullTranscribeWithTime(defaultParams, audioData, numSamples);
      }
    };

    try {
      return executorService.submit(task).get();
    } catch (InterruptedException | ExecutionException e) {
      log.error("转录任务执行失败", e);
      Thread.currentThread().interrupt();
      return null;
    }
  }

  /**
   * 重载方法,使用音频数据和默认参数进行转录
   *
   * @param floats 音频数据
   * @param params 转录参数
   * @return 转录段列表
   */
  public List<WhisperSegment> fullTranscribeWithTime(float[] floats, WhisperFullParams params) {
    return fullTranscribeWithTime(floats, floats.length, params);
  }
}

WhisperCppTinyService 服务类

package com.litongjava.ai.asr.service;

import java.io.IOException;
import java.net.URL;
import java.util.List;

import javax.sound.sampled.UnsupportedAudioFileException;

import com.litongjava.ai.asr.enumeration.AudioType;
import com.litongjava.ai.asr.enumeration.TextType;
import com.litongjava.ai.asr.model.WhisperSegment;
import com.litongjava.ai.asr.single.LocalTinyWhisper;
import com.litongjava.ai.asr.utils.Mp3Util;
import com.litongjava.ai.asr.utils.WhisperAudioUtils;
import com.litongjava.jfinal.aop.Aop;

import io.github.givimad.whisperjni.WhisperFullParams;
import lombok.extern.slf4j.Slf4j;

@Slf4j
public class WhisperCppTinyService {
  private final TextService textService = Aop.get(TextService.class);

  /**
   * 根据音频 URL 进行转录
   *
   * @param url    音频文件的 URL
   * @param params 转录参数
   * @return 转录段列表
   */
  public List<WhisperSegment> index(URL url, WhisperFullParams params) {
    try {
      float[] floats = WhisperAudioUtils.toAudioData(url);
      log.info("音频数据长度: {}", floats.length);
      List<WhisperSegment> segments = LocalTinyWhisper.INSTANCE.fullTranscribeWithTime(floats, floats.length, params);
      log.info("转录段数量: {}", segments.size());
      return segments;
    } catch (UnsupportedAudioFileException | IOException e) {
      log.error("音频处理或转录失败", e);
      return null;
    }
  }

  /**
   * 根据音频数据进行转录
   *
   * @param data   音频数据
   * @param params 转录参数
   * @return 转录段列表
   */
  public List<WhisperSegment> index(byte[] data, WhisperFullParams params) {
    float[] floats = WhisperAudioUtils.toFloat(data);
    return LocalTinyWhisper.INSTANCE.fullTranscribeWithTime(floats, params);
  }

  /**
   * 生成 SRT 字幕文件
   *
   * @param url    音频文件的 URL
   * @param params 转录参数
   * @return SRT 字符串
   * @throws IOException 如果处理失败
   */
  public StringBuffer outputSrt(URL url, WhisperFullParams params) throws IOException {
    List<WhisperSegment> segments = this.index(url, params);
    return textService.generateSrt(segments);
  }

  /**
   * 生成 VTT 字幕文件
   *
   * @param url    音频文件的 URL
   * @param params 转录参数
   * @return VTT 字符串
   * @throws IOException 如果处理失败
   */
  public StringBuffer outputVtt(URL url, WhisperFullParams params) throws IOException {
    List<WhisperSegment> segments = this.index(url, params);
    return textService.generateVtt(segments);
  }

  /**
   * 生成 LRC 歌词文件
   *
   * @param url    音频文件的 URL
   * @param params 转录参数
   * @return LRC 字符串
   * @throws IOException 如果处理失败
   */
  public StringBuffer outputLrc(URL url, WhisperFullParams params) throws IOException {
    List<WhisperSegment> segments = this.index(url, params);
    return textService.generateLrc(segments);
  }

  /**
   * 根据音频数据和指定类型进行转录并返回指定格式的结果
   *
   * @param data        音频数据
   * @param inputType   输入音频类型
   * @param outputType  输出文本类型
   * @return 转录结果
   * @throws IOException                    如果处理失败
   * @throws UnsupportedAudioFileException  如果音频文件不支持
   */
  public Object index(byte[] data, String inputType, String outputType)
      throws IOException, UnsupportedAudioFileException {
    return index(data, inputType, outputType, null);
  }

  /**
   * 根据音频数据和指定类型进行转录并返回指定格式的结果
   *
   * @param data        音频数据
   * @param inputType   输入音频类型
   * @param outputType  输出文本类型
   * @param params      转录参数
   * @return 转录结果
   * @throws IOException                    如果处理失败
   * @throws UnsupportedAudioFileException  如果音频文件不支持
   */
  public Object index(byte[] data, String inputType, String outputType, WhisperFullParams params)
      throws IOException, UnsupportedAudioFileException {
    log.info("输入类型: {}, 输出类型: {}", inputType, outputType);
    AudioType audioType = AudioType.fromString(inputType);
    TextType textType = TextType.fromString(outputType);

    // 如果输入音频是 MP3 格式,进行格式转换
    if (audioType == AudioType.MP3) {
      log.info("进行格式转换: MP3 转 WAV");
      data = Aop.get(Mp3Util.class).convertToWav(data, 16000, 1);
    }

    List<WhisperSegment> segments = index(data, params);
    if (segments == null) {
      return null;
    }

    switch (textType) {
      case SRT:
        return textService.generateSrt(segments).toString();
      case VTT:
        return textService.generateVtt(segments).toString();
      case LRC:
        return textService.generateLrc(segments).toString();
      default:
        return segments;
    }
  }
}

控制器示例

@RequestPath("/test/tiny")
public HttpResponse testTiny(HttpRequest request, WhisperFullParams params) {
  URL resource = ResourceUtil.getResource("audios/jfk.wav");
  if (resource != null) {
    List<WhisperSegment> list = whisperCppTinyService.index(resource, params);
    return Resps.json(request, Resp.ok(list));
  }
  return null;
}

访问地址即可测试:

http://localhost/whisper/test/tiny

示例响应:

{
  "data": [
    {
      "start": "0",
      "end": "1090",
      "sentence": "And so, my fellow Americans, ask not what your country can do for you, ask what you can do for your country."
    }
  ],
  "ok": true,
  "code": null,
  "msg": null
}

总结

通过使用 ThreadLocal,我们为每个线程提供了独立的 WhisperJniService 实例,确保了 WhisperJNI 的线程安全性。同时,这种设计避免了锁机制带来的性能开销,提升了系统在高并发环境下的处理能力和响应速度。这对于需要处理大量并发音频转录请求的 Web 服务来说,是一种高效且可靠的解决方案。

Edit this page
Last Updated:
Contributors: Tong Li