在信息飞速发展的今天,语音输入工具越来越受到大家的青睐。尤其是那些能够离线使用、功能强大的工具,更是成为众多用户的心头好。今天要给大家介绍的CapsWriter-Offline v2.0.4,就是这样一款宝藏软件。它是一款免费开源且可完全离线识别的低延迟高精度可视化语音输入工具,基于旧项目用 Python 开发并经过翻新改进,优化整合了诸多实用功能。
![图片[1]-智能离线语音输入工具 CapsWriter-Offline v2.0.4,支持无限时长语音转文字与字幕转录 - 搜源站-搜源站](https://www.souyuanzhan.com/wp-content/uploads/2025/03/0782e8847920250319203915-1024x507.webp)
一、软件特性
- 强大的语音识别功能:这款软件支持完全离线使用,并且语音识别时长无限。在性能较好的 CPU 上,它能做到低延迟、高准确率,还支持中英混输、简繁任意切换。不仅如此,它还能自动识别阿拉伯数字,自动调整中英间隔,自动添加标点符号,识别完成后无需二次复制剪贴,使用起来十分便捷。
- 多引擎与提示功能:支持中、粤、英、日、韩等多语种语音识别引擎输入,识别效果比旧时的 Whisper 更好。在输入时,光标处会有麦克风显示录音状态,确定输入输出时还会发出提示音,方便用户操作。
- 翻译功能:具备语音自动识别转离线或 DeepLX 在线翻译模式,并能直接输出翻译结果,满足不同场景下的翻译需求。
- 防干扰设计:在录音时,软件会自动静音系统干扰音频,让用户专注于语音输入,不受外界杂音的影响。
- 云端协同:录音文本会自动存档,按照日期或关键词分类。同时,文本还能秒传至云剪切板,兼容 iOS 设备分享,实现多设备间的高效协同。
- 转录功能:只需将音视频文件拖动到客户端打开,就能转录生成通用的 srt、txt 等字幕文件。不过要注意,转录字幕功能需在服务端加载完成后才能使用。
- 热词及关键词增强功能:用户可以在 hot-en.txt、hot-zh.txt、hot-rule.txt、keywords.txt 中自定义添加热词和关键词,客户端会动态识别载入,识别一些特殊词汇时更加精准。
- 便捷的多开与服务功能:软件默认支持客户端跟随服务端自动打开,既可以多开,也能服务多台客户端,满足不同用户的使用场景。
以上这些特性,用户都可以在设置界面或 py 配置文件中自行 DIY ,按照自己的需求进行个性化设置。
二、使用说明
- 下载与运行:为了避免文件缺失,这里提供的是一键整合懒人包开箱即用版,里面已经包含了相关组件,无需进行 py 部署,使用起来非常方便。在解压使用前,记得先关掉杀软和必要时的 Windows 防火墙,防止软件被误杀或阻止运行。解压后,双击 start_server_gui.exe 运行服务端,等待自动加载 py 依赖环境及标点语音引擎,当底部提示 “连接成功” 后,就可以开始使用了。默认长按 Caps Lock 键调用麦克风录制语音,松开即可识别转文字。如果之前有粘贴文字记录,最好先清空剪贴板(随便复制一个文件即可清空)。软件自带服务端和客户端的系统托盘,右键对应图标点 QUIT 可退出程序。
- 基本快捷键操作(以默认快捷键设置为例,使用时需注意排除部分软件按键冲突问题):
- Caps Lock:按下录音,松开识别并输入结果,就像按住说话一样方便。
- Left(左)Shift + Caps Lock:识别后离线翻译为英文并输入。
- Right(右)Shift + Caps Lock:识别后在线翻译(默认日文)并输入。
- 双击 CapsLock:切换简 / 繁体语音输入。
- 长按 CapsLock:触发原大写锁定功能。
- Ctrl + Alt + P:选中中文→离线译英并替换原文。
- Ctrl + Alt + [ :选中文本→在线翻译并替换原文。
- Ctrl + Alt + F:调用 Everything 搜索选中内容。
- Ctrl + 鼠标滚轮:放大 / 缩小 UI 界面文字大小。
- 拖入音视频到 client 客户端:自动转录生成 SRT 字幕。
- 云贴按钮:上传文本框内容至云剪贴板(生成链接 + 二维码)。
- 设置修改:如果需要修改相关设置,比如允许多开服务端、修改端口、自定义修改为不常用的按键录音、录制内音,或者关掉长按模式换为单击前后两次形式(适合较长语音)等,可以先双击运行 edit_config_gui.exe。修改完配置后,建议长按保存服务 / 客户端配置并重启服务端(可在系统托盘处右击服务端图标的 “Restart Client”),否则修改后的配置不会生效。如果对某些选项不太确定,建议不要随意修改,以免产生未知 bug。
- 设置开机自启(非必要操作,但可便于随时呼出调用):在未修改配置且首次使用的前提下,可以右键新建服务端 start_server_gui.exe 文件的快捷方式文件。然后复制 shell:startup 这条命令到文件资源管理器的路径栏处并回车,将该快捷方式粘贴或移动到此目录下,这样开机时服务端和客户端就会自动启动。还可以在设置中调整为自动缩至系统托盘处。
- 特殊词汇处理:在识别一些特殊词汇,比如人名同音字、数量词、网络热词等词语时,如果软件不能准确识别,用户可以自行添加合适的规则到 hot-rule.txt 文件当中。需要注意的是,目录内的 txt 文件对应的内容可任意添加修改,但不建议重命名,因为它们与各种已编译的 py 配置文件息息相关,随意重命名可能会产生奇怪的问题和 bug。
- 音视频转录:将音视频文件拖动到客户端 start_client_gui.exe 中打开,等待自动处理即可。转录之后生成的文件会保存在音视频文件的目录下,其中 json 文件记录字级时间戳;txt 文件是分行结果;merge.txt 文件是带标点的整段结果;srt 文件是最常用的字幕文件,可导出到 PR 剪辑类软件进行二次编辑。如果生成的字幕有微小错误,可以在分行的 txt 文件中修改,然后将 txt 文件拖动到 client 客户端打开,软件会自动修正其余字幕文件。不过要知道,转录功能只是软件的附属小功能,纯中或纯英识别效果会好一些,和部分专业的字幕转录工具相比还是有一定差距的。
三、软件适用系统及注意事项
经测试,Win 10 LTSC 及 Win 11 24H2 官方原版系统均可在飞行模式下离线正常使用并输出,极限时长用户可以自行测试。但其他精简类系统无法保证能正常使用。
这款软件经过火绒测试无拦截,代码完全透明。不过因为它是采用 py 整合打包编译的,部分杀软可能会出现误报情况。如果担心这方面问题,可以将软件扔到虚拟环境运行,或者自行抓包软件行为进行验证。介意的用户可以选择不用这款软件,或者删除文件目录后转用其他工具。另外,软件的处理效率及识别质量主要取决于设备 CPU 处理器(兼容低配)、语音输入时长、语音速度、声音环境、有无背景杂音等诸多情况。一般来说,在一定条件下 CPU 越好、音频越短、语速越中等、语音越清晰准确、语种越常见,处理效率就越快,识别率也越高,当然也不排除偶尔会有浮动。
下载地址
访问密码: 6688
登录后可以使用不限速网盘下载
© 版权声明
THE END
暂无评论内容