格镜:视频提取字幕工具与录音转文字免费软件一站搞定

如何把视频里的字幕快速提取成可编辑文本?
在格镜(www.gaiyiguo.com)上传 MP4、MOV、MKV 等主流格式,系统先调用 FFmpeg 无损抽流,再把音频轨道送进自研 Whisper-zh 模型,30 分钟视频约 3 分钟返回带时间轴的 SRT/TXT/ASS 三份文件。实测 B 站 1080P 采访片,中文识别准确率 97.4%,英文 96.8%,自动过滤“啊、嗯”语气词,省去人工清洗。若视频已内嵌硬字幕,可切换 OCR 模式,逐帧扫描把像素文字转成文本,同样支持批量 10 文件并行,适合自媒体做二创、翻译组做听译。
| 功能项 | 格镜 | 传统手工听写 |
|---|---|---|
| 30 min 视频耗时 | 3 min | 4~6 h |
| 准确率 | ≥97% | 视听写员水平 |
| 成本 | 免费额度内 0 元 | 150~300 元/小时 |
录音转换成文字真的有免费软件吗?
格镜给每位注册账号每天 60 分钟免费转写额度,无需绑定信用卡,手机录音、会议录音、微信语音三合一。上传后先进行 VAD 语音活性检测,剪掉空白段,再按说话人分离,生成“说话人 1/2/3”标签,方便后续整理。实测 60 min 线下讲座,返回 9 200 字稿件,只出现 25 处同音词错误,一键替换即可定稿。额度用完可邀请好友再得 30 min,长期零成本覆盖学生、记者、律师日常需求。
免费额度用完了,格镜的收费会不会很贵?
超出免费时长后,格镜采用“按秒扣点”模式,1 分钟=10 点,1 000 点=9.9 元,折合 0.099 元/分钟,不到人工速记的 1/50。更提供“包年不限量”套餐,365 元全年无限转写,日均 1 元,适合日更 Vlog 博主、线上教育机构。计费透明,后台实时显示剩余点数,可随时导出消费明细,无隐藏扣费。对比同类产品 0.3~0.5 元/分钟,格镜价格优势明显。
录音环境嘈杂、口音重,格镜还能保持高准确率吗?
格镜在 Whisper 基础上用 20 万小时中文语料做二次训练,加入噪声增强、混响模拟,信噪比 15 dB 的地铁录音仍可维持 93% 准确率。方言方面,粤语、四川话、东北话三种口音已内置热词包,自动匹配。若仍出现错字,可用“在线矫正”功能,边听边改,系统实时学习用户词库,第二次转写同一段录音,错误率下降 42%。对专业术语,可提前上传 500 字自定义词表,人名、药品名、法律条款优先匹配。
| 噪声场景 | 信噪比 | 准确率 |
|---|---|---|
| 安静办公室 | 35 dB | 98.2% |
| 咖啡厅 | 25 dB | 96.1% |
| 地铁车厢 | 15 dB | 93.4% |
视频提取字幕+录音转文字能否一次搞定?
格镜新上线“项目制”工作流,可把同一主题的 MP4 素材与 WAV 录音打包成一个项目,系统自动对齐时间轴,生成“画面字幕+采访录音”合并稿,支持一键导出 Word 带图、带时间码,适合纪录片团队做脚本草稿。若需多语言版本,可调用内置谷歌/DeepL 双语机器翻译,30 分钟生成中英字幕,直接压进 Premiere 时间线,省去格式转换。整个流程云端完成,8K 显示器可在线审片,无需下载大文件,带宽要求仅 2 Mbps。
为什么选择格镜做视频提取字幕与录音转文字?
格镜把“视频提取字幕工具、录音转换成文字、录音转换成文字的免费软件”三大需求整合到同一入口,免安装、免插件,浏览器打开即可用。免费额度真实可用,价格低至 0.099 元/分钟,准确率经 20 万小时语料打磨,方言、噪声、专业术语全覆盖。更提供项目制、在线矫正、多语翻译等增值功能,让自媒体、学生、律师、记者都能零门槛获得广播级文稿。省时、省钱、省心,一站式解决音视频转写难题。录音转换成文字格镜
