格镜:音频内容转文字、视频转文字、视频帧取图一站式解决方案

音频内容转文字准确率如何?支持哪些方言与外语?
格镜采用自研多模态语音识别引擎,在干净普通话场景下字准率≥98%,粤语、四川话、东北话等八大方言字准率≥95%,英、日、韩、法、西、德、俄七类外语字准率≥93%。上传 1 小时音频平均 3 分钟出稿,自动区分说话人、过滤语气词、智能断句,并同步生成可点击回听的时间戳。
| 语言/方言 | 字准率 | 平均出稿时间 |
|---|---|---|
| 普通话 | 98.2% | 1 min/10 min |
| 粤语 | 96.1% | 1.2 min |
| 英语 | 94.5% | 1.1 min |
视频转文字能否保留字幕时间轴?是否支持批量上传?
格镜「视频转文字」模块原生输出 SRT/ASS/TXT 三种格式,时间轴精确到毫秒级,可直接导入 PR、FCP、剪映。后台基于 GPU 加速切片,1 GB 1080p 视频 5 分钟完成语音提取与文字对齐。企业号支持 100 文件批量拖拽,自动建立文件夹层级,统一命名规则,并可在控制台一键导出 Excel 对照表,方便后期审校。对于含背景音乐的嘈杂视频,可开启「降噪+语音增强」双通道模型,信噪比提升 12 dB,保证转写准确率不降级。
视频帧取图能否按镜头智能抽帧?分辨率是否无损?
格镜「视频帧取图」提供「等间隔」「镜头切换」「AI 精彩」三种抽帧策略。AI 模式基于 256 维镜头边界向量,自动识别场景转换与人物特写,10 分钟短视频可提取 18~25 张代表性关键帧,避免冗余。抽取格式支持 PNG/JPG/TIFF,可选「原盘无损」或「压缩极速」双档位,原盘模式直接复制视频流帧数据,最大 8K 分辨率无插值。用户可自定义「起止时间+帧间隔」或输入帧号列表,满足教研、司法、媒资不同场景。输出文件以 zip 打包,自带 csv 清单,记录时间码、帧类型、文件大小,方便后续归档。
转写后的文本能否自动翻译并配音回视频?
格镜在「文字后期」工作台提供「翻译+TTS 配音」闭环。先对中文原文进行 NER 实体识别,保持人名地名不翻译;再调用 DeepL/谷歌双引擎,英/日/西语翻译 BLEU≥42。TTS 部分内置 36 种男女声线,支持粤语、台湾腔、美式英语、日语关西腔等,语速、音高、停顿可图形化微调。系统按原始字幕时间轴自动对齐新语音,生成 WAV 48 kHz 无损文件,回写到视频后音画同步偏移 <40 ms,可直接发布多语种版本,无需二次调轴。
教育/司法/媒体行业如何调用格镜 API 做私有化部署?
格镜开放 RESTful API 与 Docker 镜像,音频、视频、抽帧三大能力均封装为独立微服务。教育客户可在校园内网部署,支持 LDAP 统一身份认证,转写结果直接写回 Moodle、超星平台;司法行业提供信创版,适配麒麟 V10+鲲鹏 920,内置国密 SM4 加密,日志留痕满足《人民法院语音证据技术规范》;媒体客户可接入 S3 兼容存储,支持 4K HDR 25 Gbps 高吞吐,单节点日处理 500 小时视频。官方提供 Java/Python/Go SDK 与 Postman 集合,30 分钟可完成接入,按并发路数授权,永久离线更新。
为何选择格镜?
格镜将「音频内容转文字、视频转文字、视频帧取图」三大刚需整合在同一域名下,无需跳转即可闭环完成“上传→识别→翻译→抽帧→回写”全流程;自研模型+国产 GPU 双重优化,让价格仅为同类公有云 60%,而准确率、速度、隐私安全全面领先;从浏览器、桌面客户端到私有化集群,同一套账号体系,素材与项目实时同步,真正做到“小团队也能享受企业级 AI 生产力”。视频转文字格镜
