FunASR-VAD初体验

2023-06-22 | 0 评论 | 0 浏览

背景

初体验

VAD

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

inference_pipeline = pipeline(
    task=Tasks.voice_activity_detection,
    model='damo/speech_fsmn_vad_zh-cn-16k-common-pytorch',
    model_revision=None,
)

segments_result = inference_pipeline(audio_in='https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/vad_example.wav')
print(segments_result)

运行结果

2023-06-22 17:34:35,802 (voice_activity_detection_pipeline:224) INFO: VAD Processing ...
{'text': [[70, 2340], [2620, 6200], [6480, 23670], [23950, 26250], [26780, 28990], [29950, 31430], [31750, 37600], [38210, 46900], [47310, 49630], [49910, 56460], [56740, 59540], [59820, 70450]]}

离线转写

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

inference_pipeline = pipeline(
    task=Tasks.auto_speech_recognition,
    model='damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch',
    vad_model='damo/speech_fsmn_vad_zh-cn-16k-common-pytorch',
    punc_model='damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch',
)

segments_result = inference_pipeline(audio_in='https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/vad_example.wav')
print(segments_result)

结果

{'text': '试错的过程很简单啊，今特别是今天冒名插血卡的同学，你们可以听到后面的有专门的活动课，它会大大降低你的思错成本。其实你也可以不要来听课，为什么你自己写嘛？我先今天写五个点，我就实试实验一下，反正这五个点不行，我再写五个点，再是再不行，那再写五个点嘛。你总会所谓的活动大神和所谓的高手都是只有一个，把所有的错。所有的坑全部趟一遍，留下正确的你就是所谓的大神明白吗？所以说关于活动通过这一块，我只送给你们四个字啊，换位思考。如果说你要想降低你的试错成本，今天来这里你们就是对的。因为有创企创需要搞这个机会。所以说关于活动过于不过这个问题或者活动很难通过这个话题。呃，如果真的要坐下来聊的话，要聊一天。但是我觉得我刚才说的四个字足够好，谢谢。好，非常感谢那个三毛老师的回答啊，三毛老师说我们在整个店铺的这个活动当中，我们要学会换位思考。其实。', 'text_postprocessed': '试错的过程很简单啊今特别是今天冒名插血卡的同学你们可以听到后面的有专门的活动课它会大大降低你的思错成本其实你也可以不要来听课为什么你自己写嘛我先今天写五个点我就实试实验一下反正这五个点不行我再写五个点再是再不行那再写五个点嘛你总会所谓的活动大神和所谓的高手都是只有一个把所有的错所有的坑全部趟一遍留下正确的你就是所谓的大神明白吗所以说关于活动通过这一块我只送给你们四个字啊换位思考如果说你要想降低你的试错成本今天来这里你们就是对的因为有创企创需要搞这个机会所以说关于活动过于不过这个问题或者活动很难通过这个话题呃如果真的要坐下来聊的话要聊一天但是我觉得我刚才说的四个字足够好谢谢好非常感谢那个三毛老师的回答啊三毛老师说我们在整个店铺的这个活动当中我们要学会换位思考其实', 'sentences': []}

参考

FSMN语音端点检测-中文-通用-16k