如何更改语音的音频格式?

Posted

技术标签:

【中文标题】如何更改语音的音频格式?【英文标题】:How can I change the audio format of a voice? 【发布时间】:2014-04-09 21:13:57 【问题描述】:

我在 Windows 上使用 SAPI,我注意到声音的音频质量非常差。通过比较一个简单测试程序的音频质量和eSpeak 提供的各种质量,我得出结论,默认质量在16kHz 16 Bit Mono 附近。

简单的SAPI测试程序

#include <string>
#include <iostream>

#include <Windows.h>
#include <sapi.h>


#define _CHECK_HR(hr, debug_str)   \
    if(FAILED(hr))     \
        std::cout << debug_str << ": " << std::hex << "0x" << hr << std::dec << std::endl;   \
        goto check_failure;   \
    

#define CHECK_HR(expr, debug_str)  \
    _CHECK_HR(expr, debug_str);

#define SAFE_RELEASE(obj)   \
    if(obj != NULL)    \
        obj->Release(); \
        obj = NULL; \
    


int main()

    ISpVoice* voice = NULL;

    CHECK_HR(CoInitialize(NULL), "CoInitialize");

    CHECK_HR(CoCreateInstance(CLSID_SpVoice, NULL, CLSCTX_ALL, IID_ISpVoice, (LPVOID*)&voice), "voice = CoCreateInstance");
    CHECK_HR(voice->Speak(TEXT("This is a simple test."), 0, NULL), "voice->Speak");

    std::cout << "No errors!" << std::endl;

check_failure:
    SAFE_RELEASE(voice);
    CoUninitialize();

当然,我已经尝试咨询SAPI documentation,但还没有找到如何更改格式。 ISpVoice 没有设置格式的方法,但它有一个 SetOuput 方法,它需要:

流、音频设备或输出音频设备的对象令牌

我的下一步是创建一个IAudioClient,其格式由SpConvertStreamFormatEnum 提供,并将其IAudioRenderClient 设置为语音输出。尝试失败,因为我无法初始化 IAudioClient。

尝试将音频流设置为语音输出

#include <string>
#include <iostream>

#include <Windows.h>
#include <Mmdeviceapi.h>
#include <Audioclient.h>
#include <audiopolicy.h>
#include <sapi.h>
#include <sphelper.h>


#define _CHECK_HR(hr, debug_str)   \
    if(FAILED(hr))     \
        std::cout << debug_str << ": " << std::hex << "0x" << hr << std::dec << std::endl;   \
        goto check_failure;   \
    

#define CHECK_HR(expr, debug_str)  \
    _CHECK_HR(expr, debug_str);

#define SAFE_RELEASE(obj)   \
    if(obj != NULL)    \
        obj->Release(); \
        obj = NULL; \
    

#define SAFE_FREE(obj)   \
    if(obj != NULL)    \
        CoTaskMemFree(obj); \
        obj = NULL; \
    


int main()

    ISpVoice* voice = NULL;
    IMMDeviceEnumerator* device_enumerator = NULL;
    IMMDevice* audio_device = NULL;
    WAVEFORMATEX *audio_format = NULL;
    GUID format_guid;
    IAudioClient* audio_client = NULL;
    IAudioRenderClient* audio_render_client = NULL;

    CHECK_HR(CoInitialize(NULL), "CoInitialize");

    CHECK_HR(CoCreateInstance(CLSID_SpVoice, NULL, CLSCTX_ALL, IID_ISpVoice, (LPVOID*)&voice), "CoCreateInstance");

    CHECK_HR(CoCreateInstance(__uuidof(MMDeviceEnumerator), NULL, CLSCTX_ALL, __uuidof(IMMDeviceEnumerator), reinterpret_cast<void**>(&device_enumerator)), "CoCreateInstance");
    CHECK_HR(device_enumerator->GetDefaultAudioEndpoint(eRender, eMultimedia, &audio_device), "device_enumerator->GetDefaultAudioEndpoint");

    CHECK_HR(audio_device->Activate(__uuidof(IAudioClient), CLSCTX_ALL, NULL, reinterpret_cast<void**>(&audio_client)), "audio_device->Activate");
    CHECK_HR(SpConvertStreamFormatEnum(SPSF_48kHz16BitStereo, &format_guid, &audio_format), "SpConvertStreamFormatEnum");
    CHECK_HR(audio_client->Initialize(AUDCLNT_SHAREMODE_SHARED, AUDCLNT_STREAMFLAGS_NOPERSIST | AUDCLNT_SESSIONFLAGS_DISPLAY_HIDE, 0, 0, audio_format, NULL), "audio_client->Initialize");
    CHECK_HR(audio_client->Start(), "audio_client->Start");
    CHECK_HR(audio_client->GetService(__uuidof(IAudioRenderClient), reinterpret_cast<void**>(&audio_render_client)), "audio_client->GetService");

    CHECK_HR(voice->SetOutput(audio_render_client, FALSE), "voice->SetOutput");
    CHECK_HR(voice->Speak(TEXT("This is a test."), 0, NULL), "voice->Speak");

    std::cout << "No errors!" << std::endl;

check_failure:
    SAFE_RELEASE(device_enumerator);
    SAFE_RELEASE(audio_device);
    SAFE_FREE(audio_format);
    SAFE_RELEASE(audio_client);
    SAFE_RELEASE(audio_render_client);
    CoUninitialize();

除此之外,我还浏览了SAPI Audio Interfaces,发现了许多其他接口和实现,但似乎没有一个对这项任务特别有用。我觉得我在这里转圈。

问题:如何像 eSpeak 的 TTSApp 那样更改语音的音频格式?

【问题讨论】:

【参考方案1】:

试试:

ATL::CComPtr<ISpVoice> voice;
voice.CoCreateInstance(CLSID_SpVoice);

CSpStreamFormat format;
format.AssignFormat(SPSF_44kHz16BitMono);

ATL::CComPtr<ISpAudio> audio;
SpCreateDefaultObjectFromCategoryId(SPCAT_AUDIOOUT, &audio);
audio->SetFormat(format.FormatId(), format.WaveFormatExPtr());

voice->SetOutput(audio, FALSE);

注意:这不包括任何错误处理,因此您的代码将需要检查 HRESULT 返回代码和对象/指针的有效性。

另请注意,eSpeak 的原生输出格式是 16 位 22050Hz 单声道。

对于 C 版本,您需要自己处理 COM 对象的生命周期,并查看 CSpStreamFormatAssignFormatFormatIdWaveFormatExPtr 方法中的作用。

【讨论】:

以上是关于如何更改语音的音频格式?的主要内容,如果未能解决你的问题,请参考以下文章

ipad2018蓝牙音频传输格式

在 C# 中更改音频格式

OpenCV中如何播放avi文件的音频

如何将 wav 音频文件格式(样本宽度)转换为 8 位格式?

如何将实时音频流端点连接到直线语音端点?

如何以 .m4a 格式录制语音