媒体基金会音频/视频捕获到 MPEG4FileSink 产生不正确的持续时间

Posted

技术标签:

【中文标题】媒体基金会音频/视频捕获到 MPEG4FileSink 产生不正确的持续时间【英文标题】:Media Foundation Audio/Video capturing to MPEG4FileSink produces incorrect duration 【发布时间】:2017-08-30 13:10:17 【问题描述】:

我正在使用 Media Foundation 框架开发媒体流应用程序。我使用了一些来自互联网和 Anton Polinger 书中的样本。不幸的是,将流保存到 mp4 文件后,文件的元数据已损坏。它的持续时间不正确(根据我的电脑的工作时间,例如 30 小时),错误的比特率。经过长时间的挣扎后,我已经将其修复为单个流(视频或音频),但是当我尝试同时录制音频和视频时,此问题再次出现。我的拓扑有问题,但我不明白是什么问题,可能这里有一些专家?

我获取音频和视频源,将其包装到 IMFCollection 中,通过 MFCreateAggregateSource 创建聚合源。 我为聚合源中的每个源创建源节点:

Com::IMFTopologyNodePtr 
TopologyBuilder::CreateSourceNode(Com::IMFStreamDescriptorPtr 
streamDescriptor)

    HRESULT hr = S_OK;
    Com::IMFTopologyNodePtr pNode;
    // Create the topology node, indicating that it must be a source node.
    hr = MFCreateTopologyNode(MF_TOPOLOGY_SOURCESTREAM_NODE, &pNode);
    THROW_ON_FAIL(hr, "Unable to create topology node for source");

    // Associate the node with the source by passing in a pointer to the media source,
    // and indicating that it is the source
    hr = pNode->SetUnknown(MF_TOPONODE_SOURCE, _sourceDefinition->GetMediaSource());
    THROW_ON_FAIL(hr, "Unable to set source as object for topology node");

    // Set the node presentation descriptor attribute of the node by passing
    // in a pointer to the presentation descriptor
    hr = pNode->SetUnknown(MF_TOPONODE_PRESENTATION_DESCRIPTOR, _sourceDefinition->GetPresentationDescriptor());
    THROW_ON_FAIL(hr, "Unable to set MF_TOPONODE_PRESENTATION_DESCRIPTOR to node");

    // Set the node stream descriptor attribute by passing in a pointer to the stream
    // descriptor
    hr = pNode->SetUnknown(MF_TOPONODE_STREAM_DESCRIPTOR, streamDescriptor);
    THROW_ON_FAIL(hr, "Unable to set MF_TOPONODE_STREAM_DESCRIPTOR to node");

    return pNode;

之后,我将每个源连接到变换(H264 编码器和 AAC 编码器)和 MPEG4FileSink:

void TopologyBuilder::CreateFileSinkOutputNode(PCWSTR filePath)

    HRESULT hr = S_OK;
    DWORD sink_count;

    Com::IMFByteStreamPtr byte_stream;
    Com::IMFTransformPtr transform;

    LPCWSTR lpcwstrFilePath = filePath;
    hr = MFCreateFile(
    MF_ACCESSMODE_WRITE, MF_OPENMODE_FAIL_IF_NOT_EXIST, MF_FILEFLAGS_NONE,
    lpcwstrFilePath, &byte_stream);
    THROW_ON_FAIL(hr, L"Unable to create and open file");

// Video stream
    Com::IMFMediaTypePtr in_mf_video_media_type = _sourceDefinition->GetCurrentVideoMediaType();

    Com::IMFMediaTypePtr out_mf_media_type = CreateMediaType(MFMediaType_Video, MFVideoFormat_H264);
    hr = CopyType(in_mf_video_media_type, out_mf_media_type);
    THROW_ON_FAIL(hr, L"Unable to copy type parameters");

    if (GetSubtype(in_mf_video_media_type) != MEDIASUBTYPE_H264)
    
        transform.Attach(CreateAndInitCoderMft(MFT_CATEGORY_VIDEO_ENCODER, out_mf_media_type));
        THROW_ON_NULL(transform);
    

    if (transform)
    
        Com::IMFMediaTypePtr transformMediaType;
        hr = transform->GetOutputCurrentType(0, &transformMediaType);
        THROW_ON_FAIL(hr, L"Unable to get current output type");

        UINT32 pcbBlobSize = 0;
        hr = transformMediaType->GetBlobSize(MF_MT_MPEG_SEQUENCE_HEADER, &pcbBlobSize);
        THROW_ON_FAIL(hr, L"Unable to get blob size of MF_MT_MPEG_SEQUENCE_HEADER");

        std::vector<UINT8> blob(pcbBlobSize);
        hr = transformMediaType->GetBlob(MF_MT_MPEG_SEQUENCE_HEADER, &blob.front(), blob.size(), NULL);
        THROW_ON_FAIL(hr, L"Unable to get blob MF_MT_MPEG_SEQUENCE_HEADER");

        hr = out_mf_media_type->SetBlob(MF_MT_MPEG_SEQUENCE_HEADER, &blob.front(), blob.size());
        THROW_ON_FAIL(hr, L"Unable to set blob of MF_MT_MPEG_SEQUENCE_HEADER");
    

    // Audio stream
    Com::IMFMediaTypePtr out_mf_audio_media_type;
    Com::IMFTransformPtr transformAudio;
    Com::IMFMediaTypePtr mediaTypeTmp = _sourceDefinition->GetCurrentAudioMediaType();
    Com::IMFMediaTypePtr in_mf_audio_media_type;
    if (mediaTypeTmp != NULL)
    
        std::unique_ptr<MediaTypesFactory> factory(new MediaTypesFactory());
        if (!IsMediaTypeSupportedByAacEncoder(mediaTypeTmp))
        
            UINT32 channels;
            hr = mediaTypeTmp->GetUINT32(MF_MT_AUDIO_NUM_CHANNELS, &channels);
            THROW_ON_FAIL(hr, L"Unable to get MF_MT_AUDIO_NUM_CHANNELS fron source media type");
            in_mf_audio_media_type = factory->CreatePCM(factory->DEFAULT_SAMPLE_RATE, channels);
        
        else
        
            in_mf_audio_media_type.Attach(mediaTypeTmp.Detach());
        

        out_mf_audio_media_type = factory->CreateAAC(in_mf_audio_media_type, factory->HIGH_ENCODED_BITRATE);
        GUID subType = GetSubtype(in_mf_audio_media_type);
        if (GetSubtype(in_mf_audio_media_type) != MFAudioFormat_AAC)
        
            // add encoder to Aac
        transformAudio.Attach(CreateAndInitCoderMft(MFT_CATEGORY_AUDIO_ENCODER, out_mf_audio_media_type));
        
    

    Com::IMFMediaSinkPtr pFileSink;
    hr = MFCreateMPEG4MediaSink(byte_stream, out_mf_media_type,     out_mf_audio_media_type, &pFileSink);
    THROW_ON_FAIL(hr, L"Unable to create mpeg4 media sink");

    Com::IMFTopologyNodePtr pOutputNodeVideo;
    hr = MFCreateTopologyNode(MF_TOPOLOGY_OUTPUT_NODE, &pOutputNodeVideo);
    THROW_ON_FAIL(hr, L"Unable to create output node");

    hr = pFileSink->GetStreamSinkCount(&sink_count);
    THROW_ON_FAIL(hr, L"Unable to get stream sink count from mediasink");

    if (sink_count == 0)
    
        THROW_ON_FAIL(E_UNEXPECTED, L"Sink count should be greater than 0");
    

    Com::IMFStreamSinkPtr stream_sink_video;
    hr = pFileSink->GetStreamSinkByIndex(0, &stream_sink_video);
    THROW_ON_FAIL(hr, L"Unable to get stream sink by index");

    hr = pOutputNodeVideo->SetObject(stream_sink_video);
    THROW_ON_FAIL(hr, L"Unable to set stream sink as output node object");

    hr = _pTopology->AddNode(pOutputNodeVideo);
    THROW_ON_FAIL(hr, L"Unable to add file sink output node");

    pOutputNodeVideo = AddEncoderIfNeed(_pTopology, transform, in_mf_video_media_type, pOutputNodeVideo);

    _outVideoNodes.push_back(pOutputNodeVideo);

    Com::IMFTopologyNodePtr pOutputNodeAudio;

    if (in_mf_audio_media_type != NULL)
    
        hr = MFCreateTopologyNode(MF_TOPOLOGY_OUTPUT_NODE, &pOutputNodeAudio);
        THROW_ON_FAIL(hr, L"Unable to create output node");

        Com::IMFStreamSinkPtr stream_sink_audio;
        hr = pFileSink->GetStreamSinkByIndex(1, &stream_sink_audio);
        THROW_ON_FAIL(hr, L"Unable to get stream sink by index");

        hr = pOutputNodeAudio->SetObject(stream_sink_audio);
        THROW_ON_FAIL(hr, L"Unable to set stream sink as output node object");

        hr = _pTopology->AddNode(pOutputNodeAudio);
        THROW_ON_FAIL(hr, L"Unable to add file sink output node");

        if (transformAudio)
        
            Com::IMFTopologyNodePtr outputTransformNodeAudio;
            AddTransformNode(_pTopology, transformAudio, pOutputNodeAudio, &outputTransformNodeAudio);

            _outAudioNode = outputTransformNodeAudio;
        
        else
    
            _outAudioNode = pOutputNodeAudio;
        
    

当输出类型应用于音频转换时,它有 15 个属性而不是 8 个,包括我理解的应该应用于视频的 MF_MT_AVG_BITRATE。在我的情况下,它是 192000,它与视频流上的 MF_MT_AVG_BITRATE 不同。 我的 AAC 媒体类型是通过这种方法创建的:

HRESULT MediaTypesFactory::CopyAudioTypeBasicAttributes(IMFMediaType * in_media_type, IMFMediaType * out_mf_media_type) 
    HRESULT hr = S_OK;
    static const GUID AUDIO_MAJORTYPE = MFMediaType_Audio;
    static const GUID AUDIO_SUBTYPE = MFAudioFormat_PCM;

    out_mf_media_type->SetUINT32(MF_MT_AUDIO_BITS_PER_SAMPLE, AUDIO_BITS_PER_SAMPLE);

    WAVEFORMATEX *in_wfx;
    UINT32 wfx_size;

    MFCreateWaveFormatExFromMFMediaType(in_media_type, &in_wfx, &wfx_size);

    hr = out_mf_media_type->SetUINT32(MF_MT_AUDIO_SAMPLES_PER_SECOND, in_wfx->nSamplesPerSec);
    DEBUG_ON_FAIL(hr);

    hr = out_mf_media_type->SetUINT32(MF_MT_AUDIO_NUM_CHANNELS, in_wfx->nChannels);
    DEBUG_ON_FAIL(hr);

    hr = out_mf_media_type->SetUINT32(MF_MT_AUDIO_AVG_BYTES_PER_SECOND, in_wfx->nAvgBytesPerSec);
    DEBUG_ON_FAIL(hr);

    hr = out_mf_media_type->SetUINT32(MF_MT_AUDIO_BLOCK_ALIGNMENT, in_wfx->nBlockAlign);
    DEBUG_ON_FAIL(hr);

    return hr;

如果有人可以帮助我或解释我错在哪里,那就太棒了。 谢谢。

【问题讨论】:

【参考方案1】:

在我的项目CaptureManager 中,我遇到了类似的问题——虽然我已经编写了用于将来自许多网络摄像头的实时视频录制到一个文件中的代码。经过对媒体基金会的长期研究,我发现了两个重要事实: 1. 实时源 - 网络摄像头和麦克风不从 0 开始 - 根据规范,它们的样本应该从 0 时间戳开始 - Live Sources - “第一个样本的时间戳应该为零。” - 但实时源设置当前系统时间。 2. 我从你的代码中看到你使用Media Session - 它是一个带有IMFMediaSession 接口的对象。我认为您是从 MFCreateMediaSession 函数创建它的。此函数创建默认版本的会话,该版本针对从文件播放媒体进行了优化,默认情况下从 0 开始采样。 在我看来,主要问题是默认媒体会话不会从源检查媒体样本的时间戳,因为从媒体文件开始,它们从零开始或从 StartPosition 开始。但是,实时资源并非从 0 开始——它们应该或必须,但不是。 所以,我的建议 - 使用IMFTransform 编写类,这将是源和编码器之间的“代理”转换 - 这个“代理”转换必须修复来自实时源的媒体样本的时间戳:1. 当它从实时源接收第一个媒体样本时,它保存第一个媒体样本的实际时间戳,如参考时间,并将第一个媒体样本的时间戳设置为零,所有时间戳来自该直播源的下一个媒体样本必须减去该参考时间并设置为时间戳媒体样本。 另外,请检查IMFFinalizableMediaSink 的调用代码。

问候。

【讨论】:

感谢您的回答,但不幸的是,转换为调整时间戳并没有帮助。当我在接收到单个流之前的编码器之后使用它时(当我只录制视频或只录制音频时)它不会改变任何东西,但是如果我在使用两个流的情况下使用它,音频流就会消失。如果我在编码器之前的源代码之后使用它,则文件变为空。 所以,我写了来自MFCreateMediaSession 的Media Session 是微软为播放媒体文件而开发的——它与录制任务不兼容。所以,我可以推荐两种方法:1.尝试使用MFCreateSinkWriterFromURL中的IMFSinkWriter - 它允许直接写入样本并修改其时间戳 - 它不灵活,但它是可行的。 2. 采用IMFMediaSession 接口并在其基础上编写代码 - 这是一项非常艰巨的任务,但它允许获得更灵活的解决方案 - 我的CaptureManager 项目实现了这种方式。顺便说一句,您在代码中的哪个位置调用IMFFinalizableMediaSink 嗯,我不调用 IMFFinalizableMediaSink,但在文档中有这样写: 备注 如果媒体接收器公开此接口,则媒体会话将在会话关闭之前调用接收器上的 BeginFinalize。关于 sink writer 它不适合我,因为我必须在录制过程中渲染视频。 我试过 IMFFinalizableMediaSink,在会话关闭后和会话关闭前关闭它。结果保持不变 IMFFinalizableMediaSink 是媒体写入接收器的接口 - 它命令接收器停止写入数据,计算流的度量,定义媒体的持续时间,将比特率度量写入文件的元数据。此接口是异步的 - 它需要调用 BeginFinalize 并等待响应 EndFinalize【参考方案2】:

在某些情况下,MP4 元数据可能会被错误地初始化(例如like this),但是在您描述的场景中,问题就像是有效负载数据,而不是您首先设置管道的方式。

解码器和转换器通常通过将样本从输入复制到输出来传递样本的时间戳,因此如果出现问题,它们并不表示失败 - 您仍然可以将有意义的输出写入文件。如果您有采样时间问题、很长的记录、溢出错误,尤其是溢出错误,接收器可能在处理您的数据时遇到问题。在用大分子/分母表示的比率的情况下。重要的是源产生的采样时间。

您可能想尝试录制较短的录制内容,也包括仅视频和仅音频录制,这可能有助于识别提供导致问题的数据的流。

此外,您可能需要检查生成的 MP4 文件 atom/boxes 以确定标题框是否有不正确的数据或数据本身是否被错误地标记,在哪个轨道上以及如何准确(尤其是开始正常,然后出现奇怪的间隙中间)。

【讨论】:

感谢您的回答。在我的情况下,属性 PKEY_Audio_EncodingBitrate 和 PKEY_Video_EncodingBitrate 都是 0。有时视频的这个值可以是 24。我试图在演示描述符上设置编码比特率属性,但它没有帮助。在文件接收器上设置这些属性是不可能的,因为它们是只读的。

以上是关于媒体基金会音频/视频捕获到 MPEG4FileSink 产生不正确的持续时间的主要内容,如果未能解决你的问题,请参考以下文章

找到播放媒体 wp 的媒体源

Python玩转各种多媒体,视频音频到图片

Python玩转各种多媒体,视频音频到图片

如何显示来自 Cordova 媒体捕获的图像和播放音频

UWP:后台任务中的音频媒体捕获

优秀开源项目之二:流媒体直播系统Open Broadcaster Software