mediapipe-rs/mediapipe/graphs/youtube8m/feature_extraction.pbtxt

input_side_packet: "input_sequence_example"
input_side_packet: "inception3_pca_mean_matrix"
input_side_packet: "inception3_pca_projection_matrix"
input_side_packet: "vggish_pca_mean_matrix"
input_side_packet: "vggish_pca_projection_matrix"
output_side_packet: "sequence_example_to_serialize"

node {
  calculator: "StringToSequenceExampleCalculator"
  input_side_packet: "STRING:input_sequence_example"
  output_side_packet: "SEQUENCE_EXAMPLE:parsed_sequence_example"
}

node {
  calculator: "UnpackMediaSequenceCalculator"
  input_side_packet: "SEQUENCE_EXAMPLE:parsed_sequence_example"
  output_side_packet: "DATA_PATH:input_file"
  output_side_packet: "RESAMPLER_OPTIONS:packet_resampler_options"
  output_side_packet: "AUDIO_DECODER_OPTIONS:audio_decoder_options"
  node_options: {
    [type.googleapis.com/mediapipe.UnpackMediaSequenceCalculatorOptions]: {
      base_packet_resampler_options {
        frame_rate: 1.0
        base_timestamp: 0
      }
      base_audio_decoder_options {
        audio_stream { stream_index: 0 }
      }
    }
  }
}

# Decode the entire video.
node {
  calculator: "OpenCvVideoDecoderCalculator"
  input_side_packet: "INPUT_FILE_PATH:input_file"
  output_stream: "VIDEO:decoded_frames"
}

# Extract the subset of frames we want to keep.
node {
  calculator: "PacketResamplerCalculator"
  input_stream: "decoded_frames"
  output_stream: "sampled_decoded_frames"
  input_side_packet: "OPTIONS:packet_resampler_options"
}

node {
  calculator: "ImageFrameToTensorCalculator"
  input_stream: "sampled_decoded_frames"
  output_stream: "tensor_frame"
}

node {
  calculator: "TensorFlowSessionFromFrozenGraphCalculator"
  output_side_packet: "SESSION:session"
  node_options: {
    [type.googleapis.com/mediapipe.TensorFlowSessionFromFrozenGraphCalculatorOptions]: {
      graph_proto_path: "/tmp/mediapipe/classify_image_graph_def.pb"
      tag_to_tensor_names {
        key: "IMG_UINT8"
        value: "DecodeJpeg:0"
      }
      tag_to_tensor_names {
        key: "INCEPTION_POOL3"
        value: "pool_3/_reshape:0"
      }
    }
  }
}

node {
  calculator: "TensorFlowInferenceCalculator"
  input_side_packet: "SESSION:session"
  input_stream: "IMG_UINT8:tensor_frame"
  output_stream: "INCEPTION_POOL3:inception3_hidden_activation_single_element_batch"
  node_options: {
    [type.googleapis.com/mediapipe.TensorFlowInferenceCalculatorOptions]: {
      signature_name: ""
      batch_size: 1
      add_batch_dim_to_tensors: false
    }
  }
}

# Remove the batch dimension.
node: {
  calculator: "TensorSqueezeDimensionsCalculator"
  input_stream: "inception3_hidden_activation_single_element_batch"
  output_stream: "inception3_hidden_activation"
  node_options: {
    [type.googleapis.com/mediapipe.TensorSqueezeDimensionsCalculatorOptions]: {
      dim: 0
    }
  }
}

node {
  calculator: "TensorToMatrixCalculator"
  input_stream: "TENSOR:inception3_hidden_activation"
  output_stream: "MATRIX:inception3_hidden_activation_matrix"
}

node {
  calculator: "MatrixSubtractCalculator"
  input_stream: "MINUEND:inception3_hidden_activation_matrix"
  input_side_packet: "SUBTRAHEND:inception3_pca_mean_matrix"
  output_stream: "mean_subtracted_inception3_matrix"
}
node {
  calculator: "MatrixMultiplyCalculator"
  input_stream: "mean_subtracted_inception3_matrix"
  input_side_packet: "inception3_pca_projection_matrix"
  output_stream: "pca_inception3_matrix"
}
node {
  calculator: "MatrixToVectorCalculator"
  input_stream: "pca_inception3_matrix"
  output_stream: "pca_inception3_vf"
}

######################## END OF VISUAL ###########################

######################## BEGIN OF AUDIO ##########################
node {
  calculator: "AudioDecoderCalculator"
  input_side_packet: "INPUT_FILE_PATH:input_file"
  input_side_packet: "OPTIONS:audio_decoder_options"
  output_stream: "AUDIO:audio"
  output_stream: "AUDIO_HEADER:audio_header"
}

node {
  calculator: "AddHeaderCalculator"
  input_stream: "DATA:audio"
  input_stream: "HEADER:audio_header"
  output_stream: "media_audio"
}

# Always convert the audio to mono.
node {
  calculator: "AverageTimeSeriesAcrossChannelsCalculator"
  input_stream: "media_audio"
  output_stream: "mono_waveform"
}

node {
  calculator: "RationalFactorResampleCalculator"
  input_stream: "mono_waveform"
  output_stream: "resampled_waveform"
  node_options: {
    [type.googleapis.com/mediapipe.RationalFactorResampleCalculatorOptions] {
      target_sample_rate: 16000.0
    }
  }
}
node {
  calculator: "SpectrogramCalculator"
  input_stream: "resampled_waveform"
  output_stream: "spectrogram_squared_magnitude"
  node_options: {
    [type.googleapis.com/mediapipe.SpectrogramCalculatorOptions] {
      frame_duration_seconds: 0.025
      frame_overlap_seconds: 0.015
      output_type: SQUARED_MAGNITUDE
    }
  }
}
node {
  calculator: "MelSpectrumCalculator"
  # MelSpectrumCalculator expects SQUARED_MAGNITUDE input, but its output is in
  # linear magnitude units.
  input_stream: "spectrogram_squared_magnitude"
  output_stream: "mel_spectrum_magnitude"
  node_options: {
    [type.googleapis.com/mediapipe.MelSpectrumCalculatorOptions] {
      # Follow the 'wideband' or '16kHz' speech convention.
      channel_count: 64
      min_frequency_hertz: 125.0
      max_frequency_hertz: 7500.0
    }
  }
}
node {
  calculator: "StabilizedLogCalculator"
  input_stream: "mel_spectrum_magnitude"
  output_stream: "log_mel_spectrum_magnitude"
  node_options: {
    [type.googleapis.com/mediapipe.StabilizedLogCalculatorOptions] {
      stabilizer: 0.01
    }
  }
}
node {
  calculator: "TimeSeriesFramerCalculator"
  input_stream: "log_mel_spectrum_magnitude"
  output_stream: "log_mel_spectrum_magnitude_with_context"
  node_options: {
    [type.googleapis.com/mediapipe.TimeSeriesFramerCalculatorOptions] {
      frame_duration_seconds: 0.96
      frame_overlap_seconds: -0.04
    }
  }
}
node {
  calculator: "MatrixToTensorCalculator"
  input_stream: "log_mel_spectrum_magnitude_with_context"
  output_stream: "log_mel_spectrum_magnitude_tensor"
  node_options: {
    [type.googleapis.com/mediapipe.MatrixToTensorCalculatorOptions] {
      transpose: true
    }
  }
}

node {
  calculator: "TensorFlowSessionFromFrozenGraphCalculator"
  output_side_packet: "SESSION:vggish_session"
  node_options: {
    [type.googleapis.com/mediapipe.TensorFlowSessionFromFrozenGraphCalculatorOptions]: {
      graph_proto_path: "/tmp/mediapipe/vggish_new.pb"
      tag_to_tensor_names {
        key: "INPUT"
        value: "vggish/input_features:0"
      }
      tag_to_tensor_names {
        key: "VGGISH"
        value: "vggish/fc2/BiasAdd:0"
      }
    }
  }
}

node {
  calculator: "TensorFlowInferenceCalculator"
  input_side_packet: "SESSION:vggish_session"
  input_stream: "INPUT:log_mel_spectrum_magnitude_tensor"
  output_stream: "VGGISH:vggish_tensor"
  node_options: {
    [type.googleapis.com/mediapipe.TensorFlowInferenceCalculatorOptions]: {
      signature_name: ""
      batch_size: 128
    }
  }
}

node {
  calculator: "TensorToMatrixCalculator"
  input_stream: "REFERENCE:log_mel_spectrum_magnitude_with_context"
  input_stream: "TENSOR:vggish_tensor"
  output_stream: "MATRIX:vggish_matrix"
  node_options: {
    [type.googleapis.com/mediapipe.TensorToMatrixCalculatorOptions] {
      time_series_header_overrides {
        num_channels: 128
        num_samples: 1
      }
    }
  }
}

node {
  calculator: "MatrixSubtractCalculator"
  input_stream: "MINUEND:vggish_matrix"
  input_side_packet: "SUBTRAHEND:vggish_pca_mean_matrix"
  output_stream: "mean_subtracted_vggish_matrix"
}
node {
  calculator: "MatrixMultiplyCalculator"
  input_stream: "mean_subtracted_vggish_matrix"
  input_side_packet: "vggish_pca_projection_matrix"
  output_stream: "pca_vggish_matrix"
}
node {
  calculator: "MatrixToVectorCalculator"
  input_stream: "pca_vggish_matrix"
  output_stream: "pca_vggish_vf"
}

# Store the features in the SequenceExample.
node {
  calculator: "PackMediaSequenceCalculator"
  input_side_packet: "SEQUENCE_EXAMPLE:parsed_sequence_example"
  output_side_packet: "SEQUENCE_EXAMPLE:sequence_example_to_serialize"
  input_stream: "FLOAT_FEATURE_RGB:pca_inception3_vf"
  input_stream: "FLOAT_FEATURE_AUDIO:pca_vggish_vf"
}

# Serialize the SequenceExample to a string for storage.
node {
  calculator: "StringToSequenceExampleCalculator"
  input_side_packet: "SEQUENCE_EXAMPLE:sequence_example_to_serialize"
  output_side_packet: "STRING:output_sequence_example"
}
code fill 2022-03-01 13:04:01 +01:00			`input_side_packet: "input_sequence_example"`
			`input_side_packet: "inception3_pca_mean_matrix"`
			`input_side_packet: "inception3_pca_projection_matrix"`
			`input_side_packet: "vggish_pca_mean_matrix"`
			`input_side_packet: "vggish_pca_projection_matrix"`
			`output_side_packet: "sequence_example_to_serialize"`

			`node {`
			`calculator: "StringToSequenceExampleCalculator"`
			`input_side_packet: "STRING:input_sequence_example"`
			`output_side_packet: "SEQUENCE_EXAMPLE:parsed_sequence_example"`
			`}`

			`node {`
			`calculator: "UnpackMediaSequenceCalculator"`
			`input_side_packet: "SEQUENCE_EXAMPLE:parsed_sequence_example"`
			`output_side_packet: "DATA_PATH:input_file"`
			`output_side_packet: "RESAMPLER_OPTIONS:packet_resampler_options"`
			`output_side_packet: "AUDIO_DECODER_OPTIONS:audio_decoder_options"`
			`node_options: {`
			`[type.googleapis.com/mediapipe.UnpackMediaSequenceCalculatorOptions]: {`
			`base_packet_resampler_options {`
			`frame_rate: 1.0`
			`base_timestamp: 0`
			`}`
			`base_audio_decoder_options {`
			`audio_stream { stream_index: 0 }`
			`}`
			`}`
			`}`
			`}`

			`# Decode the entire video.`
			`node {`
			`calculator: "OpenCvVideoDecoderCalculator"`
			`input_side_packet: "INPUT_FILE_PATH:input_file"`
			`output_stream: "VIDEO:decoded_frames"`
			`}`

			`# Extract the subset of frames we want to keep.`
			`node {`
			`calculator: "PacketResamplerCalculator"`
			`input_stream: "decoded_frames"`
			`output_stream: "sampled_decoded_frames"`
			`input_side_packet: "OPTIONS:packet_resampler_options"`
			`}`

			`node {`
			`calculator: "ImageFrameToTensorCalculator"`
			`input_stream: "sampled_decoded_frames"`
			`output_stream: "tensor_frame"`
			`}`

			`node {`
			`calculator: "TensorFlowSessionFromFrozenGraphCalculator"`
			`output_side_packet: "SESSION:session"`
			`node_options: {`
			`[type.googleapis.com/mediapipe.TensorFlowSessionFromFrozenGraphCalculatorOptions]: {`
			`graph_proto_path: "/tmp/mediapipe/classify_image_graph_def.pb"`
			`tag_to_tensor_names {`
			`key: "IMG_UINT8"`
			`value: "DecodeJpeg:0"`
			`}`
			`tag_to_tensor_names {`
			`key: "INCEPTION_POOL3"`
			`value: "pool_3/_reshape:0"`
			`}`
			`}`
			`}`
			`}`

			`node {`
			`calculator: "TensorFlowInferenceCalculator"`
			`input_side_packet: "SESSION:session"`
			`input_stream: "IMG_UINT8:tensor_frame"`
			`output_stream: "INCEPTION_POOL3:inception3_hidden_activation_single_element_batch"`
			`node_options: {`
			`[type.googleapis.com/mediapipe.TensorFlowInferenceCalculatorOptions]: {`
			`signature_name: ""`
			`batch_size: 1`
			`add_batch_dim_to_tensors: false`
			`}`
			`}`
			`}`

			`# Remove the batch dimension.`
			`node: {`
			`calculator: "TensorSqueezeDimensionsCalculator"`
			`input_stream: "inception3_hidden_activation_single_element_batch"`
			`output_stream: "inception3_hidden_activation"`
			`node_options: {`
			`[type.googleapis.com/mediapipe.TensorSqueezeDimensionsCalculatorOptions]: {`
			`dim: 0`
			`}`
			`}`
			`}`

			`node {`
			`calculator: "TensorToMatrixCalculator"`
			`input_stream: "TENSOR:inception3_hidden_activation"`
			`output_stream: "MATRIX:inception3_hidden_activation_matrix"`
			`}`

			`node {`
			`calculator: "MatrixSubtractCalculator"`
			`input_stream: "MINUEND:inception3_hidden_activation_matrix"`
			`input_side_packet: "SUBTRAHEND:inception3_pca_mean_matrix"`
			`output_stream: "mean_subtracted_inception3_matrix"`
			`}`
			`node {`
			`calculator: "MatrixMultiplyCalculator"`
			`input_stream: "mean_subtracted_inception3_matrix"`
			`input_side_packet: "inception3_pca_projection_matrix"`
			`output_stream: "pca_inception3_matrix"`
			`}`
			`node {`
			`calculator: "MatrixToVectorCalculator"`
			`input_stream: "pca_inception3_matrix"`
			`output_stream: "pca_inception3_vf"`
			`}`

			`######################## END OF VISUAL ###########################`

			`######################## BEGIN OF AUDIO ##########################`
			`node {`
			`calculator: "AudioDecoderCalculator"`
			`input_side_packet: "INPUT_FILE_PATH:input_file"`
			`input_side_packet: "OPTIONS:audio_decoder_options"`
			`output_stream: "AUDIO:audio"`
			`output_stream: "AUDIO_HEADER:audio_header"`
			`}`

			`node {`
			`calculator: "AddHeaderCalculator"`
			`input_stream: "DATA:audio"`
			`input_stream: "HEADER:audio_header"`
			`output_stream: "media_audio"`
			`}`

			`# Always convert the audio to mono.`
			`node {`
			`calculator: "AverageTimeSeriesAcrossChannelsCalculator"`
			`input_stream: "media_audio"`
			`output_stream: "mono_waveform"`
			`}`

			`node {`
			`calculator: "RationalFactorResampleCalculator"`
			`input_stream: "mono_waveform"`
			`output_stream: "resampled_waveform"`
			`node_options: {`
			`[type.googleapis.com/mediapipe.RationalFactorResampleCalculatorOptions] {`
			`target_sample_rate: 16000.0`
			`}`
			`}`
			`}`
			`node {`
			`calculator: "SpectrogramCalculator"`
			`input_stream: "resampled_waveform"`
			`output_stream: "spectrogram_squared_magnitude"`
			`node_options: {`
			`[type.googleapis.com/mediapipe.SpectrogramCalculatorOptions] {`
			`frame_duration_seconds: 0.025`
			`frame_overlap_seconds: 0.015`
			`output_type: SQUARED_MAGNITUDE`
			`}`
			`}`
			`}`
			`node {`
			`calculator: "MelSpectrumCalculator"`
			`# MelSpectrumCalculator expects SQUARED_MAGNITUDE input, but its output is in`
			`# linear magnitude units.`
			`input_stream: "spectrogram_squared_magnitude"`
			`output_stream: "mel_spectrum_magnitude"`
			`node_options: {`
			`[type.googleapis.com/mediapipe.MelSpectrumCalculatorOptions] {`
			`# Follow the 'wideband' or '16kHz' speech convention.`
			`channel_count: 64`
			`min_frequency_hertz: 125.0`
			`max_frequency_hertz: 7500.0`
			`}`
			`}`
			`}`
			`node {`
			`calculator: "StabilizedLogCalculator"`
			`input_stream: "mel_spectrum_magnitude"`
			`output_stream: "log_mel_spectrum_magnitude"`
			`node_options: {`
			`[type.googleapis.com/mediapipe.StabilizedLogCalculatorOptions] {`
			`stabilizer: 0.01`
			`}`
			`}`
			`}`
			`node {`
			`calculator: "TimeSeriesFramerCalculator"`
			`input_stream: "log_mel_spectrum_magnitude"`
			`output_stream: "log_mel_spectrum_magnitude_with_context"`
			`node_options: {`
			`[type.googleapis.com/mediapipe.TimeSeriesFramerCalculatorOptions] {`
			`frame_duration_seconds: 0.96`
			`frame_overlap_seconds: -0.04`
			`}`
			`}`
			`}`
			`node {`
			`calculator: "MatrixToTensorCalculator"`
			`input_stream: "log_mel_spectrum_magnitude_with_context"`
			`output_stream: "log_mel_spectrum_magnitude_tensor"`
			`node_options: {`
			`[type.googleapis.com/mediapipe.MatrixToTensorCalculatorOptions] {`
			`transpose: true`
			`}`
			`}`
			`}`

			`node {`
			`calculator: "TensorFlowSessionFromFrozenGraphCalculator"`
			`output_side_packet: "SESSION:vggish_session"`
			`node_options: {`
			`[type.googleapis.com/mediapipe.TensorFlowSessionFromFrozenGraphCalculatorOptions]: {`
			`graph_proto_path: "/tmp/mediapipe/vggish_new.pb"`
			`tag_to_tensor_names {`
			`key: "INPUT"`
			`value: "vggish/input_features:0"`
			`}`
			`tag_to_tensor_names {`
			`key: "VGGISH"`
			`value: "vggish/fc2/BiasAdd:0"`
			`}`
			`}`
			`}`
			`}`

			`node {`
			`calculator: "TensorFlowInferenceCalculator"`
			`input_side_packet: "SESSION:vggish_session"`
			`input_stream: "INPUT:log_mel_spectrum_magnitude_tensor"`
			`output_stream: "VGGISH:vggish_tensor"`
			`node_options: {`
			`[type.googleapis.com/mediapipe.TensorFlowInferenceCalculatorOptions]: {`
			`signature_name: ""`
			`batch_size: 128`
			`}`
			`}`
			`}`

			`node {`
			`calculator: "TensorToMatrixCalculator"`
			`input_stream: "REFERENCE:log_mel_spectrum_magnitude_with_context"`
			`input_stream: "TENSOR:vggish_tensor"`
			`output_stream: "MATRIX:vggish_matrix"`
			`node_options: {`
			`[type.googleapis.com/mediapipe.TensorToMatrixCalculatorOptions] {`
			`time_series_header_overrides {`
			`num_channels: 128`
			`num_samples: 1`
			`}`
			`}`
			`}`
			`}`

			`node {`
			`calculator: "MatrixSubtractCalculator"`
			`input_stream: "MINUEND:vggish_matrix"`
			`input_side_packet: "SUBTRAHEND:vggish_pca_mean_matrix"`
			`output_stream: "mean_subtracted_vggish_matrix"`
			`}`
			`node {`
			`calculator: "MatrixMultiplyCalculator"`
			`input_stream: "mean_subtracted_vggish_matrix"`
			`input_side_packet: "vggish_pca_projection_matrix"`
			`output_stream: "pca_vggish_matrix"`
			`}`
			`node {`
			`calculator: "MatrixToVectorCalculator"`
			`input_stream: "pca_vggish_matrix"`
			`output_stream: "pca_vggish_vf"`
			`}`

			`# Store the features in the SequenceExample.`
			`node {`
			`calculator: "PackMediaSequenceCalculator"`
			`input_side_packet: "SEQUENCE_EXAMPLE:parsed_sequence_example"`
			`output_side_packet: "SEQUENCE_EXAMPLE:sequence_example_to_serialize"`
			`input_stream: "FLOAT_FEATURE_RGB:pca_inception3_vf"`
			`input_stream: "FLOAT_FEATURE_AUDIO:pca_vggish_vf"`
			`}`

			`# Serialize the SequenceExample to a string for storage.`
			`node {`
			`calculator: "StringToSequenceExampleCalculator"`
			`input_side_packet: "SEQUENCE_EXAMPLE:sequence_example_to_serialize"`
			`output_side_packet: "STRING:output_sequence_example"`
			`}`