T-AI 109.7-2024 信息技術(shù) 智能媒體編碼 第7部分:音頻封裝與傳輸_第1頁
T-AI 109.7-2024 信息技術(shù) 智能媒體編碼 第7部分:音頻封裝與傳輸_第2頁
T-AI 109.7-2024 信息技術(shù) 智能媒體編碼 第7部分:音頻封裝與傳輸_第3頁
T-AI 109.7-2024 信息技術(shù) 智能媒體編碼 第7部分:音頻封裝與傳輸_第4頁
T-AI 109.7-2024 信息技術(shù) 智能媒體編碼 第7部分:音頻封裝與傳輸_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

Informationtechnology-IntelligentmediacodingPart7:Audioencapsulationandtrans中關(guān)村視聽產(chǎn)業(yè)技術(shù)創(chuàng)新聯(lián)盟發(fā)布I 1 1 1 3 4 公司、北京大學、中國電子技術(shù)標準化研究院、廣東博華超高清創(chuàng)新中心有限公司研究院、全景聲(北京)智能科技有限公司、北京博雅睿視科技本文件是T/AI109的第7部分。本文件第5章和第6章規(guī)定了符合AVS3智能媒體編碼音頻數(shù)據(jù)和AVS2的高效多媒體編碼音頻數(shù)據(jù)的基本文件封裝格式和CMAF軌道和媒體配置,并進一步規(guī)定了基于第5章和第6章定義的AVS3/AVS2音頻封裝格式進行DASH傳輸?shù)募夹g(shù)要求、傳輸流和節(jié)目流的技術(shù)要求、SMT傳輸本文件的發(fā)布機構(gòu)提請注意,聲明符合本文件時,可能涉及如下2項與數(shù)字音視頻編解碼技術(shù)相關(guān)專利申請人/專利權(quán)人標準條款涉及專1咪咕文化科技有限2一種音頻編解碼方法、裝本文件的發(fā)布機構(gòu)對上述專利的真實性、有效性和范圍無任上述專利持有人已向本文件的發(fā)布機構(gòu)保證,愿意同任何申請人在合理且無歧視的條款下,就專利授權(quán)許可進行談判。上述專利持有人的聲明已在本文件的發(fā)布機構(gòu)備案聯(lián)系人:黃鐵軍(數(shù)字音視頻編解碼技術(shù)標準工作組請注意除上述專利外,本文件的某些內(nèi)容仍可能涉及專利。本文件的發(fā)布機構(gòu)不承擔識別這些專1信息技術(shù)智能媒體編碼第7部分:音頻封裝與傳輸DASH傳輸技術(shù)要求、傳輸流和節(jié)目流技術(shù)要求、SMT傳輸技術(shù)要求以及RT傳輸流和節(jié)目流技術(shù)要求、SMT傳輸技術(shù)要求本文件適用于智能媒體編碼系統(tǒng)中的音視頻直播、音視頻點播、網(wǎng)絡流媒體等應GB/T33475.3-2018信息技術(shù)高效多GB/T18793-2002信息技術(shù)可擴展technology--GenericcodingofmovingpicturesandassociatedaISO/IEC14496-12:2022信息技術(shù)音視頻對象的編碼第12部分:ISO基本媒體文件格式(Informationtechnology-Codingofaudio-visualobjects-Part12:ISObasemediafileformat)ISO/IEC23000-19:2024信息技術(shù)多媒體應用格式第19部分:片段媒體的通用媒體應用格式(Informationtechnology—Multimediapplicationformat(CMAF)forsegmentedm格式(Informationtechnology—Dynamicadaptivestreamipresentationdescriptionandsegmentformats)IETFRFC3550實時傳輸協(xié)議(ATransportProtocolforIETFRFC6381"Bucket"媒體類型'CodeIETFRFC8866會話描述協(xié)議(SDP:SessionDesc2AVS3音頻編碼位流AVS3audiobitstreamAVS2音頻編碼位流AVS2audiobitstream符合GB/T33475.3-2018的編碼音頻信號所形成的二聲音在錄制或播放時在不同空間位置采集或回放的相互獨媒體呈現(xiàn)描述mediapresentationdescr3符合一定的媒體格式、可播放的片段。播放時可能需要與其前面的0個或多個片段以及初始化片段任何與唯一標識符聯(lián)系的用作構(gòu)建一個多媒體演示的多媒體數(shù)據(jù)智能媒體傳輸協(xié)議smartmediatr4縮略語AASF(CommonMediaApplication(HigherOrderAmbison4URIURNUTCXML(ISOBaseMediaFile(MultipurposeInternetMailExtens(MediaPresentationDes(Program-SpecificInfor(SessionDescriptionP(UniformResourceIde(eXtensibleMarkupLan通則基本流結(jié)構(gòu)基本流格式5本條定義符合T/AI109.3的通用全碼率音頻編碼內(nèi)容的特有.2語法classAvs3AudioGASpecificCounsignedint(4)sampling_frequency_index;unsignedint(3)nn_type;unsignedint(1)reserved;unsignedint(4)content_type;if(content_type==0){unsignedint(7)channel_number_index;unsignedint(1)reserved;unsignedint(7)number_objects;unsignedint(1)reserved;unsignedint(7)channel_number_index;unsignedint(1)reserved;unsignedint(7)number_objects;unsignedint(1)reserved;unsignedint(4)hoa_order;}unsignedint(16)total_bitrate;unsignedint(2)resolution;if(content_type==3){unsignedint(2)reserved;unsignedint(6)reserved;}}.3語義content_type:表示音頻內(nèi)容類型6total_bitrate:表示音頻總比特率,單位kbps01230聲道信號的bitrate_index對應的比特率1對象信號的bitrate_index_per_channel對應的2聲道信號的bitrate_index對應的比特率3本條定義符合T/AI109.3的通用高碼率音頻編碼內(nèi)容的特有.2語法classAvs3AudioGHSpecificCunsignedint(4)sampling_frequency_index;unsignedint(1)anc_data_index;unsignedint(3)coding_profile;unsignedint(1)bitstream_type;unsignedint(7)channel_number_index;unsignedint(4)bitrate_index;unsignedint(16)raw_frame_length;unsignedint(2)resolution;7unsignedint(16)addition_info_length;if(addition_info_length>0){bit(8*addition_info_length)addition_info;}unsignedint(6)reserved;}.3語義addition_info:指示Avs3AudioGHSpeci.2語法classAvs3AudioLLSpecificunsignedint(4)sampling_frequency_index;if(sampling_frequency_index==0xF){unsignedint(24)sampling_frequency;}unsignedint(1)anc_data_index;unsignedint(3)coding_profiunsignedint(8)channel_number;unsignedint(2)resolution;unsignedint(16)addition_info_length;if(addition_info_length>0){bit(8*addition_info_length)addition_info;}unsignedint(2)reserved;}.3語義addition_info:指示Avs3AudioLLSpec.2語法unsignedint(4)audio_codec_id;if(audio_codec_id==2){Avs3AudioGASpecificConfig()Avs3AudioGAConfig;}elseif(audio_codec_id==0){Avs3AudioGHSpecificConfig()Avs3AudioGHConfig;}Avs3AudioLLSpecificConfig()Avs3AudioLLConf}}.3語義Avs3AudioSpecificGAConfig在中定義,Avs3AudioSpecificGHConfig在中定義,Avs3AudioSpecificLLConfig在中定9容器:SampleDescripti強制性:封裝AVS3音頻編碼位流的軌道必須包含一個'av對于AATF類型的AVS3音頻編碼位流在'av3a'類型的音頻軌道中進行傳輸,其軌道樣本入口中應包對于AASF類型的AVS3音頻編碼位流在文件中應被存儲為'a3as'類型的音頻軌道,其軌道樣本入口.2語法classAVS3ATSampleEntry()extendsAudioSampleEntry}classAVS3ASSampleEntry()extendsAudioSampleEntryunsignedint(16)avs3_as_header_length;bit(8*avs3_as_header_length)avs3_as_header;}.3語義avs3_as_header:指示aasf_h通則本文件對符合GB/T33475.3-2018規(guī)范的AVS2音頻基本流結(jié)構(gòu)和基本流本文件規(guī)定的符合GB/T33475.3-基本流結(jié)構(gòu)本文件規(guī)定的符合GB/T33475.3-基本流格式本文件規(guī)定的符合GB/T33475.3-2018的AV.2語法unsignedint(4)sampling_frequency_index;unsignedint(1)anc_data_index;unsignedint(3)coding_profile;unsignedint(1)bitstream_type;unsignedint(7)channel_number_index;unsignedint(4)bitrate_index;unsignedint(16)raw_frame_length;unsignedint(2)resolution;}}.3語義sampling_frequency_index:應符合GB/T334anc_data_index:應符合GB/T33475coding_profile:應符合GB/T33475.3bitstream_type:應符合GB/T33475.3-2018的附錄channel_number_index:應符合GB/T33475bitrate_index:應符合GB/T33475.3-201raw_frame_length:應符合GB/T33475.3-20resolution:應符合GB/T33475.3-20.2語法unsignedint(4)sampling_frequency_index;if(sampling_frequency_index==0xF){unsignedint(24)sampling_frequency;}unsignedint(1)anc_data_index;unsignedint(3)coding_profile;unsignedint(8)channel_number;unsignedint(2)resolution;}}.3語義sampling_frequency_index:應符合GB/T334sampling_frequency:應符合GB/Tanc_data_index:應符合GB/T33475coding_profile:應符合GB/T33475.3channel_number:應符合GB/T33475resolution:應符合GB/T33475.3-20本條根據(jù)5.2.2中定義的音頻編碼特有配置,定義了AVS2音頻解碼器配置數(shù)據(jù)盒AVSASpecificBox.2語法unsignedint(4)audio_codec_id;if(audio_codec_id==0){AVSAGASpecificConfig(}AVSALLSpecificConfig();}unsignedint(16)addition_info_length;if(addition_info_length>0){bit(8*addition_info_length)addition_info;}byte_alignment();}.3語義AVSAGASpecificConfig在中定義,AVSALLSpecificConfig在中定義。audio_codec_id:應符合GB/T33475byte_alignment():應符合GB/T33475.3-201容器:SampleDescripti強制性:封裝AVS3音頻編碼位流的軌道必須包含一個'c對于AATF類型的AVS2音頻編碼位流在'cavs'類型的音頻軌道中進行傳輸,其軌道樣本入口中應包對于AASF類型的AVS2音頻編碼位流在文件中應被存儲為'a2as'類型的音頻軌道,其軌道樣本入口.2語法classAVSAATSampleEntry()extendsAudioSampleEntry}classAVSAASSampleEntry()extendsAudioSampleEntryAVSASpecificBoxconunsignedint(16)avsa_as_header_length;bit(8*avsa_as_header_length)avsa_as_header;}.3語義AVSASpecificBox提供AVS2音頻編碼位流的解碼配置信息。avsa_as_header:指示aasf_header()的信息,aasf_header()應符合GB/若音頻軌道的樣本入口類型為'cavs',則AVS3音頻CMAF軌道格式應符合ISO/IEC23000-19:2024中9.2指定的通用音頻CMAF軌道格式,同-每個presentation必須對應-每個AVS3音頻Sample只能包含符合AVS3音頻特有數(shù)據(jù)盒的CMAF軌道的音頻樣本入口的語法和取值應符合5.1.3中定義的a)CMAF交換集中的每個CMAF軌道應符合6.1.2中定義的CMAF軌道約束;b)CMAF切換集中的每個CMAF軌道應符合ISO/IEC23000-19:202c)單一初始化AVS3音頻CMAF切換集應符a)應符合ISO/IEC23000-19:2024中7.3.4規(guī)定的通用CMAF切換集約束b)應符合ISO/IEC23000-19:2024中c)CMAF頭部中的音頻樣本的audio_codec_id應保持不變。呈現(xiàn)應用程序應使用符合RFC6381中規(guī)定的參數(shù)發(fā)送AVS3音頻CMAF軌道和CMAF切換集的音頻AVS2音頻CMAF軌道格式應該符合ISO/IEC23000-19:2024如果CMAF軌道符合上述技術(shù)要求,則它被稱為AVS2音頻CMAF軌道,并且其品牌標識定義為-每個presentation必須對應-每個AVS2音頻Sample只能包含符合AVS2音頻特有數(shù)據(jù)盒的CMAF軌道的音頻樣本入口的語法和取值應符合5.2.3中定義的a)CMAF交換集中的每個CMAF軌道應符合6.2.2中定義的CMAF軌道約b)CMAF切換集中的每個CMAF軌道應符合ISO/IEC23000-19:202c)單一初始化AVS2音頻CMAF切換集應符合節(jié)中定義的約束。a)應符合ISO/IEC23000-19:2024的7c)CMAF頭部中的音頻樣本的audio_codec_id應保持不變。呈現(xiàn)應用程序應使用符合RFC6381中規(guī)定的參數(shù)發(fā)送AVS2音頻CMAF軌道和CMAF切換集的音頻本條規(guī)定符合T/AI109.3的AVS3音頻編碼位流通過基于HTTP的動態(tài)自適應流媒體傳輸協(xié)議(ISO/IEC23009-1:2022)進行傳輸時的媒體呈現(xiàn)描述每個DASH初始化片段應包含一個CA3SpecificB每個DASH媒體片段中的第一個媒體樣本應符合以下任a)每個AVS3音頻樣本只能包含一幀c)每個AVS3音頻樣本的SAP的類型,在ISO/IEC14a)每個子片段由一個ISO/IEC14496-12:2022中8.16.3中定義AudioChannelC@schemeIdUri屬性設置為"urn:avs:avs3:p7:2024:audio_channel_configuration",用-第2個字節(jié)的最高1位等于0,低7位等于.2中channel_number_index的值;b)如果AVS3音頻編碼位流在MPD中的@codecs屬性為'av3a.01',則@value的屬性值-第1個字節(jié)的高4位為0xF,低4位等于.2中conten位等于.2中channel_number_i-第3個字節(jié):如果第1個字節(jié)的值等本條規(guī)定符合GB/T33475.3-2018的AVS2音頻編碼位流通過基于HTTP的動態(tài)自適應流媒體傳輸協(xié)議(ISO/IEC23009-1:2022)進行傳輸時的媒體呈現(xiàn)描述(MPD每個DASH媒體片段應包含一個或多個每個DASH媒體片段中的第一個媒體樣本應符合以下任a)每個AVS2音頻樣本只能包含一幀c)每個AVS2音頻樣本的SAP的類型,在ISO/IEC14a)每個子片段由一個ISO/IEC14496-12:2022中8.16.3AudioChannelC@schemeIdUri屬性設置為"urn:avs:avs3:p7:2024:audio_channel_configuration",用-第2個字節(jié)的最高1位等于0,低7位等于.2中channel_number_index的值;b)如果AVS2音頻編碼位流在MPD中的@codecs屬性為'cavs.01',則@value的屬性值a)AVS3音頻流應是ISO/IEC13818-c)AVS3音頻流的常見編碼參數(shù),如audio_codec_id應使用AVS3音頻流AVS3音頻流相關(guān)聯(lián)的AVS3音頻流描述符,則該描述符的描述符循環(huán)中。c)elementarystream在PESpayl節(jié)目和節(jié)目元素描述子中各字段的語義定義本條定義的注冊描述符和AVS3音頻流描述符標簽值,見表3。TS或PS欄中'X'表示該描述符可分別XXAVS3_audio_descriptor該字段為8位。規(guī)定了緊跟在該字段之后的registration_descriptor提供了一種唯一且明確地識別私有數(shù)據(jù)格式的方法。注冊描述符中各字段語registration_descriAVS3_audio_descriptor()位于PMT中的EAVS3_audio_descriptor(}}}}}}}descriptor_tag:該字段為8位,取值為210(0content_type:該字段為4位,表示音頻內(nèi)容類型,total_bitrate:該字段為16位,表addition_info:可選字段,01230聲道信號的bitrate_index對應的比特率12聲道信號的bitrate_index對應的比特率3。An(j)tdn(j)An(j)tdn(j)tpn(k)t(i)其它傳輸流傳輸流解復用其它傳輸流-t(i):傳輸流的第i個字節(jié)進入系統(tǒng)目標解碼器的時間,-td(j):An(j)在系統(tǒng)目標解碼器中解碼的時間,單位秒。BSn=BSmux+BSdec+BSohBSmux——額外復用緩存,計算公式如下:BSdec——基本流存儲單元緩存,取值為6144bits;BSoh——PES包頭緩存,取值為528bytes。-TBn不應上溢,且應在每一秒中至少有一次處于清空狀態(tài);a)AVS2音頻流應是ISO/IEC13818-c)AVS2音頻流的常見編碼參數(shù),如audio_codec_id應使用AVS2音頻流AVS2音頻流相關(guān)聯(lián)的AVS2音頻流描述符,則該描述符的描述符循環(huán)中。c)一個PES包可以包含一幀或多幀aatf_frame()。節(jié)目和節(jié)目元素描述子中各字段的語義定義XXAVS2_audio_descriptor該字段為8位。規(guī)定了緊跟在該字段之后的registration_descriptor提供了一種唯一且明確地識別私有數(shù)據(jù)格式的方法。注冊描述符中各字段語registration_descriAVS2_audio_descriptor()位于PMT中的ESAVS2_audio_descriptor(‘0’}}}}}}}}descriptor_tag:該字段為8位,取值為sample_rate_index:該字段為4位,應符合GB/T33475.text_present_flag:該字段為1位,表示AVS2音頻流描述子中是否包含描述性的文本。若text_present_flag的值為1,表示音頻流中包含文本;若text_planguage_present_flag:該字段為1位,說明AVS2音頻流描述子中是否包含3字節(jié)的語言字段。若language:該字段為24位,編碼規(guī)定應符合GB/T4880.2—2audio_codec_id:該字段為4位,應符合GB/T33475.3的附錄anc_data_index:該字段為1位,應符合GB/T33475.3的附coding_profile:該字段為3位,應符合GB/T33475.3的附錄bitrate_index:該字段為4位,應符合GB/T33475.3的附錄A.2。bitstream_type:該字段為1位,應符合GB/T33475.3的附錄A.2。raw_frame_length:該字段為16位,應符合GB/T33475.3的附錄A.2。resolution:該字段為2位,應符合GB/T33475.3的附錄A.2。anc_data_block():應符合GB/T33475.3的additional_info:可選字段AVS2基本流有一個或多個聲道組成,每個聲道的最大碼率為audio_codec_id為0時,192kbps,因此BSn=BSmux+BSdec+BSohBSdec——基本流存儲單元緩存,audio_codec_id為0時,6144bits×N。00009.1.1通則b)AVS3音頻文件應符合SMT的文件c)AVS3音頻文件傳輸過程中使用的信令消息,應符合SMT中信令消息的定義以及本章的擴展定定義AVS音頻媒體資源描述符用于指示AVS3音頻語法值‘1,}}}}}語義descriptor_tag:用于標識descriptordescriptor_length:指示標識符的長度,單coding_profile:指示音頻媒體資源的編解碼檔次。該字段取值為0表示音頻媒體資源的編解碼遵循average_bitrate_flag:取值為0時表示音頻媒體資源不具備平均碼率;取值為1時表示音頻媒體資源max_bitrate:指示音頻媒體資源的最大碼率,單位kbps。average_bitrate:指示音頻媒體資源的平均碼率,單位kbmin_bitrate:指示音頻媒體資源的最小碼率,單位kbphoa_order_flag:取值為1時表示當前描述符中指示HOA階數(shù);取值為0時表示當前描述符中不指示object_info_flag:取值為1時表示當前描述符中指示聲音對象max_channel_number:指示當前媒max_object_channel_number:指示當前媒體資源包含的全部對象支持的最大聲道數(shù)量。bit_depth_resolution:指示音9.1.3交互反饋信令表定義交互反饋信令表用于指示不同類型的交互反對于AVS3音頻編碼位流的媒體資源,若其包含可交互的聲音對象,則用戶對于聲音對象的交互操作可以通過交互反饋信令表進行反饋,其中聲音對象的交互反饋信令表的字段取值應遵循如語法值}}}}}}}語義table_type指示交互反饋信令表攜帶的信息類型。其取值含義見表16。0123message_source:指示消息源,0表示交互反饋消息是客戶端發(fā)往服務器,1表示交互反饋消息是服asset_group_flag:指示當前消費內(nèi)容是否屬于一個媒體資源組。取值為1表示客戶端當前消費內(nèi)容asset_group_id:指示客戶端當前消費內(nèi)容的媒體資源aligned(8)classClientPositi}9.2.1通則a)AVS2音頻編碼位流應遵循第5章中的文件封裝格式,封裝為基于b)AVS2音頻文件應遵循SMT的文件c)AVS2音頻文件傳輸過程中使用的信令消息,需遵循SMT中信令消息的定義以及本章的擴展定定義AVS音頻媒體資源描述符用于指示AVS2音頻語法值Audio_info_descriptor(){uimsbfuimsbf4uimsbf4uimsbf3uimsbf1bslbf1bslbf1bslbf1bslbf‘1,5uimsbfif(averagebitratefluimsbfuimsbfuimsbf}8uimsbf}if(channel_number_f8uimsbf}}8uimsbf8uimsbfuimsbf}語義descriptor_tag:用于標識descriptordescriptor_length:指示標識符的長度,單源為通用音頻編碼數(shù)據(jù);取值為1表示媒體資源為無損音頻編碼數(shù)據(jù);其余取值保coding_profile:指示音頻媒體資源的編解碼檔次。該字段取值為0表示音頻媒體資源的編解碼遵循average_bitrate_flag:取值為0時表示音頻媒體資源不具備平均碼率;取值為1時表示音頻媒體資源max_bitrate:指示音頻媒體資源的最大碼率,單位kbps。average_bitrate:指示音頻媒體資源的平均碼率,單位kbmin_bitrate:指示音頻媒體資源的最小碼率,單位kbphoa_order_flag:取值為1時表示當前描述符中指示HOA階數(shù);取值為0時表示當前描述符中不指示object_info_flag:取值為1時表示當前描述符中指示聲音對象max_channel_number:指示當前媒max_object_channel_number:指示當前媒體資源包含的全部對象支持的最大聲道數(shù)量。bit_depth_resolution:指示音9.2.3交互反饋信令表定義交互反饋信令表用于指示不同類型的交互反對于AVS2音頻編碼位流的媒體資源,若其包含可交互的聲音對象,則用戶對于聲音對象的交互操作可以通過交互反饋信令表進行反饋,其中聲音對象的交互反饋信令表的字段取值應遵循如語法值}}}}}}}語義table_type指示交互反饋信令表攜帶的信息類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論