The simplest way to change the duration or pitch of a digital audio clip is to resample it. This is a mathematical operation that effectively rebuilds a continuous waveform from its samples and then samples that waveform again at a different rate. When the new samples are played at the original sampling frequency, the audio clip sounds faster or slower. Unfortunately, the frequencies in the sample are always scaled at the same rate as the speed, transposing its perceived pitch up or down in the process. In other words, slowing down the recording lowers the pitch, speeding it up raises the pitch, and the two effects cannot be separated. This is analogous to speeding up or slowing down an analog recording, like a phonograph record or tape, creating the chipmunk effect.
z wikipedie
potvrzuje to jen moje tvrzeni ze pri zmene samplovaci freq k zadnemu timestrech / tedy ze se signal zpomali pri prevodu z vyssi na mensi freq /NEDOCHAZI
JEZIS PYTKIN
naco sa hadas ? sak to vyskusaj .. zober 3minutovu pesnicku z CD (44kHz) .. daj do nuenda .. prepni na 88kHz .. a pusti ju .. a zmeraj ako dlho bude hrat .. bude hrat o oktavu vyssie a bude trvat len 1.5 minuty ..
VZDYT TOHLE RIKAM OD ZACATKU!PRECTI SI CO JSEM PSAL
ZE POKUD NAHRAJU NECO NA VYSSI FREQ A PAK TO PREPNU NA NIZSI TAK SE TO ZPOMALI! TAKZE ZTRATI TIMING.Tys psal tohle:
no ved ale nahras nastroj ktory je na 442 , frekvenciou 442 ... cize ked to potom prepnes naspat na 440, tak sa ten nastroj o tie 2Hz podladi .. proste bude to sediet ..
Naposledy upravil(a) carloff dne 04 čer 2011 00:46, celkem upraveno 1 x.
carloff : este ma napada , co vy si kefalin predstavujete pod pojmom pitch shift .. ja ked si navolim pitch shift , trebars +12 semitones , a 2 minuty rozpravam , tak vysledok je 2 minutove rozpravanie a moj hlas je o oktavu hore .. Tak ja chapem pitch shift .. Ked v sound forge pouzijem efekt pitch +12 semitones , tak mam z dvojminutovej nahravky len 1 minutovnu .. nahravka sa 2x zrychli .. cize hlas bude o oktavu vyssi a 2x rychlejsi .. podla toho co pises , ty zjavne hovoris o "pitch" .. nie "pitch shift" .. i ked toto je asi celkom individualne a kazdy software to moze mat oznacene inak ..
carloff píše:
VZDYT TOHLE RIKAM OD ZACATKU!PRECTI SI CO JSEM PSAL
ZE POKUD NAHRAJU NECO NA VYSSI FREQ A PAK TO PREPNU NA NIZSI TAK SE TO ZPOMALI! TAKZE ZTRATI TIMING.Tys psal tohle:
no ved ale nahras nastroj ktory je na 442 , frekvenciou 442 ... cize ked to potom prepnes naspat na 440, tak sa ten nastroj o tie 2Hz podladi .. proste bude to sediet ..
no ale on sa nestrati .. bude to sediet .. lebo podklad nahraty 440 , sa pri 442 zrychli .. ty nahras nastroj naladeny na 442 zrychlene (ten clovek to zrychlene nahra) .. a ked sa frekvencia prepne na 440 , tak sa dole posunie aj podklad aj nahraty nastroj ..
carloff ... vyser sa na to .. sluch mas asi dobry , ale matematika ti nejde .. nemusi predsa kazdy vediet vsetko .. ja som cele detstvo vyhraval matematicke olympiady
Zaklad je o necem jinem.. o cem se bavime: ze pokud neco nahrajes s variclockem na 442 a pak to das do puvodni samplerate tak ten nahrany signal bude o neco zpomalenejsi coz jsimi ted sam potvrdil:)
sedet nebude bude zpomalenejsi:) protirecis si
anebo musis resamplovat a pak to postarda uz vubec smysl protoze pak je lepsi pouzit necojako MPEX
ono to neni tak jednoduche jak si myslis:))) a ty matematicke souteze jsme vyhraval celostatni:)
pokud se to zrychli ze 440 na 442 ty to k tomu nahrajes dochazi k tomuhle:
Insert 159 zeros between every input sample. This raises the data rate to 7.056 MHz, the least common multiple of 44.1 and 48 kHz. Since this operation is equivalent to reconstructing with Dirac delta functions, it also creates images of frequency f at 44.1−f, 44.1+f, 88.2−f, 88.2+f, ...
Remove the images with a digital filter, leaving a signal containing only 0–20 kHz information, but still sampled at a rate of 7.056 MHz.
Discard 146 of every 147 output samples. It does not hurt to do so since the signal now has no significant content above 24 kHz.
(In practice, of course, there is no reason to compute the values of the samples that will be discarded, and for the samples you still need to compute, you can take advantage of the fact that most of the inputs are 0. This is called polyphase decomposition[1], and drastically reduces the computation effort, without affecting the conversion quality.)
This process requires a digital filter (almost always an FIR filter since these can be designed to have no phase distortion) that is flat to 20 kHz, and down at least x dB at 24 kHz. How big does x need to be? A first impression might be about 100 dB, since the maximum signal size is roughly ±32767, and the input quantization ±1/2, so the input had a signal to broadband noise ratio of 98 dB at most. However, the noise in the stopband (20 kHz to 3.5 MHz) is all folded into the passband by the decimation in the third step, so another 22 dB (that's a ratio of 160:1 expressed in dB) of stopband rejection is required to account for the noise folding. Thus 120 dB rejection yields a broadband noise roughly equal to the original quantizing noise.
There is no requirement that the resampling in the ratio 160:147 all be done in one step. Using the same example, we could re-sample the original at a ratio of 10:7, then 8:7, then 2:3 (or do these in any order that does not reduce the sample rate below the initial or final rates, or use any other factorization of the ratios). There may be various technical reasons for using a single step or multi-step process — typically the single step process involves less total computation but requires more coefficient storage.
lidsky receno nesedi:)
a time stretch tam neni to neobhajis:)))
Naposledy upravil(a) carloff dne 04 čer 2011 00:54, celkem upraveno 1 x.
carloff : ok .. este raz a naposledy .. mam nahravku 440 ..
prepnem na 442 .. cize podklad bude hrat vyssie a rychlejsie .. nahram nastroj , ktory je naladeny na 442 .. muzikant bude hrat rychlejsie , do rychlejsieho a vyssieho podkladu .. bude to spolu sediet ..
potom prepnem na 440 .. podklad aj novy nastroj sa trosku znizia .. a obe sa spomalia .. opat to bude sediet ..
toto vysvetlenie by pochopil aj moj 5 rocny syn .. jednoduchsie to uz vysvetlit neviem ..
jenze ono to tak neni:)
precti si co jsem ti pastnul nahore:) nedochazi k nicemu jako rovnomernemu zrychleni a pitch shiftu
5tilety syn by to chapal zjednonusene a nespravne
ok
nebudu se hadat:)mysli si to
carloff : pastujes tu prispevky v cudzich jazykoch , z ktorych neni zrejme o co ide ..
ja som ti to vysvetlil uplne ako pre debila .. ak tomu nechapes , tak ja uz to neviem primitivnejsie vysvetlit .. Ok . .chapem , ze neveris matematikovi .. Mohol by si ale verit LIQUID SOUND , ktory je clovek z praxe , a kedze to sem napisal , tak verim , ze to pouziva .. takze to asi funguje ..
hele vysvetlim ti to jako matematikovi jednoduse ..chybi ti par velicin ktere ovlivnuji promenne ..upsampling a downsampling se nedelaji prostym nasobenim/ roundingem/ ale pristupuje k tomu to ze linearni interpolace je ekvivalentem triangularni impulzni odezvy a sync je aproximace brick-wall filtru.
takze se u vseho pouzivaji algoritmy ktere randomizuji kvantizacni chybu .Ten proces neni presne axN tam a zpet . Pri downsamplingu se deje neco jineho nez upsamplingu.Proto to nejde jednoduse tam a zpet.. ze tam chyby budou v radech ktere si nedokazu odhadnout je jina vec,
pro priklad:Tvuj petilety syn spocita vemi rychle ze mate na dvou stromech celkove 4 tresne a kdyz se to znasobi 2x tak bude mit k svacince pristi rok 8 tresni.
aneb 2X = 4
2x[2x]=8
jenze nev,i ze planujes jednu tresni pokacet
a ze vysazis 3 dalsi u kterych je 32 procentni pravdepodobnost ze ponesou ze uz ponesou pristi rok.
ze prijdou mraziky 21 procent pravdeopodbnost
ze se treba neuchyti, 41 procent
ze sezerou enco skudci
atd
tim padem tahle primitivni rovnice kterou chape tvuj petilety syn {bohuzel bez znalosti vsech promennych) se meni v rovnici Gaussovskou..
aneb U axiomů se předpokládá jejich pravdivost na základě jejich zjevnosti. Zjevnost neni dukazem pravdy ale tvrzenim.
Příkladem může být tvrzení známé jako Bolzanova věta, které říká, že spojitá funkce, která nabývá alespoň jedné kladné a jedné záporné hodnoty, již musí nabývat i hodnotu 0. Důkaz v takovém pojetí pak je vlastně jen návodem, podle něhož by si každý člověk měl být schopen na základě intuitivně zřejmých pozorování zdůvodnit platnost daného tvrzení. Toto pojetí s sebou ovšem nese řadu rizik – například tvrzení, které někomu přijde intuitivně zcela zřejmé, ještě nemusí být pravdivé. Navíc v rozrůstajících se matematických teoriích je zcela nemožné, aby jediný člověk přečetl všechny existující důkazy. Matematik je tedy v tomto pojetí nucen přijímat za pravdivá i taková tvrzení, která dokázal někdo jiný, a to aniž by se byl schopen přesvědčit, že základní principy v těchto důkazech použité, jsou opravdu intuitivně zřejmé.
ja liquidu verim: psal jsem o tom ze je zrejme vic nez nedokonaly timing slyset vic jine ladeni takze je to proste pohodlnejsi a rychlejsi nez prohanet stopu MPEX .jen tvrdim ze prohnat to necim podobnym je spravnejsi.
Navic vypocitavat samplovaci freq aby rozdil delal 2hz mi prijde pomalejsi nez to proste prohnat...
Naposledy upravil(a) carloff dne 04 čer 2011 01:54, celkem upraveno 2 x.
carloff : no ved to je v poriadku , ze upsampling a downsampling neni linearny ale je okolo toho este dalsia kopa algoritmov .. ale sediet by to malo .. cize ked nastavis 96050 , tak dostanes 96050 vzoriek .. cize dlzky aj ladenia sediet budu .. mne tato metoda pride spravnejsia ako prehnat to mpexom ..
inak toto sa pouziva aj pri vyrobe zvuku z filmu na dvd .. film je na 24fps , potrebujes ho dostat na 25 fps , takze to o 4% zrychlis .. to je na kazdom WC generatore +/- 0.1% a +/- 4% ..
carloff píše:
takze se u vseho pouzivaji algoritmy ktere randomizuji kvantizacni chybu .Ten proces neni presne axN tam a zpet . Pri downsamplingu se deje neco jineho ne upsamplingu.Proto to nejde jednoduse tam a zpet.. ze tam chyby budou v radech ktere si nedokazu odhadnout je jina vec,
podla mna MPEX spravi viac chyb , ako tie algoritmy v samotnom prevodniku ..
este k tomu nastavovaniu .. divam sa do navodu bigbena a tam pisu :
VSO (Variable Speed Override) is the term historically used to
denote the variable speed control on a tape machine. Variable Speed
is accomplished in the digital audio domain by modifying the sample
rate. Big Ben allows this modification of the SAMPLE RATE over
a wide range of values when CLOCK SOURCE is set to INTernal
and the PULL UP/DOWN parameter is set to VSO, Moreover, the
SAMPLE RATE may be displayed in three units of measurement : 1)
absolute frequency in Hz 2) amount of change in percentage, and 3)
amount of change in cents (i.e. subdivisions of a semitone)
cize rovno na displeji vidis , na kolko Hz si nastaveny ..
carloff píše:
takze se u vseho pouzivaji algoritmy ktere randomizuji kvantizacni chybu .Ten proces neni presne axN tam a zpet . Pri downsamplingu se deje neco jineho ne upsamplingu.Proto to nejde jednoduse tam a zpet.. ze tam chyby budou v radech ktere si nedokazu odhadnout je jina vec,
podla mna MPEX spravi viac chyb , ako tie algoritmy v samotnom prevodniku ..
No to si asi vzajemne nedokazeme:) Ty ani ja detailne nezname jak to funguje u MPEX.
ale jen pro zajimavost
All methods commonly used in todays recording hard- and software are based on strict mathematical models. They do not really 'understand' the sound they process, they just force-fit it to the new tempo. Some of them look at the sound as being made up of a sum of simple sine tones, like a complex building can be made from simple shaped bricks. But what if your sounds don't have much in common with a sine tone? It's like trying to build a round dome from quadratic stones - you will end up by cutting and wearing them off to get a curved hull, this way losing material as dust - or losing the quality of your audio recording. Other methods simply scatter your audio files into thousands of little fragments, putting them together again to build a differently sized file. Ever tried to put back together a scattered coffee cup? You never get lucky with the result.
MPEX is an algorithm that simulates some properties of the human perception. It makes your computer 'learn' what's being played, much like you can learn a melody someone is whistling. For this, it uses a technique called 'Artificial Neural Networks', which is a computer simulation of the activities of human nerve cells. Our ear is very good at adapting and learning what is being presented to it, so if we simulate the processes that make our ear work the way it does, we will to some extent simulate a part of its abilities.
MPEX looks at your recording in regular intervals and 'learns' its musical aspects, and then tries to extend it in a natural sounding way. You can look at this as if you were an architect who builds a complicated building from a set of differently shaped stones, by selecting the stones who fit a given part of the building best. It is this 'intelligence' and flexibility in the sound representation that makes MPEX a better Time Scaling.
Proste mne sedlacka logika hovori , ze ked zmenim pocet vzoriek z X na Y, tak to spravi vacsiu chybu, ako ked nezmenim pocet vzoriek, ale ich inou frekvenciou prehram. Inak ta kvantizacna chyba a vsetka ta matematika pri prevodniku o ktorej pises, sa predsa prejavi pri oboch frekvenciach. Cize s mpexom len pridam dalsie degradovanie.