OVH Cloud OVH Cloud

Analyse de la voix

18 réponses
Avatar
bilbo
Salut,

Je voudrais savoir s'il existerait un logiciel (sous Linux de
pr=E9f=E9rence) capable de faire la diff=E9rence entre la voix et le reste
(musique, coups de feu, etc..).

J'explique pourquoi. Cela concerne un recalage de sous-titres. Je
voudrais =E0 partir d'un fichier son, extraire une suite d'intervalles
correspondant aux dialogues. Ensuite, je voudrais aligner les
intervalles du fichier des sous-titres avec la bande son.
Il y en fait peu de param=E8tres =E0 trouver.
En ce qui me concerne, =E7a se r=E9sume =E0 trouver:
*) une =E9chelle: jusqu'ici, elle vaut en g=E9n=E9ral 25/24~=3D1.041, (je
pense que c'est 25 fps / 24 fps, la diff=E9rence US/Europe, le rapport
entre NTSC et PAL quoi) et,
*) une suite d'instants clefs (les coupures pubs), instants auxquels
on perd la synchronisation (quelques secondes suppl=E9mentaires =E0
chaque fois).

Egalement, je voudrais pouvoir retrouver les instants o=F9 je peux
retrouver la copie exacte d'un sample donn=E9. (c'est typiquement la
petite musique qui marque le retour =E0 la s=E9rie apr=E8s la publicit=E9).
Voil=E0 j'esp=E8re avoir =E9t=E9 assez clair
Je ne vois pas trop avec quels mots clefs chercher: speech analysis
peut-etre ?

Antoine

8 réponses

1 2
Avatar
siger
Emmanuel Florac a écrit :

Le Mon, 11 Sep 2006 12:25:35 -0700, bilbo a écrit :



ah oui - merci pour la correction .. Donc je me demande toujours
d'où vient ce nombre 1,041 curieusement proche de 25/24..





Le cinéma est normalement en 24 images/s, c'est donc le facteur de
correction de hauteur à appliquer en passant du PAL au cinéma (ou
vice versa) pour conserver la hauteur correcte du son.



Dans ce cas, pourquoi pas 1,042 ? Y a t-il une raison à arrondir plutôt
en moins ?

--
siger
Avatar
Cornelia Schneider
siger wrote in news:Xns983BE11F0A3FAsigerfreefr@
127.0.0.1:

24, je ne sais pas pourquoi



Au cinéma, on projette 24 images par seconde, il me semble.

Cornelia

--
Be out and be proud - today is the first day of the rest of your life
Support Transgenre Strasbourg : http://www.sts67.org
BoW : http://www.bownbend.com
GPG key ID 83FF7452, 659C 2B9F 7FD5 5C25 8C30 E723 4423 F8B8 83FF 7452
Avatar
Cornelia Schneider
siger wrote in news:Xns983BE74BC27AFsigerfreefr@
127.0.0.1:

Avant c'était 16, peut-être une histoire de multiple de 2, 4 ou 8.



Et probablement parce que les 360° du cercle de la roue dentée qui fait
avancer la pellicule dans le projecteur se divisent plus aisément par 24
que par 25... (un trou tous les 15° au lieu de tous les 14.4°)

Cornelia

--
Be out and be proud - today is the first day of the rest of your life
Support Transgenre Strasbourg : http://www.sts67.org
BoW : http://www.bownbend.com
GPG key ID 83FF7452, 659C 2B9F 7FD5 5C25 8C30 E723 4423 F8B8 83FF 7452
Avatar
Emmanuel Florac
Le Mon, 11 Sep 2006 20:47:05 +0000, siger a écrit :


Dans ce cas, pourquoi pas 1,042 ? Y a t-il une raison à arrondir plutôt
en moins ?



Je ne pense pas que ça fasse une différence audible :)

--
on passe la moitié de son temps à refaire ce que l'on n'a pas eu le
temps de faire correctement.
Loi de Myers.
Avatar
Blaise Potard
a écrit :
Salut,

Je voudrais savoir s'il existerait un logiciel (sous Linux de
préférence) capable de faire la différence entre la voix et le reste
(musique, coups de feu, etc..).



Pas à ma connaissance, mais il y a des algorithmes. Enfin, les logiciels
de reconnaissance vocale savent plus ou moins bien le faire. Si ça
t'intéresse, il y a pas mal de papiers dans google, c'est un sujet de
recherche assez à la mode en ce moment, à cause de tous les projets
d'indexation automatique des documents audio et vidéo. Bref, si tu veux
des papiers en français, il faut chercher discrimation parole non-parole
dans google, ou discrimination parole musique. Tu peux aussi essayer de
poser la question sur comp.speech.research (en anglais).

J'explique pourquoi. Cela concerne un recalage de sous-titres. Je
voudrais à partir d'un fichier son, extraire une suite d'intervalles
correspondant aux dialogues. Ensuite, je voudrais aligner les
intervalles du fichier des sous-titres avec la bande son.
Il y en fait peu de paramètres à trouver.
En ce qui me concerne, ça se résume à trouver:
*) une échelle: jusqu'ici, elle vaut en général 25/24~=1.041, (je
pense que c'est 25 fps / 24 fps, la différence US/Europe, le rapport
entre NTSC et PAL quoi) et,



Sauf que ce n'est pas le rapport entre le PAL et le NTSC, ça :)
Le NTSC c'est ~60Hz interlacé (donc ~30fps réels, en fait 29.97), alors
que le PAL c'est du 50Hz interlacé (donc 25fps). C'est facile, c'est
comme le courant :p

Le 24 fps, c'est le cinéma, mais quand on convertit un film pour du
NTSC, il y a une magouille qui permet d'y arriver facilement si on est
un rapport simple --ici 4/5-- de la fréquence nominale, il faut juste
ralentir le film un tout petit peu à 23.976fps (ce qui est le plus
courant pour les DVD zone 1, d'où la confusion. Mais un "vrai" DVD NTSC
est bien à 29.97fps). Pour la conversion vers le PAL, en général on
accelère "légèrement" le film, ce qui fait qu'il y a de la distorsion
(dont peu de monde se rend compte, sauf les vrais cinéphiles qui du coup
n'achètent pas les DVD PAL).

Si tu parles de séries télé américaines, il y a 95% de chances qu'elles
soient en NTSC, donc en 29.97.

*) une suite d'instants clefs (les coupures pubs), instants auxquels
on perd la synchronisation (quelques secondes supplémentaires à
chaque fois).



Ah, en fait tu veux faire de l'alignement. Je crois qu'il y a des
logiciels de manipulation de sous-titres qui le facilitent. Sinon, il
existe aussi des logiciels très cher qui le font, et il y a des
chercheurs qui ont des outils qui le font assez bien. Mais enfin, avec
un logiciel freeware, si tu fais toi-même l'ajustement après chaque pub,
c'est quand même pas très long. Sous linux, il y a un logiciel qui
s'appelle transcriber pour faire ça, mais je ne sais pas ce qu'il vaut.
Sous windows il y a plein de freeware qui le font, il suffit de
googliser "subtitle alignment" et de suivre les liens.

Egalement, je voudrais pouvoir retrouver les instants où je peux
retrouver la copie exacte d'un sample donné. (c'est typiquement la
petite musique qui marque le retour à la série après la publicité).



Hum, je crois n'avoir jamais vu de fonction de "recherche" dans les
logiciels d'édition audio. Mais ce ne doit pas être trop compliqué à
faire (même si, bien entendu, ce n'est en fait pas du tout une copie
*exacte* du sample, mais juste quelque chose de très proche
acoustiquement).

Voilà j'espère avoir été assez clair
Je ne vois pas trop avec quels mots clefs chercher: speech analysis
peut-etre ?


Avatar
temps
Bonjour,
j'utilise audacity.
J'arrive à quelques effets à l'aide des philtres.
En d'autres termes, je sélectionne les sons et j'arrive par la suite
à les retirer pour ne garder que les voix enregistrées.
Ce n'est pas une solution idéale, mais pour les enregistrements en
studio, cela me convient.

wrote:
Salut,

Je voudrais savoir s'il existerait un logiciel (sous Linux de
préférence) capable de faire la différence entre la voix et le reste
(musique, coups de feu, etc..).

J'explique pourquoi. Cela concerne un recalage de sous-titres. Je
voudrais à partir d'un fichier son, extraire une suite d'intervalles
correspondant aux dialogues. Ensuite, je voudrais aligner les
intervalles du fichier des sous-titres avec la bande son.
Il y en fait peu de paramètres à trouver.
En ce qui me concerne, ça se résume à trouver:
*) une échelle: jusqu'ici, elle vaut en général 25/24~=1.041, (je
pense que c'est 25 fps / 24 fps, la différence US/Europe, le rapport
entre NTSC et PAL quoi) et,
*) une suite d'instants clefs (les coupures pubs), instants auxquels
on perd la synchronisation (quelques secondes supplémentaires à
chaque fois).

Egalement, je voudrais pouvoir retrouver les instants où je peux
retrouver la copie exacte d'un sample donné. (c'est typiquement la
petite musique qui marque le retour à la série après la publicité ).
Voilà j'espère avoir été assez clair
Je ne vois pas trop avec quels mots clefs chercher: speech analysis
peut-etre ?

Antoine


Avatar
Gerald
temps wrote:

J'arrive à quelques effets à l'aide des philtres.



mmm ! tu me fais saliver ! iras-tu jusqu'à donner la recette ? (sans te
gourer comme le magicien dans "Les Visiteurs" !).

--
Gérald
Avatar
Alain Naigeon
"temps" a écrit dans le message de news:

Bonjour,
j'utilise audacity.
J'arrive à quelques effets à l'aide des philtres.



Sur du Wagner ? :-)

--
Français *==> "Musique renaissance" <==* English
midi - facsimiles - ligatures - mensuration
http://anaigeon.free.fr | http://www.medieval.org/emfaq/anaigeon/
Alain Naigeon - - Oberhoffen/Moder, France
1 2