OVH Cloud OVH Cloud

Analyse de la voix

18 réponses
Avatar
bilbo
Salut,

Je voudrais savoir s'il existerait un logiciel (sous Linux de
pr=E9f=E9rence) capable de faire la diff=E9rence entre la voix et le reste
(musique, coups de feu, etc..).

J'explique pourquoi. Cela concerne un recalage de sous-titres. Je
voudrais =E0 partir d'un fichier son, extraire une suite d'intervalles
correspondant aux dialogues. Ensuite, je voudrais aligner les
intervalles du fichier des sous-titres avec la bande son.
Il y en fait peu de param=E8tres =E0 trouver.
En ce qui me concerne, =E7a se r=E9sume =E0 trouver:
*) une =E9chelle: jusqu'ici, elle vaut en g=E9n=E9ral 25/24~=3D1.041, (je
pense que c'est 25 fps / 24 fps, la diff=E9rence US/Europe, le rapport
entre NTSC et PAL quoi) et,
*) une suite d'instants clefs (les coupures pubs), instants auxquels
on perd la synchronisation (quelques secondes suppl=E9mentaires =E0
chaque fois).

Egalement, je voudrais pouvoir retrouver les instants o=F9 je peux
retrouver la copie exacte d'un sample donn=E9. (c'est typiquement la
petite musique qui marque le retour =E0 la s=E9rie apr=E8s la publicit=E9).
Voil=E0 j'esp=E8re avoir =E9t=E9 assez clair
Je ne vois pas trop avec quels mots clefs chercher: speech analysis
peut-etre ?

Antoine

10 réponses

1 2
Avatar
Gerald
wrote:

Salut,

Je voudrais savoir s'il existerait un logiciel (sous Linux de
préférence) capable de faire la différence entre la voix et le reste
(musique, coups de feu, etc..).



Sous réserves du contexte très particulier de distribution de ce
logiciel (et du contexte financier lié), il est possible qu'AudioSculpt
puisse répondre en partie à ton problème :
<http://www.ircam.fr/logiciels_forum.html?&tx_ircamboutique_pi1[showUid]
=3&cHashîf1ffeaf3>
tu peux télécharger le manuel de l'utilisateur gratuitement sur ce lien
ce qui te permettra de juger de la pertinence du choix.

Dans le même genre mais fonctionnant sur un algoritnme et avec une
ergonomie différente, noter la sortie annoncée de "Stona" de Manic Media
Production (c'est du tout frais et je n'ai aucun retour à son sujet) :
<http://www.manic.co.uk/>

hth,
--
Gérald
Avatar
Charles Dodgson
wrote:
Salut,



Salut

Je voudrais savoir s'il existerait un logiciel (sous Linux de
préférence) capable de faire la différence entre la voix et le reste
(musique, coups de feu, etc..).

J'explique pourquoi. Cela concerne un recalage de sous-titres. Je
voudrais à partir d'un fichier son, extraire une suite d'intervalles
correspondant aux dialogues. Ensuite, je voudrais aligner les
intervalles du fichier des sous-titres avec la bande son.
Il y en fait peu de paramètres à trouver.
En ce qui me concerne, ça se résume à trouver:
*) une échelle: jusqu'ici, elle vaut en général 25/24~=1.041, (je
pense que c'est 25 fps / 24 fps, la différence US/Europe, le rapport
entre NTSC et PAL quoi) et,



Pour info, NTSC0fps, PAL/SECAM%fps, cinéma$fps

*) une suite d'instants clefs (les coupures pubs), instants auxquels
on perd la synchronisation (quelques secondes supplémentaires à
chaque fois).

Egalement, je voudrais pouvoir retrouver les instants où je peux
retrouver la copie exacte d'un sample donné. (c'est typiquement la
petite musique qui marque le retour à la série après la publicité).
Voilà j'espère avoir été assez clair
Je ne vois pas trop avec quels mots clefs chercher: speech analysis
peut-etre ?

Antoine



Avatar
daniel patin
Gerald a écrit :
wrote:

Salut,

Je voudrais savoir s'il existerait un logiciel (sous Linux de
préférence) capable de faire la différence entre la voix et le reste
(musique, coups de feu, etc..).



Sous réserves du contexte très particulier de distribution de ce
logiciel (et du contexte financier lié), il est possible qu'AudioSculpt
puisse répondre en partie à ton problème :
<http://www.ircam.fr/logiciels_forum.html?&tx_ircamboutique_pi1[showUid]
=3&cHashîf1ffeaf3>
tu peux télécharger le manuel de l'utilisateur gratuitement sur ce lien
ce qui te permettra de juger de la pertinence du choix.

Dans le même genre mais fonctionnant sur un algoritnme et avec une
ergonomie différente, noter la sortie annoncée de "Stona" de Manic Media
Production (c'est du tout frais et je n'ai aucun retour à son sujet) :
<http://www.manic.co.uk/>



je ne sais pas si ce logiciel peut correspondre à l'attente, mais Praat:
http://www.praat.org
compatible mac, linux et windows, est spoécialisé dans l'analyse de la voix.
(et pour une fois que j'apprendrais peut etre quelque chose à gérald)

--
daniel.patin (et non pas marcel.dugenou)
http://leinad-fr.net le blog
http://www.daniel-patin.net sur mon mac
http://daniel.patin.adsl.free.fr/ quelques photos
Avatar
Emmanuel Florac
Le Mon, 11 Sep 2006 08:43:05 +0200, Charles Dodgson a écrit :


Pour info, NTSC0fps, PAL/SECAM%fps, cinéma$fps



Pour être tout à fait précis, NTSC).97 fps (on saute 3 frames toutes
les mille).

--
"Dope will get you through times of no money better
than money will get you through times of no dope."
Freewheelin' Franklin
Avatar
Emmanuel Florac
Le Mon, 11 Sep 2006 10:39:39 +0000, oragoun a écrit :


Tu est gentil, tu leur epargnes le DF et le NDF ;o)



:)

--
De longs désirs, une longue admiration sans espérance, voilà le moyen
d'adorer les femmes, et de rendre l'amour une passion délicieuse!
N. Rétif de la Bretonne.
Avatar
Gerald
daniel patin wrote:

je ne sais pas si ce logiciel peut correspondre à l'attente, mais Praat:
http://www.praat.org
compatible mac, linux et windows, est spoécialisé dans l'analyse de la voix.
(et pour une fois que j'apprendrais peut etre quelque chose à gérald)



ah c'est malin ! :-) va falloir que je renouvelle mon stock d'aspirine
car ça a l'air velu !

La partie synthèse de la parole en particulier. Je me demande s'ils
peuvent faire des exemples aussi bluffants que Vocaloid (dont on
n'entend pas tellement parler finalement et sa sortie ne date pourtant
pas d'hier : ça ne doit pas être d'un emploi si évident que ça). Pour
mémoire :>
<http://www.zero-g.co.uk/index.cfm?articleid€2

--
Gérald
Avatar
bilbo
> > *) une échelle: jusqu'ici, elle vaut en général 25/24~=1.041, ( je
> pense que c'est 25 fps / 24 fps, la différence US/Europe, le rapport
> entre NTSC et PAL quoi) et,

Pour info, NTSC0fps, PAL/SECAM%fps, cinéma$fps



ah oui - merci pour la correction .. Donc je me demande toujours d'où
vient ce nombre 1,041 curieusement proche de 25/24..
Avatar
siger
a écrit :

> *) une échelle: jusqu'ici, elle vaut en général 25/24~=1.041,
> (je pense que c'est 25 fps / 24 fps, la différence US/Europe,
> le rapport entre NTSC et PAL quoi) et,

Pour info, NTSC0fps, PAL/SECAM%fps, cinéma$fps



ah oui - merci pour la correction .. Donc je me demande toujours
d'où vient ce nombre 1,041 curieusement proche de 25/24..



30, c'est la moitié de 60 Hz (USA)
25, c'est la moitié de 50 Hz (Europe)
24, je ne sais pas pourquoi
quand à 1,041, je n'ai pas compris de quoi il s'agit.

Pour ton problème, il existe un truc dans Samplitude (Windows
seulement), c'est l'affichage de la forme d'onde avec des couleurs
particulières carractéristiques du son. Ils disent que ça sert à
retrouver rapidement des sons du même type dans un fichier audio. Je
n'ai jamais essayé.

Extrait du manuel :
============================= Couleurs Comparisonics : Cette option emploie un algorithme d'affichage
breveté Comparisonics qui permet d'afficher les données audio dans
différentes couleurs. Chaque segment audio peut prendre une teinte
différente selon sa hauteur et d'autres variables.
Les notes graves sont de couleur bleue alors que les notes aiguës sont
de couleur verte/jaune/rouge. Les données audio «musicales» ont une
couleur franche et nette alors que le bruit et les autres phénomènes
audio prennent une teinte plus ou moins grise. Vous pouvez ainsi
reconnaître directement les différentes hauteurs de jeu d'un saxophone
ou détecter des interférences impossibles à reconnaître sur un
affichage graphique traditionnel. Vous pouvez indiquer la taille des
segments audio au paramètre «Taille des segments Comparisonics» (situé
en bas à droite de la fenêtre Mode d'affichage). Nous vous recommandons
d'indiquer une valeur de 50 ms minimum pour être certain de disposer de
suffisamment de données audio par segment.
Grâce à l'algorithme Comparisonics, vous pouvez rechercher (...) de
manière totalement novatrice par le biais de l'option Menu Sélection >
Recherche Audio Comparisonics. Celle-ci permet en effet de retrouver
des données audio identiques ou proches entre des projets (...).
Veuillez vous reporter au chapitre Menu Sélection pour obtenir de plus
amples détails. Remarque : Vous pouvez trouver de plus amples
renseignements sur l'algorithme Comparisonics à l'adresse
www.comparisonics.com.
=======================
Peut-être qu'à cette adresse il y a d'autres pistes.

--
siger
Avatar
Emmanuel Florac
Le Mon, 11 Sep 2006 12:25:35 -0700, bilbo a écrit :


ah oui - merci pour la correction .. Donc je me demande toujours d'où
vient ce nombre 1,041 curieusement proche de 25/24..



Le cinéma est normalement en 24 images/s, c'est donc le facteur de
correction de hauteur à appliquer en passant du PAL au cinéma (ou vice
versa) pour conserver la hauteur correcte du son.

--
"Dope will get you through times of no money better
than money will get you through times of no dope."
Freewheelin' Franklin
Avatar
siger
Cornelia Schneider a écrit :

siger wrote



24, je ne sais pas pourquoi





Au cinéma, on projette 24 images par seconde, il me semble.



Oui, mais je ne sais pas pourquoi :-)
Avant c'était 16, peut-être une histoire de multiple de 2, 4 ou 8.

--
siger
1 2