Informations

Quel logiciel de synthèse vocale est adapté à la recherche ?

Quel logiciel de synthèse vocale est adapté à la recherche ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Je recherche des recommandations pour un logiciel de synthèse vocale pouvant être utilisé pour générer des stimuli audio. Les stimuli audio que j'essaie de générer seront de longues séquences de syllabes isolées. Ainsi, le meilleur des cas serait quelque chose qui peut facilement lire un fichier texte comme : pa/da/ba/ki/tu. Je me rends compte que des programmes comme TextEdit sur OSX peuvent le faire, mais ils n'offrent pas beaucoup de contrôle sur la sortie. J'aimerais pouvoir contrôler la durée de chaque syllabe, l'espacement entre les syllabes, etc.

Idéalement, le logiciel serait gratuit et aurait un historique d'utilisation pour générer des stimuli de qualité recherche.

Je préférerais également un logiciel pouvant fonctionner sur un Mac à processeur Intel, mais les suggestions pour d'autres systèmes d'exploitation sont les bienvenues.


Vous cherchez Mbrola ! C'est un synthétiseur diphone open source basé sur du texte. Bien qu'il ne vous permette pas de contrôler des informations subtiles comme la fréquence des formants, il est parfait pour contrôler la hauteur et la durée. Le seul inconvénient est que je n'ai pas encore réussi à le faire fonctionner sur un Mac à processeur Intel, mais c'est principalement parce que l'interface graphique de Windows fonctionne si bien que je ne pourrais jamais me soucier d'essayer de faire fonctionner la version OS X.

Chaque ligne est un son, composé de quatre commandes de texte ou plus séparées par des espaces vides. La première partie est le segment, composé en X-SAMPA. Le deuxième élément est la durée du segment. Dans l'exemple ci-dessus, toutes les consonnes durent 100 ms et toutes les voyelles durent 200 ms. Le quatrième élément est le pitch en Hertz. Le troisième élément est le pourcentage de la durée à laquelle cette hauteur est censée commencer. Un fichier Mbrola pour ce que vous voulez ressemblerait à ceci :

_ 100 10 200 p 100 10 200 A 200 10 200 99 160 _ 100 10 200 d 100 10 200 A 200 10 200 99 160 _ 100 10 200 b 100 10 200 A 200 10 200 99 160 _ 100 10 200 k 100 10 200 i 200 10 200 99 160 _ 100 10 200 t 100 10 200 u 200 10 200 99 160 _ 100 10 200

Le trait de soulignement est un silence, et nous définissons la hauteur de base à 200 Hz. Chaque syllabe commence à 200 Hz. À 10 % de la durée des voyelles (20 ms), la hauteur est de 200 Hz, puis elle est interpolée linéairement jusqu'à 160 Hz à 99 % de la durée, ce qui lui donne un joli contour descendant.


Praat est gratuit et a été cité dans de nombreuses publications. C'est le de facto standard pour créer des stimuli phonétiques.


QU'EST-CE QUE LA TEXTE VERS LA PAROLE ?

Un système de synthèse vocale est un appareil qui convertit automatiquement le texte orthographique imprimé en sortie vocale sans intervention humaine d'aucune sorte. Ce processus a généralement lieu immédiatement en temps réel et accepte tout texte pouvant être tapé sur un terminal informatique et converti en code ASCII. Plusieurs systèmes de synthèse vocale actuellement disponibles convertissent le texte anglais sans restriction en parole intelligible en temps réel. Il existe également des systèmes pour d'autres langues (Carlson, Granstrom, & Hunnicutt, 1982). La sortie vocale générée par un système de synthèse vocale est synthétisée ou créée à nouveau en temps réel par l'appareil en réponse à une représentation phonétique de l'entrée typée spécifique (voir Allen, 1973a, 1973b, 1981, sous presse Studdert-Kennedy & #x00026 Cooper, 1966). La plupart des systèmes de synthèse vocale sont conçus pour permettre à l'utilisateur de personnaliser certaines fonctionnalités. Par exemple, il existe un mode phonétique qui permet à l'utilisateur de spécifier la prononciation correcte des noms propres ou d'entrer un vocabulaire spécialisé pouvant avoir des prononciations inhabituelles.

Discours stocké

La plupart des lecteurs connaissent déjà une forme de parole synthétique connue sous le nom de parole stockée. La parole naturelle est enregistrée sur bande audio à l'aide d'un microphone et d'un magnétophone. Cette parole est ensuite numérisée avec un ordinateur à l'aide d'un convertisseur analogique-numérique. Le processus réel implique l'échantillonnage de la forme d'onde vocale à un rythme rapide et le stockage des échantillons sous forme numérique. En règle générale, de 8 000 à 10 000 échantillons sont prélevés pour chaque seconde de parole. Ces échantillons numériques sont ensuite stockés dans la mémoire de l'ordinateur sous la forme d'une série de paramètres numériques. Ainsi, une phrase de 5 secondes aura au moins 40 000 échantillons associés, chacun de ces échantillons sera stocké numériquement dans l'ordinateur. Malheureusement, pour les longs passages de discours, les besoins de stockage sont énormes. Cependant, il y a une bonne raison d'utiliser la parole stockée. Tous les échantillons numériques peuvent être extraits de la mémoire de l'ordinateur puis reconvertis sous forme analogique à l'aide d'un convertisseur numérique-analogique. Ce processus reproduit le discours qui a été enregistré à l'origine avec peu ou pas de dégradation ou d'effets sur l'intelligibilité. Bien qu'il puisse y avoir une certaine perte de qualité vocale en raison du taux d'échantillonnage et du nombre de bits utilisés pour coder la forme d'onde vocale, la qualité vocale résultante est acceptable et sonne souvent mieux que la parole transmise par téléphone. Lorsque les auditeurs entendent la parole stockée, ils ont généralement peu de difficulté à la percevoir ou à la comprendre.

Cependant, chaque message qui doit être stocké doit être enregistré, numérisé et stocké dans la mémoire de l'ordinateur, puis récupéré et diffusé. Si un message doit être modifié ou mis à jour, l'ensemble du processus doit être répété. Ainsi, la parole stockée est utile pour des ensembles de messages très limités, tels que les lettres de l'alphabet, les chiffres 0 à 9, ou un très petit vocabulaire de mots clés ou d'instructions. Lorsque le vocabulaire devient très large et que l'ensemble potentiel de messages est théoriquement illimité, un système de sortie vocale utilisant la parole stockée devient peu pratique et extrêmement coûteux (voir Cooper, 1963 Cooper, Gaitenby, Mattingly, & Umeda, 1969 Studdert-Kennedy &# x00026 Cooper, 1966). De plus, lorsque des éléments stockés individuels sont combinés en chaînes de mots sans traitement ni lissage supplémentaires, le discours résultant manque de hauteur et d'intonation normales. Les auditeurs décrivent souvent ce type de discours comme un son artificiel et mécanique. L'intelligibilité de ce type de discours connecté est souvent assez faible, même si l'intelligibilité des mots individuels est généralement assez élevée.

Synthèse par règle

La sortie vocale utilisant la parole stockée peut être mise en contraste avec la sortie vocale utilisant diverses techniques de synthèse par règle. Dans ce cas, le discours est généré par une série de règles qui sont utilisées pour créer des énoncés à la demande (Allen, 1973a, 1973b, sous presse Cooper, 1963). Ces systèmes de sortie vocale sont très sophistiqués et se composent d'un certain nombre de sous-systèmes modulaires, chacun ayant un ensemble spécial de règles. L'entrée saisie initiale est d'abord convertie en code ASCII. Dans la plupart des systèmes actuels, le code ASCII est ensuite traité à travers plusieurs modules qui servent à produire une description phonétique détaillée (voir Allen, 1981).

Dans un système, MITalk-79, ce processus analytique implique la détermination de la forme phonémique, syllabique, morphémique et syntaxique sous-jacente du message d'entrée, ainsi que l'ajustement de l'entrée lorsque des chiffres, des abréviations et des symboles spéciaux sont présents. Une fois que les modules de base ont opéré sur le message d'entrée, tout mot qui n'a pas été analysé est traité par un ensemble de règles lettre-phonème. Une fois le texte converti en transcription phonétique, d'autres modules contenant des ajustements détaillés de phonologie, de hauteur, d'accent et de synchronisation opèrent sur cette représentation. Des règles supplémentaires sont incluses pour rendre le discours moins mécanique. Certaines règles adoucissent la parole et donnent un son plus naturel. D'autres règles servent à lever l'ambiguïté des mots tels que “read,” qui peuvent être prononcés comme “red” ou comme “reed.”

Une fois que le texte saisi a été analysé, il est converti en sortie vocale. Le processus de sortie est également de nature modulaire. Plusieurs modules sont utilisés pour spécifier la façon dont chaque son de la parole doit être prononcé, comment certains sons de la parole sont modifiés par des contextes spécifiques et où l'accent doit être placé. Plus le système de règles est détaillé, plus la parole synthétisée se rapproche de la parole naturelle. Toutes les informations paramétriques qui ont été accumulées dans les divers modules sont ensuite entrées dans un synthétiseur vocal numérique et une forme d'onde vocale est générée. Enfin, les échantillons de parole sont convertis sous forme analogique via un convertisseur numérique-analogique et sont filtrés passe-bas. Les systèmes de synthèse vocale disponibles actuellement fonctionnent tous en temps réel, effectuant l'analyse et la synthèse immédiatement après la saisie du texte dans l'appareil (pour plus de détails, voir Allen, 1981 Bruckert, 1984 Groner, Bernstein, Ingber, Pearlman, &# x00026 Toal, 1982).

Depuis 6 ans, nous sommes engagés dans un programme de recherche visant à étudier la perception de la parole synthétique produite par la règle. Dans le cadre de ce travail, nous avons eu l'opportunité de collecter des données comportementales à partir de huit systèmes de synthèse vocale qui produisent la parole automatiquement par règle. Dans la suite de cet article, nous décrivons les systèmes que nous avons testés, les procédures utilisées pour mesurer l'intelligibilité segmentaire et les résultats obtenus. Enfin, nous considérons certaines limites de l'approche actuelle et suggérons plusieurs directions pour des études futures. Nos résultats perceptuels ont conduit à des améliorations constantes des performances de plusieurs systèmes commerciaux et ont suggéré des domaines de travail supplémentaires pour améliorer la qualité de la synthèse vocale par règle.


Critères de prise en compte des études pour cette revue

Types d'études

Nous inclurons des essais contrôlés randomisés (ECR).

Types de participants

Enfants et adolescents jusqu'à l'âge de 18 ans qui ont reçu un diagnostic de trouble primaire de la parole et/ou du langage par un orthophoniste/pathologiste, une équipe de développement de l'enfant ou l'équivalent.

Critère d'exclusion

Nous exclurons les études s'il existe des preuves claires que les enfants ont des troubles d'apprentissage, une perte auditive, une déficience neuromusculaire ou d'autres affections primaires dont font généralement partie les troubles de la parole et/ou du langage. Les enfants dont les difficultés découlent du bégaiement ou dont les difficultés sont décrites comme des désarticulations apprises (par exemple, /s/ latéral (lisp) ou /r/ labialisé (r rhotique)) seront également exclus de cette revue. De plus, nous exclurons les études qui se concentrent sur les enfants bilingues ou multilingues en tant que caractéristique de l'étude, et les études dans lesquelles l'apprentissage des compétences en littératie est l'objectif principal de l'étude. Nous exclurons également de la revue les études qui incluent des nourrissons ou des bébés.

Types d'interventions

Tout type d'intervention thérapeutique, de toute durée et méthode d'administration, par rapport à des contrôles retardés (« wait‐list ») ou sans traitement ou à des conditions générales de stimulation. Les conditions générales de stimulation comprennent, par exemple, des études où les enfants témoins sont affectés à une condition de contrôle conçue pour imiter l'interaction trouvée dans la thérapie sans fournir l'entrée linguistique cible. Ces conditions peuvent être une thérapie cognitive ou des séances de jeu général qui ne se concentrent pas sur le domaine d'intérêt de l'étude.

Nous inclurons des interventions thérapeutiques conçues pour améliorer un domaine du fonctionnement de la parole et/ou du langage concernant la phonologie expressive et réceptive (production et compréhension des sons de la parole, y compris la reconnaissance et la discrimination entre les sons de la parole et la conscience des sons de la parole, par exemple, la rime et l'allitération ), vocabulaire expressif ou réceptif (production ou compréhension de mots), syntaxe expressive ou réceptive (production ou compréhension de phrases et de grammaire), ou langage pragmatique.

Types de mesures de résultats

Nous utiliserons des tests standardisés formels, des tests référencés par critère, des rapports de parents et des échantillons de langue. Dans chacune de ces catégories, il existe de nombreuses mesures différentes, et différentes mesures évaluent différents domaines de la parole et du langage. Certains exemples incluent l'évaluation clinique des fondamentaux du langage (CELF, Semel 1995), dans laquelle le langage et la phonologie sont mesurés, les New Reynell Developmental Language Scales (NRDLS, Edwards 2011) et la liste de contrôle de la communication pour les enfants (CCC, Bishop 2003), qui les deux mesurent la langue mais pas la phonologie, et l'évaluation diagnostique de l'articulation et de la phonologie (DEAP, Dodd 2006), qui mesure la parole et la phonologie.

Les études d'intervention dans ce domaine rapportent généralement plus d'un résultat (reflété dans une gamme de mesures différentes et de mesures qui évaluent différents domaines de la parole et du langage) et il peut ne pas toujours être explicite si ces résultats sont primaires ou secondaires. Dans de tels cas, nous jugerons lequel des résultats est le plus étroitement lié à l'objectif de l'intervention spécifié dans le contexte de l'étude en question.

Les résultats utilisés dans l'examen doivent correspondre aux domaines de difficulté des participants (par exemple, nous n'inclurons pas les résultats du langage réceptif dans l'examen si l'un des critères d'inclusion de l'étude était que les participants devaient avoir un langage réceptif dans les limites normales) .

Résultats principaux

Effets indésirables. Nous surveillerons les études pour les effets indésirables. Ceux-ci sont susceptibles de prendre la forme d'une réponse accrue du contrôle par rapport aux groupes de traitement, d'une anxiété parentale accrue et de taux d'abandon élevés reflétant une mauvaise acceptabilité ou une insatisfaction parentale.


Il existe un assez grand nombre de progiciels bien adaptés aux besoins des chercheurs et des étudiants, dont beaucoup sont disponibles gratuitement et sans restrictions de licence propriétaire. Une petite liste de certains des packages les plus connus suit ci-dessous :

Forfaits gratuits mais restreints

    est une application Web qui facilite la collecte de données pour une variété de projets de recherche via la saisie directe de données ou des enquêtes. Il est produit, distribué et soutenu par l'Université Vanderbilt en collaboration avec un consortium de plus de 900 partenaires institutionnels dans plus de 70 pays. Il s'agit d'un outil éprouvé et performant qui a été utilisé par plus de 24 000 chercheurs dans le monde pour collecter des données pour leurs projets.

Packages de logiciels libres/open source (FOSS)

  • AnSWR est un système logiciel pour la coordination et la conduite de projets d'analyse en équipe à grande échelle qui intègrent des techniques qualitatives et quantitatives, développé par les Centers for Disease Control est un service d'analyse de données qualitatives basé sur le Web pour les données textuelles développées et hébergées par le Centre universitaire de recherche sociale et urbaine, à l'Université de Pittsburgh, et QDAP-UMass, au Collège des sciences sociales et comportementales, à l'Université du Massachusetts Amherst (EUDICO Linguistic Annotator) est un outil d'annotation pour données vidéo et audio développées par le groupe technique Language Archiving Technology (LAT) de l'Institut Max Planck de psycholinguistique, Nimègue, Pays-Bas. ELAN est spécialement conçu pour l'analyse du langage, du langage des signes et des gestes. est une application qui permet aux utilisateurs de développer des enquêtes simples et est disponible dans le cadre de la suite de services Google de Gallaudet. Pour commencer, les utilisateurs doivent se connecter à leur messagerie sur le Web. Alors choisi Documents dans le menu au-dessus du logo Gallaudet, et dans la nouvelle fenêtre, sélectionnez Créer / Former. (anciennement PHPSurveyor) est une application Web Open Source permettant de développer, publier et collecter des réponses à des sondages en ligne et hors ligne. Les gens de LimeSurvey proposent d'héberger vos sondages sur leur système, ou vous pouvez télécharger et installer le logiciel sur votre propre serveur Web. est un puissant système de calcul formel (CAS) concurrent de Maple et Mathematica. Il a été maintenu par William Schelter à l'Université du Texas, Austin. Il est maintenant entretenu par des bénévoles. Il manque une bonne interface utilisateur graphique (GUI) frontale. (alias GNU Octave) est un package "type MATLAB" développé par John W. Eaton (Université du Wisconsin) et bien d'autres. Voir aussi : GUI Octave qui est une tentative de fournir une interface plus conviviale à Octave. (également le mot néerlandais pour "parler") est un logiciel scientifique gratuit pour l'analyse de la parole en phonétique. Il a été conçu et développé en permanence par Paul Boersma et David Weenink de l'Université d'Amsterdam. Le programme prend également en charge la synthèse vocale, y compris la synthèse articulatoire. (alias GNU PSPP) est un programme d'analyse statistique de données échantillonnées. Il s'agit d'un remplacement gratuit du programme propriétaire SPSS et lui semble très similaire à quelques exceptions près. est un programme pour concevoir et exécuter des expériences psychologiques, utilisé par de nombreux laboratoires expérimentaux, initialement développé à Carnegie Mellon par Jonathan Cohen, Matthew Flatt, Brian MacWhinney et Jefferson Provost et actuellement développé par le SISSA Language, Cognition and Development Lab à Sissa, le groupe RICO de l'Universitat Pompeu Fabra, et de nombreux bénévoles. . Voir aussi : R Commander, qui est un module complémentaire/plugin d'interface utilisateur graphique (GUI) convivial pour R. est un système d'analyse qualitative de la vidéo et de l'audio numériques, développé par l'Université du Wisconsin-Madison Centre de recherche en éducation

Progiciels commerciaux / propriétaires

    est un progiciel utilisé principalement, mais pas exclusivement, dans la recherche qualitative ou l'analyse qualitative de données multimédias. est un progiciel utilisé pour effectuer des recherches qualitatives ou des analyses de données qualitatives. est un système d'algèbre informatique commercial à usage général. Il a été développé pour la première fois en 1980 par le Symbolic Computation Group de l'Université de Waterloo (Ontario, Canada) et est depuis devenu commercial. est un logiciel informatique utilisé dans les domaines scientifiques, d'ingénierie et mathématiques et dans d'autres domaines de l'informatique technique. est un environnement de calcul numérique avec une capacité particulière à travailler avec des matrices. Initialement développé par Cleve Moler à l'Université du Nouveau-Mexique et est depuis devenu commercial. est également un service de sondage hébergé. Un peu plus cher, mais il est spécifiquement destiné à accueillir des psychologues et des sociologues. est le package statistique pour les sciences sociales, actuellement vendu par IBM. (Remarque : SPSS est disponible pour les étudiants dans certains laboratoires informatiques de l'Université Gallaudet) est une société d'enquête hébergée populaire.

Autres ressources

Vous aurez besoin d'Adobe Reader pour visualiser ces documents PDF. Adobe Acrobat Reader est un logiciel gratuit qui peut être téléchargé à partir du site Web d'Adobe Reader.


La technologie de synthèse vocale la plus avancée au monde.

CereProc a développé la technologie de synthèse vocale la plus avancée au monde. Nos voix ont non seulement un son réel, elles ont du caractère, ce qui les rend adaptées à toute application nécessitant une sortie vocale.

CereProc est une société écossaise, basée à Édimbourg, berceau de la recherche avancée en synthèse vocale, avec un bureau de vente à Londres. L'équipe de CereProc possède une vaste expérience dans l'ensemble du domaine de la technologie vocale.

La technologie de CereProc, littéralement, parle d'elle-même.

Serveur TTS

Le CereProc cServer 6.0 est un serveur de synthèse vocale (TTS) multicanal hautes performances. Il est parfaitement adapté aux environnements multithreads, prenant en charge des applications telles que l'IVR, les systèmes d'alerte, le multimédia, la lecture Web, les chatbots et bien d'autres.

SDK CereProc

Le CereVoice Engine SDK 6.0 est un kit de développement logiciel de synthèse vocale (TTS) multiplateforme, permettant aux développeurs d'ajouter la sortie TTS de pointe de CereProc à leur application.

Création de voix

CereProc a développé le système de création vocale de synthèse vocale le plus avancé au monde. Nous créons des voix plus rapidement et plus efficacement que quiconque.

Service de clonage vocal

CereVoice Me est un outil révolutionnaire de clonage vocal en ligne de CereProc - vous permettant de créer une version informatique de votre propre voix ! Nos ingénieurs ont simplifié le processus de création de voix de synthèse vocale de pointe de CereProc, vous permettant d'effectuer des enregistrements chez vous en quelques heures seulement.

CereVoice Cloud

Le CereVoice Cloud est un logiciel en tant que service (SAAS) de synthèse vocale (TTS) de CereProc. CereVoice Cloud fournit aux développeurs un accès facile au moteur CereVoice TTS, permettant à toute application connectée d'être activée par la parole avec la sortie TTS de pointe de CereProc.

Voix de diffusion audio

Les voix de synthèse vocale au caractère unique de CereProc peuvent remplacer la voix par défaut sur votre ordinateur, tablette ou téléphone, avec une large gamme d'accents et de langues

Licence académique

Le CereVoice Engine SDK (Software Development Kit) est le premier système de synthèse vocale en temps réel gratuit et de qualité commerciale pour la recherche universitaire. Il est rapide, stable et hautement configurable, et est bien adapté à la recherche d'applications de synthèse vocale et de dialogue.


Psychologie (9)

  • gnuspeechsa, une application de synthèse vocale multiplateforme fournissant une sortie vocale dans les applications.
  • vulgaire, le "système central", se compose d'une suite d'applications, de frameworks et de services.
  • Logiciel de psychologie gratuit pour créer des expériences
  • Vous permet de concevoir vos propres expériences ou d'utiliser des expériences toutes faites
  • Vous permet d'échanger des expériences librement sans licence ni frais

L'autorisation est accordée de copier, distribuer et/ou modifier ce document selon les termes de la licence de documentation libre GNU, version 1.3 ou toute version ultérieure publiée par la Free Software Foundation sans sections invariantes, sans textes de couverture et sans Textes de couverture. Une copie de la licence est incluse dans la page &ldquoGNU Free Documentation License&rdquo.

Les avis de droits d'auteur et de licence sur cette page ne s'appliquent qu'au texte de cette page. Tout logiciel ou licence de droit d'auteur ou autre avis similaire décrit dans ce texte a sa propre note de droit d'auteur et sa propre licence, qui peuvent généralement être trouvées dans le texte de distribution ou de licence lui-même.


Mots clés

Zhiliang Wang est professeur à l'Université des sciences et technologies de Pékin, en Chine. Il est membre principal du conseil d'administration de la China Artificial Society. Il a obtenu son doctorat. Diplômé de l'Institut de technologie de Harbin, Chine. Ses intérêts de recherche actuels incluent la psychologie artificielle et l'Internet des objets. Auteur correspondant, e-mail : [email protected]

Lun Xie est professeur à l'Université des sciences et technologies de Pékin, en Chine, où il a obtenu son doctorat. degré. Il est membre du conseil d'administration de la China Artificial Society. Ses intérêts de recherche actuels comprennent la recherche en robotique et l'informatique affective. Courriel : [e-mail protected]

Ting Lu est actuellement étudiante en Master à la School of Computer and Communication Engineering, University of Science and Technology Beijing, Chine. Ses intérêts de recherche incluent l'interaction homme-machine, la reconnaissance de formes et l'informatique affective. Courriel : [e-mail protected]



Commentaires:

  1. Febei

    Est distant (confus)

  2. Mailhairer

    Merci beaucoup pour l'information, maintenant je n'admettrai pas une telle erreur.

  3. Wafiyy

    Entre nous parlant, je recommande de chercher la réponse à votre question dans google.com

  4. Hok'ee

    Je pense, que vous commettez une erreur. Je peux défendre la position. Écrivez-moi dans PM, nous en discuterons.



Écrire un message