•ESPECIFICAÇÕES TÉCNICAS E RECOMENDAÇÕES DE USO
•Recomendações gerais :
•A precisão do reconhecimento do alto-falante do MegaMatcher depende da qualidade do áudio durante a inscrição e a identificação.
•Amostras de voz com pelo menos 2 segundos de duração são recomendadas para garantir a qualidade do reconhecimento do alto-falante.
•Uma frase secreta deve ser mantida em segredo e não ser falada em um ambiente onde outros possam ouvi-la se o sistema de reconhecimento de alto-falante for usado em um cenário com frases exclusivas para cada usuário.
•O reconhecimento de locutor independente de texto pode ser vulnerável a ataques com uma frase secretamente gravada de uma pessoa. A verificação por senha ou a autenticação de dois fatores (ou seja, o requisito para digitar uma senha) aumentará a segurança geral do sistema .
•Microfones - não há restrições específicas em modelos ou fabricantes ao usar microfones comuns para PC, fones de ouvido ou microfones embutidos em laptops, smartphones e tablets. No entanto, esses fatores devem ser observados:
•O mesmo modelo de microfone é recomendado (se possível) para uso durante o registro e reconhecimento, pois diferentes modelos podem produzir uma qualidade de som diferente. Alguns modelos também podem introduzir ruído ou distorção específica no áudio, ou podem incluir certo processamento de som de hardware, que não estará presente ao usar um modelo diferente. Este também é o procedimento recomendado ao usar smartphones ou tablets , pois diferentes modelos de dispositivos podem alterar a gravação da voz de diferentes maneiras.
•Recomenda-se a mesma posição e distância do microfone durante a inscrição e o reconhecimento. Os fones de ouvido proporcionam uma distância ideal entre o usuário e o microfone; essa distância é recomendada quando microfones sem fone de ouvido são usados.
•Os microfones internos da webcam devem ser usados ??com cuidado , pois geralmente são posicionados a uma distância bastante longa do usuário e podem fornecer uma qualidade de som menor. A qualidade do som pode ser afetada se os usuários alterarem subsequentemente sua posição em relação à web cam.
•Definições de som:
•Configurações para um som claro devem ser asseguradas; alguns softwares de áudio, hardware ou drivers podem ter a modificação de som ativada por padrão . Por exemplo, o sistema operacional Microsoft Windows geralmente tem, por padrão, o aumento de som ativado.
•Uma taxa de amostragem mínima de 11025 Hz , com pelo menos uma profundidade de 16 bits , deve ser usada durante a gravação de voz.
•Restrições de ambiente - o mecanismo de reconhecimento de alto-falantes do MegaMatcher é sensível a ruídos ou vozes altas em segundo plano ; eles podem interferir na voz do usuário e afetar os resultados do reconhecimento. Essas soluções podem ser consideradas para reduzir ou eliminar esses problemas:
•Um ambiente silencioso para inscrição e reconhecimento.
•Várias amostras da mesma frase gravadas em diferentes ambientes podem ser armazenadas em um modelo biométrico. Mais tarde, o usuário será comparado a essas amostras com uma qualidade de reconhecimento muito maior.
•Microfones de curto alcance (como aqueles em fones de ouvido ou smartphones) que não são afetados por fontes distantes de som.
•Soluções terceirizadas ou personalizadas para redução de ruído de fundo, como o uso de dois microfones separados para gravar sons de voz e de fundo do usuário e subtração posterior do ruído de fundo da gravação.
•Comportamento do usuário e alterações de voz:
•As alterações naturais de voz podem afetar a precisão do reconhecimento do alto-falante:
•uma voz temporariamente rouca causada por um resfriado ou outra doença;
•estados emocionais diferentes que afetam a voz (ou seja, uma voz alegre versus uma voz cansada);
•diferentes velocidades de pronúncia durante a inscrição e identificação.
•As alterações de voz e comportamento do usuário mencionadas acima podem ser gerenciadas de duas maneiras:
•registros separados para a voz alterada, armazenando os registros no modelo da mesma pessoa;
•um , voz neutra controlada durante a inscrição e identificação.
•Todos os modelos de voz devem ser carregados na RAM antes da identificação, portanto, o tamanho máximo do banco de dados de modelos de voz é limitado pela quantidade de RAM disponível.
•O tamanho do modelo de impressão de voz depende linearmente do tamanho da amostra de voz. Por exemplo, ao usar amostras de voz que são 2 vezes menores, os valores de tamanho do modelo serão 2 vezes menores.
•O mecanismo dependente de texto do VeriSpeak 11.1 pode realizar a correspondência de modelos em dois modos:
•Frase fixa - cada sujeito no banco de dados registrou a mesma frase. Este modo fornece correspondência mais rápida , mas menor confiabilidade.
•Frase única - cada sujeito no banco de dados registrou uma frase única. Esse modo fornece maior confiabilidade , mas menor velocidade de correspondência.
•O algoritmo de extração e combinação de modelos biométricos VeriSpeak é projetado para rodar em processadores multi-core, permitindo alcançar o máximo desempenho possível no hardware usado.