Para que um sistema operativo reconheça a voz do seu utilizador é necessário um microfone associado a um conversor AD (analógico para digital), que irá converter as ondas de som analógicas em dados, enquanto consegue filtrar ruídos e interferências. A partir desses dados, serão criadas pequenas fracções (fonemas) que depois são transformados em sons fonéticos e, posteriormente, sincronizados de acordo com os dados existentes na sua base de dados local, ou na cloud, para que o som captado tenha a mesma frequência que os dados armazenados.
Isto é, no fundo, uma tecnologia de reconhecimento de padrões, a partir da qual o sistema conseguirá identificar as palavras ditas pelo utilizador, atribuindo assim uma finalidade tendo em conta a função em uso, como uma pesquisa por voz ou a introdução de comandos por voz.
Assistentes
A evolução na eficácia dos sistemas de reconhecimento por voz deve-se, em grande parte, ao crescimento da base de dados utilizada para o reconhecimento de padrões.
É por isso que, actualmente, os sistemas mais eficazes no reconhecimento de voz são os chamados assistentes pessoais, como a Siri da Apple, a Cortana da Microsoft, a Alexa da Amazon e o Google Assistant, que já conseguem interpretar diversos tipos de comandos de voz em vários idiomas. Em contrapartida, podemos usar como exemplo os dispositivos com bases de dados locais limitadas, como os sistemas de GPS de alguns automóveis, que além de só serem compatíveis com um idioma, têm sérias dificuldades na interpretação de alguns comandos, também devido à forma como são ditos. Mais que a identificação das palavras, o segredo dos sistemas como os assistentes pessoais está na interpretação correcta das mesmas, razão pela qual conseguem identificar comandos como ‘tempo em Lisboa’ ou ‘temperatura no Porto’, e assumir que o objectivo do utilizador será aceder à aplicação de meteorologia para saber o estado do tempo no local pretendido.
Músicas
Para a identificação de músicas, em aplicações como o Shazam, o processo é muito similar, embora haja um método de pesquisa da base de dados diferente, onde as músicas são convertidas num gráfico tridimensional, devido a dados como o tempo, a frequência e a intensidade: são as variações destes pontos, dentro da própria música, que facilitarão o reconhecimento da mesma. Porém, ao contrário do sistema de reconhecimento de voz, este não consegue fazer uma filtragem do ruído ambiente, o que poderá levar a falhas na detecção de uma música. Quando identificada, o Shazam consegue mostrar inclusive as letra da música ao mesmo tempo que é cantada, o que torna a app. uma espécie de karaoke.