Fique à frente com estratégias financeiras práticas, dicas, notícias e tendências.
Série Inovação: Decifrando o processamento de linguagem natural
"Ei, Siri, diga-me a previsão para o fim de semana." "Ei Cortana, quanto é 3 milhas em quilômetros." "Alexa, verifique minhas mensagens de voz da mamãe" "Ei, Google, quais são os melhores restaurantes
novembro 30, 2017"Ei, Siri, diga-me a previsão para o fim de semana."
"Ei Cortana, quanto é 3 milhas em quilômetros."
"Alexa, verifique minhas mensagens de voz da mamãe"
"Ei, Google, quais são os melhores restaurantes de Nova Orleans?"
Todos nós já ouvimos isso de uma forma ou de outra, na casa de um amigo, em um restaurante, sentados em um carro ou no conforto de nossas próprias casas. As interações naturais de voz humana com seu dispositivo conectado favorito agora são uma realidade e não mais o reino da ficção científica. O ponto principal aqui é a interação com vozes humanas, usando a linguagem natural do cotidiano, e não uma linguagem de programação. A súbita proliferação de assistentes inteligentes e dispositivos de automação do consumidor capazes de decifrar nossa fala foi possível graças aos avanços no processamento de linguagem natural.
O que é processamento de linguagem natural?
Embora existam muitas definições de processamento de linguagem natural (ou PNL), a mais simples, na minha opinião, é a capacidade das máquinas de analisar, entender e gerar a fala humana. Isso é obtido por meio da combinação de padrões e práticas encontrados na ciência da computação, na inteligência artificial e na linguística computacional(Wikipedia)
Como tudo isso funciona?

Figura 1 - Diagrama de fluxo da mecânica da PNL[/caption]
Embora os resultados de uma pergunta feita ao seu assistente digital favorito possam parecer mágicos, uma série lógica de eventos é executada a cada vez (Figura 1). Sempre que você faz uma pergunta por meio de um enunciado falado, como "Alexa, verifique meus correios de voz da mamãe", ocorre o seguinte no mecanismo de PNL do seu dispositivo:
1. Reconhecimento de fala - A primeira etapa é digitalizar a voz e, em seguida, decompor ou analisar a linguagem natural na pergunta falada para que uma máquina possa identificar cada palavra. Devido aos diferentes sotaques da fala, à entonação não reconhecida ou até mesmo ao ruído de fundo do ambiente, a precisão dessa tradução nem sempre pode ser de cem por cento.
Historicamente, isso também era um desafio porque os computadores não eram rápidos o suficiente para acompanhar a fala falada e realizar o reconhecimento. Os mecanismos modernos de NLP aproveitam os serviços de computação altamente dimensionáveis na nuvem e aplicam algoritmos de Reconhecimento Automático de Fala (ASR) para decompor rapidamente as frases em suas palavras constituintes, que podem ser analisadas. Um desses serviços que alimenta a Alexa é o Amazon Lex, e agora existem serviços em nuvem de todos os principais fornecedores: Microsoft Cognitive Services, Google Cloud Natural Language.
Esses serviços não apenas oferecem aos desenvolvedores de aplicativos um serviço de nuvem integrado para realizar a ASR, mas também realizam a análise e a pontuação de confiança estatística necessárias para entender as palavras e determinar a intenção.
2. Compreensão da linguagem natural - Essa etapa ocorre imediatamente após as palavras terem sido analisadas e traduzidas para a linguagem de máquina. A compreensão da linguagem natural (NLU) é, de longe, a etapa mais difícil na cadeia de eventos do PLN, pois o sistema precisa entender a intenção da pergunta original do usuário. Isso é complicado pelo fato de que a linguagem natural falada pode ser ambígua, portanto, os algoritmos de NLU devem usar uma variedade de modelos de análise léxica para desambiguar as palavras. Por exemplo, "check" pode ser um substantivo (ou seja, uma conta em um restaurante) ou um verbo (ou seja, verificar algo). A situação fica ainda mais complexa quando você inclui números na fala. Por exemplo, "2017" pode ser o ano de 2017 ou o número dois mil e dezessete.
Usando um mecanismo de PNL, como o Lex, os desenvolvedores criam regras para "treinar" os aplicativos a aplicar essas regras corretamente para determinar a intenção do usuário. É claro que as pessoas fazem perguntas de forma diferente. Como resultado, é possível que várias perguntas tenham a mesma intenção. Por exemplo, os seguintes enunciados podem ter a mesma intenção, que é reproduzir mensagens de voz da minha mãe:
"Alexa, verifique minhas mensagens de voz da minha mãe" "Alexa, reproduza minhas mensagens de voz da mãe" "Alexa, reproduza as mensagens de voz de minha mãe" "Alexa, gostaria de ouvir minhas mensagens de voz da mãe" "Alexa, reproduzir mensagens da mamãe"
Uma vez que a intenção tenha sido compreendida, uma ação pode ser iniciada, como a execução de comandos para filtrar e recuperar mensagens de voz da minha caixa de entrada deixadas pela minha mãe e, em seguida, reproduzi-las no alto-falante do meu dispositivo. Na era da Internet das Coisas, em que muitos dispositivos estão conectados, esses comandos podem acionar a execução de serviços de outros dispositivos ou aplicativos.
3. Geração de linguagem natural - As conversas raramente são unilaterais e, para obter respostas interativas, os computadores precisam ser capazes de se comunicar com o usuário. Isso é conhecido como Geração de Linguagem Natural (NLG). Pense nisso como se estivesse trabalhando na direção oposta ao que acabamos de descrever. A NLG utiliza a linguagem de máquina, usando um conjunto de regras gramaticais e léxico, e a traduz em palavras e frases regulares. Normalmente, a etapa final é sintetizar o texto usando um modelo linguístico em áudio para se assemelhar a uma voz humana em um processo chamado de conversão de texto em fala. Novamente, usando a AWS como exemplo, há um serviço na AWS chamado Polly que facilita a conversão de texto em fala realista, de modo que confirmações ou perguntas adicionais possam ser retransmitidas em voz natural.
Aonde isso nos levará?
Embora tenha havido um aumento na demanda e nos usos da PNL em aplicativos de consumo, o mesmo não aconteceu com os aplicativos de negócios corporativos. Nos aplicativos para consumidores, a amplitude do vocabulário e a complexidade das intenções são mais restritas, começando com as tarefas cotidianas. No entanto, nos negócios, o vocabulário necessário é muito mais amplo quando se leva em conta a linguagem do domínio do assunto, e a complexidade das intenções varia muito, dependendo do aplicativo de negócios. A ambiguidade que muitas vezes é inerente aos enunciados no mundo dos negócios pode ser complexa. Para ilustrar, pense em um enunciado simples de um usuário, como "Mostre-me os serviços de melhor desempenho no primeiro trimestre". Isso é bastante ambíguo: o que é "Q1", "top" ou "performing" e pense nas possíveis formas alternativas de fazer essa pergunta (permutação de enunciados)?
O que é interessante é que as mesmas tecnologias de PNL e estruturas de desenvolvimento que evoluíram para fornecer produtos de consumo, como o Echo e o Google Home, também estão disponíveis para desenvolvedores de aplicativos corporativos. E, à medida que essas estruturas evoluem e se tornam mais refinadas, o corpo coletivo de modelos de NLU criados também se torna disponível para os aplicativos corporativos.
Uma nova dimensão para a experiência e a interação do usuário está surgindo no espaço de aplicativos corporativos, novamente impulsionada pelas expectativas dos aplicativos de consumo. Com o tempo, as experiências do usuário com voz, que são mais naturais para os usuários, transformarão a experiência do usuário de forma semelhante à ruptura introduzida pelas interfaces gráficas do usuário. É um momento empolgante para o desenvolvimento de novos aplicativos de negócios!