fbpx

PT-BR do Bothub supera PT do Wit.ai. Entenda!

A interação entre humanos e máquinas está em contínua evolução e aprimoramento. Na busca pela melhoria dessa comunicação, inúmeros estudos tentam encurtar a distância entre a linguagem natural (idiomas que falamos) e os algoritmos (códigos dos computadores).

Não é a toa que têm surgido sistemas de processamento de linguagem natural (PLN) cada vez mais complexos e sofisticados.

Já contamos aqui, sobre a nossa empreitada – que teve início em julho de 2017 – na criação do Bothub, um sistema de PLN global, colaborativo e de código aberto desenvolvido sob a expectativa de ser transformado no maior e melhor do mundo.

Você, provavelmente, conhece softwares renomados como IBM Watson, Wit.ai e Google Cloud Platform, mas o que você ainda não sabe é que o “recém-nascido” Bothub atingiu índices impressionantes e uma interpretação de português brasileiro (PT-BR) mais eficiente que a do português (PT) do Wit.ai.

Como descobrimos isso? Acompanhe o post e entenda tudo!

Testes

Decidimos analisar a eficácia do nosso sistema e achamos que a melhor forma de fazer isso, seria comparando-o com alguma plataforma consolidada no mercado. Optamos pelo Wit.ai, por ser uma das ferramentas mais utilizadas pelos desenvolvedores. Além de pertencer ao Facebook, um dos maiores investidores em chatbots do globo, e estar conectado ao Facebook Messenger.

Começamos com a elaboração de 100 frases em PT-BR, nossa língua nativa. Elas abordavam 10 temas: geografia, saúde, futebol, pets, games, cinema, eleições, automóveis, financeiro e alimentação. Para cada categoria, foram distribuídas 10 frases com definições de entidades (espécies de “palavras-chave” que ajudam a extrair informações úteis da frase) e intenções.

Depois, desenvolvemos um script em Python (uma linguagem de programação) capaz de treinar e testar frases automaticamente.

As 100 sentenças formuladas passaram por treinamentos no Bothub e no Wit.ai. Em seguida, sem determinar intenções e entidades, 100 novas frases foram testadas também em ambas as plataformas.

A partir daí, foram gerados dois arquivos CSV, que podem ser lidos no Excel ou em outros leitores de planilhas, com os resultados das predições dos sistemas separadamente.

Esses arquivos apresentavam colunas com as frases testadas, intenções esperadas, intenções encontradas, percentuais de confiabilidade das intenções, resultados das comparações entre intenções esperadas e encontradas, entidades esperadas, entidades encontradas, resultados das comparações entre entidades esperadas e encontradas, e percentuais de precisão das entidades.

Logo abaixo da tabela, ficava o número total de frases testadas e porcentagem final de acertos nas predições.

Para visualizar melhor esse processo, baixe a planilha com o desempenho do Bothub no nosso último teste.

Resultados

No teste mais recente, em setembro deste ano, chegamos ao estimulante resultado de 62% de acertos nas predições do Bothub, contra 38% do Wit.ai.

Um importante dado a evidenciar foi o resultado alcançado pelo Bothub em cada intenção. A categoria “financeiro” acertou 9 predições. Seguida de “cinema” e “automóveis” que obtiveram 8 acertos.  Nas mesmas intenções, o Wit.ai acertou 6, 4 e 8, respectivamente.

Frases que encontraram a intenção “financeiro”, não identificada pelo Wit.ai, como “Eu já paguei”, “Você poderia estornar a diferença da minha compra?” e “Eu gostaria de cancelar a minha compra”, destacam essa categoria como a nossa melhor performance.

Quer conhecer o Bothub?

Clique aqui e deixe seu e-mail para saber mais!


Quer testar também? Acesse https://github.com/Ilhasoft/bothub/tree/master/benchmark.

Aproveita e compartilha com os amigos! 😉

Leave a comment