Text Mining promete ser a ferramenta para tirar as empresas do caos de informação

A nova geração de ferramentas de Text Mining promete um novo e sério “combate” ao caos informativo que caracteriza a esmagadora maioria das organizações. Um caminho para o conhecimento.

Os dados não estruturados, a maior parte sob a forma de arquivos de texto, representam hoje aproximadamente 85% do armazenamento do conhecimento de uma organização. Só que, nem sempre são fáceis de encontrar ou de analisar e nem sempre estão disponíveis para serem utilizados.


 


Essa situação, porém, tende a mudar com a nova geração de ferramentas de Text Mining, que permitem às empresas extrair elementos essenciais de grandes conjuntos de dados não estruturados, descobrir relações e resumir a informação.


 


Muitas organizações estão a implementar este tipo de software para lidar com grandes quantidades de texto, apesar da exigência de conhecimento especializado para fazer as implementações funcionarem.


 


Por exemplo, desde 2002 que a equipa de pesquisa da Dow Chemical, recorre ao software ClearResearch, da ClearForest, para extrair dados, armazenados há um século, de resumos de patentes químicas, papers de pesquisas publicados e arquivos da própria empresa.


 


Com uma melhor gestão da informação e a eliminação do que é irrelevante, a empresa conseguiu reduzir o tempo que os pesquisadores demoravam a encontrar o que tinham de ler.


 


 


Abordagens ao Text Mining


 


As ferramentas de Text Mining seguem diversas abordagens. O ClearResearch usa a metodologia proprietária de correspondência de padrão para procurar a informação, classificá-la e mostrar geograficamente a sua relação com outros dados.


 


O software “vê”, descobre e extrai conceitos, não apenas palavras, fornecendo uma representação pictórica fácil de entender do texto contido nos documentos. Mesmo assim, os softwares de Text Mining disponíveis hoje no mercado parece que ainda alcançam a precisão das ferramentas de Data Mining, mas os fornecedores estão a melhorar a capacidade dos seus produtos entenderem o contexto, o que é fundamental para torná-los eficazes.


 


Devido a essas limitações, as ferramentas de Text Mining continuam a ser um nicho restrito a parcelas específicas de uma organização. Mas elas já começam a disseminar-se. Na opinião do analista de pesquisa da Enterprise Storage Group, Brian Babineau, quando essa área estiver sob controle, as pessoas vão adaptar as aplicações a outros fins, como Data Warehousing e o CRM.


 


Embora muitos sistemas de software analisem dados estruturados e não-estruturados, um grande número de empresas usa software de Business Intelligence (BI) tradicional para dados estruturados e utiliza outras ferramentas para dados baseados em texto.


 


Na EDS, por exemplo, todos os 130 mil funcionários preenchem um questionário online sobre o seu trabalho uma vez por ano. Outras três vezes por ano, 20 mil funcionários respondem a uma pesquisa adicional. Algumas perguntas da pesquisa são de múltipla escolha, o que facilita a inserção das respostas em software de BI da SAS Institute e SPSS, nos quais elas são agregadas, dissecadas e analisadas.


 


Parte do feedback mais importante vem das respostas às perguntas dissertativas. Antigamente, estas respostas eram encaminhadas a gestores de linha, para que estes extraíssem conclusões, já que não se enquadravam em nenhuma estrutura fácil de gerir.


 


Há três anos, a EDS começou a procurar uma maneira melhor de interpretar estas respostas e usufruir as informações que elas continham. A empresa começou a usar o PolyAnalyst, da Megaputer Intelligence, que extrai inteligência de dados estruturados e não-estruturados.


 


O sistema baseia-se na implementação do dicionário semântico WordNet desenvolvido pelo Cognitive Science Laboratory na Universidade de Princeton. Entre outras funções, atribui palavras a categorias e fornece palavras relacionadas.


 


O PolyAnalyst utiliza software BI tradicional para as perguntas de múltipla escolha e combina a informação em relatórios consolidados.


 


Existem ferramentas distintas especializadas em analisar bases de dados ou arquivos de texto, mas também há técnicas que permitem que os dois sejam correlacionados. Patricia Cerrito, professora de matemática da Universidade de Louisville, examina registos hospitalares para descobrir meios de melhorar o índice de alta de pacientes.


 


A responsável utiliza o SAS Text Miner em arquivos de texto, como fichas dos pacientes. Mas também faz recolha de arquivos simples de bases de dados de facturação e farmacêutico e analisa-os como texto, em vez de entradas em bancos de dados.


 


Ao examinar milhares de altas de pacientes com o Text Miner, Cerrito descobriu informações úteis, como o facto de a prescrição de determinados medicamentos poder prolongar a permanência de pacientes no hospital, e que os níveis de açúcar no sangue de pacientes diabéticos podem estar relacionados com um risco de infecção após cirurgia cardíaca.


 


No geral, a instalação de um Text Miner é um processo simples. Cerrito conta que só precisou carregar seis CD para fazer o SAS Text Miner funcionar na sua workstation.


 


O difícil é obter resultados significativos de um processo que depende da habilidade e do conhecimento da pessoa que usa o software. É preciso ser um analista talentoso para interrogar repositórios de texto apropriadamente.


 


Além de ter conhecimento de análise, o usuário precisa de estar suficientemente familiarizado com o conjunto de dados para entender o que os resultados significam.


 


De qualquer forma, visando disponibilizar mais funcionalidade enquanto resolvem problemas de usabilidade, os fornecedores começam a incorporar ferramentas de Text Mining como uma função de background para aprimorar a eficácia de aplicações mais familiares de gestão de documento ou procura.


 


Por Drew Robb, Computerworld USA


 


Artigo seguinte


Deixe um comentário

O seu email não será publicado