Resumo: A tecnologia oferece atualmente excelentes
soluções para organizar grandes volumes de documentos dos
mais variados tipos (armazenados em arquivos, bibliotecas, órgãos
públicos, empresas de grande porte). Entretanto a solução
para organizar a informação neles contida ainda não
foi resolvida a contento, de forma generalizada, e quanto mais cresce o
volume de documentos, mais e mais informação se perde nos
arquivos e na memória dos computadores. Os fundamentos para a solução
existem e são conhecidos de (alguns) técnicos e especialistas
da gestão da informação e do conhecimento, mas é
preciso aprofundar e aprimorar os processos de análise da informação
e representação do conhecimento, e realizar o casamento desses
princípios com a mais nova tecnologia de gestão dos documentos.
Palavras-chave: Documento; Organização;
Informação; Arquivo; Memória; Representação
do Conhecimento.
Abstract: Nowadays, technology offers excellent
solutions to organize great volumes of the most different types of documents
(such as the ones kept in archives, libraries, public agencies, great corporations,
etc.). Nevertheless, the solution to organize the information they contain
was not found by now either in a satisfactory or general manner, and as
the volume of documents increases, more and more information is lost in
files and in computer memories. The foundations of a solution do exist
and they are known by [some] specialists and experts in information or
knowledge management, but it is necessary to improve and deepen the processes
of information analysis and knowledge representation, as well as to match
these processes with the newest technologies of document management.
Keywords: Document; Organization; Information;
Archive; Memory; Knowledge Representation.
1. Um pouco de história(s) como introdução
A preocupação pela conservação de documentos, todo o mundo sabe, não é novidade: suas origens situam-se há mais ou menos 4.000 anos, quando os povos da Mesopotâmia conservavam em tabuletas de argila cuidadosamente organizadas, registros contábeis, ordenanças de governo, contratos e sentenças judiciais. Entretanto, a consolidação com certa cientificidade das duas profissões que lidam com a guarda, conservação e manuseio dos documentos, ou seja, a arquivologia e a biblioteconomia, somente aconteceu a partir da segunda metade do século XIX.
A mudança de paradigma do documento como foco para o seu conteúdo, ou seja para a informação, acontece ainda bem mais próxima de nós, com o surgimento da ciência da informação, a qual com o auxílio das novas tecnologias da informação e da comunicação tem revolucionado e ampliado os horizontes do que poderia ser chamado de ciências da documentação.
Apesar do tempo transcorrido e dos impressionantes avanços tecnológicos das últimas décadas, não se conseguiu ainda estabelecer uma doutrina, uma filosofia, se assim pode-se dizer, sobre como proceder no processamento técnico dos documentos e das informações neles contidas. A unanimidade dentro de cada uma das duas profissões da documentação ainda está longe de ser atingida, e muito mais longe ainda entre os arquivistas, os bibliotecários e os documentalistas em geral. E isso apesar dos esforços das organizações e associações profissionais assim como dos organismos internacionais diretamente interessados e envolvidos no problema de tratar os documentos e de organizar a informação.
Os avanços em matéria de organização física
com estantes deslizantes robotizadas são fantásticos. Também
são fantásticos os avanços em matéria de informática,
para acelerar o processamento dos documentos e informações.
Os enormes e valiosos conhecimentos adquiridos graças às
pesquisas desenvolvidas nos últimos anos, referentes à codificação,
armazenagem, transmissão, difusão e recuperação
da informação são, também, fantásticos.
Entretanto, a imagem de um alto executivo em estado terminal de desespero,
depois de pedir à sua secretária e a outros colaboradores
para localizar rapidamente determinados documentos que com toda e absoluta
certeza estariam arquivados em algum lugar, e que não foram encontrados,
é, como mostra a Figura 1, uma maneira bastante expressiva
de visualizar uma situação que, sem dúvida, neste
instante, em algum lugar, continua acontecendo.
Figura 1. - Alto executivo em estado terminal de desespero ante a impossibilidade de localizar os documentos que contêm as informações de que precisa.
Parafraseando Elliot, Nery da Fonseca [1], que
cito de memória, escreveu alguma coisa parecida com o texto reproduzido
a seguir:
Onde estão os livros
que se perderam nas bibliotecas?
Onde estão os dados
Que se perderam nos computadores? ..."
Cabe, assim, perguntar como é que com tantos progressos, com tanta tecnologia, com tantos estudos e conhecimentos não foi ainda possível dominar a informação. Existem variadas e numerosas causas que vamos sobrevoar a seguir tentando focalizar alguns fatores que podem ajudar a compreender a complexidade do problema e, por via de conseqüência, a dimensionar a magnitude do esforço a realizar, alocando os recursos necessários (humanos, tecnológicos, de conhecimentos, financeiros, culturais, etc.), para se chegar a soluções que hoje são certamente possíveis.
Um problema muito sério decorre do fato de que as máquinas informáticas processam sob a forma de códigos representações de palavras que, pela sua vez são representações de conceitos. Os computadores, ou mais precisamente os informáticos que os programam, lidam muito bem com dados e números, realizando cálculos complicadíssimos com velocidade impressionante, mas infelizmente as palavras codificadas - e menos ainda os conceitos que elas representam - não podem ser processadas com os mesmos algoritmos que se aplicam aos cálculos numéricos. Enquanto esse fato não for profundamente assimilado, continuaremos encontrando nos jornais manchetes como estas:
1) "O INSS CONTINUA PAGANDO A APOSENTADORIA DE UM FUNCIONÁRIO FALECIDO HÁ NOVE ANOS"
2) "O PEDREIRO JOÃO CRISTINO, HOJE NONAGENÁRIO, TENTA PROVAR QUE, APESAR DO QUE CONSTA NO SEU ATESTADO DE ÓBITO, EXPEDIDO HÁ 18 ANOS, CONTINUA VIVO"
Vejamos, um sistema informático ao qual se ordena que localize informações sobre a morte de Fulano de Tal obterá após o rigoroso cruzamento das expressões 'morte' e 'Fulano de Tal' - se tudo corre como desejado - alguns documentos PERTINENTES, mas será incapaz de pensar que outras palavras tais como 'falecimento', 'óbito' ou, ainda, 'desencarnação' se porventura pudessem existir documentos produzidos num ambiente 'kardecista', também deveriam ter sido cruzadas com o nome do indivíduo.
Todavia é preciso pensar que podem existir ou ter existido várias pessoas com igual identidade e que para 'cercar' a pessoa certa seria necessário introduzir 'filtros' tais como o local e data de nascimento, filiação, CPF, certidão de casamento, etc., informações estas que não sempre se encontram acessíveis num único banco de dados.
Outro exemplo:
Consideremos um sistema altamente sofisticado, capaz de identificar
de forma automática, num processo de varredura dos textos dos documentos,
aqueles termos e expressões possíveis e prováveis
que podem ser utilizados como 'ponteiros' ou pontos de acesso para recuperar
as informações desejadas. Suponhamos que desejamos fazer
uso desse sistema para localizar documentos que tratam da evolução
e uso dos sinos e outros instrumentos assemelhados, ao longo de um certo
período de tempo. Imaginemos que o dito sistema examinou com todo
rigor um acervo de documentos manuscritos cuidadosamente digitalizados
e indexados à procura das palavras 'sino' ou 'campana', palavra
esta que, como explica qualquer dicionário, refere-se a um sino
pequeno. Imaginemos, enfim, que o sistema identificou um certo número
de documentos com a palavra 'sino' e outra quantidade de documentos com
a palavra 'campana'. Ótimo! Muito bom!!... Então pedimos
ao sistema para ver o texto dos documentos encontrados e...
Surpresa! Entre os documentos que, a primeira vista nos parecem bem pertinentes
para o que queríamos encontramos um, do qual reproduzimos um fragmento
(Figura2) onde efetivamente identificamos a palavra 'campana' misturada
com um monte de palavras escritas com uma grafia que não conseguimos
entender.
O que aconteceu não é, finalmente, tão complicado de entender. Trata-se de um texto escrito em língua russa, que utiliza, como outras línguas eslavas, o alfabeto cirílico, sendo que somente algumas letras deste correspondem às letras de nosso alfabeto latino. Lembremos dos atletas do tempo da Rússia soviética que exibiam nas costas a sigla CCCP, que para nós parecia 'C' de 'campana' (três vezes) e 'P' de Polônia (uma vez), mas que para eles corresponde a 'S' de 'socialistas' e 'soviéticas' (o terceiro 'C' é a inicial de 'união', em russo, naturalmente) e 'R' de 'repúblicas'?
Assim o que a nós parece dizer 'campana', para os russos diz
'sátrapa', como mostra a equivalência das letras nos alfabetos
cirílico e latino (Figura 3).
A tradução do fragmento do texto russo anterior é a seguinte:
"...sátrapa é o título dado aos governadores de província na antiga Pérsia"
Note-se que também poderíamos encontrar a informação procurada em documentos redigidos em outras línguas, a condição de utilizar os critérios de busca adequados. Por exemplo, 'cloche' em francês, 'bell' em inglês, etc. Mas, por não ter pensado, perdemos, certamente, informação importante.
Poderíamos estender de forma quase infinita os exemplos que demonstram a necessidade de cuidar de um certo número de detalhes quando se trata de codificar e processar a informação.
Outro aspecto a considerar é a fragilidade dos registros da informação
que podem ser destruídos por incêndio ou enchentes, no caso
de papel ou microfichas e microfilmes, assim como pelos efeitos de fortes
campos magnéticos e radiações, no caso de CDs e disquetes,
o que exige cuidados extremos na atualização dos 'backups'.
A título de lembrete, e no intuito de ajudar a fixar a idéia
dos perigos que podem ameaçar os arquivos documentais, permito-me
mostrar dois exemplos: o primeiro (v. Figura 4), um caso de incêndio
(literalmente queima de arquivo) que tanto pode ser acidental como criminoso
e o segundo, também um caso de queima de arquivo (v. Figura 5),
que parece ser criminoso.
Semelhantemente, os processos de telecomunicação, teletransmissão
e teleprocessamento de dados e informações (Internet, redes
diversas) são extremamente vulneráveis a ação
de vírus e 'hackers', que podem destruir dados e informações
se não são tomadas as medidas de prevenção
indispensáveis.
3. Existe solução depois do caos?
Se pretendermos ser objetivos, é preciso reconhecer que a organização e conservação dos acervos documentais, assim como o acesso aos dados e informações neles contidos são, em numerosas e diversas organizações e instituições públicas e privadas, simplesmente caóticos. E, assim sendo, continuaremos ainda por um bom tempo, se não forem tomadas as medidas adequadas, a descobrir rombos espantosos nas contas públicas, seja por falta de planejamento, seja por falta de controle ou, em todo caso, por falta absoluta de informação confiável. E os casos de funcionários falecidos e pedreiros nonagenários, citados antes, que a Administração converte em zumbis ou mortos-vivos, continuarão a pipocar em qualquer lugar do país, junto com outros, diferentes e talvez mais absurdos.
Da mesma forma, o combate ao crime, a indispensável reengenharia do sistemas de saúde e previdência, da educação, dos transportes, da energia e assim por diante, são e continuarão sendo improváveis enquanto não seja encarado com decisão e competência, em cada uma dessas áreas, o problema da análise, do processamento e do acesso à informação em todos seus aspectos.
Enfim, como pretender ser competitivos para colocar pelo mundo afora os produtos e serviços brasileiros sem informação continuamente atualizada sobre a conjuntura, situação e exigências dos mercados externos?
Que o problema a resolver é grande, enorme mesmo, não
é difícil de se perceber, de forma que cabe perguntar se
existe solução possível depois de chegar à
atual situação de caos. A resposta é sim. Os países
desenvolvidos possuem, em todas às áreas críticas
e estratégicas, sistemas de informações poderosos,
dinâmicos e atualizados que fornecem o lastro indispensável
ao planejamento e execução de suas políticas. Então,
porquê o Brasil não poderia? A resposta é, novamente
afirmativa: o Brasil também pode. Com vontade e competência
é possível adaptar às realidades diversas do país
às soluções que podem e devem dar certo.
4. Para onde apontam a(s) possível(eis) solução(ões)?
Em primeiríssimo lugar, para a indispensável conscientização das lideranças de todos os setores envolvidos de que o Brasil continuará a ser dependente e vulnerável enquanto não seja dono e mestre de suas informações. Neste ponto, a imprensa e mídia em geral têm um importante papel pela frente.
Em segundo lugar, para o investimento na formação de recursos humanos capazes de discernir as boas soluções e aqueles profissionais e técnicos que as podem implementar. Aqui, as universidades e as instituições de ensino e formação, podem contribuir de forma decisiva com cursos intensivos de atualização nas áreas críticas mais urgentes.
Descendo a um nível de idéias mais pragmático e
imediato podemos apresentar algumas pistas sobre as etapas a completar
para se chegar ao domínio da informação.
2. A organização física e a preservação segura da memória documental original;
3. A organização lógica dos dados, da informação e do conhecimento, identificados na primeira etapa;
4. A conversão ou codificação desses dados, informações e conhecimentos de forma a permitir seu processamento informático avançado e seu armazenamento digital organizado e seguro, assim como a geração e contínua atualização de bancos de dados e conhecimentos;
5. A utilização de motores de busca avançados suscetíveis de converter as questões e pedidos de informação dos usuários numa linguagem codificada compatível com a linguagem de codificação utilizada na etapa precedente;
6. A identificação dos documentos que contêm os dados, informações e conhecimentos pertinentes às questões e solicitações formuladas;
7. A localização imediata desses documentos e o acesso e consulta aos mesmos, seja esta física mediante extração do acervo onde foram armazenados, ou virtual através de uma cópia digitalizada devidamente autenticada e certificada.
Apresentadas as coisas dessa forma, os especialistas da arquivologia,
da biblioteconomia, dos sistemas de informação documentária,
do processamento de dados, dos sistemas eletro-eletrônicos de armazenamento
poderiam
muito bem perguntar: Qual é a novidade de tudo isso, que não
é senão a expressão do chamado ciclo documentário?
Resposta: novidade nenhuma !
E então? Então, o que acontece é que em cada uma das etapas às quais temos feito referência encontramos especialistas - e bons especialistas mesmo - que só conhecem em profundidade uma parcela desse ciclo, ignorando geralmente todo o resto. Assim, as empresas de digitalização de documentos, que têm surgido e se desenvolvido como cogumelos numa floresta úmida, se não aplicam conhecimentos especializados avançados na etapa de análise das informações, de forma a permitir a organização dos bancos de dados e de conhecimentos e tornar possível a busca e recuperação das informações, poderão contribuir a diminuir o volume de armazenamento dos documentos, mas não muito a solucionar o problema do domínio da informação.
Os fabricantes dos grandes equipamentos de armazenamento mais ou menos robotizados contribuem para a boa organização, conservação e localização dos documentos, mas será que podem sempre apresentar soluções para enxergar os dados e informações neles contidos?
Os informáticos organizam sempre os dados e informações, nos bancos, de forma estruturada e compatível com os métodos e ferramentas utilizados pelos usuários nas suas consultas e buscas ou, pelo contrário, montam e desenvolvem estruturas e modelos de dados que pouco se adequam à realidade de uso?
Observe-se que propositadamente foram utilizadas as expressões
'banco(s) de informações' e 'banco(s) de conhecimentos' que
podem parecer mais próprias dos sistemas de inteligência artificial
que do tema que vimos tratando. Pode parecer, mas não é bem
assim. Senão, vejamos: Na Figura 6 representamos o esquema clássico
de um sistema especialista, típico de numerosas áreas de
aplicação da inteligência artificial.
Figura 6.- Esquema simplificado de um sistema especialista [2]
A interface de aquisição corresponde, de fato, no ciclo documentário, à etapa de análise da informação dos conteúdos dos documentos, antigamente realizada por especialistas e que tende cada vez mais a ser automatizada.
A base de conhecimento nada mais é do que o(s) banco(s) de dados, informações e conhecimentos, organizados e estruturados de forma a permitir a consulta rápida quando solicitados.
No outro extremo, a interface do usuário permite formular perguntas e consultar a base de conhecimento por intermédio do mecanismo de inferência, em nosso caso chamado normalmente motor de busca, que compara os elementos da pergunta/consulta com os dados e informações da base de conhecimento, verificando se existe ou não, na base, algum registro de documento(s) pertinentes, fornecendo a resposta para o usuário.
A Figura 7 pode ajudar a fixar de forma mais forte a relação
conceitual intrínseca de nossas preocupações de conservação,
organização e gestão de documentos com os sistemas
especialistas da inteligência artificial, e não é por
acaso que já se começa a falar de 'arquivamento inteligente
da informação'. A figura mostra as três grandes áreas
em que pode ser subdividida a inteligência artificial [3].
Observe-se que as três áreas estão fortemente implicadas
na solução de nosso problema:
- A robótica, presente numa infinidade de sistemas e aplicações sensíveis a estímulos visuais e eletro-magnéticos (leitores óticos e magnéticos) está cada vez mais presente nos grandes sistemas de armazenamento/arquivamento de importantes volumes de documentos;
- Os sistemas especialistas, dos quais acabamos de falar nos parágrafos
anteriores, apontam para o desenvolvimento de aplicações
informáticas suscetíveis de utilizar o conhecimento simbólico
da forma o mais próxima possível do comportamento humano.
Entretanto, os princípios algorítmicos básicos que podem ser utilizados são conhecidos há tempo. Peço licença para mostrar dois exemplos, velhos de mais de doze anos, de uma aplicação informática de análise e indexação automática de textos, concebida e desenvolvida com o auxílio parcial do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) e da Universidade de Brasília (UnB)[4].
As Figuras 8 e 9 mostram um exemplo de aplicação de rotinas
informáticas de indexação automática de textos,
a preparação de um índice dos artigos publicados na
revista Ciência da Informação no período 1972-1983.
A primeira permite ver os descritores (pontos de acesso) identificados
no processo de indexação após digitalização
e editoração. A segunda mostra um fragmento do índice.
Figura 8.- Indexação automática a partir dos títulos
e resumos dos registros documentários
Publicados em 'Ciência da Informação' no período
1972-1983
Figura 9. - Fragmento do índice temático remissivo gerado automaticamente a partir dos resultados da indexação mostrados na figura anterior.
As Figuras 10 e 11 mostram, respectivamente, um exemplo de processamento
de uma carta e o resultado da identificação e extração
automática dos termos que poderão servir como ponteiros ou
pontos de acesso, para busca e recuperação de informações
na base de conhecimento.
Figura 10 . - Texto de uma carta após editoração
para indexação automática.
Figura 11. Descritores temáticos extraídos automaticamente da carta da figura precedente, que servirão como pontos de acesso na base de conhecimento
Hoje, algoritmos mais avançados, mas que pouco diferem conceitualmente dos implementados e utilizados nos exemplos mostrados, são utilizados por todos nós cada vez que fazemos uso dos motores de busca de Yahoo, Google, Altavista e muitos outros, que vão buscar a respostas às nossas indagações em gigantescos bancos de dados e informações.
Voltando ao nosso assunto, antes de encerrar estas considerações,
permitam-me lembrar um filme realizado e difundido há alguns anos,
protagonizado por Michael Douglas e pela bonita Demi Moore, filme esse
que, com uma história de assédio sexual da segunda sobre
o primeiro, como pano de fundo apresentava um sistema de tele-acesso a
documentos confidenciais. Poderia parecer pura ficção mais
ou menos científica e tecnológica se não existissem
já naquela data sistemas totalmente automatizados de registro, organização,
armazenamento e consulta de documentos, com diversas variantes e em vários
países. A título de exemplo citarei um dos primeiros, instalado
e operado pelo Ministério das Finanças da França,
num corredor de mais de 200 metros, nos terrenos de uma antiga fábrica
da Renault, em Boulogne-Billancourt, perto de Paris, que permite tele-processar,
tele-organizar, tele-localizar, tele-extrair, e tele-consultar os documentos.
5. Conclusão
A mudança de paradigma, em curto prazo de tempo, do processamento de documentos para o processamento do conteúdo, e a mudança, também, de paradigma na ciência da computação do foco processamento de dados para processamento de informações, levaram, devido às pressões do mercado e à busca de maior competitividade e eficiência, a uma mudança radical na gestão eletrônica de documentos.
O uso de novas tecnologias de informação, como a digitalização, e anteriormente a microfilmagem, por si só não solucionaram o problema do acesso à informação contida no documento.
Para tanto, é necessária a análise criteriosa e objetiva do conteúdo dos documentos para identificar os ponteiros ou pontos de acesso que serão utilizados pelas instituições para recuperar e localizar as informações específicas.
Lamentavelmente, por falta de percepção da importância primordial da etapa de aquisição, que é complexa, que exige tempo e trabalho acurado para definir os filtros e parâmetros específicos de cada aplicação concreta, em saúde, ciência e tecnologia (e suas subdivisões), economia, política, planejamento, administração e gerência, prospecção, comércio, inteligência competitiva nas suas diversas áreas de aplicação, e assim por diante, ainda se reclama do custo dessa fase e do tempo que requer para ser bem feita.
Solução geralmente proposta por muitos administradores
pretensamente ciosos do bom uso dos recursos:
Sem comentários.
É considerado razoável gastar uma fortuna e um tempo considerável para consolidar e nivelar o piso do(s) local(ais) onde serão instalados os equipamentos mais ou menos robotizados. É considerado razoável gastar uma fortuna e um tempo considerável em refazer completamente toda a instalação elétrica. É considerado razoável gastar uma fortuna e um tempo considerável em adquirir novos e poderosos equipamentos informáticos. É considerado razoável gastar uma fortuna e um tempo considerável em escolher e instalar diversos sistemas de segurança e prevenção. Entretanto, realizar uma despesa que dificilmente ultrapassaria dez por cento das despesas totais, na implementação do sistema de aquisição, processamento e armazenamento inteligente das informações e do conhecimento, única forma de dispor de bases de dados, informações e conhecimentos suscetíveis de informar corretamente e de alcançar o domínio da informação.
Na Figura 12 podemos ver como um alto executivo bem informado, que conseguiu
o domínio inteligente da informação, pode monitorar
o bom andamento de seus negócios de qualquer lugar do planeta.
Figura 12. Alto executivo bem informado monitorando seus negócios.
Para encerrar, voltemos ao título da palestra:
[*] Palestra apresentada no Seminário "Gestão da Informação:
Desafios e Soluções", realizado em Brasília DF em
21 de agosto de 2003, no Blue Tree Park, organizado pela ACECO - Soluções
Integradas em Arquivamento, do Grupo Ambient, com o apoio do Arquivo Nacional,
da Câmara dos Deputados, do Conselho da Justiça Federal, do
Senado Federal e da Universidade de Brasília.
Conference in the Seminar "Information Management: Challenges
and Solutions", held in Brasília DF on August 21, 2003, at the Blue
Tree Park, organized by ACECO - Integrated Solutions for Archival, a member
of the Grupo Ambient. Sponsored by the Federal Justice Council, National
Archive, National Congress, and University of Brasilia.
[1] Eliot, Thomas Stearns. The Rock. Apud Nery da Fonseca, Edson. Conferência
de abertura do 2° Seminário Nacional de Bibliotecas Universitárias
- 2° SNBU. Brasília DF, ABDF, jun 1981, Anais.
[2] Harmong, Paul; King, David. Sistemas especialistas. Rio de Janeiro
RJ: Campus, 1988. Apud Teixeira, Alison Ribeiro. A utilização
de programas de computador com agentes no processo de tranferência
da informação: criação e avaliação
de um sistema especialista baseado em casos. Brasília DF: Universidade
de Brasília/Departamento de Ciência da Informação,2000
(Dissertação de Mestrado.)
[3] Op. cit. Ibidem.
[4] Robredo, Jaime. Indexação automática de textos:
uma abortdagem automatizada e simples. Ciência da Informação,
v.20, n.2, 1991, p.130-136.
Sobre o autor / About the Author:
Jaime Robredo
jrobredo@uol.com.br
Pesquisador Associado Senior, Departamento de Ciência da Informação,
Universidade de Brasília;Consultor da SSRR Informações
Consultoria e Projetos Ltda., Brasília DF
Senior Researcher, Information Science Department, University of
Brasilia; Consultant of the SSRR Information, Consultancy and Projects
Ltd., Brasilia DF.