Resumo: São reportados resultados de pesquisa
com o objetivo de propor um modelo de publicação eletrônica
de artigos científicos como texto, legível por pessoas, e
simultaneamente, em formato legível por programas. Este conhecimento
é identificado com os elementos de metodologia científica
do artigo, em especial com a hipótese, como o elemento que estabelece
novas relações entre fenômenos. No modelo proposto
a estrutura de conhecimento contido em artigos científicos é
explicitada e registrado em XML. O conhecimento registrado desta forma
viabiliza seu processamento por programas inteligentes. Embora publicados
na Web periódicos eletrônicos são ainda calcados no
modelo de publicações em papel e não utilizam todo
o potencial do meio eletrônico. O modelo proposto pretende ampliar
estas potencialidades, viabilizando recuperação semântica
e validação dos novos conhecimentos reportados pelos artigos.
A pesquisa analisa um conjunto de artigos de periódicos científicos
eletrônicos com o objetivo de validar o modelo, verificando em que
medida os artigos se enquadram nele.
Palavras-chave:
Publicações eletrônicas;
Metodológica científica; Comunicação científica;
Representação do conhecimento; Ontologias.
Abstract: This article reports results of a research
with the aim of investigate the possibilities of electronic publishing
journal articles both as text for human reading and in machine readable
format recording the new knowledge contained in the article. This knowledge
is identified with the scientific methodology elements such as problem,
methodology, hypotheses, results, and conclusions. A model integrating
all those elements is proposed which makes explicit and records in XML
the article contribution, new knowledge and scientific novelty. The use
of XML language to represent this knowledge enables its processing by intelligent
software agents Despite the fact that electronic publishing is a
common activity to scholars electronic journals are still based in the
print model and do not take full advantage of the facilities offered by
the Web environment. The proposed model aims to extend these facilities
enabling semantic retrieval and validation of the knowledge contained in
articles. The research analyses a set of electronic journal articles with
the aim of validate the model, verifying their compliance with the model.
Keywords: Electronic publishing; Scientific methodology;
Scientific communication; Knowledge representation; Ontologies.
1. Introdução
Publicações científicas na Web se tornaram uma realidade. A maior parte dos periódicos têm hoje versões eletrônicas. Artigos científicos são o grande veiculo através do qual são disseminados os novos conhecimentos. Hoje existem dois obstáculos para o acesso e utilização em larga escala deste conhecimento: o grande número de publicações, a chamada "explosão informacional", fenômeno fundador da Ciência da Informação, que atinge mais alto grau com o surgimento da Web e das publicações eletrônicas; e o fato desse conhecimento estar inserido no texto dos artigos de forma não estruturada, legível somente por pessoas.
De Roure (2001), ao propor uma antevisão do futuro ambiente de
trabalho do cientista, chamado de E-Science, comenta, ao se referir ao
componente de conhecimento deste ambiente:
"Examples are the integration of authoring and reviewing processes in on-line documents. Such environments allow structured discussions of the evolution and development of an idea, paper or concept. The structured discussion is another annotation that can be held in perpetuity. This means that the reason for a position in a paper or design choice is linked to the object of discussion itself" (DE ROURE, 2001, p. 59.)
A Comunicação Científica (MEADOWS, 1999) tem
sido o mecanismo através do qual novos conhecimentos são
incorporados a uma área de conhecimento, garantindo assim o chamado
"conhecimento público" (ZIMAN, 1979). Mesmo hoje, utilizando as
facilidades da tecnologia da informação para prover acesso
ao texto completo de artigos, a Comunicação Científica
depende de um longo e demorado processo social, onde textos científicos,
após publicados, são lidos por pesquisadores, avaliados,
criticados e citados, passando pelos chamados filtros de qualidade, até
que o novo conhecimento possa enfim ser incorporado ao corpo da Ciência.
Apesar de desenvolvimentos importantes na Análise Documentária (SMIT, 1987), seu objetivo continua sendo o de prover acesso. Existe uma divisão implícita de trabalho: cabe à Análise de Documentária indexar para prover acesso, enquanto, ao usuário, um pesquisador/leitor, cabe o processamento do conteúdo do texto em termos de sua validade, coerência e confiabilidade para a Ciência.
O repositório deste novo conhecimento é o artigo científico. Apesar de todas as possibilidades de publicação no ambiente Web, periódicos eletrônicos são, ainda hoje, calcadas no modelo impresso, não aproveitando as potencialidades do ambiente Web. Miranda e Simeão (2002) em pesquisa sobre periódicos eletrônicos, destacam o pouco uso de características típicas do ambiente Web como interatividade, hipertextualidade, multimediação nos sites de acesso de distribuidores internacionais de periódicos eletrônicos como Elsevier, Galé, Ovid, Springer, ProQuest, SciELO, etc..
Desde o advento do computador pesquisas tem sido desenvolvidas no sentido de utiliza-lo como extensão das capacidades cognitivas humanas (LÉVY, 1993). A passagem de documentos em papel para documentos digitais, constitui-se numa mudança de qualidade, cujas conseqüências ainda não estão totalmente claras. O documento digital tem a possibilidade de se constituir numa nova e poderosa ferramenta cognitiva, em especial no contexto do projeto Web Semântica (BERNERS-LEE, 2001).
A Ciência da Informação pode avançar mais que simplesmente facilitar o acesso a textos científicos? Artigos científicos têm como objetivo serem portadores de conhecimento novo. Qual é a forma desse conhecimento? Como identifica-lo nos textos de artigos científicos? Como extraí-lo e formaliza-lo? Como agenciar programas para ajudar a processar este conhecimento? Estas questões constituem nossa agenda de pesquisa.
Como é discutido na Filosofia, conhecimento consiste em estabelecer relações entre fenômenos da realidade. Os manuais de metodologia científica estabelecem (MATTAR NETO, 2002), (ALVES-MAZOTTI, 2002), (MARCONI & LAKATOS, 2004) que, entre os elementos de metodologia científica, em especial é a hipótese aquele que encerra uma relação.
Também na área de Ciência da Computação (SOWA, 2000) uma base de conhecimento é formada por fatos e por regras de produção. Estas consistem em relações entre fatos ou fenômenos, representada sob a forma de cláusulas em lógica de primeira ordem, do tipo Se (fato ou fenômeno) então (fato ou fenômeno). Enquanto para a Ciência da Informação (BARRETO, 1999), conhecimento é um processo ocorrendo na mente de pessoas, a Ciência da Computação se preocupa com o aspecto representacional do conhecimento para que ele possa ser processado por programas; é nessa acepção que representação do conhecimento é utilizado nesta pesquisa.
A partir destas colocações, pode-se conjecturar se o artigo
científico publicado na Web, que é construído e estruturado
dentro de um formalismo estrito, especialmente nas Ciências da Saúde,
não poderia evoluir no sentido de se constituir num objeto digital
que incluísse, além de suas partes textuais, o conhecimento
novo representado em meio legível por computador? Seria possível,
através um editor de textos científicos, como subproduto
do processo de editar/publicar eletronicamente um artigo, extrair também
esse conhecimento e representá-lo em formato legível por
programas, em linguagem XML[1]? Carr (2004) afirma
que "in order to allow documents to unambiguously interpreted by both
human readers and software agents, knowledge should be an explicit part
of document representation". Assim tornar-se-ia possível agenciar
programas agentes de "software"[2] para apoiar pesquisadores
em tarefas como validar esse conhecimento, coteja-lo com o conhecimento
já existente, relaciona-lo com ontologias disponíveis na
Web, em especial na área de Ciências da Saúde, como
UMLS - Unified Medical Language System, <http://www.nlm.nih.gov/pubs/factsheet/umls.html>,
verificar sua coerência, seu grau de "novidade" ou sua contribuição
para determinada área do conhecimento, cotejá-lo e recupera-lo
semanticamente.
Esta pesquisa parte portanto das seguintes hipóteses:
* artigos científicos possuem, além da estrutura textual, chamada aqui de "estrutura superficial", uma "estrutura profunda" ou "estrutura de conhecimento", que pode ser extraída do texto e representada em formato legível por programas.
Para viabilizar e fornecer subsídios para a construção
deste editor de textos científicos, que concretize esta proposta,
deve ser desenvolvido um modelo do conhecimento contido no texto de artigos.
Propor e discutir tal modelo é o objetivo desse trabalho. Um modelo
inicial é proposto em Marcondes (2005a, b e c). Esta pesquisa analisa
artigos de periódicos eletrônicos da área de Ciências
da Saúde a partir desse modelo, para validá-lo e aperfeiçoá-lo.
A seguir as bases conceituais que embasaram o modelo proposto são
apresentadas e discutidas; a seguir o modelo é exposto e discutido;
finalmente, são apresentadas algumas conclusões e levantadas
novas questões suscitadas pela pesquisa.
2. Bases conceituais e teóricas
2.1 Conhecimento como relação
Em que consiste o conhecimento? Essa é uma discussão
que vem assumindo uma centralidade cada na Ciência da Informação,
tanto quanto em outras áreas do conhecimento. Quais as possibilidades
e quais as formas de termos acesso a ele? Existe um conhecimento público,
intersubjetivo, ou, ao contrário, o conhecimento é um processo
individual? Estas são perguntas que há muito tempo a Filosofia
vem se fazendo. A trajetória histórica da Filosofia, desde
os gregos, segundo Michel Dummett, citado por Marcondes (2004, p. 9), abrange
o enfoque a três questões: a questão ontológica
- o ser, seus componentes fundamentais, seus estados, com os pré-socráticos;
a questão do conhecimento - suas condições e possibilidades
- desde o estabelecimento do método científico com Descartes,
Bacon e Galileu, passando pelos empiristas com Locke, Berkley e Hume, até
a síntese formulada por Kant; evoluindo mais recentemente, a partir
de fins do século XIX e início do século XX, quando
a humanidade passa pelo impacto crescente da Ciência, para a questão
da linguagem como viabilizadora do conhecimento - a Filosofia da Linguagem.
Mas a preocupação com a correção da linguagem
que levaria ao conhecimento científico já é uma preocupação
da Ciência, antes da Filosofia da Linguagem, com o Discurso do Método,
de Descartes (2005) e com o Novo Organum, de Bacon (1973). Esta preocupação
se consubstanciou, ao longo da evolução da Ciência
desde o século XVI, no chamado Método Científico.
Textos científicos, em especial, os artigos científicos,
têm como objetivo serem portadores de conhecimento novo. Como é
desde há muito discutido na Filosofia, desde Aristóteles,
passando por Kant - para quem que a Relação é um dos
seus quatro conceitos puros do entendimento ou categorias, (KANT,
2001, p. 70) -, até moderna Lógica Formal conhecimento
consiste em estabelecer relações entre fenômenos da
realidade. Como os manuais de metodologia científica estabelecem,
entre os elementos de metodologia científica, em especial é
a hipótese o componente que encerra uma relação. Em
Ciência, o grau certeza desta relação vai diferenciar
uma hipótese, que tem ainda um caráter conjectural, de uma
lei.
Popper (2004, p. 27) afirma que "Um cientista, seja teórico
ou experimental, formula enunciados ou sistemas de enunciados e verifica-os
um a um. No campo das ciências empíricas, ele formula hipóteses
ou sistemas de teorias, e submete-os a teste, confrontando-os com a experiência".
Tanto um enunciado enquanto relação entre conceitos, quanto
sistema, trazem implícita a idéia de relação.
Outro estudioso da forma dos enunciados científicos foi Karl Hempel. Hempel afirma que a Ciência, além de relacionar fenômenos, busca explicá-los, relacionando fenômenos com sua explicação. Segundo este autor "a scientific explanation consist of two major "constituints": an explanandum, a sentence "describing the phenomenon to be explained" and an explanans, "the class of those sentences which are adduced to account for the phenomenon" (HEMPEL, 1965, p.247).
Neste sentido, as hipóteses, enquanto propostas de relações
entre fenômenos, têm importância decisiva enquanto manifestação
do conhecimento novo em Ciência. Marconi e Lakatos (2004, p. 141)
expressam assim este fato: "podemos considerar a hipótese como
um enunciado geral de relações entre variáveis (fatos,fenômenos)".
A manifestação concreta deste novo conhecimento, nos marcos
institucionais da Ciência, é o artigo científico, especificamente,
seu texto. É em torno da hipótese que se orienta e se organiza
toda a pesquisa científica, e, conforme sugerido aqui, em torno
dela que se organiza toda a argumentação no texto de um artigo
científico:
Todo artigo ou propõe enquanto um problema, ou desenvolve
e quantifica de forma original, ou re-contextualiza uma hipótese
já estabelecida por outro autor. Sob alguma destas formas,
uma hipótese (ou relação entre fenômenos) deve
aparecer implicitamente no texto de artigos científicos.
2.2 A Ciência da Informação e a análise
de textos de artigos científicos
A Ciência da Informação tem uma dívida muito
forte com a Filosofia da Linguagem. Este movimento filosófico iniciado
em fins do século XIX e início do século XX, estudava
a linguagem como forma de acesso ao conhecimento, daí a sua ênfase
em aperfeiçoar a linguagem como instrumento de acesso ao conhecimento,
sua estrutura lógica (Frege, Carnap Wittgestein, Russel, Hempel).
A Ciência da Informação herda da Filosofia da Linguagem a sua ênfase na análise do texto escrito como da manifestação lingüística capaz de conter ou veicular o conhecimento.
Se textos de artigos científicos podem conter conhecimento, o movimento da Ciência da Informação é prover acesso aos mesmos. A Ciência da Informação tem como um dos problemas sobre o qual se debruça desde os seus primórdios, a questão de otimizar a Comunicação Científica.
No entanto o processo de análise/representação temática empreendida pela Ciência da Informação visa somente à sua recuperação em sistemas automatizados e à identificação superficial de seu conteúdo, mais especificamente sobre o quê é o texto, seu "aboutness"[3]; este "sobre o quê" é expresso nas linguagens de representação temática por descritores que não mantém nenhuma relação semântica entre si. O trabalho de identificar o conhecimento contido no texto, as relações entre fenômenos, sua validade, sua coerência, sua contribuição para a Ciência, fica a cargo do leitor, o cientista, para quem todos os esforços dos sistemas de informação bibliográficos têm sido, no máximo, prover acesso.
Na literatura brasileira de Ciência da Informação também surgem trabalhos importantes de análise de textos para fins de documentação. Estes trabalhos, entre os quais os mais significativos são a produção do Grupo Temma, (SMIT, 1987) formado por pesquisadores da USP, incorpora à análise documentária o aporte da Semiologia e da Lingüística Estrutural de Saussure e Fillmore. Mais especificamente, o trabalho de Kobashi (1996), incorpora à análise documentária os aportes de Gardin (2001), sobre o raciocínio lógico contido em textos científicos e de Van Dijk (KINTSH, 1978), sobre macro-estruturas textuais. No entanto o objetivo da análise documentária de textos é ainda sua indexação, elaboração de resumos, com vistas a sua recuperação.
No que diz respeito ao texto de artigos científicos, pesquisas na área de Ciência da Informação logo perceberam que a estrutura altamente formalizada de artigos científicos poderia ser relacionada com seu conteúdo e, no mínimo, otimizar o acesso a este, num ambiente de sistemas automatizados de recuperação de informações. Os trabalhos de Kando (1997, 1999), por exemplo, propõe uma discriminação bastante profunda e exaustiva da estrutura tradicional do texto de um artigo científico - Introdução, Material e Métodos, Discussão e Conclusões - (chamada de primeiro nível) em mais dois níveis de detalhe, onde os componentes de um artigo científico, seus dados, a argumentação do autor, etc. são identificados. O autor utiliza esta divisão da estrutura do texto de artigos e a marcação destes elementos para otimizar a recuperação mais precisa do conteúdo dos artigos.
Nestes trabalhos, como nos de Kando, a estrutura dos textos de artigos científicos é altamente analisada, decomposta em seus componentes, para que o "aboutness" do texto possa ser extraído pelo documentalista com mais precisão, servir para melhor indexar o texto com vistas a sua recuperação; a identificação do conhecimento contido no texto do artigo, sua avaliação e integração ao "corpus" de conhecimento de uma determinada área, todas estas operações ficam a cargo do leitor. Estes trabalhos não ultrapassam a proposta histórica da Ciência da Informação, de prover acesso a documentos para pesquisadores.
2.3 A Ciência da Informação e a Ciência
da Computação
É histórica a aliança entre a Ciência da
Informação e a Ciência da Computação
para o tratamento e recuperação de informações
utilizando o computador. Desde os trabalhos pioneiros de Luhn (1968) ainda
na década de 50 com os índices KWIC, passando por de Salton
(1983) com a experiência do sistema SMART e com a indexação
vetorial, que vários pesquisadores de ambas as áreas têm
se engajado em pesquisas sobre recuperação de informações.
Na área de Inteligência Artificial e Sistemas Especialistas uma base de conhecimento é formada por fatos e pelas chamadas "regras de produção". Estas não são mais que relações entre fatos ou fenômenos, na forma de cláusulas binárias Se (fato ou fenômeno) então (fato ou fenômeno). Esforço significativo de pesquisa na área de Sistemas Especialistas consiste em formalizar o processo de aquisição de conhecimento, que consiste em formalizar o conhecimento de um especialista humano, representando-o por exemplo sob a forma de regras de produção. A Ciência da Computação se preocupa com o aspecto representacional do conhecimento, de modo a tornar viável seu processamento por programas.
Várias outras pesquisa, na área de Ciência da Computação, avançam diferentes propostas na linha de extração de texto ("text extraction") para visando categorização automática de documentos (LANGER, 2004) e criação automática de resumos (PAICE, 1993), (TEUFFEL, 1998). No entanto, devido às limitações dos modelos de análise de linguagem natural, a opção de extração de textos, mais pragmática embora mais limitada, pois não chega a se constituir em processamento de linguagem natural, tem se mostrado resultados práticos interessantes. No entanto, esta alternativa para o problema proposto não leva em conta nem as possibilidade oferecidas por um modelo da estrutura de conhecimento contida nos textos de artigos científicos nem as oferecidas pela interação com o autor/pesquisador num ambiente de autoria inteligente, para guiar o processamento e extrair o conhecimento de textos no momento da sua produção/edição/publicação em ambiente Web.
Se através de um ambiente de autoria, um editor de textos científicos,
for possível, como subproduto do processo de editar/publicar eletronicamente
um artigo, capturar também a relação estabelecida
no artigo e representa-la em formato legível por programas, utilizando-se
por exemplo a linguagem XML, torna-se possível agenciar programas,
os agentes inteligentes, para apoiar o pesquisador no seu trabalho de validar
o conhecimento contido em artigos, coteja-lo com o conhecimento já
existente, verificar sua coerência, verificar seu grau de "novidade"
ou sua contribuição para determinada área do conhecimento,
compará-lo e recupera-lo semanticamente com muito mais precisão.
3. Modelo Proposto
O resultado dessa pesquisa é a proposta de um modelo. Um ponto de partida fundamental para o desenvolvimento de um ambiente Web de autoria e recuperação de informações como o descrito anteriormente é o estabelecimento de um modelo para este processo. Um tal modelo inicial foi delineado em Marcondes (2005a) com base na literatura de comunicação científica, publicações eletrônicas, Web Semântica, Epistemologia e Filosofia da Ciência e Ciência da Computação.
O modelo se desdobra em três níveis: primeiro, um ambiente Web de publicações eletrônicas e recuperação de informações no qual pesquisadores editam e publicam seus artigos segundo o esquema proposto possibilitando agenciar programas agentes inteligentes para validar o conhecimento contido nos artigos, verificar sua consistência, identificar indícios de novidade científica e recuperar de forma semanticamente mais rica o conhecimento contido nestes artigos. Este nível do modelo esta ilustrado na Figura 1; deve permitir ao pesquisador simultaneamente ao editar/publicar seu artigo, capturar os elementos do raciocínio científico de modo a permitir registrá-los e identificá-los individualmente. Segundo, modelo de tipos de raciocínio em artigos científicos e consequentemente a estrutura dos componentes lógicos do artigo como Problema, Hipóteses, Resultados, Conclusões; e terceiro, modelo de representação desses componentes lógicos em formato legível por programas, em linguagem XML.
A pesquisa relativa ao primeiro nível do modelo, o ambiente Web para editar/publicar artigos não será desenvolvida neste momento. Este artigo trata especificamente da validação do modelo de tipos de raciocínio e estrutura lógica dos componentes do artigo, os níveis 2 e 3; esta validação consiste em analisar e processar manualmente o que faria um editor científico que permitisse publicação e registro simultâneos de textos de artigos e do conhecimento aí contido em formato legível por programas. Espera-se que a análise empírica de artigos reais e a sistematização dos resultados dessa análise possa fornecer subsídios para reformulação e aperfeiçoamento do modelo. A seguir o modelo é descrito e são apresentados os resultados da análise.
Os artigos analisados foram escolhidos na área de Ciências da Saúde devido ao alto grau de formalização e padronização da sua documentação. A pesquisa analisou 20 artigos da versão eletrônica do periódico Memórias do Instituto Oswaldo Cruz, <http://www.scielo.br/revistas/mioc>, e outros 20 do periódico Brazilian Journal of Medical and Biological Research, <http://www.scielo.br/revistas/bjmbr>. Artigos científicos, em especial nessa área, tem uma estrutura altamente formalizada, a assim chamada IMRAD, "Introduction, Methods, Results, and Discussion", cujo objetivo é, literalmente, refletir o método científico.
A análise de um artigo inicia-se por classifica-lo com base no modelo de raciocínio empregado. Esta classificação é baseado em Hutchins (1997) e Gross (1990) e em textos de e sobre Pierce (HOFFMAN.1997), um dos maiores estudiosos de Lógica.
Baseado nestas propostas considerou-se a seguinte classificação: artigos podem ser teóricos ou experimentais; artigos teóricos seriam os que propõe novas hipóteses; artigos experimentais testam experimentalmente hipóteses já formuladas ou formulam e testam experimentalmente uma nova hipótese; estes podem usar os métodos de raciocínio dedutivo (no primeiro caso) ou indutivo (no segundo).
Artigos teóricos se caracterizam por discutirem questões de maior abrangência. Analisam criticamente diversas hipóteses anteriores, mostrando suas fragilidades. Estes artigos são os que têm mais potencial de apresentarem contribuições para a Ciência, já que discutem ou questionam o paradigma vigente (OLIVA, 1994). Sua contribuição é a formulação de uma nova hipótese, indicando um novo caminho de pesquisa. O tipo de raciocínio empregado é o abdutivo ou seja, o "insight" e a formulação de novas hipóteses. Artigosteóricos-abdutivos não trazem resultados experimentais.
Artigos experimentais se dividem em dedutivos e indutivos. Ambos se caracterizam por discutirem questões num escopo de abrangência limitado. Não discutem os rumos de uma teoria científica, mas se limitam a confirma-la ou aperfeiçoa-la. Sempre trazem resultados experimentais.
A característica dos artigos que utilizam o raciocínio dedutivo é trabalharem a partir de hipóteses já formuladas anteriormente, cujas referências vêem citadas, aplicando-as a um contexto específico.
Os artigos que utilizam o raciocínio indutivo se caracterizam por formularem e testarem uma proposta com um certo grau de originalidade, dentro do paradigma científico vigente.
Os componentes identificados, que formam o modelo de análise, são os seguintes; um artigo científico se organiza a partir de um PROBLEMA; um PROBLEMA expressa uma carência, insatisfação ou deficiência conceitual com o atual estado de coisas num domínio de conhecimento.
A partir do PROBLEMA, este é inserido numa relação que pode resolver a carência ou deficiência; esta relação é a HIPÓTESE. Uma HIPÓTESE enuncia relações entre fenômenos. Uma HIPÓTESE se desdobra em ANTECEDENTE, TIPO-RELAÇÃO e CONSEQUENTE. Um autor num artigo pode formular uma hipótese original - HIPÓTESE(o) ou tomar a hipótese anterior - HIPÓTESE(a) - de outros autores; neste caso uma ou mais citações referentes à HIPÓTESE(a) - CITAÇÕES(h) - são feitas.
Um autor também pode analisar várias HIPÓTESE(a) para mostrar que elas são insatisfatórias como soluções para o PROBLEMA e formular sua HIPÓTESE(o).
Um artigo teórico-abdutivo se justifica simplesmente por propor uma nova HIPÓTESE(o).
A hipótese, num artigo experimental, deve ter uma MANIFESTAÇÃO concreta observável empiricamente. Em um artigo científico, significa ter RESULTADOS observados segundo determinada MEDIDA, em determinado CONTEXTO segundo determinada METODOLOGIA. Este CONTEXTO onde os fenômenos relacionados na HIPÓTESE são observados pode ser desdobrado em AMBIENTE - comunidade ou instituição onde o fenômeno ocorre -, ESPAÇO - o lugar onde o fenômeno ocorre -, TEMPO ou época em que o fenômeno ocorre e GRUPO de indivíduos onde o fenômeno ocorre.
O desenvolvimento do raciocínio num artigo teórico-abdutivo
segue o seguinte padrão:
O desenvolvimento do raciocínio num artigo experimental-dedutivo
segue o seguinte padrão:
O desenvolvimento do raciocínio num artigo experimental
indutivo segue o seguinte padrão:
Depois de classificados quanto ao tipo de raciocínio científico,
artigos são analisador, identificado-se os componentes descritos
anteriormente. Numa segunda fase de análise, os componentes da HIPÓTESE
são relacionados ao "conhecimento público" de uma determinada
área, identificando-os com termos contidos numa base de conhecimento
disponível na Web, no caso a UMLS (para os ANTECEDENTE e CONSEQUENTE)
e UMLS Semantic Network (para TIPO DE RELAÇÃO).
Um exemplo de artigo analisando segundo este modelo pode ser visto na
Figura
2. A representação do conhecimento nele contido em linguagem
XML seria a seguinte:
<?xml version="1.0" encoding="ISO8859-1" ?> |
* "que artigos tem hipóteses relacionando outros fatores que não HPV como causa de lesões pré-neoplásicas e neoplásicas em mulheres?"
* que artigos tem hipóteses relacionando HPV como causa de lesões pré-neoplásicas e neoplásicas em outros grupos?"
* que artigos tem hipóteses relacionando HPV como causa de outras patologias em mulheres?"
* em que diferentes condições contextuais existem artigos com hipóteses relacionando HPV como causa de lesões pré-neoplásicas e neoplásicas em mulheres?"
A importância em marcar os elementos descritos e registrá-los em formato legível por programas como proposto é viabilizar que programas agentes de "software" ou sistemas de recuperação de informações possam fazer diversas inferências baseados nestas relações e auxiliar pesquisadores em tarefas que hoje são demoradas e pouco formalizadas, como acessar e recuperar de forma semanticamente mais rica informação relevante, verificar a originalidade, validade, coerência e importância de contribuições para a Ciência.
A agenda de pesquisa a ser desenvolvida se desdobra em pelo menos três etapas. Na etapa descrita aqui, trata-se de propor e validar um modelo para o conhecimento contido no texto de artigos científicos em um formato legível por programas, usando linguagem XML.
A medida que o conhecimento contido em artigos científicos possa ser extraído e registrado em formato legível por programas, através de um ambiente de autoria, um editor de textos científicos, artigos publicados segundo esse modelo podem ser recuperados de forma semanticamente muito mias rica e precisa. O desenvolvimento deste ambiente de autoria, as estratégias a serem aí utilizadas para extrair o conhecimento contido no texto de um artigo científico durante o processo de sua edição/publicação na Web, constituem uma outra etapa dessa pesquisa.
Por fim, o modelo pode ser útil também para sinalizar indícios de novas descobertas, artigos que seguem o padrão de raciocínio abdutivo e quando alguns ou todos os elementos de uma HIPÓTESE não puderem ser mapeados no "conhecimento estabelecido". Esta alternativa vai ser explorada na etapa seguinte da pesquisa, ao se analisar também artigos científicos modelares que veiculam descobertas significativas para avaliar em que medida estes se desviam do padrão identificado.
| FORMULÁRIO PARA ANÁLISE DE ARTIGOS | |
| Periódico: Memórias do Instituto Oswaldo Cruz | <http://www.scielo.br/revistas/mioc> |
| Referência do Artigo
CAMARA, Geni NL, CERQUEIRA, Daniela M, OLIVEIRA, Ana PG et al. Prevalence of human papillomavirus types in women with pre-neoplastic and neoplastic cervical lesions in the Federal District of Brazil. Mem. Inst. Oswaldo Cruz. [online]. Oct. 2003, vol.98, no.7 [cited 10 March 2005], p.879-883. Available from World Wide Web: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0074-02762003000700003&lng=en&nrm=iso>. ISSN 0074-0276 |
|
|
|
|
| Dedutivo: X Indutivo: Abdutivo: | |
|
|
|
| As a contribution to the public health authorities in planning
prophylactic and therapeutic vaccine strategies, we describe the prevalence
of human papillomavirus (HPV) types in women presenting abnormal cytological
results in Pap smear screening tests in the Federal District, Central Brazil.(Abstract)
In contrast to what is observed in developed countries, cervical cancer mortality in Brazil is still high.(Introdução) |
|
|
|
|
| The chronic infection by certain types of human papillomavirus (HPV) is definitely related to the incidence of cervical cancer (Lorincz et al. 1992, IARC 1995) and the HPVs -16, -18, -31, -33, -35, -45, -51, -52, and -58 can now be considered as cervical carcinogenic agents (Muñoz 2000). Squamous carcinomas and adenocarcinomas are the most frequent cervical neoplasias, and may develop from intraepithelial lesions, easily detected in preventive cytological exams (Sherman et al. 1994). | |
| Relação normalizada
HPV esta relacionado com lesões pré-neoplasticas e neoplásticas a)A infecção por certos tipos de HPV pode ser a causa do câncer cervical de várias mulheres b) O HPV-16 é o mais comum na nossa população |
|
| Antecedente: HPV, diversos tipos / Papillomavirus Humano | |
| Tipo de relação: causa / "causes", T147 UMLS SN | |
| Conseqüente: lesões pré-neoplasticas e neoplásticas em mulheres, câncer cervical, neoplasias / Infecções Tumorais por Vírus, Neoplasias do Colo | |
| Citações: (Lorincz et al. 1992, IARC 1995), (Muñoz 2000), (Sherman et al. 1994). | |
|
|
|
| Resultado: | |
| Medida: prevalência | |
| Contexto:
Ambiente: Local: Distrito Federal, Brasil Tempo: Grupo: mulheres |
|
| Metodologia: | |
|
|
|
| Observações: | |
[*] Participaram desta pesquisa como Bolsistas de Iniciação
Científica Ariane Silva Santa Rita Ferreira, Henrique Mendonça,
Vera Rolim
[1] XML- Extensible Markup Language, Linguagem de Marcação
Extensível ,um padrão do W3C. <http://www.w3c.org/xml>
[2] Ver definição de agentes de software na Wikipedia
em <http://en.wikipedia.org/wiki/Software_agents>
[3] Ver a definição de Binger Hjorland em
<http://www.db.dk/bh/Core%20Concepts%20in%20LIS/articles%20a-z/aboutness.htm>
Referências bibliográficas
ALVES_MAZZOTTI, Alda; GEWANDSZNAJDER, Fernando. O Método nas Ciências naturais e sociais: pesquisa quantitativa e qualitativa. São Paulo : Pioneira Thomson Learning, 2002.
BACON, Francis. Novum organum. São Paulo : Abril Cultural, 1973. (Coleção Os pensadores, 13).
BARRETO, Aldo de Albuquerque. A oferta e a demanda da informação: condições técnicas, econômicas e políticas. Ciência da Informação, Brasília, v..28, n.2, maio/ago. 1999. p.168-142. Disponível em <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-19651998000200003&lng=pt&nrm=iso>. Acesso em 18 junho 2005.
BERNERS-LEE, Tim; HENDLER, James; LASSILA, Ora. The semantic web. Scientific American, May, 2001. Disponível em <http://www.scian.com/2001/0501issue/0501berners-lee.html>, Acesso em 24 maio 2001.
CARR, L.; MILES-BOARD, T.; WOUKEU, A.; WILLS, G.; HALL, W. The case for explicit knowledge in documents. In: THE ACM SYMPOSIUM ON DOCUMENT ENGINEERING, 2004, Milwaukee, Wiscosin. Proceedings... Milwaukee: ACM, 2004, p. 90-98. Disponível em: <http://www.eprints.ecs.soton.ac.uk/9360/> Acesso em: 07 ago. 2005.
DE ROURE, David; JENNINGS, Nicholas; SHADBOLT, Nigel. Research agenda for the Semantic Grid: a future s-Science infraestructure. (Report commissioned for EPSRC/DTI Core e-Science Programme). 2001.
DESCARTES, René. Discurso do método. São Paulo : Martin Claret, 2005. (Coleção Obra prima de cada autor).
GARDIN, Jean-Claude. Vers un remodelage des publications savantes: ses rapports avec sciences de l'information. In: Chaudiron, Stéphane, Fhlur, Christian. Filtrage et résumé automatique de l' information sur les réseaux., Conference invitee - Colloque ISKO-France, 3. 5-6 juillet, 2001. Univesité de Nanterre - Paris X, 2001.
GROSS, Alan G. The Rhetoric of Science. Cambridge, Massachusetts; Londres, Inglaterra : Harvard University Press,1990.
HEMPEL, Karl. Aspects of scientific explanation and other essays in the philosophy of science. New York : Free Press, 1965.
HOFFMANN, Michael. Is there a "Logic" of Abduction? In: CONGRESS OF THE IASS- AIS International Association for Semiotics Studies, Guadalajara, Mexico, 1997, 6th, Proceeedings... Disponível em <http://www.unibielefeld.de/idm/personen/mhoffman/papers/abduction-logic.html>. Acesso em 14 dez. 2005.
HUTCHINS, John. On the structure of scientific texts. In: UEA Papers in Linguistics, 5 th., 1977, Norwich. Proceedings...Norwich, UK: University of East Anglia, 1977. p. 18-39.Disponível em: <http://ourworld.compuserve.com/homepages/wjhutchins/UEAP/L-1977.pdf>. Acesso em: 30 mar. 2006.
KANDO, Noriko. Text-level structure of research papers: implications for text-based information processing systems. In: ANNUAL BCS-IRSG COLLOQUIUM ON IR RESEARCH, 19th., 1997, Aberdeen. Proceedings... Aberdeen, Scotland: Springer-Verlag, 1997. p. 68-81. Disponível em : <http://www.scholar.google.com/scholar?hl=en&lr=&q=cache:Da9bLQqHqRQJ:research.nii.ac.jp/~kando/>. Acesso em: 03 out. 2005.
KANDO, Noriko. Text structure analysis as a tool to make retrieved documents usable. In: INTERNATIONAL WORKSHOP ON INFORMATION RETRIEVAL WITH ASIAN LANGUAGES, 4th., 1999, Taipei. Proceedings... Taipei, Taiwan: Academia Sinica, 1999. p. 126-135. Disponível em: <http://www.scholar.google.com/scholar?hl=en&lr=&q=cache:ZFHr2MhHmWYJ:research.nii.ac.jp/~kando/>. Acesso em: 03 out. 2005.
KANT, Immanoel. Crítica da Razão Pura. São Paulo : Nova Cultural, 1991. (Coleção os Pensadores, 7).
KINTSH, Walter; VAN DIJK, Teun A. Towards a model of text comprehension and production. Psycological Review, v. 84, n. 5, Sept. 1972. p.363-393.
KOBASHI, Nair. A elaboração de informações documentais: em busca de uma metodologia. Tese (doutorado), Escola de Comunicação e Artes, USP. São Paulo, 1994.
LANGER, Hangen; LÜNGEN, Harald; BAYERL, Petra Sakia. Text Type Structure and Logical Document Structure. 2004. Disponível em <http://acl.ldc.upenn.edu/acl2004/discourseannotation/pdf/langer.pdf>. Acesso em 8 de nov. 2005.
LÉVY, Pierre, As tecnologias da inteligência: o futuro do pensamento na era da informática. Rio de Janeiro : Ed. 34, 1993. 208 p. (Coleção Trans).
LUHN, H. P. Keyword-in-context Index for Technical Literature (KWIC
Index)
Yorktown Heights, NY, International Business Machines Corp, 1959.
MEADOWS, Arthur Jack. A comunicação científica. Brasília : Briquet de Lemos, 1999.
MARCONDES, Carlos H. From scientific communication to public knowledge: the scientific article Web published as a knowledge base. In: Egelen, Jan, Dobreva, Milena, ed. ICCC ElPub - INTERNATIONAL CONFERENCE ON ELECTRONIC PUBLISHING, Leuven, Bélgica, 2005, 9, Proceedings... Leuven, Bélgica, 2005. p.119-27. Disponível em <http://elpub.scix.net>
MARCONDES, Carlos H; MENDONÇA, Marília A. R; MALHEIROS, Luciana. A estrutura dos elementos de metodologia científica no textos de artigos de periódicos eletrônicos em Ciências da Saúde. In: International Conference on Health Information and Libraries, 9, Salvador, Bahia, Brasil, Proceedings... Salvador, 2005. Disponível em <http//www.icml9.org/program/track5/public/documents/Carlos Henrique Marcondes-112049.doc>.
MARCONDES, Carlos H. Da comunicação científica ao conhecimento público: artigos científicos digitais como bases de conhecimento. In: ENANCIB - Encontro da Associação Nacional de Pesquisa e Pós-graduação em Ciência da Informação, 6, nov. 2005, Florianópolis, Santa Catarina, Brasil, Anais... , 2005. (Anais em CD-ROM).
MARCONDES, Danilo. Filosofia analítica. Rio de Janeiro : Jorge Zahar, 2004. (Coleção Passo a passo).
MARCONI, Marina de Andrade; LAKATOS, Eva Maria. Metodologia científica. São Paulo : Editora Atlas, 2004.
MATTAR NETO, José Augusto. Metodologia científica na era da informática. São Paulo : Saraiva, 2002.
MIRANDA, Antonio; SIMEÃO, Elmira. A conceituação de massa documental e o ciclo de interação entre tecnologia e o registro do conhecimento. DataGramaZero, v.3, n. 4, ago. 2002. Disponível em <http://www.dgz.org/ago02/Art_03.htm>, acesso em 15 nov. 2003.
OLIVA, Alberto. Kuhn: o normal e o revolucionário na reprodução da racionalidade científica. In: PORTOCARRERO, Vera (org). Filosofia, história e sociologia das ciências. Rio de Janeiro : Ed. FIOCRUZ, 1994. p. 67-102.
PAICE, Chris D.; JONES, Paul A. The identification of important concepts in highly structured technical papers. In: ANNUAL INTERNATIONAL ACM/SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, 16th., 1993, Pittsburgh. Proceedings... Pittsburgh, PA: ACM, 1993. p. 69-78. Disponível em: <http://www.ils.unc.edu/~cablake/inls110_S06/Refs/PaiceJones.pdf>. Acesso em: 30 abr. 2006.
POPPER, Karl. A lógica da pesquisa científica.
São Paulo : Ed. Cultrix, Ed. USP, 2001.
SALTON, G.; MCGILL, M. J. Introduction to Modern Information Retrieval.
New York : McGraw-Hill Book Company, 1983.
SMIT, Johanna. Análise documentária: análise da síntese. Brasília : IBICT, 1987.
SOWA, John. Knowledge representation: logical, philosophical and computacional foudations. Pacific Grove : Brooks/Cole, 2000.
TEUFEL, Simone. Meta-discourse markers and problem-structuring in scientific articles. In: WORKSHOP DISCOURSE STRUCTURE AND DISCOURSE MARKERS, 1998, Montreal. Proceedings...Montreal: ACL, 1998. p. 43-49. Disponível em: <http://acl.ldc.upenn.edu/w/w98/0307.pdf>. Acesso em: 08 nov. 2005.
ZIMAN, John. Conhecimento público. Belo Horizonte : Itatiaia,
São Paulo : Ed. da Universidade de São Paulo, 1979.
Sobre os autores / About the Authors:
Carlos H. Marcondes
marcon@vm.uff.br
Departamento de Ciência da Informação
Marília A. R. Mendonça
mariliaalvarenga@terra.com.br
Departamento de Ciência da Informação
Luciana R. Malheiros
malheiro@vm.uff.br
Departamento de Fisiologia e Farmacologia
Universidade Federal Fluminense, Niterói - RJ, Brasil