Campus Salvador Teses - Salvador
Use este identificador para citar ou linkar para este item: https://repositorio.ifba.edu.br/jspui/handle/123456789/1064
Registro completo de metadados
Campo DCValorIdioma
dc.creatorOliveira, Davi Alves-
dc.date.accessioned2026-04-13T12:37:52Z-
dc.date.available2025-12-02-
dc.date.available2026-04-13T12:37:52Z-
dc.date.issued2025-10-06-
dc.identifier.citationOLIVEIRA, Davi Alves. Redes da textualidade: ciência das redes aplicada à modelagem da coesão lexical. 2025. 172 f. Tese (Doutorado) – Programa de Pós-Graduação Multi-Institucional em Difusão do Conhecimento (PPGDC/DMMDC), Instituto Federal da Bahia, Salvador, 2025.pt_BR
dc.identifier.urihttps://repositorio.ifba.edu.br/jspui/handle/123456789/1064-
dc.description.abstractThis doctoral thesis aimed to develop a generalizable model of lexical cohesion based on network science to evaluate patterns in texts of different genres. Its specific objectives were: (a) to define network-based indices of lexical cohesion to differentiate texts from random sets of sentences, (b) to characterize the topology of the networks to verify emergent patterns and establish analysis criteria, (c) to construct a network-based method for analyzing lexical cohesion, and (d) to analyze the lexical cohesion of different text genres to classify them. Adopting critical rationalism and Grounded Theory, four experiments were conducted based on data mining and network analysis. Experiment 1 defined six indices of lexical cohesion and evaluated them in 60 texts from 6 genres and 60 pseudo-texts. The indices were calculated for each sentence and average indices were calculated for each text and each pseudo-text. The values of the indices were. Three indices differentiated texts from pseudo-texts, and one differentiated text genres. The first 10 to 60 sentences proved sufficient for the analysis of textual cohesion with the proposed method. Experiment 2 investigated the impact of different definitions of elements inserted in the networks’ construction. The definitions did not affect the identification of small-world behavior, calculated by efficiency, but influenced the identification of scale invariance. Experiment 3 defined levels of pseudo-texts and non-texts, comparing their cohesion indices with texts. The need for manual text cleaning was also evaluated, and the edge definition method was revised. The revised method and the use of uncleaned texts proved efficient. Non-texts generated by random tokens and uniform random selection resulted in the most appropriate null model. Experiment 4 replicated the results of Experiment 1 with 870 texts and 145 non-texts using the Method for Lexical Cohesion Analysis Based on Network Science initiated in Experiment 1 and refined in Experiments 2 and 3. The average indices of lexical cohesion showed statistically significant differences between texts and non-texts in the six genres, with emphasis on the Average Global Backward Vertex Cohesion Index, which is affected by text size. The global backward vertex and edge cohesion indices exhibited distinct behaviors per genre in their evolution throughout the text. Text classification using the Average Global Backward Vertex Cohesion Index and the logarithm of the number of periods achieved an average accuracy of 70%. It was concluded that network-based indices capture lexical repetition patterns that characterize texts, differentiating them from non-texts and capturing differences between genres, mainly the Average Global Backward Vertex Cohesion Index. The model contributes to unifying computational methods of textual analysis and psycholinguistic theories of text, formalizing its computational representation as a complex system. Based on the results, six hypotheses were constructed to expand the model.pt_BR
dc.languageporpt_BR
dc.publisherInstituto Federal de Educação, Ciência e Tecnologia da Bahiapt_BR
dc.rightsAcesso Abertopt_BR
dc.rightsAttribution 3.0 United States*
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/us/*
dc.subjectCoesão textualpt_BR
dc.subjectCoesão lexicalpt_BR
dc.subjectCiência das redespt_BR
dc.subjectRedes semânticaspt_BR
dc.subjectRedes textuaispt_BR
dc.subjectTextual cohesionpt_BR
dc.subjectLexical cohesionpt_BR
dc.subjectNetwork sciencept_BR
dc.subjectSemantic networkspt_BR
dc.subjectTextual networkspt_BR
dc.titleRedes da textualidade: ciência das redes aplicada à modelagem da coesão lexicalpt_BR
dc.typeTesept_BR
dc.contributor.advisor1Pereira, Hernane Borges de Barros-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/1706259684834362pt_BR
dc.contributor.referee1Kritz, Maurício Vieira-
dc.contributor.referee2Miranda, José Garcia Vivas-
dc.contributor.referee3Oliveira, Roberta Pires de-
dc.contributor.referee4Pacheco, Roberto Carlos dos Santos-
dc.description.resumoEste trabalho doutoral objetivou elaborar um modelo generalizável de coesão lexical baseado na ciência das redes para avaliar padrões em textos de diferentes gêneros. Como objetivos específicos, pretendeu: (a) definir índices de coesão lexical baseados em redes para diferenciar textos de conjuntos aleatórios de períodos, (b) caracterizar a topologia das redes utilizadas para verificar padrões emergentes e estabelecer critérios de análise, (c) construir um Método de Análise da Coesão Lexical Baseada na Ciência das Redes e (d) analisar a coesão lexical de diferentes gêneros textuais para classificá-los. Adotando o racionalismo-crítico e a Teoria Fundamentada em Dados, foram conduzidos quatro experimentos baseados em mineração de dados e análise de redes. O Experimento 1 definiu seis índices de coesão lexical e os avaliou em 60 textos de 6 gêneros e 60 pseudotextos. Os índices foram calculados para cada período e índices médios foram calculados para cada texto e pseudotexto. Três índices médios diferenciaram textos de pseudotextos e um diferenciou gêneros textuais. Os primeiros 10 a 60 períodos se mostraram suficientes para a análise da coesão lexical com o método proposto. O Experimento 2 investigou o impacto de diferentes definições de elementos inseridos na construção das redes. As definições não afetaram a identificação do comportamento de mundo pequeno calculado pela eficiência, mas influenciaram a identificação da invariância de escala. O Experimento 3 definiu níveis de pseudotextos e não-textos, comparando seus índices de coesão com textos. Também foi avaliada a necessidade de limpeza manual de textos e foi feita a revisão do método de definição de arestas. O método revisado e o uso de textos sem limpeza mostraram-se eficientes. Não-textos gerados por tokens aleatórios e seleção aleatória uniforme resultaram no modelo nulo mais apropriado. O Experimento 4 replicou os resultados do Experimento 1 com 870 textos e 145 não-textos utilizando o Método de Análise da Coesão Lexical Baseada na Ciência das Redes iniciado com o Experimento 1 e refinado nos Experimentos 2 e 3. Os índices de coesão lexical médios apresentaram diferenças estatisticamente significativas entre textos e não-textos nos seis gêneros, com destaque para o Índice Médio de Coesão Regressiva Global de Vértices, afetado pelo tamanho do texto. Os índices de coesão regressiva global de vértices e de arestas exibiram comportamentos distintos por gênero em sua evolução ao longo do texto. A classificação de textos usando o Índice Médio de Coesão Regressiva Global de Vértices e o logaritmo do número de períodos alcançou 70% de acurácia média. Concluiu-se que os índices baseados em redes capturam padrões de repetição lexical que caracterizam textos diferenciando-os de não-textos e capturam diferenças entre gêneros, principalmente o Índice Médio de Coesão Regressiva Global de Vértices. O modelo contribui para unificar métodos computacionais de análise textual e teorias psicolinguísticas de texto, formalizando sua representação computacional como sistema complexo. Com base nos resultados, seis hipóteses foram construídas com vistas a expandir o modelo.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentPROGRAMA DE PÓS-GRADUAÇÃO MULTI-INSTITUCIONAL EM DIFUSÃO DO CONHECIMENTO (DMMDC)pt_BR
dc.publisher.programDoutorado Multi-Institucional e Multidisciplinar em Difusão do Conhecimento (DMMDC)pt_BR
dc.publisher.initialsIFBApt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOpt_BR
Aparece nas coleções:Teses - Salvador

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
TESE_DAVI ALVES OLIVEIRA_PPGDC.pdf11.37 MBAdobe PDFVisualizar/Abrir
TERMO_DAVI ALVES OLIVEIRA_PPGDC_DMMDC.pdf183.83 kBAdobe PDFVisualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons

Ferramentas do administrador