O conhecimento científico se baseia na observação controlada dos fatos, buscando a adequação do conhecimento produzido ao real. Contudo, a ideia de objetividade não pode ser tomada em termos absolutos e simplistas. A observação do objeto de estudo é guiada pela teoria adotada pelo pesquisador acerca desse objeto, ou seja, a observação nunca é desprovida de qualquer pressuposto. A teoria acerca do objeto de estudo, para ter validade científica, deve gerar afirmações e predições, ou seja, hipóteses, que possam ser confirmadas ou negadas pelos fatos observados. Essa verificação empírica das hipóteses está no centro da produção do conhecimento científico.
...O campo de observação dos fatos no qual o pesquisador testa suas hipóteses deve ser rigorosamente delimitado e controlado, no sentido de que ele pode ser verificado e reproduzido por outrem. Assim, na produção do conhecimento científico, tanto a teoria (ou seja, a concepção geral do objeto de estudo e os pressupostos adotados), quanto a metodologia (ou seja, os procedimentos adotados para a verificação empírica das hipóteses geradas pela teoria), devem sempre ser explicitadas e detalhadas.
O pesquisador não pode observar diretamente a realidade como um todo, na verificação de suas hipóteses. É preciso fazer recortes, delimitar o campo de observação, reproduzir as condições físicas em laboratório, ou colher amostras do objeto, para poder fazer uma observação controlada e rigorosa dos fatos e processos do mundo real. A análise sociolinguística tem por objeto os padrões coletivos de comportamento linguísticos em uma comunidade de fala. Esses padrões de comportamento linguístico se diferenciam, de acordo com certas características dos falantes, como: sexo, idade, classe social, etnia, nível de escolaridade etc.
Diante disso, uma questão importante na metodologia da pesquisa sociolinguística (e de toda pesquisa científica que trabalha com amostragens) é como colher uma amostra que seja representativa da comunidade de fala e que possibilite a descrição das diferenças nos seus padrões de comportamento linguístico. Na constituição de amostras, o procedimento padrão é selecionar aleatoriamente indivíduos representativos de todas as diferenças que afetam o comportamento linguístico, ou seja, é feita uma seleção de falantes de acordo com as variáveis sociais que o pesquisador assume que afetem a configuração social da língua. No Brasil, as amostras de fala constituídas pela pesquisa sociolinguística são tradicionalmente estratificadas segundo as variáveis sociais: sexo/gênero, idade e nível de escolaridade. Dessa forma as amostras são estratificadas em células que resultam da combinação dos valores das variáveis sociais adotadas (um exemplo de célula seria a de homens, jovens, com apenas o ensino fundamental). As pesquisas sociolinguísticas costumam selecionar ao menos dois indivíduos por célula.
Feita a seleção dos indivíduos, os pesquisadores gravam com cada indivíduo selecionado uma amostra da sua fala mais espontânea, o que Labov (2008[1972]) denominou vernáculo. Esse interesse primacial no vernáculo se explica porque é na fala espontânea que a variação na língua ocorre em seu espectro mais amplo. É bom lembrar que a Sociolinguística procura analisar a mudança que ocorre ao longo do tempo, observando a variação que se encontra em cada momento na língua, no que se denomina estudo da mudança em tempo aparente.
Ocorre que os pesquisadores não podem sair por aí simplesmente gravando os falantes conversando descontraidamente, em mesas de bar, por exemplo. Em primeiro lugar, porque os Comitês de Ética exigem que as gravações só sejam feitas com consentimento explícito dos falantes. Além disso, uma conversa descontraída com muitas pessoas costuma ser fragmentária, quando não um tanto quanto caótica. A análise linguística requer uma elocução com um nível razoável de estruturação, o que só pode ser obtido com o pesquisador entrevistando um falante de cada vez. Porém, estar diante de um linguista com um microfone em punho não é a situação mais favorável para alguém falar espontaneamente. Essa contradição constitui o que Labov (2008[1972]) denominou paradoxo do observador.
Dentre as técnicas empregadas para superar o paradoxo do observador, a primeira é não dizer inicialmente que a pesquisa é sobre a língua (embora isso deva ser revelado ao final da entrevista). Costuma-se dizer que se trata de uma investigação sobre os padrões de comportamento humano. Outro expediente é tratar de temas que levem o falante a se envolver emocionalmente com o que está falando, de modo a não prestar atenção ao como está falando. O mais importante mesmo é o pesquisador ter a sensibilidade e a técnica para conduzir a entrevista, falando o menos possível, deixando o falante bem à vontade e confortável, e induzindo a conversa a fluir livremente, como em uma sessão de psicanálise.
O comportamento linguístico não se diferencia apenas em função das diferenças sociais entre os indivíduos (a chamada variação social ou diastrática da língua), a forma como cada pessoa fala também varia em função da situação em que se encontra, do(s) seu(s) interlocutor(es), do efeito que quer provocar com sua fala etc. É o que se denomina variação estilística ou diafásica, composta pelos diferentes estilos ou registros de fala: cerimonioso, muito formal, formal, informal, muito informal. Diante disso, a pesquisa sociolinguística deve colher, além do vernáculo (registro informal), registros mais formais de fala, para analisar a variação estilística. Esses dados são cruciais para identificar potenciais processos de mudança na língua.
Na pesquisa que o Projeto Vertentes conduziu junto às variedades populares do português no Estado da Bahia, só foi possível colher amostras do vernáculo dos falantes com baixa ou nenhuma escolaridade. Porém, na etapa atual da pesquisa, com falantes com alto nível de escolaridade, além da entrevista informal, é obtida uma gravação de uma fala formal, palestra ou conferência que o entrevistado proferiu. Além disso, ao final da entrevista informal, é pedido que o entrevistado leia um pequeno texto escrito, uma lista de palavras e um conjunto de pares de palavras que se diferenciam por apenas um som, o que a análise fonológica denomina pares mínimos. Isso possibilita que a análise da variação fônica observe cinco níveis distintos de formalidade e monitoração da fala: fala informal, fala formal, leitura de texto, de lista de palavras e de pares mínimos. Já análise da variação no nível da morfossintaxe se restringe à diferenciação entre fala informal e fala formal.
Porém, a análise da variação morfossintática vai se beneficiar de um novo instrumento de pesquisa que constitui outra novidade na etapa atual da pesquisa do Projeto Vertentes: os testes de avaliação subjetiva das variantes linguísticas. Nesses testes, que são aplicados ao final das entrevistas e palestras gravadas, o falante é induzido a emitir, de forma explícita ou subliminar, um juízo de valor sobre as formas em variação na língua. Tomando como exemplo as orações relativas, o falante é levado a julgar, como corretas ou incorretas, muito formais ou muito informais, três variantes de uma mesma frase, como as seguintes: O aluno cujo pai foi preso receberá um acompanhamento especial; O aluno que o pai foi preso receberá um acompanhamento especial e O aluno que o pai dele foi preso receberá um acompanhamento especial. Em um segundo teste, ele deve optar por uma variante que usaria a depender da situação em que se encontra (uma reunião de trabalho ou uma conversa descontraída na mesa de um bar). Os dados obtidos nesses testes se combinarão com os dados da análise das entrevistas e palestras, possibilitando uma compreensão do processo de mudança que articula avaliação e uso. Isso é muito importante, porque há uma relação de mútua determinação entre como a pessoa fala e como ela acha que deve falar.
As entrevistas devem ter uma duração mínima de 40 minutos e máxima de 60 minutos. Já as palestras têm uma duração de gravação menor: de 20 a 30 minutos. Depois de gravadas, entrevistas e palestras devem ser transcritas segundo critérios sistematicamente definidos, pois normalmente não é possível fazer a análise linguística diretamente no áudio. A conversão dos textos orais em textos escritos não é tarefa fácil e há dificuldades muitas vezes insuperáveis, em função da ausência, na escrita, de elementos presentes na interação oral, como a entonação e modulações da voz, expressões faciais e gestuais e o próprio compartilhamento do ambiente de interação verbal. Além disso, a fala apresenta uma estrutura sintática mais fluida, com muitas quebras, hesitações, correções, interrupções e redirecionamento; e toda a marcação do encadeamento sintático do texto oral é feita principalmente pela entoação, pausas, prolongamento da emissão de sons vocálicos etc. Não dispondo desses recursos, nem das facilidades pragmáticas do compartilhamento da situação de fala, o texto transcrito pode se tornar ininteligível.
Não há um sistema único de transcrição para a análise linguística. Cada sistema de transcrição deve atender aos objetivos de tipo de análise que se pretende fazer. A transcrição fonética, por exemplo, é empregada na análise fonológica. Porém, por inúmeras razões, não seria o caso de transcrever foneticamente as entrevistas dos acervos de fala vernácula do Projeto Vertentes, sobretudo porque a maioria das análises realizadas no Projeto se situam no plano da morfossintaxe. Em função disso, o Vertentes adotou a transcrição ortográfica das entrevistas, sem a preocupação de marcar muitos elementos da interação oral, como ocorreu, por exemplo, na época da chamada Análise da Conversação, que marcou a pesquisa linguística brasileira na década de 1980. Por fim, além de contornar os problemas inerentes à transposição da fala em escrita, o sistema de transcrição, formalizado na forma de uma chave de transcrição, deve ser ajustado às especificidades de cada variedade da língua que está sendo analisada. Dessa forma, foi elaborada uma chave de transcrição para e outra chave para o estudo da chamada norma culta, ou seja, a fala das pessoas com alto nível de escolaridade.
A análise variacionista parte de uma precisa delimitação do fenômeno variável a ser analisado em suas múltiplas determinações. Uma definição precisa é imprescindível para orientar o levantamento das ocorrências do fenômeno nos textos transcritos. Esse levantamento pode ser exaustivo, quando todas as ocorrências do fenômeno na amostra são coletadas, ou por cota, quando é delimitado um número de ocorrências que devem ser coletadas em cada entrevista e/ou palestra, no caso de fenômenos muito recorrentes na fala (é geralmente o caso dos fenômenos fônicos). O levantamento das ocorrências gera a base de dados para a análise variacionista de base quantitativa, que tem por objetivo mensurar os efeitos dos potenciais condicionamentos linguísticos e sociais sobre o fenômeno em foco. As hipóteses sobre esses condicionamentos são formalizadas em variáveis, sendo que cada hipótese se torna uma variável independente. E cada valor de cada variável recebe um código do teclado, gerando uma chave de codificação. Com base nessa chave, cada ocorrência levantada recebe uma codificação. E o conjunto de codificações de todas as ocorrências é entrada para o programa estatístico de cálculo multivariado, que mensura efeito de cada fator definido na codificação, ponderando o efeito simultâneo das demais variáveis especificadas. A pesquisa sociolinguística no Brasil tem utilizado os programas GoldVarb X e Rbrul, para efetuar o processamento quantitativo dos dados linguísticos codificados (TAGLIAMONTE, 2006; GUY; Zilles, 2007: OUSHIRO, 20. Os resultados quantitativos desse cálculo estatístico multivariado é base das análises variacionistas desenvolvidas desde a década de 1970 com base no modelo laboviano. O Projeto Vertentes tem feito análises variacionistas com suporte quantitativo, principalmente de fenômenos da morfossintaxe, em amostras de diversas variedades linguísticas do português no Estado da Bahia, para reunir evidências empíricas que suportem ou neguem o algoritmo da polarização sociolinguística do Brasil e a hipótese de que o contato entre línguas foi crucial na formação histórica das atuais variedades populares do português brasileiro.
Em linhas muito gerais, essa é metodologia da pesquisa desenvolvida no Projeto Vertentes.
REFERÊNCIASGUY, Gregory; ZILLES, Ana. Sociolinguística Quantitativa. São Paulo: Parábola, 2007.
OUSHIRO, Livia. Tratamento de dados com o R para análises sociolinguísticas. In: FREITAG, Raquel Meister Ko. (Org.). Metodologia de Coleta e Manipulação de Dados em Sociolinguística. São Paulo: Editora Edgard Blücher, 2014. p. 134-177.
OUSHIRO, Livia. Introdução à Estatística para Linguistas. Campinas: Editora da ABRALIN, 2022.
TAGLIAMONTE, Sali A. Analyzing Sociolinguistic Variation. Cambridge: Cambridge University Press, 2006.
Indicações de LeituraEntre os manuais publicados em língua portuguesa que trazem uma boa introdução aos fundamentos teóricos e metodológicos da pesquisa sociolinguística, indicamos:
COELHO, Izete L.; GÖRSKI, Edair M.; SOUZA, Christiane M. N. de; MAY, Guilherme H. Para Conhecer Sociolinguística. São Paulo: Contexto, 2015.
GUY, Gregory; ZILLES, Ana. Sociolinguística Quantitativa. São Paulo: Parábola, 2007.
MOLLICA, Cecília (org.). Introdução à Sociolinguística Variacionista: o tratamento da variação. São Paulo: Contexto, 2003.
MOLLICA, Maria Cecília; FERRARESI JR.; Celso. Sociolinguística, Sociolinguísticas: uma introdução. São Paulo: Contexto, 2016.