Riassunto analitico
La tesi mira ad analizzare la struttura, la composizione e di conseguenza le principali differenze linguistiche che esistono nella componente accademica dei due corpora che vengono comunemente associati alle due variazioni principali della lingua inglese: American English e British English, vale a dire il Corpus of Contemporary American English (COCA) e il British National Corpus (BNC). Lo studio è reso possibile grazie alla disponibilità sempre crescente dei suddetti corpora, collezioni di testi prodotti in modalità sia scritta che orale, che vengono organizzati al fine di aiutare le indagini in campo linguistico. Si intendono analizzare in particolare i due sottocorpora definiti academic dei due corpora disponibili online, composti da milioni di parole che vengono consultati da migliaia di persone ogni mese. L’analisi parte con un’introduzione generale che prende in considerazione il concetto di corpus linguistics inteso come lo studio del linguaggio basato su raccolte di linguaggi archiviato nei corpora. In relazione al concetto appena citato, vengono analizzati i principali vantaggi e svantaggi nell’utilizzo dei corpora; viene inoltre integrata una spiegazione della sua funzione e di come i corpora vengono selezionati, raccolti e organizzati e di come questa disciplina sia relativamente nuova e innovativa. Si passa poi a una breve classificazione di questi corpus e a una presentazione di quelli esistenti online, tra cui quelli che saranno presi in considerazione: COCA e BNC, con i due relativi sottocorpora su cui ci focalizzeremo nella parte metodologica. Successivamente, le varie componenti dei due corpora vengono spiegate e analizzate, con maggiore attenzione alla componente accademica. Viene anche introdotta la nozione di shell noun o signalling noun, poiché nella seconda parte verranno analizzate due parole che fanno parte di questa categoria del vocabolario inglese. Per shell noun o signalling noun, si intende un nome astratto che, in un contesto specifico, si riferisce a un’idea complessa. Il termine è stato coniato la prima volta da Schmid nel 1997. Nel secondo capitolo, l’attenzione viene spostata sulla metodologia. Due shell nouns o signalling nouns vengono analizzati prima nel Corpus of Contemporary American English e in un secondo momento nel British National Corpus, in particolare nella loro componente accademica, quindi spuntando sempre la casella corrispondente sui siti web dei due corpora. Attraverso l’aiuto di schermate l’analisi dei due termini e l’utilizzo dei due corpora risulteranno molto più trasparenti ed efficaci, poiché i due corpora non sono complicati da utilizzare ma i risultati a volte sono devianti. Inoltre, grazie all’analisi delle frequenze dei termini ricercati, delle concordanze, del contesto, delle tabelle, del processo di lemmatization e del KWIC, un acronimo che viene usato per key word in context (tutti concetti che vengono studiati nella parte teorica della tesi), le ricerche risulteranno più efficaci e la messa in pratica delle competenze molto vantaggiosa. In conclusione, nel terzo capitolo, verranno messe a confronto le due ricerche condotte nel Corpus of Contemporary American English e nel British National Corpus, riportando i dati che abbiamo esaminato, le tecniche utilizzate e gli obiettivi raggiunti.
|
Abstract
This dissertation aims to analyse the structure, the composition and consequently the main linguistic differences that exist in the academic component of the two corpora that are commonly associated with the two main variations of the English language: American English and British English, that is to say the Corpus of Contemporary American English (COCA) and the British National Corpus (BNC). The study is made possible thanks to the ever-increasing availability of the aforementioned corpora, collections of texts produced in both written and oral modalities, which are organized in order to help investigations in the linguistic field. In particular, we intend to analyse the two academic subgroups of the two corpora available online, composed by millions of words that are consulted by thousands of people every month.
The analysis starts with a general introduction that takes into consideration the concept of corpus linguistics which is intended here as the study of language based on collections of languages stored in corpora. In relation to the concept just mentioned, the main advantages and disadvantages in the use of corpora are analysed; an explanation of its function is also integrated beside to how corpora are selected, collected and organized and how this discipline is relatively new and innovative.
Then, the study moves on to a brief classification of these corpus and a presentation of those existing online, including those that will be taken into consideration: COCA and BNC, with the two relative sub-components on which we will focus in the methodological part. Subsequently, the various components of the two corpora are explained and analysed, with greater attention to the academic component. The notion of shell noun or signalling noun is also introduced, since in the second part we will analyse two words that are part of this category of the English vocabulary. By shell noun or signalling noun, we mean an abstract name which, in a specific context, refers to a complex idea. The term was first coined by Schmid in 1997.
In the second chapter, attention is shifted towards the methodology. Two shell nouns or signalling nouns are analysed first in the Corpus of Contemporary American English and later in the British National Corpus, particularly in their academic component, thus always ticking the corresponding box on the websites of the two corpora. Through the help of screenshots, the analysis of the two terms and the use of the two corpora will be much more transparent and effective, since the two corpora are not complicated to use but the results are sometimes deviant.
Moreover, thanks to the analysis of the frequencies of the searched terms, the concordances, the context, the tables, the lemmatization process and the KWIC, an acronym that is used for key word in context (all concepts that are studied in the theoretical part of the thesis ), the searches will be more effective and the putting into practice of the competences will be very advantageous.
In conclusion, in the third chapter, the two researches conducted in the Corpus of Contemporary American English and in the British National Corpus will be compared, reporting the data we have examined, the techniques used, and the objectives achieved.
|