FormacióEls col·legis i universitats

Què és la lingüística de corpus?

Només fa unes dècades per automatitzar la investigació lingüística, els científics només podien somiar. El treball va ser fet a mà, que atrau un gran nombre d'estudiants, hi ha una probabilitat substancial d'errors "per distracció", i el més important - tot això va portar molt, molt de temps.

Amb el desenvolupament de la tecnologia informàtica ha fet possible dur a terme investigacions en l'ordre de magnitud més ràpid, i avui dia una de les direccions més prometedores en l'estudi del llenguatge és un lingüística de corpus. La seva principal característica és l'ús de grans quantitats d'informació de text, informació en una sola base de dades, d'una manera especial i crida el cos marcat.

Fins a la data, hi ha molts edificis creats amb diferents propòsits sobre la base de diversos materials lingüística que abasta de milions a desenes de milers d'unitats lèxiques. Aquesta adreça és reconegut com un prometedor i demostra un progrés significatiu cap als fins d'aplicació i d'investigació. Els experts, d'una manera o altre tracte amb llenguatge natural, es recomana familiaritzar-se amb el conjunt de textos, almenys en un nivell bàsic.

Història de la lingüística de corpus

La formació d'aquesta tendència es deu a la creació dels Estats Units en el cos de Brown a principis dels 60-s del segle passat. La col·lecció inclou els textos de totes les formes d'1 milió de paraules, i avui dia el cos d'aquesta grandària seria totalment competitius. Això es deu en gran part al fet que el ritme de desenvolupament de la tecnologia informàtica, així com la creixent demanda de nous recursos per a la investigació.

En els anys 90 la lingüística de corpus van sorgir en una disciplina completa i independent, una col·lecció de textos s'han elaborat i marcat per dotzenes d'idiomes. En aquest període es va crear, per exemple, els British National Corpus 100 milions de fitxes.

Amb el desenvolupament d'aquesta àrea de la lingüística, els volums de text s'estan tornant més i més (i arriben a mil milions d'unitats de diccionari), i el disseny és cada vegada més diversa. Fins a la data, l'espai d'Internet es pot trobar cadàvers escrit i el llenguatge, multilingüe, i la literatura artística o acadèmica orientada a l'aprenentatge, igual que moltes altres espècies parlat.

Quins són la carcassa

Els tipus de cos en la lingüística del cos poden ser proporcionats per diverses raons. Intuïtivament, la base per a la classificació pot ser un llenguatge de text (en rus, alemany), la manera d'accés (codi obert, tancat, comercial), el gènere del material d'origen (ficció, documental, acadèmica, periodística).

Interessant forma genera materials del llenguatge parlat. Des de la gravació deliberada de tals discurs per crear un ambient artificial dels enquestats, i el material resultant no podia ser anomenat "espontània", la lingüística de corpus moderna ha estat a l'inrevés. Un voluntari està equipat amb un micròfon, i durant el dia va produir un registre de totes les converses, en què participa. La gent al voltant, per descomptat, poden no saber que en el transcurs de la conversa diària contribueix al desenvolupament de la ciència.

Més tard va rebre registre emmagatzemat a la base de dades i s'acompanyen d'impresos tipus de text transcrit. D'aquesta manera, es fa possible el marcatge necessari per crear una carcassa discurs oral diària.

sol·licitud

Sempre que sigui possible l'ús del llenguatge, i potser l'ús de textos edificis. Mètodes per aplicar el casc en la lingüística pot ser:

  • La creació d'un programa que determini la clau, s'utilitza àmpliament en la política i els negocis per fer un seguiment de les respostes positives i negatives dels votants i els clients, respectivament.
  • sistema d'informació de connexió de diccionaris i traductors per millorar el seu rendiment.
  • Una varietat de tasques d'investigació que contribueixin a la comprensió de la unitat de la llengua, la història del seu desenvolupament i la predicció dels canvis en el futur proper.
  • Desenvolupament de sistemes de recuperació d'informació basat en les característiques morfològiques, sintàctiques, semàntiques i altres.
  • L'optimització dels diferents sistemes lingüístics i altres.

L'ús d'edificis

Interfície de recursos similar amb un motor de cerca típica, i demana a l'usuari que introdueixi una paraula o combinació de paraules per buscar la base d'informació. A més formen la consulta exacta pot utilitzar la versió millorada, que permet trobar la informació textual en pràcticament qualsevol criteri lingüístic.

base de cerca pot ser:

  • de membres d'un grup particular de parts del discurs;
  • característiques gramaticals;
  • la semàntica;
  • pintar estilística i emocional.

També es poden combinar criteris de cerca per una seqüència de paraules, per exemple, per trobar totes les ocurrències del verb en el temps present en primera persona, singular, que es produeix després de la preposició "en" i el substantiu en el cas acusatiu. La solució a una tasca tan senzilla porta a l'usuari uns pocs segons i requereix només uns pocs clics del ratolí en els camps especificats.

El procés de creació

La mateixa recerca es pot dur a terme en tots els subcorpus i un triat específicament, en funció de les necessitats per aconseguir un objectiu particular:

  1. El primer pas és definir quins textos constitueixen la base per al cas. A efectes pràctics, s'utilitza amb freqüència, les notícies periodístiques, comentaris en línia. El projecte d'investigació és l'ús d'una àmplia varietat de tipus de paquets, però el text ha de ser seleccionat d'acord amb alguns punts en comú.
  2. La col·lecció resultant dels textos sotmesos a tractament previ, no hi ha correcció d'errors, si n'hi ha, preparat per la descripció bibliogràfica i extra-lingüística del text.
  3. S'elimina tota la informació no textual: Esborra els gràfics, imatges, taules.
  4. És una assignació de fitxes, que són normalment la parla, per al seu posterior processament.
  5. Finalment, es va dur pluralitat morfològica, sintàctica i altres marques obtingut d'elements.

El resultat de totes les transaccions realitzades per una estructura sintàctica amb distribuïda en ella una pluralitat d'elements, cadascun dels quals s'identifica part de l'oració, gramatical i, en alguns casos, els atributs semàntics.

Les dificultats en la creació d'edificis

És important entendre que no és suficient per armar un conjunt de paraules o frases per al cos. D'una banda, una col·lecció de textos ha de ser equilibrada, és a dir, representar diferents tipus de textos en certes proporcions. D'altra banda - el contingut de la caixa han de tenir una separació d'una manera especial.

El primer problema es resol mitjançant un acord: per exemple, en la col·lecció inclou 60% dels textos literaris, el 20% dels documentals, un cert percentatge es dóna una representació escrita d'la llengua parlada, la legislació, les obres científiques, etc., no hi ha recepta cos perfecte equilibrat d'avui ...

La segona qüestió, relativa a la distribució de continguts, a resoldre un repte. Hi ha programes i algoritmes utilitzats per al marcat automàtic de textos especials, però no donen un resultat perfecte, pot causar interrupcions i requereixen retreball manual. Oportunitats i desafiaments en la solució d'aquest problema es descriuen en detall en un document V. P. Zaharova de la lingüística de corpus.

marcat de text s'implementa a diversos nivells, que enumerem a continuació.

etiquetatge morfològic

De l'escola, hem de recordar que en la llengua russa, hi ha diferents parts de l'oració, i cada un d'ells té les seves pròpies característiques. Per exemple, el verb té categories d'inclinació i el temps en què no substantiu. un parlant nadiu sense dubtar declina noms i verbs conjugats, però per marcar el cos de 100 milions. fitxes de treball manual no funcionarà. Totes les operacions necessàries poden executar l'equip, però, per a això necessita ser ensenyat.

etiquetatge morfològic, l'equip ha de "comprendre" cada paraula com una certa part de l'oració que té certes característiques gramaticals. Des del rus (i qualsevol altre idioma) opera una sèrie de regles regulars, és possible construir un procediment automàtic per a l'anàlisi morfològic, la inversió en el cotxe per a una sèrie d'algoritmes. No obstant això, hi ha excepcions a la regla, així com diversos factors de complicació. Com a resultat d'això, l'anàlisi de la xarxa informàtica d'avui està lluny de ser ideal, i fins a 4% d'error s'obté un valor de 4 milions. Les paraules en el cos de 100 milions de dòlars. Les unitats, que requereixen retreball manual.

detallat llibre descriu el problema Zaharova V. P. "La lingüística de corpus".

anotació sintàctica

L'anàlisi o anàlisis - un procediment que determina la relació de les paraules en una frase. L'ús d'un conjunt d'algoritmes, és possible determinar el text de subjecte, predicat, addicions, múltiples voltes de discurs. Per saber quines paraules són la seqüència principal, i el que - depenent, podem extreure eficaçment la informació de text i per ensenyar a la màquina per emetre en resposta a una sol·licitud de cerca només la informació que ens interessant.

Per cert, moderns motors de cerca utilitzen això per donar a conèixer els números específics en lloc dels textos llargs en resposta a les consultes pertinents, com ara "la quantitat de calories en una illa" o "la distància de Moscou a Sant Petersburg." No obstant això, per entendre fins i tot els fonaments del procés descrit per la necessitat de consultar la "Introducció a la lingüística de corpus" o un altre tutorial bàsic.

el marcatge semàntic

La semàntica de la paraula - és, en termes simples, el significat. enfocament àmpliament aplicable a l'anàlisi semàntica d'una paraula etiquetes atribució, el que reflecteix la seva pertinença a un conjunt de categories i subcategories semàntiques. Aquesta informació és valuosa per a l'optimització d'algorismes analitzen to de text, el resum automàtic i altres mètodes tasques de la lingüística de corpus.

Hi ha una sèrie de "arrel" de l'arbre, el que representa una paraula abstracta amb una molt àmplia semàntica. Com es forma una branca dels nodes de l'arbre, que conté més i més específiques elements lèxics. Per exemple, la paraula "criatura" pot estar associada amb conceptes com ara "humà" i "animal". La primera paraula continuarà la seva activitat a diferents professions, els termes de parentiu, nacionalitat, i el segon - a les classes i tipus d'animals.

L'ús de sistemes de recuperació d'informació

Les àrees d'ús de la lingüística de corpus cobreixen diversos camps d'activitat. Carcasses s'utilitzen per a la preparació i correcció dels diccionaris, crear sistemes de traducció automàtica, anotar, la recuperació de fets, que determinen el to i processament addicional.

A més, aquests recursos s'utilitzen de manera activa en l'estudi de les llengües i els mecanismes de funcionament del llenguatge en general món. L'accés a grans volums d'informació pre-preparat facilita l'estudi ràpida i completa de les tendències dels llenguatges de desenvolupament, i el canvi neologismes formació estable de velocitat de la parla valors de les unitats lèxiques i altres.

Atès que el treball amb aquest tipus de grans quantitats de dades requereix l'automatització, avui dia hi ha una estreta interacció entre l'ordinador i la lingüística de corpus.

Rússia Corpus Nacional

Aquest cas (abreujat NKRYA) inclou una sèrie de subcorpus, permetent l'ús d'un recurs per a una àmplia varietat de tasques.

Els materials inclosos a la base de dades es divideixen NKRYA:

  • a les publicacions en els anys 90 i els anys 2000 els mitjans de comunicació ', tant nacionals com estrangers;
  • gravació de veu;
  • aktsentologicheski marcat textos (és a dir, les marques d'estrès);
  • discurs dialecte;
  • poesia;
  • Els materials amb marques sintàctiques i altres.

El sistema d'informació també inclou subcorpus amb traduccions paral·leles de les obres del rus a l'anglès, alemany, francès i molts altres idiomes (i viceversa).

També a la base de dades hi ha una secció de textos històrics, que representen el discurs escrit en rus en diferents períodes del seu desenvolupament. També hi ha un organisme de formació, el que pot ser útil per als ciutadans estrangers en el domini de la llengua russa.

Rússia Corpus Nacional total de 400 milions d'unitats lèxiques, i de moltes maneres per davant d'una part significativa dels idiomes dels òrgans Europa.

perspectives

Fet a favor del reconeixement d'aquesta tendència és la disponibilitat de la promesa de la lingüística de corpus de laboratori a les universitats russes, així com estrangera. Amb l'ús de la investigació i en el marc d'aquesta informació i de recerca de recursos implica el desenvolupament de certes àrees en el camp de les altes tecnologies, sistemes de pregunta-resposta, però es va discutir anteriorment.

Un major desenvolupament de la lingüística de corpus es preveu en tots els nivells, que van des del tècnic i en termes d'implementació de nous algoritmes que optimitzen els processos de recerca i processament de la informació, potenciant els ordinadors, més RAM, i per als consumidors, ja que els usuaris són cada vegada més formes d'usar aquest tipus de recursos en el seu diari la vida i el treball.

en conclusió

A mitjans del segle passat, el 2017 semblava un futur llunyà, on les naus espacials viatgen a través de l'univers i robots fan tota la feina per a les persones. De fet, la ciència està plena de "taques blanques" i fent intents desesperats per contestar les preguntes de la humanitat durant segles pertorbador. Preguntes funcionament del llenguatge que aquí ocupen un lloc d'honor, i el gabinet i la lingüística computacional ens pot ajudar a respondre-hi.

Processament de grans conjunts de dades pot detectar patrons, que abans eren inaccessibles, predir el desenvolupament de les característiques del llenguatge específics de seguiment de la formació de paraules gairebé en temps real.

En un nivell pràctic, els recintes globals es poden veure, per exemple, com una eina potencial per avaluar l'estat d'ànim del públic - l'Internet és una constant actualització de base diversos textos diaris creats per usuaris reals: aquesta comentaris i opinions, i articles, i moltes altres formes d'expressió.

A més, es treballa amb organismes contribueix al desenvolupament del mateix maquinari, que estan involucrats en la recuperació d'informació, estem familiaritzats amb el servei de "Google" o "Yandex", la traducció automàtica, diccionaris electrònics.

Podem afirmar amb seguretat que la lingüística de corpus fa que només els primers passos, i en un futur pròxim a florir.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 ca.birmiss.com. Theme powered by WordPress.