german version | development / source | short presentation | parts of the thesis | Impressum | contact

diploma thesis

in the computer science course



Dresden University of Applied Sciences (FH)

Faculty of Mathematics/Computer Science



Topic:

Analysis and synthesis of natural language texts with recurrent neural networks




from

Paul Werner




submitted on: 06/18/2008


Main-Goal:
-------------
Analysis of natural spoken Phrases and determining the meaning without
depending on the formulation.

Algorithmic generation of appropriate Learn- and Validationsets
(Example Phrases) to learn and test the neural net.

Specification of Phrase-Meaning:
----------------------

Allocation of semantic roles for selected phrase-parts

Max (Agent) loves (Verb) Lisa (Patient)
Lisa (Patient) is loved (Verb) by Max (Agent)

Semantic roles are not grammatical phrase-parts
remember (Subject, Predicate, Object)

Allocation of semantic roles will be the same, although a changed
phrase-formulation.

semantic roles can defined at one's own discretion


Ambiguity
-------------------------
Problem: Natural Language is formulated ambiguous all too often.
Example: "Time flies like an arrow"
- Time flies so fast, like the arrow flies away.
- Time (to time) flies like an arrow is doing that.
- Time (to time) flies like an arrow lock alike.
- "Timeflies" like (to care for) an arrow.

- Syntactical knowledge is not enough to determine the meaning of a phrase.
- We need contextual knowledge.
- Problem: A parser cannot store or compute the complete
sense of the world

Neural Net
----------------

- Idea: Motivation by the human skills, to recognize phrases (Neuro / Biology)
- Learn a small amount of example-phrases with correct allocated semantic roles.
- supervised learning analog the childish speech acquirement.
- Abstraction and generalization for the correct analysis of unknown phrases.
- Correct allocation of semantic roles for not learned phrases.

Feed-Forward-Net
-----------------

Limitations:
- Input-Layer has a fixed size (Amount of Input-Neurons).
- cannot accept phrases with different lengths (wordcount).
- no "internal memory". so we cannot propagate single words (word by word).
- no commonness to the human language understanding

Elman-Net
---------
- "internal" memory is established by context-neurons (Nr. 4 and 5)
- stores the activation of the hidden neurons the timestep before
depending on the memory-factor LAMBDA
- elman-net is able to determine chronological dependencies in the input-sequence
Idea:
- Phrase is propagated sequential (word by word). Also during the learning-process
- output of the words with (its) allocated semantic role.

Learning-Set / Validation-Set
-----------------------
- Definition of a generative grammar to produce a large set for
learning and valiating (example phrases)
- non-terminals are substituted with the concrete
word-assignment (projector)
- it produces a large language amount (Example: 12x3x3x3x3x3 = 2916 Phrases)
- only a small fraction of this amount has to be put in the learn- und validationset
-> Learn-Density p € [0,1].
-> neural-net has to generalize. only a small amount of
learning-phrases must be enough.
Validation-Set subseteq Complete set MINUS Lerning-Set

Encoding of Net-Input
----------------------
...

Learning-process Active- and Passivephrases
------------------------------------------
Example Active- and Passivephrases
- Total amount of 7488 Phrases.
- Learndensity p=0.01 results 75 Phrases in Learningset and 64 Phrases
in Validationset (round about 1% of the total phrase amount)
- memory-factor LAMBDA=0.2, Learnginrate ETA=0.01, Learningcycles = 1000.
- Elman-Net
- 2 hidden layer
- 50 neurons per layer

On-Road-Test for Active- und Passivephrases
----------------------------------------
Test for all 64 phrases of the validationset

Is is essential: Validationpattern notsubset Learningset !

[TABLE]

- variant role-allocations are learned and abstracted "very well" (>90%)
- invariant role-allocations are learned "perfect", because special words
only appear with a special semantic role (yesterday, today, tomorrow)

Lerning-process for ambiguous Phrases
------------------------------------
Motivation: Determining the semantic role for the last phrase-part-
We learn only phrases of the following kind:

AGENT enchain PATIENT with the chain (instrument).
AGENT enchain PATIENT with the binoculars (attribute).
AGENT observe PATIENT with the chain (attribute).
AGENT observe PATIENT with the binoculars (instrument).

AND

AGENT look at PATIENT with the binoculars (instrument).

Interesting question: How act the neural net with the not learned phrase

AGENT look at PATIENT with the chain (???)

On-Road-Test for ambiguous Phrases
------------------------------------

- Test only with Phrases of kind (37 phrases)

AGENT look at PATIENT with the chain (not learned!)

- What semantic role is allocated to the phrase-part "with the chain" ?
(instrument or attribute)

- Result: attribute: 19 Phrases, unsure: 14 phrases, instrument: 5 phrases.

Conclusion:
- The net has lerned the alternating relation between instrument and attribute
("Chain" and "Binoculars")
- The words "look at" are never learned in relation of attribute !
- Special keywords now behave like operands !






image/svg+xmlHochschulefürTechnikundWirtschaftDresden(FH)FachbereichMathematik/InformatikDiplomarbeitimStudiengangInformatikThema:AnalyseundSynthesenatürlichsprachigerTextemitrekurrentenneuronalenNetzenVonPaulWernerBearbeitungszeitraum:19.12.2007-19.06.2008eingereichtam:18.06.2008Betreuer:Prof.Dr.rer.nat.W.PätzoldDr.rer.nat.B.Liebschner
image/svg+xmlZumAufbaudieserArbeitDieseDiplomarbeitbestehtausmehrerenTeilen.NebenderEinleitungbestehtderersteAbschnittausdenEinführungenindienotwendigenGrundlagen,welchefürdasVer-ständnisdieserUntersuchunghilfreichsind.DieserAbschnittdientalsFundamentfürdiesprachwissenschaftlichenGrundlagen,dieArbeitsweisevonneuronalenNetzenso-wiedieTheoriedergenetischenAlgorithmen.DerfachlichversierteLeserkanneinodermehreredieserKapitelüberspringenundmitderwesentlichenAusarbeitungabKapitel3fortfahren.DerzweiteTeilbestehtausdenKapitelnModellierungderAnalysesowieLernprozessundValidierung.Eswirdempfohlen,dassdieseAbschnittevollständigundderReihen-folgeentsprechendgelesenwerden,dasonstdiedidaktischeLinieunterbrochenwirdunddadurchVerständnisschwierigkeitenauftretenkönnen.DerletzteAbschnittSynthesebasiertaufdenAusarbeitungendervorausgehendenKa-pitelundbefasstsichmitderTextsyntheseaufGrundlagevongenetischenAlgorithmen.DieserAbschnittkannseparatgelesenwerden,soferndiezugrundeliegendenModelleausKapitel3überblicktunderuiertwerdenkönnen.DieTabellenundAbbildungendieserArbeitwerdenzugunstenderbesserenTextforma-tierungnichtzwangsläuginderStelleihrererstenErwähnungaufgeführtundkönnendurchausaneineranderenPositionerscheinen.JedeTabelleoderAbbildungwirdimFlieÿtextreferenziertundkanndurchdasTabellen-undAbbildungsverzeichnisimAn-hanggenaulokalisertwerden.WeiterhinbendetsichimAnhangeinGlossarmitdenErläuterungenvonausgewähltenFachbegrienundAbkürzungen.iii
image/svg+xmlInhaltsverzeichnisDanksagungeniiZumAufbaudieserArbeitiii1Einleitung11.1Motivation...................................11.2ZielstellungundAbgrenzung.........................22Grundlagen42.1SprachwissenschaftlicheGrundlagen.....................42.1.1EbenenderSprachanalyse......................42.1.2SemantischeRollen..........................52.1.3SatzgliederimAktivenundPassiven................52.1.4Mehrdeutigkeiten...........................62.2NeuronaleNetze................................92.2.1DasNeuron..............................92.2.2DasFeed-Forward-Netz........................112.2.3DasElman-Netz...........................152.3GenetischeAlgorithmen...........................172.3.1MotivationfürdieAnwendung....................172.3.2Begrie................................182.3.3Operatoren..............................192.3.4Selektionsschemata..........................202.3.5Ersetzungsschemata.........................212.3.6Evolutionsprozess...........................223ModellierungderAnalyse243.1SequentielleSatzverarbeitung........................243.1.1VerspäteteRollenzuordnung.....................243.1.2ModellierungdesneuronalenNetzes.................253.2KonditionierungderEingabedaten......................273.2.1DenitiondesAlphabetes......................273.2.2DenitioneinesRollenbuches....................283.2.3DenitiondergenerativenGrammatik...............283.2.4EntwurfderLernmuster.......................313.2.5EinschränkungderLernmenge....................353.2.6Validationsmenge...........................363.3KodierungderEingabedaten.........................373.3.1GeometrischeInterpretation.....................37iv
image/svg+xmlInhaltsverzeichnis3.4DekodierungderAusgabedaten.......................413.4.1Best-Matching-Unit-Funktion....................414LernprozessundValidierung454.1Denitionen..................................454.1.1Lernfunktion.............................454.1.2Fehlerfunktion.............................464.1.3Test-Erfolg..............................484.1.4Netzarchitektur............................484.2Aktiv-undPassivsätze............................494.2.1Wörterbuch..............................494.2.2Rollenbuch..............................504.2.3Satzbeispiele..............................504.2.4Lernprozess..............................514.2.5Praxistest...............................524.2.6VariationderLernparameter.....................524.2.7BemerkenswerteErkenntnisse....................574.3VerbenunterschiedlicherArgumentstruktur.................584.3.1Wörterbuch..............................594.3.2Rollenbuch..............................594.3.3Satzbeispiele..............................594.3.4Lernprozess..............................604.3.5Praxistest...............................614.3.6VariationderLernparameter.....................614.3.7KombinationmitAktiv-undPassivsätzen.............634.3.8TestderAktiv-undPassivsätzeohneSubjektaustausch......644.3.9TestderArgumentstruktur-SätzeohneSubjektaustausch.....654.3.10TestderAktiv-undPassivsätzemitSubjektaustausch......664.3.11TestderSätzeunterschiedlicherArgumentstrukturmitSubjek-taustausch...............................664.4SyntaktischmehrdeutigeSätze........................674.4.1Wörterbuch..............................674.4.2Rollenbuch..............................684.4.3Satzbeispiele..............................684.4.4Lernprozess..............................694.4.5Praxistest...............................694.4.6VariationderLernparameter.....................694.4.7BemerkenswerteErkenntnisse....................71v
image/svg+xmlInhaltsverzeichnis5Synthese755.1ModellierungdesgenetischenAlgorithmus.................765.1.1Individuum..............................765.1.2ErzeugungderAnfangspopulation..................775.1.3DenitionderSatzbedeutung....................785.1.4Fitness-Funktion...........................795.1.5Evolutionsparameter.........................845.1.6ZusammenhangderEvolutionsparameterundderNetzpropagierung875.1.7ZufälligeAllel-Initialisierung.....................875.2Evolution...................................885.2.1VerwendetesneuronalesNetz....................885.2.2Synthesevorgang...........................885.2.3VariationderParameter.......................925.2.4Passivsätze..............................966Fazit&Ausblick1006.1ResümeederAnalyse.............................1006.2Ausblicke...................................1016.3ResümeederSynthese............................1016.4ZahlenundFakten..............................102AnhangviiGlossarxTabellenverzeichnisxiAbbildungsverzeichnisxiiiLiteraturverzeichnisxivEidesstattlicheErklärungxviivi
image/svg+xml4LernprozessundValidierung4.2.7BemerkenswerteErkenntnisseBeiderAnalysevonAktiv-undPassivsätzenzeigtesich,dassdasneuronaleNetzinderLagewar,semantischeRollenfürPrädikate,Orts-undZeitangabenmitabsoluterSicherheitzuzuordnen.DieUrsacheliegtdarin,dassdieentsprechendenWorteihremAuftretennachimmeraneinebestimmtesemantischeRollexiertsind.DasNetzweiÿgewissermaÿen,dassdasWortmorgenoderheuteimmernurimZusammenhangmiteinerZeitangabeauftritt.KleineUnsicherheitenzeigtensichbeiderErkennungvonAgensundPatiens,weilallePersonensowohlalsAgensalsauchPatiensauftretenkönnen.Nachfolgendwirdnununtersucht,wiesichnachdemAnlernen,dasNetzverhält,wennvorherinderLernmengeeinebestimmtePersonausdemWörterbuchimPatiens-Abschnittgelöschtwird.FehlendesWortalsPatiensinderLernmengeImWörterbuchgemäÿTabelle11wirdnundasWortPeterausdemPatiens-Bereichentfernt.DamitkönneninderLernmengekeineSätzderArtLisaruftPeterauftreten,daPeternurnochalsAgensauftritt.DasNetzwirdnunmitderLernmengeausdemmodiziertenWörterbuchundeinerParametrisierungvon(ρ=0.05=0.1,c=50=0.05,max=0.1,n=1000)angelernt.WeiterhinwurdeeineValidationsmengefürdenPraxistesterstellt,dieaus20Sätzenbesteht.JederdieserSätzeistsoformuliert,dassPeteralsPatienterkanntwerdenmüsste.Damitsollgetestetwerden,obdasNetzdieseZuordnungdurchführt,obwohldieserSachverhaltnieangelerntwurde.NachdemLernprozesshattedasNetzeinenFehlervonMSE=0.00563undwurdemitdermodiziertenValidationsmengegetestet.BeimTestwurdePeterausnahmslosalsAgenterkannt,obwohlerderFormulierungnachalsPatienserkanntwerdensollte.DieErkennungsratefürdiesesemantischeRollebetrugdamit0%.OensichtlichsetztdasNetzdiePriorität,zunächstdieüberhauptmöglicheangelerntesemantischeRollefüreinWortzuprüfen.SollteeinWortinderLernmengenureinerbestimmtensemantischenRollezugeordnetwerden,dannwirdauchbeijederanderenFormulierung,diesemWortimmerdieangelerntesemantischeRollezugeordnet.ErstwenneinWortmitmehrerensemantischenRollentrainiertwurde,wirdderKontextbetrachtet,umdemWorteinesemantischeRollezuzuordnen.DieverbleibendeFrageistnun,obfüreinWortdiesemantischenRolleninnerhalbderLernmengegleichverteiltseinmüssen,oderobesausreicht,einWortnurwenigeMaleeineranderensemantischenRollezuzuordnen.FürdiesesBeispielwürdeeineGleichver-57
image/svg+xml4LernprozessundValidierungHHHHHHλc1020304050600.050.15370.12760.05980.04920.09420.050739.6%45.8%58.3%83.3%62.5%54.2%0.10.15340.12360.08360.02990.10880.050556.3%47.9%56.3%87.5%43.8%79.2%0.20.15960.12980.08440.05330.07220.037437.5%50.0%58.3%79.2%64.6%66.7%0.30.15420.12490.10690.06360.12190.050337.5%60.4%64.6%81.3%50.0%70.8%0.40.18130.11370.07760.07560.10680.079441.6%58.3%77.1%89.6%64.6%70.9%Tabelle29:MSEundTE(%)inAbhängigkeitvonλundcIII4.4.7BemerkenswerteErkenntnisseEswurdegezeigt,dasseinrekurrentesneuronalesNetzinderLageist,denKontexteinesSatzesmitHilfevonbestimmtenSchlüsselwörterneinzuordnen.Anhanddeser-mitteltenKontexteswardasNetzinderLage,diesemantischenRollenvonbestimmtenSatzgliedernkorrektzubestimmen.DasNetzhatgelernt,dasssicheinFernglaszumbeobachteneignetunddaheralsInstrumentfürdieseHandlungverwendetwerdenkann.SolltedasFernglasnichtimKontextvonbeobachtenauftreten,sowurdeesdersemantischenRolleAttributzugeordnet.WenndieBelegungderSubjektenichtberücksichtigtwird,dannkönnendiebisjetztangelerntenSätzemitgenau4Prototypenbeschriebenwerden.1.AGENSfesseltePATIENSmitdemSeil(Instrument).2.AGENSfesseltePATIENSmitdemFernglas(Attribut).3.AGENSbeobachtetPATIENSmitdemSeil(Attribut).4.AGENSbeobachtetPATIENSmitdemFernglas(Instrument).EinevielinteressantereFragewärenun,obdasNetzauchbeisehrunvollständigenbe-ziehungsweisefehlendenLernmusterninderLageist,eininternesRegelwerkzubilden.DafürwirddasWörterbuchumeinneuesWortsiehterweitert,welcheseinsehrähn-lichesSynonymzumWortbeobachtendarstellt.DieLernmengewirdnunumeinenSatzdesfolgendenPrototypserweitert.AGENSsiehtPATIENSmitdemFernglas(Instrument).71
image/svg+xml4LernprozessundValidierung00.020.040.060.080.10.120.140.16102030405060MSEAnzahl Neuronen cλ=0.3λ=0.1Abbildung25:MSEinAbhängigkeitvonλundcIIIDabeiwirdinderLernmengemitdemFernglasalsInstrumentalbestimmungdeniert.DieFrageistnun,obdasNetzbeiSätzenderFormAGENSsiehtPATIENSmitdemSeil.denletztenTeilmitdemSeilkorrektalsAttributobjektbestimmenwürde,obwohldasWortsiehtinkeinemZusammenhangmitAttributobjektenangelerntwurde.MitdenobendeniertenLernparameternwurdedasNetzerneutangelerntundmitSätzenderArtAGENSsiehtPATIENSmitdemSeilgetestet.DerTestwirddahingehendeingeschränkt,dassnurdieZuordnungdesletztenSatzteilsüberprüftwird.Dabeisollermitteltwerden,obderletzteAusdruckmitdemSeilalsAttributobjektoderalsInstrumentalbestimmungerkanntwird.Eswurden37SätzederArtAGENSsiehtPA-TIENSmitdemSeildurchdasNetzpropagiert,diejeweilsandereSubjektbelegungenhatten.DabeiwurdenfolgendeZuordnungendesletztenSatzteilserzielt.Attribut=10,Unsicher=12,Instrument=15DasErgebnisUnsicherbedeutet,dassdasNetzkeinesichereZuordnungentscheidenkonnteundderSatzteilbeidensemantischenRollengleichermaÿenzugeordnetwurde.Tendentiellistzuerkennen,dassmehrZuordnungenalsInstrumentalbestimmungdurch-geführtwurden,obwohldiesesemantischeRolledasfalscheErgebnisfürdasSatzgliedmitdemSeilist.DieUrsachedafürwirdeinleuchtend,wennmanbeachtet,dassjetztinsgesamtmehrLernmustermitderInstrumentalbestimmungangelerntwurden,dadas72
image/svg+xml4LernprozessundValidierungWortsiehtnurindiesemZusammenhangangelerntwurde.DieIdeewärenun,dieGleichverteilungzwischenAttributundInstrumentinderLernmengewiederherzustel-len,ohnedasWortsiehtmiteinerAttributzuordnunganzulernen.DafürwirdeinweitererSatzderFormAGENSknebeltPATIENSmitdemFernglas(Attribut).indieLernmengeaufgenommen.Esistklar,dasssichdasFernglasnichtzumKnebelneignetunddaheralsAttributobjektangelerntwird.DieserzusätzlicheSatzwirdimfol-gendenauchAusgleichssatzgenannt,daerAttribut-undInstrumentalbestimmungeninderLernmengeausgleicht.NachdemAnlernenmitdemzusätzlichenAusgleichssatzwurdederTesterneutmitden37SätzenderFormAGENSsiehtPATIENSmitdemSeildurchgeführt.DabeiwurdenfolgendeZuordnungendesletztenSatzteilserzeilt.Attribut=18,Unsicher=14,Instrument=5Abbildung26stelltdiejeweiligenErgebnissegraschdar.Mansieht,dassunterVerwen-dungdesAusgleichssatzes,einGroÿteilderZuordnungenkorrektdurchgeführtwurde.BeidenTestsätzenderFormAGENSsiehtPATIENSmitdemSeil,hatdasNetzindenmeistenFällenfürdenletztenSatzteildiesemantischeRolleAttributzugeordnet,obwohldasWortsiehtniemalsimZusammenhangmitAttributobjektenangelerntwurde.DasneuronaleNetzhateininteressantesAbstraktionsvermögenentwickelt,wodurchscheinbareininternesRegelwerkentstandenist.DasRegelwerkbeschreibtdabeidenalternierendenZusammenhangzwischendemVerb,demletztenTeildesSatzesundderdafürverwendetensemantischenRolle.VerbalformuliertkönntemandasaufgestellteRegelwerkdesNetzeswiefolgtbeschreiben:1.DerletzteTeildesSatzeskannentwederSeiloderFernglassein.2.FürdenletztenTeildesSatzesgibtesdiezweimöglichensemantischenRollenAttributoderInstrument.3.WenneinSatzteilkeinAttributist,dannisteseinInstrumentundumgekehrt27.4.WennbeieinemVerbXdasletzteWortSeilistunddieserSatzteilderseman-tischenRolleInstrumentzugeordnetist,dannwirdfürdasgleicheVerbXinVerbindungmitdemanderenmöglichenletztenWortFernglasdiesemantischeRolleAttributzugeordnet.27HierbeiwirdvomabstraktenIdealfallausgegangen.DafürdürftedasNetzkeineunsicherenAusgabenerzeugen.73
image/svg+xml4LernprozessundValidierung024681012141618InstrumentUnsicherAttributAnzahl Zuordnungen(a)MitAusgleichssatz0246810121416InstrumentUnsicherAttributAnzahl Zuordnungen(b)OhneAusgleichssatzAbbildung26:RollenerkennungbeieinemnichtangelerntenSatz74