algorithmisch-rekursive-sequenzanalyse/ARS20InterpretationGer.tex at main · pkoopongithub/algorithmisch-rekursive-sequenzanalyse · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
% Options for packages loaded elsewhere
\PassOptionsToPackage{unicode}{hyperref}
\PassOptionsToPackage{hyphens}{url}
\documentclass[
]{article}
\usepackage{xcolor}
\usepackage{amsmath,amssymb}
\setcounter{secnumdepth}{-\maxdimen} % remove section numbering
\usepackage{iftex}
\ifPDFTeX
  \usepackage[T1]{fontenc}
  \usepackage[utf8]{inputenc}
  \usepackage{textcomp} % provide euro and other symbols
\else % if luatex or xetex
  \usepackage{unicode-math} % this also loads fontspec
  \defaultfontfeatures{Scale=MatchLowercase}
  \defaultfontfeatures[\rmfamily]{Ligatures=TeX,Scale=1}
\fi
\usepackage{lmodern}
\ifPDFTeX\else
  % xetex/luatex font selection
\fi
% Use upquote if available, for straight quotes in verbatim environments
\IfFileExists{upquote.sty}{\usepackage{upquote}}{}
\IfFileExists{microtype.sty}{% use microtype if available
  \usepackage[]{microtype}
  \UseMicrotypeSet[protrusion]{basicmath} % disable protrusion for tt fonts
}{}
\makeatletter
\@ifundefined{KOMAClassName}{% if non-KOMA class
  \IfFileExists{parskip.sty}{%
    \usepackage{parskip}
  }{% else
    \setlength{\parindent}{0pt}
    \setlength{\parskip}{6pt plus 2pt minus 1pt}}
}{% if KOMA class
  \KOMAoptions{parskip=half}}
\makeatother
\ifLuaTeX
  \usepackage{luacolor}
  \usepackage[soul]{lua-ul}
\else
  \usepackage{soul}
\fi
\setlength{\emergencystretch}{3em} % prevent overfull lines
\providecommand{\tightlist}{%
  \setlength{\itemsep}{0pt}\setlength{\parskip}{0pt}}
\usepackage{bookmark}
\IfFileExists{xurl.sty}{\usepackage{xurl}}{} % add URL line breaks if available
\urlstyle{same}
\hypersetup{
  pdftitle={Algorithmisch Rekursive Sequenzanalyse 2.0},
  hidelinks,
  pdfcreator={LaTeX via pandoc}}

\title{\protect\phantomsection\label{_stdyajrcip3u}{}Algorithmisch
Rekursive Sequenzanalyse 2.0}
\usepackage{etoolbox}
\makeatletter
\providecommand{\subtitle}[1]{% add subtitle to \maketitle
  \apptocmd{\@title}{\par {\large #1 \par}}{}{}
}
\makeatother
\subtitle{\protect\phantomsection\label{_wargoqm4vfzj}{}Statistische
Interpretation der generierten Grammatik und deren Übereinstimmung mit
empirischen Häufigkeitsverteilungen}
\author{}
\date{}

\begin{document}
\maketitle

\href{mailto:post@paul-koop.org}{\ul{post@paul-koop.org}}

November 2024

\textbf{Zusammenfassung:}

Die Ergebnisse dieser Analyse zeigen bereits vielversprechende Ansätze
und bestätigen, dass der methodische Ansatz auf einem soliden Fundament
aufbaut. Gleichzeitig eröffnen sie neue Möglichkeiten, die Grammatik
weiter zu verfeinern und noch besser an die komplexen Strukturen der
realen Verkaufsgespräche anzupassen. Diese Arbeit ist nur der erste
Schritt auf einem spannenden Forschungsweg, der zukünftig dazu beitragen
könnte, die maschinelle Analyse und Simulation von Gesprächen und
Interaktionen weiter voranzutreiben.

Zusammenfassung der Ergebnisse:

Im Rahmen dieser Analyse wurden die Häufigkeiten von Terminalzeichen in
einer empirischen Sequenz sowie in zwei künstlich erzeugten Sequenzen
untersucht. Ziel war es, zu überprüfen, wie gut die künstlichen
Sequenzen die Häufigkeiten der Terminalzeichen der empirischen Sequenz
widerspiegeln und inwieweit die induzierte Grammatik die tatsächliche
Verteilung in den realen Verkaufsgesprächen nachbildet. Die Ergebnisse
liefern wertvolle Erkenntnisse, die als Grundlage für zukünftige
Optimierungen dienen können:

Ähnlichkeiten:

Einige Symbole, wie "KBG" und "VBG", treten in den künstlichen Sequenzen
häufiger auf als in der empirischen Sequenz. Dies deutet auf eine
gewisse Verzerrung zugunsten dieser Symbole in den generierten Sequenzen
hin.

Für andere Symbole, wie "KBBd" und "VBA", ist die Häufigkeit in der
empirischen Sequenz höher, was auf eine ungenaue Replikation der realen
Verteilung in den künstlichen Sequenzen hinweist.

Unterschiede:

Die künstlichen Sequenzen weisen eine gleichmäßigere Verteilung der
Symbole auf, während die empirische Sequenz größere Schwankungen in den
Häufigkeiten aufzeigt. Dies lässt darauf schließen, dass die Grammatik
der generierten Sequenzen noch nicht in der Lage ist, die exakte
Häufigkeitsverteilung der realen Gesprächssequenzen abzubilden.

Die Unterschiede in der Häufigkeit einiger Symbole zeigen, dass die
grammatikalische Modellierung noch weiter verfeinert werden kann, um
eine präzisere Nachbildung der empirischen Verteilung zu erzielen.

Fazit:

Obwohl die künstlichen Sequenzen bereits Ähnlichkeiten mit der
empirischen Sequenz aufweisen, gibt es noch erkennbaren Spielraum für
Verbesserungen in der Grammatik, um die Häufigkeitsverteilungen noch
besser aufeinander abzustimmen. Weitere Anpassungen und eine tiefere
statistische Analyse sind erforderlich, um die Signifikanz der
Unterschiede zu überprüfen und die Genauigkeit der Nachbildung zu
erhöhen.

Dieser innovative Ansatz bietet eine wertvolle Grundlage für die
Weiterentwicklung von Modellen zur Simulation von Verkaufsgesprächen und
anderen komplexen Kommunikationsprozessen. Er stellt einen wichtigen
Schritt dar, um maschinelle Sprachverarbeitung präziser und dynamischer
zu gestalten, und könnte in Zukunft zu noch genaueren Simulationen und
Analysen von Gesprächsstrukturen führen.

\textbf{Zielsetzung:}

Es ist grundsätzlich sinnvoll, die Zusammenhänge zwischen der empirisch
ermittelten Terminalzeichenkette und den künstlich erzeugten
Terminalzeichenketten zu ermitteln, da dies den Elaborationsgrad der
induzierten Grammatik überprüft. Die Grammatik allein liefert zwar eine
Regelbasis und Wahrscheinlichkeiten für mögliche Sequenzen, jedoch keine
Garantie, dass diese Regeln die empirischen Daten im ersten Schritt
bereits exakt nachbilden.

\textbf{Gründe für eine Zusammenhangsermittlung:}

\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\item
  \textbf{Validierung der Grammatik}: Durch die Zusammenhangsprüfung
  kann überprüft werden, wie gut die induzierte Grammatik tatsächlich
  die empirische Datenstruktur repräsentiert. Eine signifikante
  Korrelation würde zeigen, dass die durch die Grammatik erzeugten
  Sequenzen eine ähnliche Struktur wie die empirischen Daten aufweisen.
\item
  \textbf{Anpassung und Optimierung}: Wenn die Zusammenhangsprüfung noch
  unbefriedigend ist, könnte dies ein Hinweis darauf sein, dass die
  Grammatik oder deren Wahrscheinlichkeiten angepasst werden müssen.
  Dies kann etwa durch Feinjustierung der Wahrscheinlichkeiten oder
  durch Hinzufügen zusätzlicher Regeln erfolgen.
\item
  \textbf{Statistische Sicherheit}: Auch wenn die Grammatik
  Wahrscheinlichkeiten zur Sequenzgenerierung bereitstellt, gibt es
  keine absolute Garantie, dass eine zufällig generierte Sequenz den
  empirischen Daten genau entspricht. Die Zusammenhangsprüfung liefert
  ein Maß dafür, wie nah sich die generierten Daten an den empirischen
  Daten orientieren.
\end{enumerate}

Insgesamt ist die Zusammenhangsprüfung also ein wichtiger
Validierungsschritt, um zu prüfen, ob die induzierte Grammatik
tatsächlich das empirische Muster repräsentiert und die Ähnlichkeit
zwischen den beiden Ketten statistisch gesichert ist.

\subparagraph{\texorpdfstring{\textbf{Aufgabe:}}{Aufgabe:}}\label{aufgabe}

Schreibe ein R Programm, das die empirisch ermittelte
Terminalzeichenkette auf signifikante Korrelation mit den künstlich
erzeugten Terminalzeichenkette überprüft: Empirisch ermittelte:KBG VBG
KBBd VBBd KBBd VBBd KBBd VBA KBBd VBA KBBd VBA KBA KBA VBA KBA KBA VBA
VAA KAA VBA KBBd KBBd VBA KAA VBA KAA VAA KAA VAV KAV VAA KAA KAV VAV
KAV Künstlich erzeugte: KBG VBG KBBd VBBd KBBd VBA KBA VBA KAA VAA KAV
VAV, KBG VBG KBBd VBBd KBBd VBA KBA VBA KAA VAA KAV VAV. Welche weiteren
Untersuchungen mit R bieten sich an?

\textbf{Ergebnis:}

Um die Korrelation zwischen der empirisch ermittelten und der künstlich
erzeugten Terminalzeichenkette zu überprüfen, könnten wir zunächst
versuchen, die beiden Sequenzen in numerische Werte umzuwandeln. Dann
lässt sich eine Korrelation (z.B. mit Pearson oder Spearman) berechnen,
um Ähnlichkeiten in der Struktur zu erkennen. Ein R-Programm könnte dazu
wie folgt aussehen:

\subsubsection{\texorpdfstring{\textbf{Schritt 1: Sequenzen in
numerische Werte
umwandeln}}{Schritt 1: Sequenzen in numerische Werte umwandeln}}\label{schritt-1-sequenzen-in-numerische-werte-umwandeln}

Da die Sequenzen aus Symbolen bestehen, müssen wir diese in numerische
Werte umwandeln. Dies kann z.B. durch eine Zuordnungstabelle geschehen,
die jedem Terminalsymbol eine eindeutige Zahl zuweist. Diese Werte
könnten dann für Korrelationstests verwendet werden.

\subsubsection{\texorpdfstring{\textbf{Schritt 2: R-Programm zur
Korrelationsermittlung}}{Schritt 2: R-Programm zur Korrelationsermittlung}}\label{schritt-2-r-programm-zur-korrelationsermittlung}

Das folgende R-Skript zeigt, wie diese Analyse durchgeführt werden
könnte:

\# Zuordnung von Terminalzeichen zu numerischen Werten

symbol\_mapping \textless- list(

"KBG" = 1, "VBG" = 2, "KBBd" = 3, "VBBd" = 4,

"VBA" = 5, "KBA" = 6, "VAA" = 7, "KAA" = 8,

"KAV" = 9, "VAV" = 10

)

\# Terminalzeichenketten als Vektor

empirical\_sequence \textless- c("KBG", "VBG", "KBBd", "VBBd", "KBBd",
"VBBd", "KBBd", "VBA", "KBBd", "VBA", "KBBd", "VBA",

"KBA", "KBA", "VBA", "KBA", "KBA", "VBA", "VAA", "KAA", "VBA", "KBBd",
"KBBd", "VBA",

"KAA", "VBA", "KAA", "VAA", "KAA", "VAV", "KAV", "VAA", "KAA", "KAV",
"VAV", "KAV")

generated\_sequence1 \textless- c("KBG", "VBG", "KBBd", "VBBd", "KBBd",
"VBA", "KBA", "VBA", "KAA", "VAA", "KAV", "VAV")

generated\_sequence2 \textless- c("KBG", "VBG", "KBBd", "VBBd", "KBBd",
"VBA", "KBA", "VBA", "KAA", "VAA", "KAV", "VAV")

\# Funktion zur Umwandlung der Sequenzen in numerische Vektoren

sequence\_to\_numeric \textless- function(sequence, mapping) \{

sapply(sequence, function(symbol) mapping{[}{[}symbol{]}{]})

\}

\# Numerische Vektoren für die Sequenzen

empirical\_numeric \textless- sequence\_to\_numeric(empirical\_sequence,
symbol\_mapping)

generated\_numeric1 \textless-
sequence\_to\_numeric(generated\_sequence1, symbol\_mapping)

generated\_numeric2 \textless-
sequence\_to\_numeric(generated\_sequence2, symbol\_mapping)

\# Padding für ungleiche Längen (mit NA für nicht zugeordnete
Positionen)

max\_length \textless- max(length(empirical\_numeric),
length(generated\_numeric1), length(generated\_numeric2))

empirical\_numeric \textless- c(empirical\_numeric, rep(NA, max\_length
- length(empirical\_numeric)))

generated\_numeric1 \textless- c(generated\_numeric1, rep(NA,
max\_length - length(generated\_numeric1)))

generated\_numeric2 \textless- c(generated\_numeric2, rep(NA,
max\_length - length(generated\_numeric2)))

\# Korrelation berechnen

cor\_empirical\_gen1 \textless- cor(empirical\_numeric,
generated\_numeric1, use = "complete.obs", method = "spearman")

cor\_empirical\_gen2 \textless- cor(empirical\_numeric,
generated\_numeric2, use = "complete.obs", method = "spearman")

cat("Korrelation zwischen empirischer und erzeugter Sequenz 1:",
cor\_empirical\_gen1, "\textbackslash n")

cat("Korrelation zwischen empirischer und erzeugter Sequenz 2:",
cor\_empirical\_gen2, "\textbackslash n")

\subsubsection{\texorpdfstring{\textbf{Weitere
Untersuchungsmöglichkeiten}}{Weitere Untersuchungsmöglichkeiten}}\label{weitere-untersuchungsmuxf6glichkeiten}

Zusätzlich zur Korrelation könnten folgende Analysen in R hilfreich
sein:

\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\item
  \textbf{Sequenzanalyse}: Verwenden Sie Markov-Ketten, um
  Übergangswahrscheinlichkeiten zu modellieren. Dies kann helfen, die
  Übergangswahrscheinlichkeiten in beiden Sequenzen zu vergleichen und
  Abweichungen aufzudecken.
\item
  \textbf{Häufigkeitsanalyse}: Erstellen Sie Häufigkeitstabellen für
  jedes Symbol in beiden Sequenzen. Dadurch lässt sich überprüfen, ob
  die künstlich erzeugten Sequenzen ähnliche Häufigkeitsmuster wie die
  empirischen Daten aufweisen.
\item
  \textbf{Edit-Distanz}: Berechnen Sie die Edit-Distanz
  (Levenshtein-Distanz) zwischen der empirischen und den künstlich
  erzeugten Sequenzen, um festzustellen, wie viele minimale Änderungen
  (z.B. Einfügungen, Löschungen, Ersetzungen) notwendig wären, um die
  Sequenzen einander anzugleichen.
\item
  \textbf{Visuelle Analyse}: Erstellen Sie Heatmaps oder Diagramme der
  Übergangswahrscheinlichkeiten für eine visuelle Vergleichbarkeit der
  Muster.
\item
  \textbf{Chi-Quadrat-Test}: Verwenden Sie einen Chi-Quadrat-Test zur
  Prüfung, ob die Häufigkeitsverteilungen in beiden Sequenzen
  signifikant unterschiedlich sind. Dies kann nützlich sein, um globale
  Unterschiede zu erkennen.
\end{enumerate}

\subparagraph{\texorpdfstring{
\textbf{Aufgabe:}}{ Aufgabe:}}\label{aufgabe-1}

Welche Ergebnisse sind aufgrund der bisherigen Arbeit mit der
empirischen Terminalzeichenkette und den künstlich erzeugten
Terminalzeichenkette aus der aus probabilistischen Grammatik, die aus
der empirisch ermittelten Terminalzeichenkette induziert wurde?

\textbf{Ergebnis:}

Basierend auf der bisherigen Arbeit mit der empirisch ermittelten und
der künstlich erzeugten Terminalzeichenkette sowie der aus diesen Daten
abgeleiteten probabilistischen Grammatik lassen sich einige wichtige
Schlussfolgerungen und mögliche Ergebnisse ziehen:

\subsubsection{\texorpdfstring{\textbf{1. Erfolgreiche Modellierung der
Grammatik}}{1. Erfolgreiche Modellierung der Grammatik}}\label{erfolgreiche-modellierung-der-grammatik}

Die künstlich erzeugte Terminalzeichenkette zeigt eine ähnliche Struktur
und ähnliche Sequenzmuster wie die empirische Zeichenkette. Dies deutet
darauf hin, dass die probabilistische Grammatik erfolgreich die Struktur
und die Übergangswahrscheinlichkeiten der empirischen Zeichenkette
erfasst hat. Somit war die Grammatik in der Lage, eine realistische
Repräsentation der empirischen Daten zu erzeugen, indem sie die
Wahrscheinlichkeitsverteilungen der Regeln und Sequenzen repliziert hat.

\subsubsection{\texorpdfstring{\textbf{2. Ermittlung von Korrelationen
und
Ähnlichkeiten}}{2. Ermittlung von Korrelationen und Ähnlichkeiten}}\label{ermittlung-von-korrelationen-und-uxe4hnlichkeiten}

Mithilfe der Korrelationen zwischen den numerisch kodierten empirischen
und künstlichen Sequenzen konnte festgestellt werden, wie gut die
künstlich erzeugten Sequenzen mit der empirischen übereinstimmen. Eine
hohe Korrelation zwischen den Sequenzen würde darauf hindeuten, dass die
induzierte Grammatik in der Lage war, die Muster der empirischen Sequenz
genau zu reproduzieren. Bei einer niedrigen oder nicht signifikanten
Korrelation könnte dies auf Unterschiede in der Sequenzstruktur
hinweisen, was auf eine unzureichende Modellierung hinweisen könnte.

\subsubsection{\texorpdfstring{\textbf{3. Verteilung von
Terminalsymbolen}}{3. Verteilung von Terminalsymbolen}}\label{verteilung-von-terminalsymbolen}

Die Häufigkeitsanalyse der Terminalsymbole sowohl in der empirischen als
auch in der künstlichen Sequenz könnte aufzeigen, ob die Grammatik die
relative Häufigkeit der einzelnen Symbole korrekt abgebildet hat. Eine
ähnliche Verteilung würde bedeuten, dass die Grammatik in der Lage ist,
die Häufigkeitsmuster zu replizieren, was ein Zeichen für eine gute
Modellierung ist.

\subsubsection{\texorpdfstring{\textbf{4. Sequenzähnlichkeit und
Strukturvergleich}}{4. Sequenzähnlichkeit und Strukturvergleich}}\label{sequenzuxe4hnlichkeit-und-strukturvergleich}

Durch die Berechnung der Edit-Distanz (Levenshtein-Distanz) zwischen den
empirischen und künstlichen Sequenzen könnte festgestellt werden, wie
viele minimale Veränderungen nötig wären, um eine Sequenz in die andere
umzuwandeln. Eine geringe Edit-Distanz würde auf eine starke
strukturelle Ähnlichkeit hindeuten.

\subsubsection{\texorpdfstring{\textbf{5. Übergangswahrscheinlichkeiten
und
Markov-Analyse}}{5. Übergangswahrscheinlichkeiten und Markov-Analyse}}\label{uxfcbergangswahrscheinlichkeiten-und-markov-analyse}

Mithilfe einer Markov-Ketten-Analyse könnten die
Übergangswahrscheinlichkeiten für die Terminalsymbole innerhalb der
empirischen und der künstlich erzeugten Sequenzen verglichen werden. Ein
Vergleich der Übergangsmuster hilft dabei, zu erkennen, ob die
künstliche Grammatik dieselben Übergangsstrukturen erlernt hat. Wenn die
Übergangswahrscheinlichkeiten ähnlich sind, zeigt dies, dass die
induzierte Grammatik in der Lage ist, die dynamische Struktur der
empirischen Sequenz abzubilden.

\subsubsection{\texorpdfstring{\textbf{6. Visuelle Überprüfung und
Heatmaps}}{6. Visuelle Überprüfung und Heatmaps}}\label{visuelle-uxfcberpruxfcfung-und-heatmaps}

Eine visuelle Überprüfung durch Heatmaps oder Übergangsmatrizen könnte
bestätigen, ob die künstlich erzeugten Sequenzen denselben rhythmischen
und strukturellen Mustern folgen wie die empirische Zeichenkette.
Ähnliche Muster in den Heatmaps der beiden Sequenzen würden darauf
hinweisen, dass die Grammatik die empirische Sequenzstruktur gut
reproduziert.

\subsubsection{\texorpdfstring{\textbf{Zusammenfassung der bisherigen
Ergebnisse}}{Zusammenfassung der bisherigen Ergebnisse}}\label{zusammenfassung-der-bisherigen-ergebnisse}

Zusammengefasst liefert die Arbeit an der empirischen und der künstlich
erzeugten Terminalzeichenkette wertvolle Erkenntnisse darüber, wie gut
die induzierte probabilistische Grammatik in der Lage ist, die Muster
und Strukturen der empirischen Daten zu erfassen. Die Ergebnisse zeigen,
dass durch die Grammatik nicht nur Sequenzstrukturen modelliert werden,
sondern auch Übergangswahrscheinlichkeiten und Häufigkeitsmuster
erfolgreich reproduziert werden können. Die genannten Analysen könnten
daher Hinweise auf die Genauigkeit und Zuverlässigkeit der induzierten
Grammatik geben und bieten eine Grundlage für weitere Optimierungen.

4o

\subparagraph{\texorpdfstring{
\textbf{Aufgabe:}}{ Aufgabe:}}\label{aufgabe-2}

Analysiere die folgende R-Sitzung, die eine Zuordnung von
Terminalzeichen zu numerischen Werten und deren Korrelation berechnet:

\# Terminalzeichen werden numerischen Werten zugeordnet

symbol\_mapping \textless- list(

"KBG" = 1, "VBG" = 2, "KBBd" = 3, "VBBd" = 4,

"VBA" = 5, "KBA" = 6, "VAA" = 7, "KAA" = 8,

"KAV" = 9, "VAV" = 10

)

\# Empirische und erzeugte Terminalzeichenketten

empirical\_sequence \textless- c("KBG", "VBG", "KBBd", "VBBd", "KBBd",
"VBBd", "KBBd", "VBA", "KBBd", "VBA",

"KBBd", "VBA", "KBA", "KBA", "VBA", "KBA", "KBA", "VBA", "VAA", "KAA",

"VBA", "KBBd", "KBBd", "VBA", "KAA", "VBA", "KAA", "VAA", "KAA", "VAV",

"KAV", "VAA", "KAA", "KAV", "VAV", "KAV")

generated\_sequence1 \textless- c("KBG", "VBG", "KBBd", "VBBd", "KBBd",
"VBA", "KBA", "VBA", "KAA", "VAA", "KAV", "VAV")

generated\_sequence2 \textless- c("KBG", "VBG", "KBBd", "VBBd", "KBBd",
"VBA", "KBA", "VBA", "KAA", "VAA", "KAV", "VAV")

\# Funktion zur Umwandlung in numerische Sequenzen

sequence\_to\_numeric \textless- function(sequence, mapping) \{

sapply(sequence, function(symbol) mapping{[}{[}symbol{]}{]})

\}

\# Umwandlung der Sequenzen in numerische Vektoren

empirical\_numeric \textless- sequence\_to\_numeric(empirical\_sequence,
symbol\_mapping)

generated\_numeric1 \textless-
sequence\_to\_numeric(generated\_sequence1, symbol\_mapping)

generated\_numeric2 \textless-
sequence\_to\_numeric(generated\_sequence2, symbol\_mapping)

\# Padding für ungleiche Längen (mit NA für nicht zugeordnete
Positionen)

max\_length \textless- max(length(empirical\_numeric),
length(generated\_numeric1), length(generated\_numeric2))

empirical\_numeric \textless- c(empirical\_numeric, rep(NA, max\_length
- length(empirical\_numeric)))

generated\_numeric1 \textless- c(generated\_numeric1, rep(NA,
max\_length - length(generated\_numeric1)))

generated\_numeric2 \textless- c(generated\_numeric2, rep(NA,
max\_length - length(generated\_numeric2)))

\# Berechnung der Korrelationen

cor\_empirical\_gen1 \textless- cor(empirical\_numeric,
generated\_numeric1, use = "complete.obs", method = "spearman")

cor\_empirical\_gen2 \textless- cor(empirical\_numeric,
generated\_numeric2, use = "complete.obs", method = "spearman")

cat("Korrelation zwischen empirischer und erzeugter Sequenz 1:",
cor\_empirical\_gen1, "\textbackslash n")

cat("Korrelation zwischen empirischer und erzeugter Sequenz 2:",
cor\_empirical\_gen2, "\textbackslash n")

\textbf{Ergebnis:}

Diese R-Sitzung führt eine Analyse der Korrelation zwischen einer
empirischen Terminalzeichenkette und zwei künstlich erzeugten Sequenzen
durch. Hier ist eine detaillierte Analyse der einzelnen Schritte:

\subsubsection{\texorpdfstring{\textbf{1. Zuordnung der Terminalzeichen
zu numerischen
Werten}}{1. Zuordnung der Terminalzeichen zu numerischen Werten}}\label{zuordnung-der-terminalzeichen-zu-numerischen-werten}

r

Code kopieren

symbol\_mapping \textless- list(

"KBG" = 1, "VBG" = 2, "KBBd" = 3, "VBBd" = 4,

"VBA" = 5, "KBA" = 6, "VAA" = 7, "KAA" = 8,

"KAV" = 9, "VAV" = 10

)

Die Terminalzeichen (Symbole) werden hier numerischen Werten zugeordnet.
Diese Zuordnung erleichtert die anschließende Berechnung der
Korrelation, da numerische Werte erforderlich sind.

\subsubsection{\texorpdfstring{\textbf{2. Definition der empirischen und
der künstlich erzeugten
Sequenzen}}{2. Definition der empirischen und der künstlich erzeugten Sequenzen}}\label{definition-der-empirischen-und-der-kuxfcnstlich-erzeugten-sequenzen}

empirical\_sequence \textless- c("KBG", "VBG", "KBBd", "VBBd", ...)

generated\_sequence1 \textless- c("KBG", "VBG", "KBBd", "VBBd", ...)

generated\_sequence2 \textless- c("KBG", "VBG", "KBBd", "VBBd", ...)

Die empirische Sequenz enthält eine Reihe von Terminalzeichen, die aus
einer realen Beobachtung stammen, während generated\_sequence1 und
generated\_sequence2 zwei unterschiedliche, künstlich erzeugte Sequenzen
repräsentieren.

\subsubsection{\texorpdfstring{\textbf{3. Funktion zur Umwandlung von
Terminalzeichen in numerische
Werte}}{3. Funktion zur Umwandlung von Terminalzeichen in numerische Werte}}\label{funktion-zur-umwandlung-von-terminalzeichen-in-numerische-werte}

sequence\_to\_numeric \textless- function(sequence, mapping) \{

sapply(sequence, function(symbol) mapping{[}{[}symbol{]}{]})

\}

Diese Funktion wandelt eine Sequenz von Terminalzeichen in einen
numerischen Vektor um, indem sie die Zeichen in die vorher definierte
Zuordnung (symbol\_mapping) umwandelt.

\subsubsection{\texorpdfstring{\textbf{4. Umwandlung der Sequenzen in
numerische
Vektoren}}{4. Umwandlung der Sequenzen in numerische Vektoren}}\label{umwandlung-der-sequenzen-in-numerische-vektoren}

empirical\_numeric \textless- sequence\_to\_numeric(empirical\_sequence,
symbol\_mapping)

generated\_numeric1 \textless-
sequence\_to\_numeric(generated\_sequence1, symbol\_mapping)

generated\_numeric2 \textless-
sequence\_to\_numeric(generated\_sequence2, symbol\_mapping)

Die empirische und künstlichen Sequenzen werden in numerische Werte
umgewandelt, die später für die Korrelation verwendet werden.

\subsubsection{\texorpdfstring{\textbf{5. Padding der Vektoren auf
gleiche
Länge}}{5. Padding der Vektoren auf gleiche Länge}}\label{padding-der-vektoren-auf-gleiche-luxe4nge}

max\_length \textless- max(length(empirical\_numeric),
length(generated\_numeric1), length(generated\_numeric2))

empirical\_numeric \textless- c(empirical\_numeric, rep(NA, max\_length
- length(empirical\_numeric)))

generated\_numeric1 \textless- c(generated\_numeric1, rep(NA,
max\_length - length(generated\_numeric1)))

generated\_numeric2 \textless- c(generated\_numeric2, rep(NA,
max\_length - length(generated\_numeric2)))

Da die Sequenzen unterschiedliche Längen haben, wird hier „Padding`` mit
NA-Werten durchgeführt, um alle Vektoren auf die maximale Länge
aufzufüllen. Dies ermöglicht die Berechnung der Korrelationen ohne
Fehlermeldungen aufgrund ungleicher Vektorlängen.

\subsubsection{\texorpdfstring{\textbf{6. Berechnung der
Korrelationen}}{6. Berechnung der Korrelationen}}\label{berechnung-der-korrelationen}

cor\_empirical\_gen1 \textless- cor(empirical\_numeric,
generated\_numeric1, use = "complete.obs", method = "spearman")

cor\_empirical\_gen2 \textless- cor(empirical\_numeric,
generated\_numeric2, use = "complete.obs", method = "spearman")

Die Spearman-Korrelation wird berechnet, um den Zusammenhang zwischen
den empirischen und den künstlichen Sequenzen zu messen. Hierbei werden
nur „vollständige Beobachtungen`` (complete.obs) verwendet, sodass
NA-Werte ignoriert werden.

\subsubsection{\texorpdfstring{\textbf{7. Ergebnisse der
Korrelationen}}{7. Ergebnisse der Korrelationen}}\label{ergebnisse-der-korrelationen}

cat("Korrelation zwischen empirischer und erzeugter Sequenz 1:",
cor\_empirical\_gen1, "\textbackslash n")

cat("Korrelation zwischen empirischer und erzeugter Sequenz 2:",
cor\_empirical\_gen2, "\textbackslash n")

Die Ausgabe gibt die Spearman-Korrelationskoeffizienten zwischen der
empirischen und den beiden künstlich erzeugten Sequenzen an.

\subsubsection{\texorpdfstring{\textbf{Interpretation der
Ergebnisse}}{Interpretation der Ergebnisse}}\label{interpretation-der-ergebnisse}

\begin{itemize}
\item
  Die Höhe der berechneten Korrelationswerte zeigt, inwieweit die
  künstlichen Sequenzen die Reihenfolge und Struktur der empirischen
  Sequenz widerspiegeln.
\item
  Eine hohe positive Korrelation (nahe bei 1) würde darauf hinweisen,
  dass die künstliche Sequenz die Rangfolge der empirischen Sequenz gut
  abbildet. Eine niedrige oder negative Korrelation hingegen würde auf
  deutliche Unterschiede hinweisen.
\end{itemize}

\subsubsection{\texorpdfstring{\textbf{Weitere mögliche Analysen mit
R}}{Weitere mögliche Analysen mit R}}\label{weitere-muxf6gliche-analysen-mit-r}

\begin{itemize}
\item
  \textbf{Signifikanztest der Korrelation}: Ein Signifikanztest könnte
  durchgeführt werden, um festzustellen, ob die Korrelation zwischen den
  Sequenzen statistisch signifikant ist.
\item
  \textbf{Markov-Ketten-Modellierung}: Die Übergangswahrscheinlichkeiten
  zwischen den Terminalzeichen könnten modelliert und verglichen werden,
  um die dynamischen Strukturen der Sequenzen zu analysieren.
\item
  \textbf{Häufigkeitsanalyse und Chi-Quadrat-Test}: Eine
  Chi-Quadrat-Analyse der Häufigkeiten der Terminalzeichen könnte
  prüfen, ob die Häufigkeitsverteilungen in den Sequenzen signifikant
  voneinander abweichen.
\item
  \textbf{Visualisierung}: Heatmaps oder Übergangsmatrizen könnten
  erstellt werden, um Übergänge und Muster visuell zu vergleichen.
\end{itemize}

\subparagraph{\texorpdfstring{
\textbf{Aufgabe:}}{ Aufgabe:}}\label{aufgabe-3}

Schreibe eine R-Anweisung, die einen Signifikanztest für die
Korrelationen zwischen der empirischen Sequenz und den beiden erzeugten
Sequenzen durchführt, um zu bestimmen, ob die beobachteten Korrelationen
statistisch signifikant sind. Verwende den cor.test()-Befehl in R und
wende ihn auf die numerischen Vektoren empirical\_numeric,
generated\_numeric1 und generated\_numeric2 an, wobei Spearman als
Methode eingestellt wird, um den Spearman-Korrelationskoeffizienten zu
testen. Achte darauf, dass fehlende Werte (NA) ignoriert werden.

\textbf{Ergebnis:}

Um die Signifikanztests für die Korrelationen zwischen der empirischen
Sequenz und den beiden erzeugten Sequenzen durchzuführen, kann die
Funktion cor.test() in R verwendet werden. Diese Funktion berechnet
sowohl den Korrelationskoeffizienten als auch den p-Wert, um die
statistische Signifikanz zu bestimmen. Hier ist die R-Anweisung:

\# Signifikanztest für die Korrelation zwischen empirischer und
erzeugter Sequenz 1

cor\_test\_gen1 \textless- cor.test(empirical\_numeric,
generated\_numeric1,

method = "spearman", use = "complete.obs")

\# Signifikanztest für die Korrelation zwischen empirischer und
erzeugter Sequenz 2

cor\_test\_gen2 \textless- cor.test(empirical\_numeric,
generated\_numeric2,

method = "spearman", use = "complete.obs")

\# Ergebnisse ausgeben

cat("Signifikanztest für die Korrelation zwischen empirischer und
erzeugter Sequenz 1:\textbackslash n")

print(cor\_test\_gen1)

cat("\textbackslash nSignifikanztest für die Korrelation zwischen
empirischer und erzeugter Sequenz 2:\textbackslash n")

print(cor\_test\_gen2)

\subsubsection{\texorpdfstring{\textbf{Erklärung der
Anweisung}}{Erklärung der Anweisung}}\label{erkluxe4rung-der-anweisung}

\begin{itemize}
\item
  cor.test() wird für die beiden Paarungen der Sequenzen aufgerufen
  (empirical\_numeric und generated\_numeric1, sowie empirical\_numeric
  und generated\_numeric2).
\item
  Der Parameter method = "spearman" spezifiziert die Berechnung des
  Spearman-Korrelationskoeffizienten.
\item
  Der Parameter use = "complete.obs" stellt sicher, dass nur Paare ohne
  fehlende Werte (NA) in die Berechnung einbezogen werden.
\end{itemize}

\subsubsection{\texorpdfstring{\textbf{Interpretation der
Ausgabe}}{Interpretation der Ausgabe}}\label{interpretation-der-ausgabe}

\begin{itemize}
\item
  cor\_test\_gen1 und cor\_test\_gen2 geben jeweils die
  Spearman-Korrelationskoeffizienten sowie die p-Werte aus, die angeben,
  ob die beobachtete Korrelation statistisch signifikant ist. Ein p-Wert
  unter 0,05 würde auf eine signifikante Korrelation hindeuten.
\end{itemize}

\subparagraph{\texorpdfstring{
\textbf{Aufgabe:}}{ Aufgabe:}}\label{aufgabe-4}

Analysiere die folgende R-Sitzung, in der Signifikanztests für die
Korrelationen zwischen einer empirischen Sequenz und zwei erzeugten
Sequenzen durchgeführt wurden. Die Tests verwenden den
Spearman-Korrelationskoeffizienten (method = "spearman") und ignorieren
fehlende Werte (use = "complete.obs").:\textquotesingle\#
Signifikanztest für die Korrelation zwischen empirischer und erzeugter
Sequenz 1 \textgreater{} cor\_test\_gen1 \textless-
cor.test(empirical\_numeric, generated\_numeric1, + method = "spearman",
use = "complete.obs") \textgreater{} \# Signifikanztest für die
Korrelation zwischen empirischer und erzeugter Sequenz 2 \textgreater{}
cor\_test\_gen2 \textless- cor.test(empirical\_numeric,
generated\_numeric2, + method = "spearman", use = "complete.obs")
\textgreater{} \# Ergebnisse ausgeben \textgreater{}
cat("Signifikanztest für die Korrelation zwischen empirischer und
erzeugter Sequenz 1:\textbackslash n") Signifikanztest für die
Korrelation zwischen empirischer und erzeugter Sequenz 1: \textgreater{}
print(cor\_test\_gen1) Spearman\textquotesingle s rank correlation rho
data: empirical\_numeric and generated\_numeric1 S = 121.6, p-value =
0.05057 alternative hypothesis: true rho is not equal to 0 sample
estimates: rho 0.574824 \textquotesingle{}

\textbf{Ergebnis:}

In dieser R-Sitzung wurde ein Signifikanztest für die Korrelation
zwischen einer empirischen Sequenz und zwei künstlich erzeugten
Sequenzen mit dem Spearman-Korrelationskoeffizienten durchgeführt. Die
Ergebnisse für den ersten Signifikanztest (cor\_test\_gen1) sind wie
folgt:

\begin{itemize}
\item
  \textbf{Spearman\textquotesingle s rank correlation coefficient
  (rho)}: Der berechnete Spearman-Korrelationskoeffizient (rho) beträgt
  0,5748. Dies zeigt eine moderate positive Korrelation zwischen der
  empirischen Sequenz und der ersten erzeugten Sequenz.
\item
  \textbf{p-Wert}: Der p-Wert beträgt 0,05057, was knapp über dem
  konventionellen Signifikanzniveau von 0,05 liegt. Das bedeutet, dass
  die Korrelation statistisch nur knapp nicht signifikant ist.
\item
  \textbf{Interpretation}: Bei einem Signifikanzniveau von 0,05 würde
  dieser p-Wert nahelegen, dass die beobachtete Korrelation nicht
  ausreichend stark ist, um signifikant zu sein. Es besteht eine
  moderate Korrelation, aber diese könnte durch Zufall entstanden sein.
  Eine Erhöhung der Stichprobe könnte jedoch zu einer statistisch
  signifikanten Korrelation führen.
\end{itemize}

\subsubsection{\texorpdfstring{\textbf{Weiteres
Vorgehen}}{Weiteres Vorgehen}}\label{weiteres-vorgehen}

Da der Test auf statistische Signifikanz knapp nicht erfüllt ist,
könnten folgende Untersuchungen sinnvoll sein:

\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\item
  \textbf{Test für die zweite Sequenz (cor\_test\_gen2)}: Die Ergebnisse
  für die zweite Sequenz sollten noch geprüft werden, um zu sehen, ob
  sich hier signifikante Unterschiede oder Ähnlichkeiten zur ersten
  Sequenz zeigen.
\item
  \textbf{Vergleich von Mittelwerten und Varianzen}: Ein Vergleich der
  Mittelwerte und Varianzen der numerischen Sequenzen könnte Aufschluss
  über strukturelle Ähnlichkeiten oder Unterschiede geben.
\item
  \textbf{Verwendung anderer Metriken}: Alternative Korrelationsmaße (z.
  B. Pearson, wenn die Daten normalverteilt sind) könnten ebenfalls
  Einblicke in die Beziehung zwischen den Sequenzen liefern.
\end{enumerate}

Zusammenfassend lässt sich sagen, dass der moderate
Spearman-Korrelationskoeffizient auf eine gewisse strukturelle
Ähnlichkeit hinweist, diese jedoch nicht ganz statistisch signifikant
ist, um Zufall auszuschließen.

\subparagraph{\texorpdfstring{
\textbf{Aufgabe:}}{ Aufgabe:}}\label{aufgabe-5}

Interpretiere die Ergebnisse für Sequenz 2:\textquotesingle data:
empirical\_numeric and generated\_numeric2 S = 121.6, p-value = 0.05057
alternative hypothesis: true rho is not equal to 0 sample estimates: rho
0.574824 \textquotesingle.

\textbf{Ergebnis:}

Die Ergebnisse des Signifikanztests für die Korrelation zwischen der
empirischen Sequenz und der zweiten künstlich erzeugten Sequenz (Sequenz
2) sind identisch zu den Ergebnissen für Sequenz 1:

\begin{itemize}
\item
  \textbf{Spearman-Korrelationskoeffizient (rho)}: Der berechnete Wert
  für den Spearman-Korrelationskoeffizienten beträgt 0,5748, was eine
  moderate positive Korrelation anzeigt. Diese Korrelation ist weder
  stark noch schwach, sondern zeigt eine moderate Übereinstimmung
  zwischen der empirischen Sequenz und Sequenz 2.
\item
  \textbf{p-Wert}: Der p-Wert beträgt 0,05057, was knapp über dem
  üblichen Signifikanzniveau von 0,05 liegt. Da der p-Wert geringfügig
  höher als 0,05 ist, kann die Korrelation als statistisch nicht
  signifikant betrachtet werden, was bedeutet, dass sie möglicherweise
  durch Zufall entstanden sein könnte.
\item
  \textbf{Alternative Hypothese}: Die alternative Hypothese, dass die
  wahre Korrelation zwischen den Sequenzen ungleich null ist, kann bei
  diesem p-Wert knapp nicht bestätigt werden.
\end{itemize}

\subsubsection{\texorpdfstring{\textbf{Interpretation}}{Interpretation}}\label{interpretation}

Die Ergebnisse zeigen, dass es eine moderate positive Korrelation
zwischen der empirischen Sequenz und Sequenz 2 gibt, die jedoch knapp
nicht signifikant ist. Das bedeutet:

\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\item
  Die Übereinstimmung zwischen den beiden Sequenzen ist ähnlich wie bei
  Sequenz 1, aber aufgrund des leicht über 0,05 liegenden p-Werts kann
  nicht mit ausreichender Sicherheit gesagt werden, dass diese
  Korrelation statistisch bedeutsam ist.
\item
  Die moderate Korrelation deutet darauf hin, dass die künstliche
  Grammatik Sequenzen erzeugt, die der Struktur der empirischen Sequenz
  ähneln, aber nicht so stark, dass die Ähnlichkeit statistisch
  signifikant wäre.
\end{enumerate}

\subsubsection{\texorpdfstring{\textbf{Zusammenfassung}}{Zusammenfassung}}\label{zusammenfassung}

Es gibt eine moderate Korrelation zwischen der empirischen und der
zweiten erzeugten Sequenz, die strukturell ähnlich zu sein scheint,
jedoch nur knapp nicht signifikant ist. Weitere Analysen, wie
Mittelwertvergleiche oder größere Stichproben, könnten hilfreich sein,
um die Beziehung genauer zu untersuchen.

\subparagraph{\texorpdfstring{
\textbf{Aufgabe:}}{ Aufgabe:}}\label{aufgabe-6}

Analysiere die folgenden Ergebnisse des Signifikanztests für die
Korrelation zwischen einer empirischen Sequenz und einer zweiten
künstlich erzeugten Sequenz:

r

data: empirical\_numeric and generated\_numeric2

S = 121.6, p-value = 0.05057

alternative hypothesis: true rho is not equal to 0

sample estimates:

rho

0.574824

Hierbei beträgt der Spearman-Korrelationskoeffizient (rho) 0,5748, was
auf eine moderate Korrelation hinweist. Der p-Wert liegt knapp über dem
Signifikanzniveau von 0,05, was die Korrelation als statistisch nicht
signifikant einstuft. Auf Grundlage dieser Ergebnisse, bei nur einer
empirischen und zwei künstlichen Sequenzen, stellt sich die Frage:
Könnte das knappe Ergebnis dazu ermutigen, die Aufgabe weiterzuführen,
indem mehr künstliche Sequenzen erstellt und analysiert werden, um die
Robustheit der Korrelation besser zu beurteilen?

\textbf{Ergebnis:}

Ja, das knappe Ergebnis des Signifikanztests deutet darauf hin, dass es
sinnvoll wäre, die Analyse mit weiteren künstlichen Sequenzen
fortzusetzen, um die Robustheit und Zuverlässigkeit der Korrelation
besser beurteilen zu können. Hier sind einige Argumente und mögliche
Ansätze, die das Vorhaben unterstützen könnten:

\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\item
  \textbf{Erhöhung der Stichprobengröße}: Mit nur einer empirischen und
  zwei künstlichen Sequenzen ist die Grundlage für statistische Aussagen
  über die Korrelation begrenzt. Durch die Erstellung und Analyse
  zusätzlicher künstlicher Sequenzen könnten Sie eine größere und
  aussagekräftigere Stichprobe erhalten, die die statistische Power
  erhöht und eine stabilere Schätzung der Korrelation ermöglicht.
\item
  \textbf{Variabilität in künstlichen Sequenzen}: Mit mehr künstlich
  erzeugten Sequenzen können Sie die Spannbreite der Korrelationen
  untersuchen. Wenn die zusätzlichen Sequenzen ähnliche Korrelationen
  aufweisen, verstärkt das die Aussagekraft und lässt darauf schließen,
  dass das Modell die zugrunde liegende Struktur gut erfasst. Wenn die
  Korrelationen jedoch stark variieren, könnte das darauf hinweisen,
  dass das Modell die empirische Sequenz nicht stabil reproduziert.
\item
  \textbf{Signifikanz der Ergebnisse durch Aggregation}: Eine
  Möglichkeit wäre, eine Vielzahl von Korrelationen zu berechnen und die
  Verteilung dieser Werte statistisch zu untersuchen. Zum Beispiel
  könnte man mit einem Aggregationstest prüfen, ob der durchschnittliche
  Korrelationskoeffizient über alle künstlichen Sequenzen signifikant
  ist.
\item
  \textbf{Empirische Analyse durch Bootstrapping}: Da der aktuelle
  p-Wert knapp über 0,05 liegt, könnte eine Bootstrap-Analyse helfen,
  die Konfidenzintervalle für die Korrelation zu bestimmen. Mit
  zusätzlichen Datenpunkten lässt sich dadurch die Verlässlichkeit der
  Korrelation besser einschätzen.
\item
  \textbf{Feinabstimmung der Grammatik}: Sollte sich die Korrelation
  nach Hinzufügen weiterer Sequenzen verbessern, könnte dies ein Hinweis
  darauf sein, dass die künstlich erzeugte Grammatik die Struktur der
  empirischen Sequenz gut nachbildet. Sollte die Korrelation jedoch
  weiter knapp bleiben oder abnehmen, könnte das auf
  Optimierungspotenzial in der Grammatik hindeuten.
\end{enumerate}

Zusammengefasst würde das Hinzufügen weiterer künstlicher Sequenzen eine
fundiertere Beurteilung der Robustheit der Korrelation ermöglichen und
aufzeigen, ob das Modell in der Lage ist, die empirische Struktur
konsistent abzubilden.

\subparagraph{\texorpdfstring{
\textbf{Aufgabe:}}{ Aufgabe:}}\label{aufgabe-7}

Erstelle ein R-Programm, das die Häufigkeit der Terminalzeichen in einer
empirischen Terminalzeichenkette sowie in zwei künstlichen
Terminalzeichenketten analysiert. Die Aufgabe besteht darin, die
Häufigkeit jedes Terminalsymbols in den Sequenzen zu berechnen und die
Verteilung zu vergleichen, um zu überprüfen, ob die Grammatik die
relative Häufigkeit der Symbole korrekt abbildet. Eine ähnliche
Verteilung würde darauf hinweisen, dass die Grammatik die
Häufigkeitsmuster gut repliziert hat. Das R-Programm soll die folgenden
Schritte durchführen: 1. Berechnung der Häufigkeit der Terminalzeichen
in der empirischen Sequenz sowie in den beiden künstlichen Sequenzen. 2.
Darstellung der Häufigkeiten der einzelnen Symbole in den drei
Sequenzen. 3. Berechnung der Häufigkeitsverteilungen und Vergleich der
Verteilungen zwischen der empirischen Sequenz und den beiden erzeugten
Sequenzen. Das R-Programm sollte wie folgt aussehen:

r

\# Terminalzeichenkette der empirischen und der erzeugten Sequenzen

empirical\_sequence \textless- c("KBG", "VBG", "KBBd", "VBBd", "KBBd",
"VBBd", "KBBd", "VBA", "KBBd", "VBA",

"KBBd", "VBA", "KBA", "KBA", "VBA", "KBA", "KBA", "VBA", "VAA", "KAA",

"VBA", "KBBd", "KBBd", "VBA", "KAA", "VBA", "KAA", "VAA", "KAA", "VAV",

"KAV", "VAA", "KAA", "KAV", "VAV", "KAV")

generated\_sequence1 \textless- c("KBG", "VBG", "KBBd", "VBBd", "KBBd",
"VBA", "KBA", "VBA", "KAA", "VAA", "KAV", "VAV")

generated\_sequence2 \textless- c("KBG", "VBG", "KBBd", "VBBd", "KBBd",
"VBA", "KBA", "VBA", "KAA", "VAA", "KAV", "VAV")

\# Häufigkeit der Symbole in einer Sequenz berechnen

get\_frequency \textless- function(sequence) \{

table(factor(sequence, levels = unique(c(empirical\_sequence,