Schneider, J. (2019):
ETeC - Ensemble Text Classification without Learning
Während die Entwicklung von technischen Systemen und Computern in den letzten 50 Jahren massiv vorrangeschritten ist, hat sich die Interaktion zwischen Mensch und Maschine allerdings kaum weiterentwickelt. Obwohl Sprachsteuerungen sich auf Smartphones und vor allem im Smart Home Bereich immer mehr verbreiten, ist es schwierig, ein flexibles System zu finden, das sich für spezielle Anwendungsfälle anpassen lässt.
Diese Arbeit stellt ein solches System vor, um aus kurzen Anfragen, meist Sätzen, die Intention der Anfrage extrahieren zu können. Dafür werden bekannte Algorithmen verwendet, die Ähnlichkeiten zwischen Zeichenketten messen, wie beispielweise die Levenshtein Distanz. Zusätzlich werden Sätze als Zeichenketten interpretiert, bei denen die Zeichen aus Worten bestehen. Ähnlichkeitssuchen werden also auf zwei Ebenen durchgeführt, auf Wort- und auf Satzebene. Um die Genauigkeit der Ähnlichkeitssuchen zu verbessern, werden mehrere der vorher erwähnten Algorithmen zusammengeschlossen. Durch diesen Zusammenschluss von mehreren Algorithmen bleibt es dem Anwender überlassen, die ideale Balance zwischen Genauigkeit und Geschwindigkeit für seinen Anwendungsfall zu finden, indem er beispielsweise die Anzahl der Klassifikatoren in einem Ensemble kontrollieren kann.
Ein weiterer Vorteil des vorgestellten Systems ist die Flexibilität bei der Handhabung der bekannten Wörter und Sätzen. Da es komplett ohne Lernphase auskommt, kann zu jedem Zeitpunkt das Wörterbuch oder die Sammlung von Anfragen erweitert oder verkleinert werden.
Der zentrale Punkt dieser Arbeit ist die Evaluation der verschiedenen Ensemble-Methoden und die Gegenüberstellung mit den einzelnen Algorithmen in den Bereichen Genauigkeit und Geschwindigkeit.
While the evolution of technical systems and computers advanced massively in the last 50 years, the interaction between human and computer stagnates. Although speech control systems are widespread on smartphones and smart homes, finding a flexible systems to fit the assumed use case can be difficult.
This thesis presents such a system, that is designed to extract the intent of short queries. To this end, common algorithms to measure similarities between strings are used, such as the Levenshtein distance. Additionally, queries, or sentences, are interpreted as strings as well, where the individual segments are words instead of characters. Therefore, similarity searches are performed on two levels, on the word- and the sentence level. To augment the accuracy of the classifiers, they are incorporated into ensembles. This combination of algorithms allows the user to find an optimal balance between performance and accuracy for his use case, for example by reducing or increasing the number of classifiers in an ensemble.
An additional advantage is the flexibilty while handling the dictionary size. As there is no learning involved, sentences and words can be added or removed at any time.
The main point of this thesis is the evaluation of the different ensemble methods and the comparison with the individual algorithms in terms of accuracy and performance.
|