Information extraction from websites (focus on product details)
16. August 2019Informationsextraktion aus Websites (Fokus auf Produkt-Details)
Am vergangenen Dienstag versammelte sich in unserem Hause eine Schar von Software-Entwicklern und Daten-Spezialisten, um gebannt den Worten und Tipps von Timo Schulz zu lauschen. Timo ist ehemaliger Mitarbeiter von Picalike und nun Berater bei ITGAIN Consulting. Als Spezialist für Künstliche Intelligenz und im speziellen Machine Learning, Deep Learning und Datenverarbeitung, berät Timo Unternehmen rund um die Themen Advanced Analytics und KI.
Thema des Workshops, zu dem 20 Teilnehmer aus unterschiedlichen Branchenbereichen kamen, war “Informationsextraktion aus Websites mit Fokus auf Produkt-Details”. Oder anders gesagt: Wie bekommt man strukturierte Daten aus unstrukturierten Texten?
Der 1.Teil des Workshops befasste sich mit der Theorie: Von RegEx bis zu Neuronalen Netzen versuchte Timo den interessierten Tech-Profis das Thema Text-Analyse und Text-Mining näher zu bringen und zu verdeutlichen, auf welche Probleme man bei Produkttexten im E-Commerce stoßen kann. Nach einer kurzen Pause ging es dann ins Eingemachte: Es wurde aktiv und mit vielen “Hands-on”-Beispielen in die Laptoptasten getippt und ein reger Austausch zu gelernten Techniken und neuen Anwendungsbeispielen mit vielen Tipps und Tricks fand statt.
Im Anschluss daran wurde sich noch bei einem kühlen Bier und leckerer Pizza ausgetauscht und ich hatte die Chance den Workshop-Teilnehmern und auch Timo ein paar Fragen zu stellen.
Interview mit Timo Schulz
Ich wollte schon immer mehr aus Daten rausholen.
Warum hast du dich dazu entschieden im Bereich der Künstlichen Intelligenz zu arbeiten?
Schon 2005, während meines Informatikstudiums, habe ich angefangen, mich mit Daten zu beschäftigen. Ich wollte schon immer mehr aus Daten rausholen und habe viel in diesem Bereich geforscht. Dann wollte ich aber gerne raus aus der Forschung und mein Wissen und die Technologie praktisch anwenden. So bin ich damals zu Picalike gekommen.
Warum bist du dann später in die Beratung gegangen?
Ich wollte irgendwann raus aus dem E-Commerce-Geschäft. Es war sehr mühselig und nervenaufreibend, die Technologie den Unternehmen nahe zu bringen. Oft waren die Unternehmen vom Produkt, der Technologie, überzeugt, dass es funktioniert, aber es scheiterte dann teilweise an politischen Entscheidungen innerhalb der Firma oder es gab doch kein weitreichendes Verständnis dafür. Da ist es natürlich schwierig hochmotiviert zu bleiben. In der Beratung kann ich nun KI in allen Bereichen weiterbringen und ganz ohne Druck den Unternehmen aufzeigen, was alles möglich ist und wie auch sie KI in ihren Unternehmen implementieren können.
Da muss man oftmals noch viel Überzeugungsarbeit leisten.
Welche Herausforderungen siehst du für den E-Commerce in Bezug auf KI?
Die größte Herausforderung besteht eigentlich darin, das Potenzial von KI richtig zu erkennen und einzuschätzen. Und die Akzeptanz: Das Unternehmen muss für sich erkennen, was KI für einen selbst, also für das Unternehmen, machen kann. Da muss man oftmals noch viel Überzeugungsarbeit leisten.
Gab es schon mal einen Fall, bei dem du einem Unternehmen von KI abgeraten hast?
Nein, eigentlich nicht, weil KI so vielseitig einsetzbar ist. Manchmal muss man allerdings aufpassen, dass KI nicht einfach nur als Trenderscheinung verstanden wird. Ganz nach dem Motto: “Wir müssen jetzt unbedingt etwas mit KI machen.” Hier reicht es auch oftmals aus, die vorhandenen Daten im Unternehmen einfach besser zu strukturieren und zu schauen, was können wir aus diesen Daten bereits alles herausholen.
Als Berater sollte man ja immer Up-to-Date bleiben. Wie und wo informierst du dich über die Branche, über neue Entwicklungen in dem Bereich?
Ich widme mich, soweit möglich, einen ganzen Tag intensiv dem Research. Dabei lese ich sehr viel zu dem Thema, verfolge Blogs, höre mir Vorträge von Leuten an, denen ich folge und versuche mir dann im Anschluss daraus einen eigenen Use Case prototypisch zu implementieren. So kann ich dann entscheiden, ob dieser Ansatz in meinen Augen sinnvoll ist, ob man das Thema weiterverfolgen sollte oder eben nicht.
Und welche Trends sind gerade spannend? Wo geht die Reise hin?
Ich denke alles um das Thema NLU bzw. NLP (Natural Language Understanding bzw. Natural Language Processing, Anm.d.R.) ist sehr interessant und hier wird noch viel passieren.
Apropos Sprachverständnis: Ich habe neulich gelesen, dass man es noch nicht geschafft hat, Künstlicher Intelligenz Humor beizubringen. Ist das richtig?
Ja, das ist in der Tat nicht so einfach. Wenn beispielsweise bei einem Onlineshop die Kundenbewertung steht: “Der Schuh ist riesig, wie ein VW-Bulli.” Dann verstehen wir: “Okay, der Schuh fällt höchstwahrscheinlich ziemlich groß aus. Und es wurde nur einfach etwas lustiger umschrieben.” Die KI würde aber tatsächlich den Schuh mit der Größe eines VW-Bullis vergleichen. Sie denkt halt nicht weiter. Ein weiteres Beispiel: Jan geht ins Kinderzimmer und holt seinen Ball. Dann geht er in den Garten und legt den Ball dort auf den Boden. Wo ist der Ball? Für die KI ist es nicht klar, dass der Ball nun im Garten liegt.
Aus einer verlässlichen Quelle habe ich erfahren, dass du früher bei Picalike Bier-Botschafter warst. Welches ist denn dein Lieblingsbier und warum?
Ganz klar Sierra Nevada Torpedo. Ken Grossman ist ein Held! Er hat die Bierbraukunst revolutioniert. In den 80ern ging er nach Deutschland und kaufte dort ein Kupferbrauhaus, das er dann mit zurück nach Kalifornien nahm. Und ab diesem Zeitpunkt wurde das Bier einfach unschlagbar. Sie verwenden für das Bier ganze Hopfendolden, nicht nur Hopfenextrakt, wie es andere machen, und produzieren einen Teil ihrer Energie über Solar selbst. Als die großen Waldbrände in Kalifornien waren, braute Sierra Nevada ein spezielles Bier und spendeten den gesamten Erlös den Opfern des Feuers.
Interviews mit den Workshop-Teilnehmern
Interview mit Lennart von Shopping24.com
Welche Position hast du bei Shopping24?
Ich bin Search Engine Linguistic Manager.
Und was genau machst du in deinem Job?
Ich helfe bei der Verarbeitung von Suchanfragen. Was geben User als Suchbegriffe ein und ich schaue mir an, was z.B. sprachlich alles drum herum erfasst werden muss, um bestmögliche Suchergebnisse auszugeben.
Warum bist du in diesem Workshop?
Da ich mich in meinem Job auch mit Produkttexten beschäftige, finde ich es interessant zu sehen, wie man dort Informationen extrahieren kann.
Hat dir der Workshop gefallen und wenn ja, was genau?
Ja, ich fand es gut, dass es viele Beispiele gab und wir die Dateien auch zur Verfügung gestellt bekommen haben, so dass man selbst auch noch einmal rumexperimentieren kann. Und die Atmosphäre war sehr entspannt und war nicht ein typisches “Vortragen-und-Zuhören”, sondern eher ein Austausch unter den Leuten. Das fand ich sehr angenehm.
Welche Themen für weitere Workshops wären für dich interessant?
Allgemein interessiere ich mich für Herausforderungen bei Produktsuchen. Z.B. Insights von anderen Website-Betreibern, die auch mit Produktsuche zu tun haben wären interessant. Welche Herausforderungen haben sie und wie lösen sie bestimmte Problemstellungen.
Interview mit Sarah von AdSoul
Welche Position hast du bei AdSoul?
Ich bin Linguistikerin.
Und was genau machst du in deinem Job?
Ich glieder sozusagen Keywords auf und versuche sie inhaltlich zu clustern. Eine grammatikalische Verarbeitung von Keywords sozusagen.
Warum bist du hier? Was interessiert dich an dem Workshop?
Dafür muss man erstmal erklären, was AdSoul macht. AdSoul ist im Bereich SEM tätig und kümmert sich um automatisiertes Suchmaschinenmarketing. Schon in der Uni habe ich mich mit den Themen Textmining und Aufbereitung von Daten und Texten beschäftigt. Das Ziel von AdSoul ist es im Grunde genommen irgendwann automatisierte Textanzeigen zu erstellen. Deshalb ist das Thema Datenextraktion so interessant für mich.
Interview mit Marc-Olaf von OGDS
Welche Position hast du bei der OGDS?
Ich bin Software-Entwickler.
Und was genau machst du in deinem Job?
Die OGDS ist ein Company Builder. Wir identifizieren neue und attraktive Geschäftsideen und bauen Prototypen dafür. Wir stellen den Betrieb, die Infrastruktur und die Architektur für diese Prototypen bereit und ich entwickle die Software dazu. Also im Grunde genommen stellen wir eine technische Lösung im Bereich E-Commerce bereit.
Warum bist du hier? Was interessiert dich an dem Workshop?
Ich interessiere mich für die Extraktion aus Texten und interessiere mich dafür, was andere Leute in diesem Bereich machen, welche neuen Ideen es in diesem Bereich gibt.
Hat dir der Workshop gefallen und wenn ja, was genau?
Ich war primär hier für den Austausch, gar nicht so sehr um mich fachlich weiterzubilden, da ich mich in diesem Bereich bereits sehr gut auskenne. Ich finde aber, dass Timo das Thema sehr gut erklärt und die Breite des Themas gut erfasst hat. Dadurch konnte ich interessante Gedankenansätze und z.T. neue Sichtweisen herausziehen.
Welche Themen für weitere Workshops wären für dich interessant?
Ich bin da immer sehr projektgetrieben. Momentan interessiere ich mich sehr für das Thema Extraktion von Daten aus Bildern. Daher freue ich mich auch, wenn ich mich gerade mit Picalike zu dem Thema noch weiter austauschen kann.
Interview mit Erwin von Shopping24.com
Welche Position hast du bei Shopping24?
Ich bin Java-Entwickler.
Und was genau machst du in deinem Job?
Ich bereite Produktdaten im E-Commerce auf. Ich kümmere mich um die Produktsuche bei Shopping24 und die Betreuung der Back-End-Systeme.
Warum bist du hier? Was interessiert dich an dem Workshop?
Zum einen bin ich hier für die eigene Erweiterung meines Wissens. Zum anderen benutzen wir bei Shopping24 Produktfeeds. Ziel könnte es hier sein, Text-Extraktion von externen Websites ohne Feeds zu realisieren.
Erwin von Shopping24 im Interview
Anm. d. R.: Die Interviews wurden protokollarisch festgehalten.