Bildvergleich(Meme Analyse)

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
Belaunsch
User
Beiträge: 3
Registriert: Freitag 8. Dezember 2023, 16:45

Hallo zusammen,
auf der suche nach Lösungen bin ich auf dieses Forum gestoßen und hab mir jetzt einfach gedacht es kann nicht schaden zu fragen :D.

Ich erstelle derzeit eine Reddit Meme Analyse.
Im ersten schritt scrape ich Daten von Reddit, sprich ich gebe Subreddits an und hole mir dann von diesen, die 10 am höchsten bewerteten Memes.
Jetzt habe ich die Bilder runtergeladen und die Daten von Reddit(Speicherpfad des Bildes, anzahl upvotes, Kommentare, Author etc.) in einer json abgespeichert.

In meinem zweiten script möchte ich über diese Bilder iterieren und alle miteinander vergleichen, mein erster Ansatz ist das ich die imagehashes miteinander vergleiche.

Nach einigen Lösungsansätzen die ich von freunden, dem Internet und der ein oder anderen KI bekommen habe, habe ich immer noch nicht mein erwartetes Ergebnis. (Es ist scheinbar sehr kompliziert Memes zu vergleichen.)

Da ich mein Projekt bis nächste Woche fertig haben sollte, habe ich nicht die Möglichkeit viel Machinelearning zu betreiben.

Hat jemand Erfahrung mit diesem Thema und kann mir Tipps geben ?

Vielen Dank im Voraus,
Liebe Grüße Philipp

(Ich kann bei Bedarf gerne meinen bisherigen Ansatz posten)
__deets__
User
Beiträge: 14545
Registriert: Mittwoch 14. Oktober 2015, 14:29

Bis naechste Woche wird's eher nix. Ich wuerde von sowas ausgehend https://pyimagesearch.com/2014/09/15/py ... wo-images/ arbeiten, aber ggf brauchst du dann doch SIFT/SURF oder ML, und das wird dann alles etwas komplizierter.
Sirius3
User
Beiträge: 17759
Registriert: Sonntag 21. Oktober 2012, 17:20

Was ist denn Dein Ziel? Was soll das Ergebnis des Bild-Vergleichs sein?
Belaunsch
User
Beiträge: 3
Registriert: Freitag 8. Dezember 2023, 16:45

Ich verstehe das es sehr knapp ist, ich werde mein bestes geben.
Das Ergebnis der Analyse soll sein, welche Memes die beliebtesten in den timeframes Monat und Jahr sind. Diese werde ich dann betrachten und die Frage beantworten warum diese so berühmt sind und wie man evtl Memes erstellen kann die großes potential haben auch berühmt zu werden.
Im Grunde könnte man das ja manuell Analysieren aber mein Ziel ist es auch größere Datenmengen verarbeiten zu können also sollte das Script das schon zuverlässig machen.
Bei meinen bisherigen Ansätzen werden z.b. Bilder mit hohem Weißanteil zusammen geclustert, was ja an sich falsch ist.

Es ist schon kompliziert da die memes unterscheidliche texte beinhalten können und unterschiedliche größen haben können.

Mein Ansatz ist die Texte zu extrahieren und den Teil des Bildes der den text enthält im vergleich zu ignorieren.

Der ansatz die bilder auf eine einheitliche größe zu bringen, vor dem vergleich hat noch keinen Erfolg gehabt.

Ich frage mich ob machinelearning ansätze möglich sind ohne diese erst zu trainieren.
also schon auf memes trainierte Bibiotheken zu verwenden, aber davon hab ih leider viel zu wenig Ahnung.
__deets__
User
Beiträge: 14545
Registriert: Mittwoch 14. Oktober 2015, 14:29

Mit ML-Ansaetzen kannst du zB Transfer-Learning betreiben, mit dem du dann mit deutlich weniger Trainingsdaten einen Klassifikator bauen kannst. Und dein Feld eignet sich ja auch ungewoehnlich gut insgesamt fuer irgendwelche Verfahren, weil du dir einfach deinen eigenen, kleinen Meme-Generator basteln kannst, und damit quasi unbegrenzt Trainingsdaten erzeugen.

Aber wenn ich lese, dass du Bilder auf Pixel-Ebene vergleichen willst, dann ist klar: da fehlt's wirklich an allen Grundlagen zur Bildverarbeitung. Das wird bis naechste Woche nix.
Belaunsch
User
Beiträge: 3
Registriert: Freitag 8. Dezember 2023, 16:45

Okey danke, ich werde mir das mal anschauen mit dem Transfer-Learning von ML. Der vergleich auf Pixel ebene ist ein Ansatz der mir präzise erschien, aber Vorerfahrungen hab ich leider nicht und kann nicht einschätzen ob das die geeignete Herangehensweise ist.
__deets__
User
Beiträge: 14545
Registriert: Mittwoch 14. Oktober 2015, 14:29

Skalieren erzeugt artefakte, genauso kann es Bildmanipulationen wie veränderte Paletten oder kompressionsartefakte geben. Einen Bildvergleich unter diesen Bedingungen robust zu gestalten ist eben nicht ganz ohne. Ich würde statt ML eher mit den SURF/SIFT Verfahren arbeiten, aber das ist Geschmacksache. Viel Erfolg.
Antworten