Die Suche ergab 10 Treffer

von chris8080
Samstag 25. Januar 2020, 23:33
Forum: Allgemeine Fragen
Thema: Sätze kategorisieren - welche verschiedenen Ansätze sind möglich?
Antworten: 2
Zugriffe: 2166

Re: Sätze kategorisieren - welche verschiedenen Ansätze sind möglich?

Ja, so in der Art mache ich das aktuell. Die Kategorien habe ich jetzt in einer CSV aufgebaut inkl. der Schlüsselwörter. Bisher habe ich hauptsächlich zwei Probleme: 1. Eine Kategorie von weiter unten in der CSV passt besser als die erste gefundene 2. Zusammengesetzte Wörter werden getrennt und pass...
von chris8080
Sonntag 19. Januar 2020, 18:44
Forum: Allgemeine Fragen
Thema: Viele String Operationen in einem Programm - wie optimieren?
Antworten: 7
Zugriffe: 650

Re: Viele String Operationen in einem Programm - wie optimieren?

Allgemein gilt bei so etwas das man vor dem Optimieren erst einmal Profiling betreiben sollte und nicht auf gut Glück irgendwo am Code rumschraubt. Ich habe mein script jetzt direkt mit Snakeviz genutzt und interessante Einsichten. Die "teuerste" Methode hat eine Art "Fuzzy Search&qu...
von chris8080
Dienstag 14. Januar 2020, 08:22
Forum: Allgemeine Fragen
Thema: Sätze kategorisieren - welche verschiedenen Ansätze sind möglich?
Antworten: 2
Zugriffe: 2166

Sätze kategorisieren - welche verschiedenen Ansätze sind möglich?

Hallo, ich habe eine lange Liste mit Sätzen (ca. 30 Millionen) und will diese gern in möglich viele (aber manuell machbar) Gruppen einteilen - ca. 200 - 400 Gruppen (diese Gruppen sind geschachtelt). Beispiel: 18 Reasons You Should Upgrade to Windows 10 The 100 Best Android Apps for 2020 Cooler Mast...
von chris8080
Donnerstag 9. Januar 2020, 21:16
Forum: Allgemeine Fragen
Thema: Viele String Operationen in einem Programm - wie optimieren?
Antworten: 7
Zugriffe: 650

Re: Viele String Operationen in einem Programm - wie optimieren?

Vielen Dank euch beiden. Vom Code Styling her sicher recht übel - ich komme von C / PHP und habe mir da ein paar Unarten angewöhnt :-S Ich hatte in anderen Teilen des Codes auch schon angefangen mit pycodestyle - das hilft sehr gut. Zur Optimierung bzgl. CPU Last: Profilers hatte ich mal gehört, abe...
von chris8080
Donnerstag 9. Januar 2020, 09:56
Forum: Allgemeine Fragen
Thema: Viele String Operationen in einem Programm - wie optimieren?
Antworten: 7
Zugriffe: 650

Viele String Operationen in einem Programm - wie optimieren?

Hallo, ich habe ein Programm, welches aus HTML Dateien Strings extrahieren soll. Dazu verwende ich BeautifulSoup4 in Kombination mit tonnenweise for, if, try etc. def extract_description(self, html): soup = BeautifulSoup(str(html), 'lxml') descr = soup.find_all('p', itemprop='description') if len ( ...
von chris8080
Dienstag 31. Dezember 2019, 03:59
Forum: Allgemeine Fragen
Thema: Wie prüft man flexibel auf diverse/unterschiedliche Werte? (Oder alternativer Ansatz)
Antworten: 6
Zugriffe: 1262

Re: Wie prüft man flexibel auf diverse/unterschiedliche Werte? (Oder alternativer Ansatz)

__deets__ hat geschrieben: Sonntag 29. Dezember 2019, 14:21 Gibts nicht. Du kannst ein strategy pattern oder Ähnliches nutzen um die Struktur zu vereinheitlichen und gemeinsam nutzbares zu erhalten, um dann die Spezifika pro Seite abzuhandeln. Aber das war’s auch schon.
Vielen Dank für den Hinweis, so in der Richtung mache ich das jetzt.
von chris8080
Sonntag 29. Dezember 2019, 13:12
Forum: Allgemeine Fragen
Thema: Wie prüft man flexibel auf diverse/unterschiedliche Werte? (Oder alternativer Ansatz)
Antworten: 6
Zugriffe: 1262

Re: Wie prüft man flexibel auf diverse/unterschiedliche Werte? (Oder alternativer Ansatz)

Ja, das ist mehr oder weniger der Standardweg von Scrapy.
Das funktioniert prima für eine Domain oder auch 10 - 30.
Ich suche nach einer Option, wie man das (semi-) skalieren kann ohne das für jede Seite einzeln anpassen zu müssen.
von chris8080
Sonntag 29. Dezember 2019, 05:26
Forum: Allgemeine Fragen
Thema: Wie prüft man flexibel auf diverse/unterschiedliche Werte? (Oder alternativer Ansatz)
Antworten: 6
Zugriffe: 1262

Wie prüft man flexibel auf diverse/unterschiedliche Werte? (Oder alternativer Ansatz)

Hallo, ich versuche via Scrapy Daten von diversen Websites zu scrapen. Die Optionen die ich habe sind entweder die Daten per XPath oder CSS zu extrahieren (oder den gesamten HTML code zu analysieren und die Daten mit .. ? zu extrahieren). Von den Kategorie Seiten in Webshops hätte ich gern: - Produk...
von chris8080
Freitag 8. Mai 2015, 06:09
Forum: Offtopic
Thema: Big Data - wie geht man das Thema an?
Antworten: 2
Zugriffe: 1649

Re: Big Data - wie geht man das Thema an?

Bin Dipl. Inf. - arbeite seit ca. 10 Jahren mit PHP / MySQL aber stark im Web-Bereich und habe auch schon Oracle Schulungen hinter mir. Ganz genau wie du schreibst - in erster Linie Mining / Analytics. Ob man das jetzt BigData nennen muss oder nicht und wie das nachher aussieht - das kann man sicher...
von chris8080
Freitag 8. Mai 2015, 02:18
Forum: Offtopic
Thema: Big Data - wie geht man das Thema an?
Antworten: 2
Zugriffe: 1649

Big Data - wie geht man das Thema an?

Hallo, habe jetzt schon einige Tage über Big Data gelesen und bekomme so langsam einen Eindruck - leider keinen sehr speziellen, da vieles recht theoretisch geschrieben ist. Was ich versuche ist folgendes: Würde gerne Websites/Shops/Blog auf News/Produkte/Preise in einer sehr speziellen Nische analy...