Die Suche ergab 114 Treffer

von da.dom
Sonntag 7. September 2014, 14:37
Forum: Allgemeine Fragen
Thema: HTML lesen / schreiben, Encoding
Antworten: 7
Zugriffe: 1625

Re: HTML lesen / schreiben, Encoding

Das geht:
http://raj.blog.archive.org/2012/07/19/ ... with-lxml/

Danke und viele Grüße
D
von da.dom
Sonntag 7. September 2014, 13:38
Forum: Allgemeine Fragen
Thema: HTML lesen / schreiben, Encoding
Antworten: 7
Zugriffe: 1625

Re: HTML lesen / schreiben, Encoding

parse von lxml versteht auch URLs direkt. Das hat den Vorteil, dass das Encoding, das vom Server übertragen wird, mitberücksichtigt wird. Welches encoding hat response denn? Normalerweise arbeitet man intern ausschließlich mit Unicode-Strings. Das Encoding macht man erst beim Schreiben in eine Date...
von da.dom
Sonntag 7. September 2014, 12:28
Forum: Allgemeine Fragen
Thema: HTML lesen / schreiben, Encoding
Antworten: 7
Zugriffe: 1625

Re: HTML lesen / schreiben, Encoding

Hi,

dachte das Problem wäre klar :) falsch dargestellte Umlaute. "prätentiösen"
von da.dom
Sonntag 7. September 2014, 11:59
Forum: Allgemeine Fragen
Thema: HTML lesen / schreiben, Encoding
Antworten: 7
Zugriffe: 1625

HTML lesen / schreiben, Encoding

Hi Zusammen, simples Programm, ließt eine Webseite aus, extrahiert einige Teile und soll sie in eine lokale HTML Datei schreiben. Leider stolper ich schon wieder über die Encodings :( # -*- coding: utf-8 -*- from urllib2 import urlopen from lxml.html import parse from lxml.etree import tostring from...
von da.dom
Sonntag 31. März 2013, 13:19
Forum: Allgemeine Fragen
Thema: urllib urlencode not working as expected
Antworten: 3
Zugriffe: 884

urllib urlencode not working as expected

Hi there, i try to build a little script to read a webpage, read movie titles and query imdb.com. from urllib2 import urlopen from lxml.html import parse from lxml.etree import tostring from lxml.html import HTMLParser import socket import re import urllib import os # Read movie titles parser = HTML...
von da.dom
Samstag 8. Dezember 2012, 11:11
Forum: Allgemeine Fragen
Thema: urllib + encoding
Antworten: 5
Zugriffe: 1236

Re: urllib + encoding

Na das werde ich mir doch mal für mein nächstes Script ansehen. Für mein aktuelles Programm hatte ich eigentlich so was eingebaut: import HTMLParser imdbTitle=HTMLParser.HTMLParser().unescape(imdbTitle[0]) Unerklärlicher weise funktioniert das ganz bei mir lokal (Windows, Python 2.6.5) und auf dem Z...
von da.dom
Freitag 7. Dezember 2012, 18:15
Forum: Allgemeine Fragen
Thema: urllib + encoding
Antworten: 5
Zugriffe: 1236

Re: urllib + encoding

HiHi..

da gehst du recht in der Annahme.
Das ist eines meiner Quick&Dirty Scripte, nutze urllib2 + regex um die Webseite aus zu lesen.

Was wäre denn eine alternative? (zumindest um die Problematik der Umlaute / Encodings / HTML Escapes los zu werden?)

Viele Grüße
Dom
von da.dom
Freitag 7. Dezember 2012, 14:39
Forum: Allgemeine Fragen
Thema: urllib + encoding
Antworten: 5
Zugriffe: 1236

urllib + encoding

Hallo Zusammen, verzweifel mal wieder an den bösen Encodings. Ziel: von zwei unterschiedlichen Web Ressourcen ziehe ich Texte, diese will ich miteinander vergleichen. # -*- coding: utf-8 -*- ..... html=response.read() imdbTitle=findNamesInHtml(html) imdbTitle=imdbTitle[0].decode("utf8") .....
von da.dom
Samstag 3. Dezember 2011, 00:46
Forum: Allgemeine Fragen
Thema: Performance vs. Java
Antworten: 8
Zugriffe: 1546

Performance vs. Java

Hallo Zusammen, eigentlich bin ich Java Programmierer, schreibe meine Quick&Dirty Scripte aber gerne mit Python. Nun bin ich auf ein mathematisches Rätsel gestoßen, das 9 unbekannte Variablen in 6 Gleichungen einander in Beziehung stellt. Die Gleichungen sehen zum Beispiel so aus: ABC+BDE=FGH, A...
von da.dom
Mittwoch 22. Dezember 2010, 20:47
Forum: Netzwerkprogrammierung
Thema: mechanize Datei-Download
Antworten: 9
Zugriffe: 2199

Re: mechanize Datei-Download

Zum Abschluss noch mal das fertige Programm: size=browser.response().info().getheader("Content-Length") if size==None: size=0 else: size=int(size)/1024/1024 print "download (%.2fmb): " % size , # define file to write to filename="somefile.exe" outputFile=open(filename, ...
von da.dom
Mittwoch 22. Dezember 2010, 19:25
Forum: Netzwerkprogrammierung
Thema: mechanize Datei-Download
Antworten: 9
Zugriffe: 2199

Re: mechanize Datei-Download

wow... :oops: falls du die Zeit hast, wäre es fein wenn du das mal auseinander bröselst für mich :) edit: ah moment: partial(response.read, 512) = erzeugt eine neue Funktion die wiederum "read" mit dem Parameer 512 aufruft. iter() = erzeugt einen Iterator, der die Funktion so oft aufruft b...
von da.dom
Mittwoch 22. Dezember 2010, 16:57
Forum: Netzwerkprogrammierung
Thema: mechanize Datei-Download
Antworten: 9
Zugriffe: 2199

Re: mechanize Datei-Download

@da.dom: Das funktioniert bis auf zwei Kleinigkeiten ganz wunderbar. 1. Die Anzeige ist irreführend weil Du mit ``index * 0.5`` Kilobytes vor dem Schrägstrich anzeigst, die grösse nach dem Schrägstrich aber in Mebibytes angegeben ist. Ist nicht gerade benutzerfreundlich. ;-) *autsch* das verwirrt a...
von da.dom
Mittwoch 22. Dezember 2010, 15:19
Forum: Netzwerkprogrammierung
Thema: mechanize Datei-Download
Antworten: 9
Zugriffe: 2199

Re: mechanize Datei-Download

Achso, stand gerade auf dem Schlauch :) . Scheint nicht zu gehen, ich vermutet er ließt beim ersten Zugriff den kompletten Response (der erste Step dauert) und dann dann feuert er ohne ein Ende zu finden durch die Schleife. Hier mein Beispiel import mechanize br=mechanize.Browser() resp=br.open(&quo...
von da.dom
Mittwoch 22. Dezember 2010, 13:20
Forum: Netzwerkprogrammierung
Thema: mechanize Datei-Download
Antworten: 9
Zugriffe: 2199

Re: mechanize Datei-Download

BlackJack hat geschrieben:Blockweise in einer Schleife
Wenn du mir das syntaktisch einmal zeigst versuche ich das :) . Wie gesagt ich habe gegoogelt und in der API nur read und readlines gefunden, wobei readlines nehme ich an nach linefeeds splittet (was in BinärDateien ja vermutlich nichts exisitert)
von da.dom
Mittwoch 22. Dezember 2010, 13:02
Forum: Netzwerkprogrammierung
Thema: mechanize Datei-Download
Antworten: 9
Zugriffe: 2199

mechanize Datei-Download

Hallo Zusammen, gibt es eine Möglichkeit mittels mechanize nur Teile der response zu lesen? Bei "normalen" HTTP Seiten gibt die Funktion "readline" ja Zeilenweise die Response zurück, jedoch ist diese Funktion nicht besonders brauchbar bei Dateien. Was ich vorhabe: Ich lade mitte...
von da.dom
Dienstag 23. Februar 2010, 10:21
Forum: Allgemeine Fragen
Thema: String Encoding
Antworten: 6
Zugriffe: 1023

Wenn Du alles lesen willst, wäre ein `read()` effizienter als zeilenweise zu lesen und das so ineffizient wieder zusammenzusetzen. Keine schlechte Idee htmlString=htmlFile.read(); Warum `findall()` wenn Du eh nur das erste Vorkommen suchst!? Eher so?: utf8Title=re.search("<title>(.*?)</title>&...
von da.dom
Montag 22. Februar 2010, 17:25
Forum: Allgemeine Fragen
Thema: String Encoding
Antworten: 6
Zugriffe: 1023

String Encoding

Guten Abend zusammen, (ganz erlich) ich kann dieses Thema nicht ausstehen, weil es mir in regelmäßigen Abständen in den verschiedesten Programmiersprachen den Nerv raubt :) Ziel: Auslesen einer Webseite, die (laut Firefox) UTF-8 Inhalte zurück schickt. Das Python-File ist ISO Codiert (wenn man das F...
von da.dom
Mittwoch 3. Februar 2010, 16:54
Forum: Allgemeine Fragen
Thema: Regex - wdh. Elemente
Antworten: 6
Zugriffe: 878

print re.findall("<a href="([^"]*)">weiter",html) Wenn du jetzt noch eine erläutern hinterher schießt, bin ich wunschlos glücklich :) [^"]* Da komme ich nicht ganz mit und verstehe die Dokumentation in dem Punkt auch nicht ;) und wenn wir schon mal einen regex experten...
von da.dom
Mittwoch 3. Februar 2010, 16:14
Forum: Allgemeine Fragen
Thema: Regex - wdh. Elemente
Antworten: 6
Zugriffe: 878

Nicht so ganz, hier mal der eigentliche Zweck (ja ich weiss, regex und html - parsen ;) ) html='<a href="link1.html">Link Text 1</a> | <a href="link-pg3442-1.html?PHPSESSID=5708116dd0bdf2c931d1b539c4ec4d98">weiter</a></p> </div> ' print re.findall("<a href=\"(\w*?)\&quo...
von da.dom
Mittwoch 3. Februar 2010, 14:10
Forum: Allgemeine Fragen
Thema: Regex - wdh. Elemente
Antworten: 6
Zugriffe: 878

Regex - wdh. Elemente

Hallo Zusammen, ich habe ein kleines Problem mit Regex, da das ganze schwer zu beschreiben ist, hier mal ein kleines Beispiel: test="a=aaa a=bbb ende" print re.findall("a=(.*?) ende",test) Mein gwünschtes Ergebnis ist "bbb", also das Muster "a=" welches er VOR...