Das geht:
http://raj.blog.archive.org/2012/07/19/ ... with-lxml/
Danke und viele Grüße
D
Die Suche ergab 114 Treffer
- Sonntag 7. September 2014, 14:37
- Forum: Allgemeine Fragen
- Thema: HTML lesen / schreiben, Encoding
- Antworten: 7
- Zugriffe: 1625
- Sonntag 7. September 2014, 13:38
- Forum: Allgemeine Fragen
- Thema: HTML lesen / schreiben, Encoding
- Antworten: 7
- Zugriffe: 1625
Re: HTML lesen / schreiben, Encoding
parse von lxml versteht auch URLs direkt. Das hat den Vorteil, dass das Encoding, das vom Server übertragen wird, mitberücksichtigt wird. Welches encoding hat response denn? Normalerweise arbeitet man intern ausschließlich mit Unicode-Strings. Das Encoding macht man erst beim Schreiben in eine Date...
- Sonntag 7. September 2014, 12:28
- Forum: Allgemeine Fragen
- Thema: HTML lesen / schreiben, Encoding
- Antworten: 7
- Zugriffe: 1625
Re: HTML lesen / schreiben, Encoding
Hi,
dachte das Problem wäre klar falsch dargestellte Umlaute. "prätentiösen"
dachte das Problem wäre klar falsch dargestellte Umlaute. "prätentiösen"
- Sonntag 7. September 2014, 11:59
- Forum: Allgemeine Fragen
- Thema: HTML lesen / schreiben, Encoding
- Antworten: 7
- Zugriffe: 1625
HTML lesen / schreiben, Encoding
Hi Zusammen, simples Programm, ließt eine Webseite aus, extrahiert einige Teile und soll sie in eine lokale HTML Datei schreiben. Leider stolper ich schon wieder über die Encodings :( # -*- coding: utf-8 -*- from urllib2 import urlopen from lxml.html import parse from lxml.etree import tostring from...
- Sonntag 31. März 2013, 13:19
- Forum: Allgemeine Fragen
- Thema: urllib urlencode not working as expected
- Antworten: 3
- Zugriffe: 884
urllib urlencode not working as expected
Hi there, i try to build a little script to read a webpage, read movie titles and query imdb.com. from urllib2 import urlopen from lxml.html import parse from lxml.etree import tostring from lxml.html import HTMLParser import socket import re import urllib import os # Read movie titles parser = HTML...
- Samstag 8. Dezember 2012, 11:11
- Forum: Allgemeine Fragen
- Thema: urllib + encoding
- Antworten: 5
- Zugriffe: 1236
Re: urllib + encoding
Na das werde ich mir doch mal für mein nächstes Script ansehen. Für mein aktuelles Programm hatte ich eigentlich so was eingebaut: import HTMLParser imdbTitle=HTMLParser.HTMLParser().unescape(imdbTitle[0]) Unerklärlicher weise funktioniert das ganz bei mir lokal (Windows, Python 2.6.5) und auf dem Z...
- Freitag 7. Dezember 2012, 18:15
- Forum: Allgemeine Fragen
- Thema: urllib + encoding
- Antworten: 5
- Zugriffe: 1236
Re: urllib + encoding
HiHi..
da gehst du recht in der Annahme.
Das ist eines meiner Quick&Dirty Scripte, nutze urllib2 + regex um die Webseite aus zu lesen.
Was wäre denn eine alternative? (zumindest um die Problematik der Umlaute / Encodings / HTML Escapes los zu werden?)
Viele Grüße
Dom
da gehst du recht in der Annahme.
Das ist eines meiner Quick&Dirty Scripte, nutze urllib2 + regex um die Webseite aus zu lesen.
Was wäre denn eine alternative? (zumindest um die Problematik der Umlaute / Encodings / HTML Escapes los zu werden?)
Viele Grüße
Dom
- Freitag 7. Dezember 2012, 14:39
- Forum: Allgemeine Fragen
- Thema: urllib + encoding
- Antworten: 5
- Zugriffe: 1236
urllib + encoding
Hallo Zusammen, verzweifel mal wieder an den bösen Encodings. Ziel: von zwei unterschiedlichen Web Ressourcen ziehe ich Texte, diese will ich miteinander vergleichen. # -*- coding: utf-8 -*- ..... html=response.read() imdbTitle=findNamesInHtml(html) imdbTitle=imdbTitle[0].decode("utf8") .....
- Samstag 3. Dezember 2011, 00:46
- Forum: Allgemeine Fragen
- Thema: Performance vs. Java
- Antworten: 8
- Zugriffe: 1546
Performance vs. Java
Hallo Zusammen, eigentlich bin ich Java Programmierer, schreibe meine Quick&Dirty Scripte aber gerne mit Python. Nun bin ich auf ein mathematisches Rätsel gestoßen, das 9 unbekannte Variablen in 6 Gleichungen einander in Beziehung stellt. Die Gleichungen sehen zum Beispiel so aus: ABC+BDE=FGH, A...
- Mittwoch 22. Dezember 2010, 20:47
- Forum: Netzwerkprogrammierung
- Thema: mechanize Datei-Download
- Antworten: 9
- Zugriffe: 2199
Re: mechanize Datei-Download
Zum Abschluss noch mal das fertige Programm: size=browser.response().info().getheader("Content-Length") if size==None: size=0 else: size=int(size)/1024/1024 print "download (%.2fmb): " % size , # define file to write to filename="somefile.exe" outputFile=open(filename, ...
- Mittwoch 22. Dezember 2010, 19:25
- Forum: Netzwerkprogrammierung
- Thema: mechanize Datei-Download
- Antworten: 9
- Zugriffe: 2199
Re: mechanize Datei-Download
wow... :oops: falls du die Zeit hast, wäre es fein wenn du das mal auseinander bröselst für mich :) edit: ah moment: partial(response.read, 512) = erzeugt eine neue Funktion die wiederum "read" mit dem Parameer 512 aufruft. iter() = erzeugt einen Iterator, der die Funktion so oft aufruft b...
- Mittwoch 22. Dezember 2010, 16:57
- Forum: Netzwerkprogrammierung
- Thema: mechanize Datei-Download
- Antworten: 9
- Zugriffe: 2199
Re: mechanize Datei-Download
@da.dom: Das funktioniert bis auf zwei Kleinigkeiten ganz wunderbar. 1. Die Anzeige ist irreführend weil Du mit ``index * 0.5`` Kilobytes vor dem Schrägstrich anzeigst, die grösse nach dem Schrägstrich aber in Mebibytes angegeben ist. Ist nicht gerade benutzerfreundlich. ;-) *autsch* das verwirrt a...
- Mittwoch 22. Dezember 2010, 15:19
- Forum: Netzwerkprogrammierung
- Thema: mechanize Datei-Download
- Antworten: 9
- Zugriffe: 2199
Re: mechanize Datei-Download
Achso, stand gerade auf dem Schlauch :) . Scheint nicht zu gehen, ich vermutet er ließt beim ersten Zugriff den kompletten Response (der erste Step dauert) und dann dann feuert er ohne ein Ende zu finden durch die Schleife. Hier mein Beispiel import mechanize br=mechanize.Browser() resp=br.open(&quo...
- Mittwoch 22. Dezember 2010, 13:20
- Forum: Netzwerkprogrammierung
- Thema: mechanize Datei-Download
- Antworten: 9
- Zugriffe: 2199
Re: mechanize Datei-Download
Wenn du mir das syntaktisch einmal zeigst versuche ich das . Wie gesagt ich habe gegoogelt und in der API nur read und readlines gefunden, wobei readlines nehme ich an nach linefeeds splittet (was in BinärDateien ja vermutlich nichts exisitert)BlackJack hat geschrieben:Blockweise in einer Schleife
- Mittwoch 22. Dezember 2010, 13:02
- Forum: Netzwerkprogrammierung
- Thema: mechanize Datei-Download
- Antworten: 9
- Zugriffe: 2199
mechanize Datei-Download
Hallo Zusammen, gibt es eine Möglichkeit mittels mechanize nur Teile der response zu lesen? Bei "normalen" HTTP Seiten gibt die Funktion "readline" ja Zeilenweise die Response zurück, jedoch ist diese Funktion nicht besonders brauchbar bei Dateien. Was ich vorhabe: Ich lade mitte...
- Dienstag 23. Februar 2010, 10:21
- Forum: Allgemeine Fragen
- Thema: String Encoding
- Antworten: 6
- Zugriffe: 1023
- Montag 22. Februar 2010, 17:25
- Forum: Allgemeine Fragen
- Thema: String Encoding
- Antworten: 6
- Zugriffe: 1023
String Encoding
Guten Abend zusammen, (ganz erlich) ich kann dieses Thema nicht ausstehen, weil es mir in regelmäßigen Abständen in den verschiedesten Programmiersprachen den Nerv raubt :) Ziel: Auslesen einer Webseite, die (laut Firefox) UTF-8 Inhalte zurück schickt. Das Python-File ist ISO Codiert (wenn man das F...
- Mittwoch 3. Februar 2010, 16:54
- Forum: Allgemeine Fragen
- Thema: Regex - wdh. Elemente
- Antworten: 6
- Zugriffe: 878
- Mittwoch 3. Februar 2010, 16:14
- Forum: Allgemeine Fragen
- Thema: Regex - wdh. Elemente
- Antworten: 6
- Zugriffe: 878
- Mittwoch 3. Februar 2010, 14:10
- Forum: Allgemeine Fragen
- Thema: Regex - wdh. Elemente
- Antworten: 6
- Zugriffe: 878
Regex - wdh. Elemente
Hallo Zusammen, ich habe ein kleines Problem mit Regex, da das ganze schwer zu beschreiben ist, hier mal ein kleines Beispiel: test="a=aaa a=bbb ende" print re.findall("a=(.*?) ende",test) Mein gwünschtes Ergebnis ist "bbb", also das Muster "a=" welches er VOR...