Das geht:
http://raj.blog.archive.org/2012/07/19/ ... with-lxml/
Danke und viele Grüße
D
Die Suche ergab 114 Treffer
- Sonntag 7. September 2014, 14:37
- Forum: Allgemeine Fragen
- Thema: HTML lesen / schreiben, Encoding
- Antworten: 7
- Zugriffe: 1871
- Sonntag 7. September 2014, 13:38
- Forum: Allgemeine Fragen
- Thema: HTML lesen / schreiben, Encoding
- Antworten: 7
- Zugriffe: 1871
Re: HTML lesen / schreiben, Encoding
parse von lxml versteht auch URLs direkt. Das hat den Vorteil, dass das Encoding, das vom Server übertragen wird, mitberücksichtigt wird.
Welches encoding hat response denn?
Normalerweise arbeitet man intern ausschließlich mit Unicode-Strings. Das Encoding macht man erst beim Schreiben in eine ...
Welches encoding hat response denn?
Normalerweise arbeitet man intern ausschließlich mit Unicode-Strings. Das Encoding macht man erst beim Schreiben in eine ...
- Sonntag 7. September 2014, 12:28
- Forum: Allgemeine Fragen
- Thema: HTML lesen / schreiben, Encoding
- Antworten: 7
- Zugriffe: 1871
Re: HTML lesen / schreiben, Encoding
Hi,
dachte das Problem wäre klar
falsch dargestellte Umlaute. "prätentiösen"
dachte das Problem wäre klar

- Sonntag 7. September 2014, 11:59
- Forum: Allgemeine Fragen
- Thema: HTML lesen / schreiben, Encoding
- Antworten: 7
- Zugriffe: 1871
HTML lesen / schreiben, Encoding
Hi Zusammen,
simples Programm, ließt eine Webseite aus, extrahiert einige Teile und soll sie in eine lokale HTML Datei schreiben.
Leider stolper ich schon wieder über die Encodings :(
# -*- coding: utf-8 -*-
from urllib2 import urlopen
from lxml.html import parse
from lxml.etree import tostring ...
simples Programm, ließt eine Webseite aus, extrahiert einige Teile und soll sie in eine lokale HTML Datei schreiben.
Leider stolper ich schon wieder über die Encodings :(
# -*- coding: utf-8 -*-
from urllib2 import urlopen
from lxml.html import parse
from lxml.etree import tostring ...
- Sonntag 31. März 2013, 13:19
- Forum: Allgemeine Fragen
- Thema: urllib urlencode not working as expected
- Antworten: 3
- Zugriffe: 994
urllib urlencode not working as expected
Hi there,
i try to build a little script to read a webpage, read movie titles and query imdb.com.
from urllib2 import urlopen
from lxml.html import parse
from lxml.etree import tostring
from lxml.html import HTMLParser
import socket
import re
import urllib
import os
# Read movie titles
parser ...
i try to build a little script to read a webpage, read movie titles and query imdb.com.
from urllib2 import urlopen
from lxml.html import parse
from lxml.etree import tostring
from lxml.html import HTMLParser
import socket
import re
import urllib
import os
# Read movie titles
parser ...
- Samstag 8. Dezember 2012, 11:11
- Forum: Allgemeine Fragen
- Thema: urllib + encoding
- Antworten: 5
- Zugriffe: 1397
Re: urllib + encoding
Na das werde ich mir doch mal für mein nächstes Script ansehen.
Für mein aktuelles Programm hatte ich eigentlich so was eingebaut:
import HTMLParser
imdbTitle=HTMLParser.HTMLParser().unescape(imdbTitle[0])
Unerklärlicher weise funktioniert das ganz bei mir lokal (Windows, Python 2.6.5)
und ...
Für mein aktuelles Programm hatte ich eigentlich so was eingebaut:
import HTMLParser
imdbTitle=HTMLParser.HTMLParser().unescape(imdbTitle[0])
Unerklärlicher weise funktioniert das ganz bei mir lokal (Windows, Python 2.6.5)
und ...
- Freitag 7. Dezember 2012, 18:15
- Forum: Allgemeine Fragen
- Thema: urllib + encoding
- Antworten: 5
- Zugriffe: 1397
Re: urllib + encoding
HiHi..
da gehst du recht in der Annahme.
Das ist eines meiner Quick&Dirty Scripte, nutze urllib2 + regex um die Webseite aus zu lesen.
Was wäre denn eine alternative? (zumindest um die Problematik der Umlaute / Encodings / HTML Escapes los zu werden?)
Viele Grüße
Dom
da gehst du recht in der Annahme.
Das ist eines meiner Quick&Dirty Scripte, nutze urllib2 + regex um die Webseite aus zu lesen.
Was wäre denn eine alternative? (zumindest um die Problematik der Umlaute / Encodings / HTML Escapes los zu werden?)
Viele Grüße
Dom
- Freitag 7. Dezember 2012, 14:39
- Forum: Allgemeine Fragen
- Thema: urllib + encoding
- Antworten: 5
- Zugriffe: 1397
urllib + encoding
Hallo Zusammen,
verzweifel mal wieder an den bösen Encodings.
Ziel: von zwei unterschiedlichen Web Ressourcen ziehe ich Texte, diese will ich miteinander vergleichen.
# -*- coding: utf-8 -*-
.....
html=response.read()
imdbTitle=findNamesInHtml(html)
imdbTitle=imdbTitle[0].decode("utf8 ...
verzweifel mal wieder an den bösen Encodings.
Ziel: von zwei unterschiedlichen Web Ressourcen ziehe ich Texte, diese will ich miteinander vergleichen.
# -*- coding: utf-8 -*-
.....
html=response.read()
imdbTitle=findNamesInHtml(html)
imdbTitle=imdbTitle[0].decode("utf8 ...
- Samstag 3. Dezember 2011, 00:46
- Forum: Allgemeine Fragen
- Thema: Performance vs. Java
- Antworten: 8
- Zugriffe: 1697
Performance vs. Java
Hallo Zusammen,
eigentlich bin ich Java Programmierer, schreibe meine Quick&Dirty Scripte aber gerne mit Python.
Nun bin ich auf ein mathematisches Rätsel gestoßen, das 9 unbekannte Variablen in 6 Gleichungen einander in Beziehung stellt.
Die Gleichungen sehen zum Beispiel so aus: ABC+BDE=FGH, ADB ...
eigentlich bin ich Java Programmierer, schreibe meine Quick&Dirty Scripte aber gerne mit Python.
Nun bin ich auf ein mathematisches Rätsel gestoßen, das 9 unbekannte Variablen in 6 Gleichungen einander in Beziehung stellt.
Die Gleichungen sehen zum Beispiel so aus: ABC+BDE=FGH, ADB ...
- Mittwoch 22. Dezember 2010, 20:47
- Forum: Netzwerkprogrammierung
- Thema: mechanize Datei-Download
- Antworten: 9
- Zugriffe: 2418
Re: mechanize Datei-Download
Zum Abschluss noch mal das fertige Programm:
size=browser.response().info().getheader("Content-Length")
if size==None:
size=0
else:
size=int(size)/1024/1024
print "download (%.2fmb): " % size ,
# define file to write to
filename="somefile.exe"
outputFile=open(filename, "wb")
resp ...
size=browser.response().info().getheader("Content-Length")
if size==None:
size=0
else:
size=int(size)/1024/1024
print "download (%.2fmb): " % size ,
# define file to write to
filename="somefile.exe"
outputFile=open(filename, "wb")
resp ...
- Mittwoch 22. Dezember 2010, 19:25
- Forum: Netzwerkprogrammierung
- Thema: mechanize Datei-Download
- Antworten: 9
- Zugriffe: 2418
Re: mechanize Datei-Download
wow... :oops: falls du die Zeit hast, wäre es fein wenn du das mal auseinander bröselst für mich :)
edit:
ah moment:
partial(response.read, 512) = erzeugt eine neue Funktion die wiederum "read" mit dem Parameer 512 aufruft.
iter() = erzeugt einen Iterator, der die Funktion so oft aufruft bis sie ...
edit:
ah moment:
partial(response.read, 512) = erzeugt eine neue Funktion die wiederum "read" mit dem Parameer 512 aufruft.
iter() = erzeugt einen Iterator, der die Funktion so oft aufruft bis sie ...
- Mittwoch 22. Dezember 2010, 16:57
- Forum: Netzwerkprogrammierung
- Thema: mechanize Datei-Download
- Antworten: 9
- Zugriffe: 2418
Re: mechanize Datei-Download
@da.dom: Das funktioniert bis auf zwei Kleinigkeiten ganz wunderbar.
1. Die Anzeige ist irreführend weil Du mit ``index * 0.5`` Kilobytes vor dem Schrägstrich anzeigst, die grösse nach dem Schrägstrich aber in Mebibytes angegeben ist. Ist nicht gerade benutzerfreundlich. ;-)
*autsch* das ...
1. Die Anzeige ist irreführend weil Du mit ``index * 0.5`` Kilobytes vor dem Schrägstrich anzeigst, die grösse nach dem Schrägstrich aber in Mebibytes angegeben ist. Ist nicht gerade benutzerfreundlich. ;-)
*autsch* das ...
- Mittwoch 22. Dezember 2010, 15:19
- Forum: Netzwerkprogrammierung
- Thema: mechanize Datei-Download
- Antworten: 9
- Zugriffe: 2418
Re: mechanize Datei-Download
Achso, stand gerade auf dem Schlauch :) . Scheint nicht zu gehen, ich vermutet er ließt beim ersten Zugriff den kompletten Response (der erste Step dauert) und dann dann feuert er ohne ein Ende zu finden durch die Schleife. Hier mein Beispiel
import mechanize
br=mechanize.Browser()
resp=br.open ...
import mechanize
br=mechanize.Browser()
resp=br.open ...
- Mittwoch 22. Dezember 2010, 13:20
- Forum: Netzwerkprogrammierung
- Thema: mechanize Datei-Download
- Antworten: 9
- Zugriffe: 2418
Re: mechanize Datei-Download
Wenn du mir das syntaktisch einmal zeigst versuche ich dasBlackJack hat geschrieben:Blockweise in einer Schleife

- Mittwoch 22. Dezember 2010, 13:02
- Forum: Netzwerkprogrammierung
- Thema: mechanize Datei-Download
- Antworten: 9
- Zugriffe: 2418
mechanize Datei-Download
Hallo Zusammen,
gibt es eine Möglichkeit mittels mechanize nur Teile der response zu lesen?
Bei "normalen" HTTP Seiten gibt die Funktion "readline" ja Zeilenweise die Response zurück, jedoch ist diese Funktion nicht besonders brauchbar bei Dateien.
Was ich vorhabe: Ich lade mittels Python Script ...
gibt es eine Möglichkeit mittels mechanize nur Teile der response zu lesen?
Bei "normalen" HTTP Seiten gibt die Funktion "readline" ja Zeilenweise die Response zurück, jedoch ist diese Funktion nicht besonders brauchbar bei Dateien.
Was ich vorhabe: Ich lade mittels Python Script ...
- Dienstag 23. Februar 2010, 10:21
- Forum: Allgemeine Fragen
- Thema: String Encoding
- Antworten: 6
- Zugriffe: 1101
- Montag 22. Februar 2010, 17:25
- Forum: Allgemeine Fragen
- Thema: String Encoding
- Antworten: 6
- Zugriffe: 1101
String Encoding
Guten Abend zusammen,
(ganz erlich) ich kann dieses Thema nicht ausstehen, weil es mir in regelmäßigen Abständen in den verschiedesten Programmiersprachen den Nerv raubt :)
Ziel: Auslesen einer Webseite, die (laut Firefox) UTF-8 Inhalte zurück schickt. Das Python-File ist ISO Codiert (wenn man das ...
(ganz erlich) ich kann dieses Thema nicht ausstehen, weil es mir in regelmäßigen Abständen in den verschiedesten Programmiersprachen den Nerv raubt :)
Ziel: Auslesen einer Webseite, die (laut Firefox) UTF-8 Inhalte zurück schickt. Das Python-File ist ISO Codiert (wenn man das ...
- Mittwoch 3. Februar 2010, 16:54
- Forum: Allgemeine Fragen
- Thema: Regex - wdh. Elemente
- Antworten: 6
- Zugriffe: 982
- Mittwoch 3. Februar 2010, 16:14
- Forum: Allgemeine Fragen
- Thema: Regex - wdh. Elemente
- Antworten: 6
- Zugriffe: 982
- Mittwoch 3. Februar 2010, 14:10
- Forum: Allgemeine Fragen
- Thema: Regex - wdh. Elemente
- Antworten: 6
- Zugriffe: 982
Regex - wdh. Elemente
Hallo Zusammen,
ich habe ein kleines Problem mit Regex, da das ganze schwer zu beschreiben ist, hier mal ein kleines Beispiel:
test="a=aaa a=bbb ende"
print re.findall("a=(.*?) ende",test)
Mein gwünschtes Ergebnis ist "bbb", also das Muster "a=" welches er VOR einem bestimmten anderen Muster ...
ich habe ein kleines Problem mit Regex, da das ganze schwer zu beschreiben ist, hier mal ein kleines Beispiel:
test="a=aaa a=bbb ende"
print re.findall("a=(.*?) ende",test)
Mein gwünschtes Ergebnis ist "bbb", also das Muster "a=" welches er VOR einem bestimmten anderen Muster ...