Das deutsche Python-Forum

da.dom

Das geht:
http://raj.blog.archive.org/2012/07/19/ ... with-lxml/

Danke und viele Grüße
D

da.dom

parse von lxml versteht auch URLs direkt. Das hat den Vorteil, dass das Encoding, das vom Server übertragen wird, mitberücksichtigt wird.
Welches encoding hat response denn?
Normalerweise arbeitet man intern ausschließlich mit Unicode-Strings. Das Encoding macht man erst beim Schreiben in eine ...

da.dom

Hi,

dachte das Problem wäre klar

falsch dargestellte Umlaute. "prÃ¤tentiÃ¶sen"

da.dom

Hi Zusammen,

simples Programm, ließt eine Webseite aus, extrahiert einige Teile und soll sie in eine lokale HTML Datei schreiben.
Leider stolper ich schon wieder über die Encodings :(

# -*- coding: utf-8 -*-
from urllib2 import urlopen
from lxml.html import parse
from lxml.etree import tostring ...

da.dom

Hi there,

i try to build a little script to read a webpage, read movie titles and query imdb.com.

from urllib2 import urlopen
from lxml.html import parse
from lxml.etree import tostring
from lxml.html import HTMLParser
import socket
import re
import urllib
import os

# Read movie titles
parser ...

da.dom

Na das werde ich mir doch mal für mein nächstes Script ansehen.
Für mein aktuelles Programm hatte ich eigentlich so was eingebaut:

import HTMLParser
imdbTitle=HTMLParser.HTMLParser().unescape(imdbTitle[0])

Unerklärlicher weise funktioniert das ganz bei mir lokal (Windows, Python 2.6.5)
und ...

da.dom

HiHi..

da gehst du recht in der Annahme.
Das ist eines meiner Quick&Dirty Scripte, nutze urllib2 + regex um die Webseite aus zu lesen.

Was wäre denn eine alternative? (zumindest um die Problematik der Umlaute / Encodings / HTML Escapes los zu werden?)

Viele Grüße
Dom

da.dom

Hallo Zusammen,

verzweifel mal wieder an den bösen Encodings.
Ziel: von zwei unterschiedlichen Web Ressourcen ziehe ich Texte, diese will ich miteinander vergleichen.

# -*- coding: utf-8 -*-
.....
html=response.read()
imdbTitle=findNamesInHtml(html)
imdbTitle=imdbTitle[0].decode("utf8 ...

da.dom

Hallo Zusammen,

eigentlich bin ich Java Programmierer, schreibe meine Quick&Dirty Scripte aber gerne mit Python.
Nun bin ich auf ein mathematisches Rätsel gestoßen, das 9 unbekannte Variablen in 6 Gleichungen einander in Beziehung stellt.
Die Gleichungen sehen zum Beispiel so aus: ABC+BDE=FGH, ADB ...

da.dom

Zum Abschluss noch mal das fertige Programm:

size=browser.response().info().getheader("Content-Length")
if size==None:
size=0
else:
size=int(size)/1024/1024

print "download (%.2fmb): " % size ,

# define file to write to
filename="somefile.exe"
outputFile=open(filename, "wb")
resp ...

da.dom

wow... :oops: falls du die Zeit hast, wäre es fein wenn du das mal auseinander bröselst für mich :)

edit:
ah moment:
partial(response.read, 512) = erzeugt eine neue Funktion die wiederum "read" mit dem Parameer 512 aufruft.
iter() = erzeugt einen Iterator, der die Funktion so oft aufruft bis sie ...

da.dom

@da.dom: Das funktioniert bis auf zwei Kleinigkeiten ganz wunderbar.
1. Die Anzeige ist irreführend weil Du mit ``index * 0.5`` Kilobytes vor dem Schrägstrich anzeigst, die grösse nach dem Schrägstrich aber in Mebibytes angegeben ist. Ist nicht gerade benutzerfreundlich. ;-)

*autsch* das ...

da.dom

Achso, stand gerade auf dem Schlauch :) . Scheint nicht zu gehen, ich vermutet er ließt beim ersten Zugriff den kompletten Response (der erste Step dauert) und dann dann feuert er ohne ein Ende zu finden durch die Schleife. Hier mein Beispiel

import mechanize

br=mechanize.Browser()

resp=br.open ...

da.dom

BlackJack hat geschrieben:Blockweise in einer Schleife

Wenn du mir das syntaktisch einmal zeigst versuche ich das

. Wie gesagt ich habe gegoogelt und in der API nur read und readlines gefunden, wobei readlines nehme ich an nach linefeeds splittet (was in BinärDateien ja vermutlich nichts exisitert)

da.dom

Hallo Zusammen,

gibt es eine Möglichkeit mittels mechanize nur Teile der response zu lesen?
Bei "normalen" HTTP Seiten gibt die Funktion "readline" ja Zeilenweise die Response zurück, jedoch ist diese Funktion nicht besonders brauchbar bei Dateien.

Was ich vorhabe: Ich lade mittels Python Script ...

da.dom

Wenn Du alles lesen willst, wäre ein `read()` effizienter als zeilenweise zu lesen und das so ineffizient wieder zusammenzusetzen.

Keine schlechte Idee

htmlString=htmlFile.read();

Warum `findall()` wenn Du eh nur das erste Vorkommen suchst!?

Eher so?:
utf8Title=re.search("<title ...

da.dom

Guten Abend zusammen,

(ganz erlich) ich kann dieses Thema nicht ausstehen, weil es mir in regelmäßigen Abständen in den verschiedesten Programmiersprachen den Nerv raubt :)

Ziel: Auslesen einer Webseite, die (laut Firefox) UTF-8 Inhalte zurück schickt. Das Python-File ist ISO Codiert (wenn man das ...

da.dom

print re.findall("<a href="([^"]*)">weiter",html)

Wenn du jetzt noch eine erläutern hinterher schießt, bin ich wunschlos glücklich :)

[^"]*

Da komme ich nicht ganz mit und verstehe die Dokumentation in dem Punkt auch nicht ;) und wenn wir schon mal einen regex experten hier haben, warum ...

da.dom

Nicht so ganz, hier mal der eigentliche Zweck (ja ich weiss, regex und html - parsen ;) )

html='<a href="link1.html">Link Text 1</a> | <a href="link-pg3442-1.html?PHPSESSID=5708116dd0bdf2c931d1b539c4ec4d98">weiter</a></p> </div> '
print re.findall("<a href=\"(\w*?)\">weiter",html)

Grüße
D

da.dom

Hallo Zusammen,

ich habe ein kleines Problem mit Regex, da das ganze schwer zu beschreiben ist, hier mal ein kleines Beispiel:

test="a=aaa a=bbb ende"
print re.findall("a=(.*?) ende",test)

Mein gwünschtes Ergebnis ist "bbb", also das Muster "a=" welches er VOR einem bestimmten anderen Muster ...

Die Suche ergab 114 Treffer

Re: HTML lesen / schreiben, Encoding

Re: HTML lesen / schreiben, Encoding

Re: HTML lesen / schreiben, Encoding

HTML lesen / schreiben, Encoding

urllib urlencode not working as expected

Re: urllib + encoding

Re: urllib + encoding

urllib + encoding

Performance vs. Java

Re: mechanize Datei-Download

Re: mechanize Datei-Download

Re: mechanize Datei-Download

Re: mechanize Datei-Download

Re: mechanize Datei-Download

mechanize Datei-Download

String Encoding

Regex - wdh. Elemente