Die Suche ergab 7 Treffer

von hazelnut2
Sonntag 10. September 2017, 18:27
Forum: Allgemeine Fragen
Thema: charset en-/decoding unicode python3
Antworten: 5
Zugriffe: 1729

Re: charset en-/decoding unicode python3

'CYRILLIC CAPITAL LETTER ES' nicht das Gleiche ist wie das "C" im Deutschen. Da ich davon ausgehe, dass solche unbekannten Zeichen eher selten auftreten, werde ich diese fehlerhaften Zeichenketten bzw. diese Einträge markieren und manuell überprüfen und korrigieren.

Das heißt ich muss mir eine ...
von hazelnut2
Freitag 1. September 2017, 16:11
Forum: Allgemeine Fragen
Thema: charset en-/decoding unicode python3
Antworten: 5
Zugriffe: 1729

Re: charset en-/decoding unicode python3

@Sirius3: Ich verwende

Code: Alles auswählen

from html.parser import HTMLParser
import urllib.request
Okay, dass man intern am besten nur mit Unicode arbeitet steht bei der Dokumentation denke ich eh ziemlich weit vorne.
Danke für den Hinweis.

Ich werde meine Lösung dann posten sobald ich sie habe :-)
von hazelnut2
Donnerstag 31. August 2017, 18:55
Forum: Allgemeine Fragen
Thema: charset en-/decoding unicode python3
Antworten: 5
Zugriffe: 1729

Re: charset en-/decoding unicode python3

@BlackJack: Also laut meta info:
<base href="http://ddl-music.to/" />

<meta http-equiv="content-type" content="text/html; charset=ISO-8859-1" />


sollte die Seite prinzipiell so codiert sein, nur halt nicht dieser Eintrag.

Wird erkannt:

<span class="interpret">by <b>10CC</b></span>

Und ...
von hazelnut2
Mittwoch 30. August 2017, 18:43
Forum: Allgemeine Fragen
Thema: charset en-/decoding unicode python3
Antworten: 5
Zugriffe: 1729

charset en-/decoding unicode python3

Hallo,

ich bin derzeit daran eine Website mit HTMLParser nach Interpreten zu filtern. Die Website hat als charset "charset=ISO-8859-1" angegeben.
Ich möchte mit Python 3 utf-8 verwenden.

Auszug aus dem Code:
def ddlMusicParser():
alben_pages = ListDDLMusic_Alben_Pages()
request = UrlOpener ...
von hazelnut2
Mittwoch 9. September 2015, 16:04
Forum: Allgemeine Fragen
Thema: Ordnernamen Encoding/Decoding Umlaute
Antworten: 4
Zugriffe: 2035

Re: Ordnernamen Encoding/Decoding Umlaute

Habe mein Problem gefunden: Die Codepage der Konsole unterstützt ebenfalls nicht alle Zeichen
Lösung:
Codepage der Konsole von chcp 850 zu chcp 65001 ändern

Da meine Textdatei mit "utf-8" Enkodiert wurde, wurden auch alle Zeichen richtig geschrieben und nur die Ausgabe in der Konsole ...
von hazelnut2
Donnerstag 3. September 2015, 15:38
Forum: Allgemeine Fragen
Thema: Ordnernamen Encoding/Decoding Umlaute
Antworten: 4
Zugriffe: 2035

Re: Ordnernamen Encoding/Decoding Umlaute

Ich habe mir die standard Encodings nocheinmal angesehen ( https://docs.python.org/2.4/lib/standard-encodings.html ) und habe durch probieren eine funktionierende Variante gefunden:
d=dirName.encode('unicode_internal').decode('iso-8859-1') #Funktioniert

# -*- coding: iso-8859-1 -*-
__author ...
von hazelnut2
Donnerstag 3. September 2015, 14:19
Forum: Allgemeine Fragen
Thema: Ordnernamen Encoding/Decoding Umlaute
Antworten: 4
Zugriffe: 2035

Ordnernamen Encoding/Decoding Umlaute

Hallo,

ich möchte einen Ordner mit Musik einlesen um zu wissen welche Interpreten und Alben der Interpreten vorhanden sind. Das einlesen der Ordner und anschließende Ausgabe in eine Textdatei funktioniert mittlerweile Problemlos. Jetzt möchte ich natürlich das ganze auch auf die Konsole ausgeben ...