hallo welt!
momentan verwende ich:
'[Michael|Michaela] ist der Name für ([den|die]+ .*?)\. '
bei einem sinnlosen bsp text wie
"bla... Michaela ist der Name für die weibliche Person. Das Verwenden von Michael ist der Name für den Fehl-Treffer in diesem Fall mit der Nr.1, oder? bla. ..."
->"die ...
Die Suche ergab 7 Treffer
- Mittwoch 21. Dezember 2005, 23:32
- Forum: Allgemeine Fragen
- Thema: reg. Ausdruck; Satzbegrenzung
- Antworten: 4
- Zugriffe: 1058
- Sonntag 18. Dezember 2005, 22:29
- Forum: Allgemeine Fragen
- Thema: Strip Tags
- Antworten: 1
- Zugriffe: 1106
Strip Tags
hallo welt!
hab auf das python cookbook zurückgegriffen und die klasse und funktion zum entfernen von htmltags aus einem html dokument verwendet, sodass ich den plaintext einer site erhalte. doch leider werden sämtliche dinge nicht berücksichtigt. hier einfach mal die klasse:
class StrippingParser ...
hab auf das python cookbook zurückgegriffen und die klasse und funktion zum entfernen von htmltags aus einem html dokument verwendet, sodass ich den plaintext einer site erhalte. doch leider werden sämtliche dinge nicht berücksichtigt. hier einfach mal die klasse:
class StrippingParser ...
- Donnerstag 15. Dezember 2005, 23:11
- Forum: Allgemeine Fragen
- Thema: Wort zählen in einem String
- Antworten: 5
- Zugriffe: 2096
- Donnerstag 15. Dezember 2005, 20:44
- Forum: Allgemeine Fragen
- Thema: Wort zählen in einem String
- Antworten: 5
- Zugriffe: 2096
Wort zählen in einem String
hallo welt!
(in diesem fall kann ich nicht auf regexp verzichten, da das ganze noch erweitert wird...falls Ihr mich davon abbringen wollt...)
zum ermitteln aller wörter verwende ich: re.compile('[\wäüöÄÜÖ]+',re.I)
das klappt auch bestens. doch wie kann ich nun noch die anzahl eines jeden wortes ...
(in diesem fall kann ich nicht auf regexp verzichten, da das ganze noch erweitert wird...falls Ihr mich davon abbringen wollt...)
zum ermitteln aller wörter verwende ich: re.compile('[\wäüöÄÜÖ]+',re.I)
das klappt auch bestens. doch wie kann ich nun noch die anzahl eines jeden wortes ...
- Mittwoch 14. Dezember 2005, 17:53
- Forum: Netzwerkprogrammierung
- Thema: Download mit Extras...
- Antworten: 3
- Zugriffe: 1360
Download mit Extras...
hallo welt!
momentan nutze ich trivialer weise urllib zum download von dateien:
def download(url):
src=urllib.urlopen(url).read()
return src
doch nun benötige ich sowohl ein timeout limit, sodass nicht länger als 1 min an einer datei geladen wird, und ein dateigrößenlimit, damit maximal die ...
momentan nutze ich trivialer weise urllib zum download von dateien:
def download(url):
src=urllib.urlopen(url).read()
return src
doch nun benötige ich sowohl ein timeout limit, sodass nicht länger als 1 min an einer datei geladen wird, und ein dateigrößenlimit, damit maximal die ...
- Mittwoch 14. Dezember 2005, 17:49
- Forum: Allgemeine Fragen
- Thema: Links extrahieren mit SGMLLib
- Antworten: 6
- Zugriffe: 1673
- Dienstag 13. Dezember 2005, 21:32
- Forum: Allgemeine Fragen
- Thema: Links extrahieren mit SGMLLib
- Antworten: 6
- Zugriffe: 1673
Links extrahieren mit SGMLLib
hallo welt!
bin einsteiger in python und will in meinem aktuellen testscript alle urls einer html seite zuverlässig extrahieren.
habe lange mit regexp herumexperimentiert und will es nun noch mit dem parser von sgmllib versuchen. allerdings will das nicht so einfach klappen:
class LinkExtractor ...
bin einsteiger in python und will in meinem aktuellen testscript alle urls einer html seite zuverlässig extrahieren.
habe lange mit regexp herumexperimentiert und will es nun noch mit dem parser von sgmllib versuchen. allerdings will das nicht so einfach klappen:
class LinkExtractor ...
