Pandas - Nummer aus string extrahieren

naheliegend · Dienstag 13. Juli 2021, 19:47

Hi,

ich habe einen df mit einer column df['text'], die strings beinhaltet.

>df['text']

'Das ist text 723453339' 
'888453339undein22.1.2020' 
'hallo723453339das ist' 
'20.2.2020 hallo 723999339' 
'beispiel444453339' 
'hallo923453339 - d a 30'

Ich bin nur an der 9-stelligen Nummer interessiert. Wie bekomme ich die extrahiert?

Also:

Code: Alles auswählen

>df['nummer']

723453339
888453339
723453339
723999339
444453339
923453339

snafu · Dienstag 13. Juli 2021, 20:04

Ich würde dafür re.findall() benutzen:

Code: Alles auswählen

zahlen = re.findall("\d{9}", text)
print("\n".join(zahlen))

__blackjack__ · Dienstag 13. Juli 2021, 20:11

Das ist ein `pandas.DataFrame`, da würde ich die `str`-Operationen verwenden die darauf definiert sind. Und man sollte/muss wahrscheinlich auch sicherstellen, dass 10 und mehrstellige Zahlen *nicht* gefunden werden‽

naheliegend · Dienstag 13. Juli 2021, 20:30

__blackjack__ hat geschrieben: Dienstag 13. Juli 2021, 20:11 Das ist ein `pandas.DataFrame`, da würde ich die `str`-Operationen verwenden die darauf definiert sind. Und man sollte/muss wahrscheinlich auch sicherstellen, dass 10 und mehrstellige Zahlen *nicht* gefunden werden‽

Wie würde das aussehen?

snafu · Dienstag 13. Juli 2021, 20:57

Ich fand re.findall() hierfür geeigneter als die String-Operationen. Man muss die IMHO nicht zwingend nutzen, nur weil sie zur Auswahl stehen.

naheliegend · Dienstag 13. Juli 2021, 20:58

Code: Alles auswählen

df['text'].str.extract('(\d{9})', expand=False)

gibt mir die 9-stelligen Nummern.

snafu · Dienstag 13. Juli 2021, 21:11

Ah, cool. extract() kannte ich bisher nicht. Und das hier ist eindeutig ein Anwendungsfall für reguläre Ausdrücke. Das würde ich nicht Pythons standardmäßigen String-Operationen nachbauen wollen.

Sirius3 · Mittwoch 14. Juli 2021, 07:24

@snafu: der OP arbeitet mit Dataframes. Und Dataframes haben verschiedene Stringoperationen definiert, die dann auf alle Elemente einer Spalte angewendet werden. Da sind auch Operationen mit regulären Ausdrücken dabei.