Das deutsche Python-Forum

st_baum

Ich möchte das Format der Datumsachse in einem Matplotlib Chart anpassen. Hier der DF

period = pd.date_range('2017-01-01', periods=14, freq='m')
value = np.random.randint(5, size=14)
d = {'period':period,'value':value}
df = pd.DataFrame(d)
df['period'] = pd.to_datetime(df.period)

Chart:
fig ...

st_baum

Ich habe einen Datensatz, der sieht wie folgt aus:

import pandas as pd
d = {'id': ['A','A','A','A','B','B'],
'date' : ['20210201', '20210202', '20210210','20210220', '20210303', '20210310']}
df = pd.DataFrame(d)
df.date = pd.to_datetime(df.date, format = '%Y%m%d')
#df['prev_date'] = df.groupby ...

st_baum

Der zweite Vorschlag war genau was ich wollte. Danke

st_baum

Ich habe das Gefühl, dass mein Vorgehen nicht optimal ist. So erzeuge ich die DFs:

liste = [1,2]
for elem in liste:
var = 'col_' + str(elem)
globals()["df_" + str(elem)] = pd.DataFrame(df.groupby('year')[var].mean())

Als Resultat habe ich nun df_1 und df_2. Ist das Vorgehen so überhaupt ...

st_baum

Mittels eines for-loops erzeuge ich dataframes, diese Folgen einern Namenkonvention: df_1, df_2 etc.

Diese möchte ich nun mit zusammenführen:

frames = [df_1,df_2]
dfs = pd.concat(frames, axis = 1).reset_index()

Funktioniert soweit.

Nun möchte ich aber den Inhalt von 'frames' mit Hilfe einer ...

st_baum

Ich möchte nur die ersten Zeichen vor bestimmten Zeichen eines Pandas df extrahieren. Die Schwierigkeit besteht darin, dass es eine lange Liste an Zeichen ist, vor denen ich abschneiden möchte.

Ich habe das Problem lösen können, allerdings nur mit einem Loop:

import pandas as pd
d = {'names ...

st_baum

Ich möchte mir einen Pandas df in einem Jupyter Notebook ansehen. Dabei möchte ich jedoch die Anzahl der anzuzeigenden Zeilen bestimmen. Jedoch nicht mit

Code: Alles auswählen

pd.set_option('display.max_rows' none)

da ich es nur für ein Output-Fenster brauche.

Geht das überhaupt?

st_baum

Falls mein Ansatz zum plotten der XS oder der Manipulation der Werte einzelner XS völlig falsch ist, freue ich mich über entsprechende Hinweise

st_baum

Ich habe einen Pandas DF, der Paneldaten beinhaltet.

import pandas as pd
d = {'id': ['A','A','A','B','B','B' ], 'value': [2,1,6,6,3,2],
'time':['2020-12-01T08:00:0','2020-12-01T09:00:0','2020-12-03T08:00:0',
'2020-12-02T10:00:0','2020-12-03T12:00:0','2020-12-03T12:00:0']}
df = pd.DataFrame ...

st_baum

Danke

st_baum

Zunächst bitte ich um Entschuldigung für meine schlampige Beschreibung. Richtig, es handelt sich um 'str.extract()' aus Pandas.

Ich glaube es ist erstmal sinnvoll, die richtige regex zu finden und das ganze dann auf den DF zu übertragen:

import re
m = re.search(r'(?<=user:")\w+-+\w', 'user:"abc ...

st_baum

Es soll der String vor und nach bestimmten zeichen ausgewählt werden. Exemplarisch steht in einer Spalte:

wert: 2, beobachtung: 1,

Alles nach der Zeichenkette "wert:" und vor dem ersten "," soll ausgewählt werden, d.h. "2". Ist mir nicht ganz klar, wie ich das mit str. extract anstelle.

st_baum

Sirius3 hat geschrieben: Donnerstag 31. Dezember 2020, 13:59 Du willst ja zwei Bedingungen miteinander verknüpfen, dass sowohl in ar1 als auch in ar2 eine 0 steht:
Code: Alles auswählen
((ar1 == 0) & (ar2 == 0)).sum()
[/quote]

Das passt, danke :-)

st_baum

Etwas wie:

Code: Alles auswählen

if ar1 == 1 :
    np.sum(ar1 == ar2)

Funktioniert nicht. Ich vermute, weil nicht durch alle Elemente von ar1 geloopt wird. Hab den Ansatz nicht weiterverfolgt. Bin davon ausgegangen, dass es eine elegantere Lösung gibt.

st_baum

Ich möchte zählen, wie oft werte in zwei np arrays übereinstimmen kombiniert mit einer Bedingung.

ar1 = np.array([1,0,0,1,0,1])
ar2 = np.array([0,1,0,0,0,1])
np.sum(ar1 == ar2)

Hier wird gezählt, wie oft die Werte übereinstimmen. Ich möchte aber, dass unter einer Bedingung gezählt wird. Z.b ...

st_baum

Um sicher zu gehen, hier ein Vorschlag:

Code: Alles auswählen

df_filtered = df[(df['country'] == 'germany')]
df_filtered.groupby('industry')['employment'].mean()

Ist ein sauberes Vorgehen?

st_baum

Mittels

df.groupby('industry')['employment'].mean()

kann ich mir die durchschnittliche Anzahl der Beschäftigten ('employment') in jeder 'industry' bestimmen lassen. Ich möchte den Befehl so erweitern, dass ich noch eine Bedingungen einführen kann. Es sollen nur die 'industry' in bestimmten ...

st_baum

Prima, danke!

st_baum

Achso, das wäre natürlich hilfreich

ich möchte zählen, wie oft der Wert Null in einer Spalte vorkommt. Gezählt werden soll nur, wenn in der anderen Spalte die genannte Bedingung erfüllt ist. Es reicht, wenn die resultierende Zahl in einer variable gespeichert wird.

st_baum

Ich möchte gerne, ähnlich wie ZÄHLWENN in Excel, Werte (0 oder 1) in einer Spalte zählen, sofern eine Bedingung in einer anderen Spalte erfüllt ist.

So sieht der Datensatz aus

import pandas as pd
d = {'col1': [1, 2, 3, 3], 'col2': [0, 1, 0, 1]}
df2 = pd.DataFrame(data=d)

Ich hatte mir das wie ...

Die Suche ergab 26 Treffer

Datum Matplotlib

Groupby, Zählen mit Bedingung

Re: Liste von Dataframes

Re: Liste von Dataframes

Liste von Dataframes

String split in Pandas dataframe

Anzahl Zeilen Pandas

Re: Paneldaten

Paneldaten

Re: str.extract

Re: str.extract

str.extract

Re: Bedingter Vergleich von numpy arrays

Re: Bedingter Vergleich von numpy arrays

Bedingter Vergleich von numpy arrays

Re: groupby mit Bedingung

groupby mit Bedingung

Re: Zählen unter Bedingungen

Re: Zählen unter Bedingungen

Zählen unter Bedingungen