Dataframe doppelte Werte entfernen (nicht pd drop_duplicates))
Verfasst: Dienstag 22. Dezember 2020, 21:26
Hallo zusammen
Ich brauche einen Anstupser um ans Ziel zu kommen.
Aus verschiedenen TXT Files habe Ich das DATA Frame erzeut.
6 Spalten
450 Zeilen
Unter der AccontID befinden sich ID's die genau einmal vorkommen und ID's die genau zwei mal vorkommen.
Am Ende brauche ich nur die Zeilen mit der eindeutigen InstanceID!
Hier bleiben also die Zeilen mit dem Index 2 (i-002xxxxxxx385c401) und 312 (i-0fe915qwertzu4d6b) übrig! Es soll die ganze Zeile ausgegeben werden.
.....
import pandas as pd
LIST = pd.read_csv("list_delta.txt")
Frame=pd.DataFrame(LIST.values, columns = ["InstanceID","AccontID","Region","IP","Type","NamedTag"])
Frame=Frame.sort_values('InstanceID')
#----- das funktioniert nicht -----
#Frame=Frame[Frame.drop_duplicates(subset=['InstanceID'])]
#Frame=Frame[~Frame.drop_duplicated('InstanceID')]
#Frame['InstanceID'].unique()
-----
Frame.to_csv("list_summary.txt",
index=False,
encoding="utf-8",
sep=",",
na_rep="---"
)
InstanceID AccontID Region IP Type NamedTag
2 i-002xxxxxxx385c401 112447187595 eu-west-3 10.100.201.123 t3.xlarge egal.de
20 i-00yyyyyyyybfb4382 125812558595 eu-central-1 10.112.149.199 t3a.medium Inspector-Test
230 i-00yyyyyyyybfb4382 125897187595 eu-central-1 HEALTHY NaN NaN
331 i-dfe7c3438f09f7db0 392611224740 eu-central-1 UNKNOWN NaN NaN
138 i-dfe7c3438f09f7db0 392697111740 eu-central-1 10.144.136.63 t3.medium wurst.de
.. ... ... ... ... ... ...
312 i-0fe915qwertzu4d6b 125223187595 eu-central-1 UNKNOWN NaN NaN
361 i-0fe96124555ff912b 392114471740 eu-central-1 HEALTHY NaN NaN
140 i-0fe96124555ff912b 392998871740 eu-central-1 10.177.138.131 m5.large osterei.cloud
209 i-012345678114f9604 724112254266 ap-southeast-2 10.122.161.241 t2.small regal.de
401 i-012345678114f9604 724112254266 ap-southeast-2 HEALTHY NaN NaN
Vielleicht habt ihr ein paar Anregungen.
Gruß Jörg
Ich brauche einen Anstupser um ans Ziel zu kommen.
Aus verschiedenen TXT Files habe Ich das DATA Frame erzeut.
6 Spalten
450 Zeilen
Unter der AccontID befinden sich ID's die genau einmal vorkommen und ID's die genau zwei mal vorkommen.
Am Ende brauche ich nur die Zeilen mit der eindeutigen InstanceID!
Hier bleiben also die Zeilen mit dem Index 2 (i-002xxxxxxx385c401) und 312 (i-0fe915qwertzu4d6b) übrig! Es soll die ganze Zeile ausgegeben werden.
.....
import pandas as pd
LIST = pd.read_csv("list_delta.txt")
Frame=pd.DataFrame(LIST.values, columns = ["InstanceID","AccontID","Region","IP","Type","NamedTag"])
Frame=Frame.sort_values('InstanceID')
#----- das funktioniert nicht -----
#Frame=Frame[Frame.drop_duplicates(subset=['InstanceID'])]
#Frame=Frame[~Frame.drop_duplicated('InstanceID')]
#Frame['InstanceID'].unique()
-----
Frame.to_csv("list_summary.txt",
index=False,
encoding="utf-8",
sep=",",
na_rep="---"
)
InstanceID AccontID Region IP Type NamedTag
2 i-002xxxxxxx385c401 112447187595 eu-west-3 10.100.201.123 t3.xlarge egal.de
20 i-00yyyyyyyybfb4382 125812558595 eu-central-1 10.112.149.199 t3a.medium Inspector-Test
230 i-00yyyyyyyybfb4382 125897187595 eu-central-1 HEALTHY NaN NaN
331 i-dfe7c3438f09f7db0 392611224740 eu-central-1 UNKNOWN NaN NaN
138 i-dfe7c3438f09f7db0 392697111740 eu-central-1 10.144.136.63 t3.medium wurst.de
.. ... ... ... ... ... ...
312 i-0fe915qwertzu4d6b 125223187595 eu-central-1 UNKNOWN NaN NaN
361 i-0fe96124555ff912b 392114471740 eu-central-1 HEALTHY NaN NaN
140 i-0fe96124555ff912b 392998871740 eu-central-1 10.177.138.131 m5.large osterei.cloud
209 i-012345678114f9604 724112254266 ap-southeast-2 10.122.161.241 t2.small regal.de
401 i-012345678114f9604 724112254266 ap-southeast-2 HEALTHY NaN NaN
Vielleicht habt ihr ein paar Anregungen.
Gruß Jörg