COMPAS Vorhersage mit Logistischer Regression

max_ink03 · Montag 30. September 2019, 09:03

Hallo liebes Forum,

brauche eure Hilfe! Muss einen COMPAS Datensatz mithilfe logistischer Regression Analysieren und nachvollziehen.

Kann mir jemand den Python code schreiben gegen eine Domanation.

Praktisch soll diese Arbeit nachvollzogen werden: The accuracy, fairness, and limits of predicting recidivism
Sie liegt ebenfalls in dem Dropbox Ordner.

https://www.dropbox.com/sh/ckiflbmhffmh ... 6iRQa?dl=0

Liebe Grüße

__deets__ · Montag 30. September 2019, 09:08

Hausaufgaben musst du schon selbst machen. Wir helfen gerne bei konkreten Fragen und Problemen. Aber sowas fällt ja nicht vom Himmel. Da muss ja was gelernt/gelehrt worden sein vorher.

max_ink03 · Dienstag 1. Oktober 2019, 15:36

okay dann hier die erste frage..
wenn ich eine csv datei einlesen möchte mit dieser zeile

data = pd.read_csv(r"C:/Users/Desktop/Documents/Python/people.csv")
data.head()

dann bekomme ich immer nur einen fehler, was mache ich falsch?

ParserError Traceback (most recent call last)
<ipython-input-17-2c483f70b279> in <module>
----> 1 data = pd.read_csv(r"C:/Users/Desktop/Documents/Python/people.csv")
2 data.head()

C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in parser_f(filepath_or_buffer, sep, delimiter, header, names, index_col, usecols, squeeze, prefix, mangle_dupe_cols, dtype, engine, converters, true_values, false_values, skipinitialspace, skiprows, skipfooter, nrows, na_values, keep_default_na, na_filter, verbose, skip_blank_lines, parse_dates, infer_datetime_format, keep_date_col, date_parser, dayfirst, iterator, chunksize, compression, thousands, decimal, lineterminator, quotechar, quoting, doublequote, escapechar, comment, encoding, dialect, tupleize_cols, error_bad_lines, warn_bad_lines, delim_whitespace, low_memory, memory_map, float_precision)
700 skip_blank_lines=skip_blank_lines)
701
--> 702 return _read(filepath_or_buffer, kwds)
703
704 parser_f.__name__ = name

C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in _read(filepath_or_buffer, kwds)
433
434 try:
--> 435 data = parser.read(nrows)
436 finally:
437 parser.close()

C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in read(self, nrows)
1137 def read(self, nrows=None):
1138 nrows = _validate_integer('nrows', nrows)
-> 1139 ret = self._engine.read(nrows)
1140
1141 # May alter columns / col_dict

C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in read(self, nrows)
1993 def read(self, nrows=None):
1994 try:
-> 1995 data = self._reader.read(nrows)
1996 except StopIteration:
1997 if self._first_chunk:

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader.read()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._read_low_memory()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._read_rows()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._tokenize_rows()

pandas/_libs/parsers.pyx in pandas._libs.parsers.raise_parser_error()

ParserError: Error tokenizing data. C error: Expected 1 fields in line 15, saw 2

sparrow · Dienstag 1. Oktober 2019, 16:14

Der Fehlermeldung nach würde ich sagen, die Datensätze in deiner Datei haben unterschiedlich viele Felder. In Line 15 erwartet der Parser 1 Feld, es sind aber 2 in der Datei.

__blackjack__ · Dienstag 1. Oktober 2019, 16:26

Wo kommt die Datei denn her? Du hast in der Dropbox da ja eine Excel-Datei. Kann es sein das Du die mit einem deutschen Excel als CSV gespeichert hast? Dann sind da keine Kommas als Trenner in der Datei sondern Semikolons. Das muss man beim einlesen dann auch angeben.

Kannst Du die Exceldatei nicht direkt lesen?