jeden tag eine neue herausforderung... heut hab ich mir zur aufgabe gemacht einen großen textkorpus bestehend aus 400.000 zeilen mit einem regex-file zu durchforsten. hab mir diesbezüglich auch schon vieles überlegt und wie jeder gute koch hab ich mir auch schon was zurechtgelegt. ich bin linguist und programmiertechnisch relativ "beschränkt" (die wahrheit tut hier echt dem auge weh

nun zu meinem plan:
der textkorpus (kam durch grep zustande) = fileA
die regexdatei = fileRX
was ich nun machen möchte ist fileA mit fileRX durchforsten und sobald ein item gematched wird sollte diese zeile gelöscht werden. dies dient sozusagen um festzustellen wieviele zeilen ich nicht treffe und um zu vermeiden, dass manche zeilen mehrfach gematched werden.
leider kann ich mir nicht tagelang tutorials durchlesen um dieses problem zu lösen und wollte euch um gedankenanstöße bitten. ein hinweis zum richtigen ort wo ich zu diesem problem näheres nachlesen kann wäre auch schon spitze.
lg,
PR1AN am Poden