Das deutsche Python-Forum

SeriousRuffy

Hallo zusammen,

ich habe versucht multiple Seiten aus einer Webpage zu crawlen, was mir auch gelungen ist. Im nächsten Schritt würde ich gerne zwei Variablen miteinander verknüpfen.

D.h. mein Ziel wäre es, das wenn ich nach der RegionID= 7236 crawle, das mir das System automatisch die partnerID ...

SeriousRuffy

Danke für euer Feedback. Habe es nun geschafft:

response = urllib.request.urlopen("http://www.getyourguide.com/s/search.json?q=Siem+Reap&page=" + str(page))
jsondata = json.loads(response.read().decode("utf-8"))
format = (jsondata['activities'])
g_data = format.strip("'<>()[]\"` ").replace ...

SeriousRuffy

Hallo zusammen,

Ich versuche aus einem JSON mittels BeautifulSoup bestimmte Inhalte wie z.B. den Deeplink zu crawlen. Leider klappt das nicht wie gewünscht:

Das ist mein bisherige Logik:

import requests
from bs4 import BeautifulSoup
import json
from urllib.request import urlopen
import urllib ...

SeriousRuffy

Danke für euer Feedback:)

SeriousRuffy

Hallo zusammen,

habe das folgende Problem:

Beispiel:

g_data = soup.find_all("div", {"class": "itemsContent clearafter"})
for item in g_data:
header = item.find_all("div", {"class": "InnprodInfos"})
print(header[0].contents[0].text.strip())

Bekomme folgenden Output:

DMZ 3rd Tunnel ...

SeriousRuffy

Danke für dein Feedback. Hast mir sehr weiter geholfen

SeriousRuffy

Hallo zusammen,

Ich habe vor kurzem eine Homepage gecrawlt mit den Informationen die ich benötige. Und habe es danach geschafft in meine MySQL-Datenbank einzutragen. Aber das Problem ist nun, das einzelne Werte in Anführungszeichen dargestellt werden.

Header Price Deeplink PartnerID LocationID ...

SeriousRuffy

Danke für dein ausführliches Feedback!!! Werde es beherzigen:)

Das einzige, was ich an dem Code geändert habe, ist das ich

Code: Alles auswählen

country2adresses.iteritems()

zu

Code: Alles auswählen

country2adresses.items()

gemacht habe, da ich Version 3 benutze.

SeriousRuffy

Hallo zusammen,

Zunächst einmal wollte eine Excel File auf Duplikate überprüfen, welches ich auch erfolgreich geschafft habe. Das Programm spuckt quasi raus, wieviele Länder wie oft in der angegebenen Spalte vorkommen.

import csv

lesdatei = open("Test_08_01_2015.csv", "r")
schreibdatei= open ...

SeriousRuffy

Danke für dein Feedback. Habe mittlerweile auch eine andere Lösung gefunden, was deiner ähnelt:

Code: Alles auswählen

items = soup.find_all("span", {"class": "item_name"})
for item in items:
    print(item.text)

SeriousRuffy

Hallo zusammen,

versuche von einer Seite die Hotelname rauszufiltern, allerdings habe ich das Problem, das ich die HTML Tags nicht entfernen kann:

import requests
from bs4 import BeautifulSoup
import time

user_agent = {'User-agent': 'Chrome/43.0.2357.124'}

schreibdatei= open("testo.csv", "w ...

SeriousRuffy

Danke für dein Feedback:)

SeriousRuffy

Hallo zusammen,

versuche derzeit mein erstes Spider/Crawling Script zu schreiben und brauche eure Hilfe/Tipps bei einer Sache. Mein Ziel ist es ein Teil des Links rauszufiltern. Solle quasi das folgende Ergebnis bekommen:
/example/view.php?id=34

Das ist mein Code:

import requests
from bs4 ...

SeriousRuffy

Danke für euer Feedback.

Habe den Delimiter geändert. Nun funktioniert es.

# -*- coding: utf-8 -*-
import csv
import re

lesdatei = open("Japanese.csv", "r")

liste = lesdatei.readlines()

for row in liste[1:]:
felder = re.split(";", row)
print(str(felder[10]))

SeriousRuffy

Hallo zusammen,

würde gerne eine japanisches csv File in Python einlesen. Habe es zuerst so versucht:

import csv
import re

lesdatei = open("Japanese.csv", "r")
liste = lesdatei.readlines()

for row in liste[1:]:
felder = re.split(",|;", row)
print(str(felder[10]))

Response dazu ist ...

SeriousRuffy

Danke für dein Feedback!:)

SeriousRuffy

In der Theorie komme ich ja klar, aber in der Praxis scheitert es;) Aber dennoch großen Dank für dein Feedback:) Bitte weiter um Verständnis, bin immer noch ein blutiger Anfänger

import requests
import json
response = requests.get("blabla")
data = response.json()
Hallo = data[0]["responseBodies ...

SeriousRuffy

Könnt ihr mir Tipps geben, wie ich darauf zugreifen kann?
Schau in der Doku zu Dicts und Listen nach, welche Zugriffe möglich sind. Oder noch besser: Arbeite das Tutorial dahingehend durch! Dort werden die wichtigsten Zugriffe für diese *essenziellen* Datentypen besprochen :-)

(Wirklich, das ...

SeriousRuffy

Hallo zusammen, habe nun grad ein anderes Problem, wo ich nicht weiterkomme

import requests
counter = 0
times = 1
for r in range(times):
response = requests.get("http://192.168.1.52:8080/ws/Admin/JsonApi?partnerId=878&itemId=RANDOM_ITEM&localeCode=ID&languageCode=id&fromDate=2015/02/04&toDate ...

SeriousRuffy

Jep, war eine blöde Frage;)

Hat nicht auf Anhieb geklappt, aber mit Probieren bin ich auf das richtige Ergebnis gekommen:

Code: Alles auswählen

import requests
response = requests.get("blabla")
data = response.json()
Hallo = data[0]["status"]
print(Hallo)

Die Suche ergab 32 Treffer

Crawling - Variablen miteinander verknüpfen

Re: Parsing JSON mit Beautiful Soup

Parsing JSON mit Beautiful Soup

Re: Duplikate vom Output in Python entfernen

Duplikate vom Output in Python entfernen

Re: Python+MySQL: Anführungszeichen im Datensatz löschen

Python+MySQL: Anführungszeichen im Datensatz löschen

Re: Excel File Duplikate

Excel File Duplikate

Re: HTML Tags entfernen

HTML Tags entfernen

Re: Crawling - Homepage

Crawling - Homepage

Re: Japanisches CSV File einlesen

Japanisches CSV File einlesen

Re: Request mehrmals durchführen, wie for Schleife benutzen?

Re: Request mehrmals durchführen, wie for Schleife benutzen?

Re: Request mehrmals durchführen, wie for Schleife benutzen?

Re: Request mehrmals durchführen, wie for Schleife benutzen?

Re: Request mehrmals durchführen, wie for Schleife benutzen?