![]() |
ImmoScout Seite mit IDHTTP vollständig einlesen funkt nicht
Mit IdHTTP.Get versuche ich die folgende Seite einzulesen:
![]() Leider fehlen im Response Text (HTML Quellcode) einige Angaben, wie zb. der Block "Kaufnebenkosten". Hat Jemand eine Idee woran das liegen könnte? |
AW: ImmoScout Seite mit IDHTTP vollständig einlesen funkt nicht
Ohne es angesehen zu haben: Viele Seiten laden Content erst später per JavaScript nach. Unter anderem auch um das "Scraping" von Inhalten zu verhindern:
![]() Man kann dann natürlich einen richtigen Webbrowser nehmen, warten bis die Seite fertig aufgebaut ist und sich dann die Inhalte zusammensuchen, aber das hält auch nur bis zum nächsten Redesign der Seite. Ich hatte mal aus Spaß versucht mir so etwas für XHamster zu bauen, aber das artet irgendwann nur noch in stupide Fleißarbeit aus... |
AW: ImmoScout Seite mit IDHTTP vollständig einlesen funkt nicht
Hallo Günther,
ich vermute auch, dass dieser Block erst beim Laden per JavaScript angezeigt wird. Mit TWebBrowser funktioniert das ja auch und ich kann den Quelltext 100% auslesen. Das Problem mit dem WebBrowser ist nur, dass sich die Applikation im RAM aufbläht und dann hat man schnell eine Fehlermeldung wegen nicht ausreichendem Arbeitsspeicher. TWebBrowser.Free funktioniert da auch nicht. Der RAM bleibt voll. XHamster...yeaah :wink: |
AW: ImmoScout Seite mit IDHTTP vollständig einlesen funkt nicht
Der TWebBrowser läuft standardmäßig nur als Internet Explorer 7-Emulation, der kann heute wahrscheinlich gar nichts mehr. Hast du den schon auf IE11 gesetzt?
|
AW: ImmoScout Seite mit IDHTTP vollständig einlesen funkt nicht
Bei FormCreate rufe ich die folgende Procedure auf:
Code:
Mit WebBrowsers Speicherproblem hat das aber nichts zu tun.
procedure SetWebbrowserMode(Mode: TIEMode; AppName: string = '');
const REG_KEY = 'Software\Microsoft\Internet Explorer\Main\FeatureControl\FEATURE_BROWSER_EMULATION'; var Reg: TRegistry; Value: Integer; begin if AppName = '' then AppName := ExtractFileName(Application.ExeName); Case Mode of iemIE7 : Value := $1B58; iemIE8 : Value := $1F40; iemIE10 : value := $2710; iemIE11 : Value := $2af8; end; Reg := TRegistry.Create(); try Reg.RootKey := HKEY_CURRENT_USER; if Reg.OpenKey(REG_KEY, True) then begin Reg.WriteInteger(AppName, Value); Reg.CloseKey; end; finally Reg.Free; end; end; |
AW: ImmoScout Seite mit IDHTTP vollständig einlesen funkt nicht
Vielleicht hilft dir die
![]() ![]() Die müsste man auch mit dem embedded TWebBrowser aufrufen können, und dann damit auch JS-Seiten einlesen und parsen können. |
AW: ImmoScout Seite mit IDHTTP vollständig einlesen funkt nicht
Hallo Rollo,
danke für den Link. Schaue ich mir mal genauer an. |
AW: ImmoScout Seite mit IDHTTP vollständig einlesen funkt nicht
Ich will ja kein Spielverderber sein, aber die
![]() Zitat:
|
AW: ImmoScout Seite mit IDHTTP vollständig einlesen funkt nicht
Hallo Schokohase,
Immos AGB sind mir bekannt aber nicht das Thema hier. |
AW: ImmoScout Seite mit IDHTTP vollständig einlesen funkt nicht
Zitat:
Zitat:
|
AW: ImmoScout Seite mit IDHTTP vollständig einlesen funkt nicht
Hier gibt es genug Threads die gegen alles Mögliche verstossen.
Das ist aber hier nicht das Thema. |
AW: ImmoScout Seite mit IDHTTP vollständig einlesen funkt nicht
Zitat:
Aber du machst das schon. Viel Erfolg |
AW: ImmoScout Seite mit IDHTTP vollständig einlesen funkt nicht
Der Hinweis ist völlig angebracht. Bei machen Webseite ist es nicht ganz klar, wie sie dazu stehen, wenn sie automatisiert abgefragt werden - hier aber hat sich der Betreiber unmißverständlich positioniert.
Was sie aber anbieten, ist eine API: ![]() Das wäre hier der saubere Weg. |
AW: ImmoScout Seite mit IDHTTP vollständig einlesen funkt nicht
Hallo Daniel,
die API habe ich mir auch schon angeschaut, leider werden die notwendigen Informationen nicht übertragen. Rollo's Link hat mich schon mal weiter gebracht. |
Alle Zeitangaben in WEZ +1. Es ist jetzt 10:20 Uhr. |
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz