Delphi-PRAXiS

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Netzwerke (https://www.delphipraxis.net/14-netzwerke/)
-   -   Delphi EmbeddedWB "angezeigten" Text kopieren (https://www.delphipraxis.net/125393-embeddedwb-angezeigten-text-kopieren.html)

Relicted 5. Dez 2008 09:35


EmbeddedWB "angezeigten" Text kopieren
 
Moin,

habe folgendes Problemchen: Ich würde gerne die Webseite, welche angezeigt wird im EmbeddedWB ohne den HTML Klumpatsch also rein den Text der sich auf dieser Seite befindet kopieren.
Finds etwas schwer zu umschreiben. Also Ihr geht auf eine Internetseite, drückt Strg+A und danach Strg+C. Ihr habt also rein ASCII in der Zwischenablage. Und genau diesen Inhalt hätte ich gerne nur ohne den Umweg über die Zwischenablage bzw. über Sendkeys oder ähnliches. Jemand eine Idee?

Edit: DocumentSourceText wäre fast das was ich suche, jedoch verschluckt der Tabs und Leerzeichen etc.

Gruß
Reli

toms 5. Dez 2008 09:45

Re: EmbeddedWB "angezeigten" Text kopieren
 
Hallo

In meinem Mini Webbrowser Demo habe ich es mal so gemacht:

Delphi-Quellcode:
procedure WB_GetDocumentSourceToStream(Document: IDispatch; Stream: TStream);
// Save a TWebbrowser Document to a Stream
var
  PersistStreamInit: IPersistStreamInit;
  StreamAdapter: IStream;
begin
  Assert(Assigned(Document));
  Stream.Size := 0;
  Stream.Position := 0;
  if Document.QueryInterface(IPersistStreamInit,
    PersistStreamInit) = S_OK then
  begin
    StreamAdapter := TStreamAdapter.Create(Stream, soReference);
    PersistStreamInit.Save(StreamAdapter, False);
    StreamAdapter := nil;
  end;
end;

function WB_GetDocumentSourceToString(Document: IDispatch): string;
// Save a Webbrowser Document to a string
var
  Stream: TStringStream;
begin
  Result := '';
  Stream := TStringStream.Create('');
  try
    WB_GetDocumentSourceToStream(Document, Stream);
    Result := StringReplace(Stream.Datastring, #$A#9, #$D#$A, [rfReplaceAll]);
    Result := StringReplace(Result, #$A, #$D#$A, [rfReplaceAll]);
  finally
    Stream.Free;
  end;
end;


function WB_GetPlainText(WB: TWebbrowser; s: TStrings): string;
var
  IDoc: IHTMLDocument2;
  Strl: TStringList;
  sHTMLFile: string;
  v: Variant;
begin
  sHTMLFile := WB_GetDocumentSourceToString(WB.Document);
  Strl := TStringList.Create;
  try
    Strl.Add(sHTMLFile);
    Idoc := CreateComObject(Class_HTMLDOcument) as IHTMLDocument2;
    try
      IDoc.designMode := 'on';
      while IDoc.readyState <> 'complete' do Application.ProcessMessages;
      v := VarArrayCreate([0, 0], VarVariant);
      v[0] := Strl.Text;
      IDoc.write(PSafeArray(System.TVarData(v).VArray));
      IDoc.designMode := 'off';
      while IDoc.readyState <> 'complete' do Application.ProcessMessages;
      s.Text := IDoc.body.innerText;
    finally
      IDoc := nil;
    end;
  finally
    Strl.Free;
  end;
end;


Ohne Webbrowser (mit und Indy TidHTTP) könntest du es so machen:

Delphi-Quellcode:
uses
  MSHTML, ActiveX, ComObj;

procedure WB_GetPlainText(AURL: string): string;
var
  IDoc: IHTMLDocument2;
  Strl: TStringList;
  v: Variant;
  i: Integer;
begin
  Result := '';
  Strl := TStringList.Create;
  try
    Strl.Text := idHTTP1.Get(AURL);
    Idoc := CreateComObject(Class_HTMLDocument) as IHTMLDocument2;
    try
      IDoc.designMode := 'on';
      while IDoc.readyState <> 'complete' do
        Application.ProcessMessages;
      v := VarArrayCreate([0, 0], VarVariant);
      v[0] := Strl.Text;
      IDoc.write(PSafeArray(System.TVarData(v).VArray));
      IDoc.designMode := 'off';
      while IDoc.readyState <> 'complete' do
        Application.ProcessMessages;
      Result := IDoc.body.innerText;
    finally
      IDoc := nil;
    end;
  finally
    Strl.Free;
  end;
end;

Relicted 5. Dez 2008 10:07

Re: EmbeddedWB "angezeigten" Text kopieren
 
Danke für den Quelltext, leider spuckt er genau das gleiche Ergebnis aus wie "DocumentSourceText" des EmbeddedWB.

Hier mal nen paar mehr Infos...

Quelltext:

Code:
<table>
        <TR>
        <TD>Name:</TD>
        <TD>Test</TD>
        </TR>
</table>
Heraus kommt (Copy&Paste-ich hoffe man sieht das Tab&Leerzeichen):
Code:
Name:    Test
Edit: der Tab scheint in der Anzeige aufgelöst zu werden in Leerzeichen. Es ist eigentlich "Name:_TABTest"

Und aus deiner Funktion und der o.g. Funktion des EmbeddedWB kommt heraus:
Code:
Name:Test
Gruß
reli

toms 12. Dez 2008 06:03

Re: EmbeddedWB "angezeigten" Text kopieren
 
Hast du schon eine Lösung gefunden?

Relicted 12. Dez 2008 06:28

Re: EmbeddedWB "angezeigten" Text kopieren
 
Moin,

jain :-) Keine schöne zumindest. Ich parse jetzt das HTML und baue mir das Ergebnis so zusammen wie ich es brauche. Nicht schön aber funktioniert :-)

Gruß
Reli

BlueStarHH 3. Jan 2012 15:10

AW: EmbeddedWB "angezeigten" Text kopieren
 
Warum werden in der folgenden Funktion #$A#9 und #$A durch einen Zeilenumbruch ersetzt? Wenn ich den Code ausführe, hat er schon von Haus aus richtige Zeilenumbrüchem. Mit dem nachfolgendem Code verdoppeln sich bei jeder Ausführung und anschließender rückspeicherung die Zeilenumbrüche, da #$A zweil mal ersetzt wird. Diesen Code findet man öfter im WWW. Wo ist der Sinn? Ein Fehler? Oder muss da irgendwas vom IE gefixt werden?

Delphi-Quellcode:
function WB_GetDocumentSourceToString(Document: IDispatch): string;
// Save a Webbrowser Document to a string
var
  Stream: TStringStream;
begin
  Result := '';
  Stream := TStringStream.Create('');
  try
    WB_GetDocumentSourceToStream(Document, Stream);
    Result := StringReplace(Stream.Datastring, #$A#9, #$D#$A, [rfReplaceAll]); //<-- Sinn?
    Result := StringReplace(Result, #$A, #$D#$A, [rfReplaceAll]); //<-- Das verdoppelt den Zeilenumbruch
  finally
    Stream.Free;
  end;
end;

himitsu 4. Jan 2012 01:15

AW: EmbeddedWB "angezeigten" Text kopieren
 
Weil viele Webseiten von einem Linux-Server ausgeliefert werden, bzw. oftmals der Output, vor dem Ausliefern auf die Linux-#10 "optimiert" wird. (weniger Bytes)

Und bei diesen Codes vergessen wurde, daß doch mal jemand auf die "blöde" Idee kommen könnte HTMLs in einem Windows-Format auszuliefern. :lol:


#$A#9 ist eigentlich ein Fehler, aber damit wollte man wohl verhindern, daß bei #13#10 ebenfalls ersetzt wird, was aber nur zutreffen würde, bei allen Zeilen, welche nachfolgend mit #9 anfangen und wenn man das Nachfolgende StringReplace weggelassen hätte. :stupid:


Stattdessen entweder vorher schauen, ob #13#10 schon vorliegt und dann nichts machen,

oder einfach immer folgende Ersetzungen durchführen.
#13#10 -> #10, danach #13 -> #10 und zum Schluß #10 -> sLineBreak.

Man kann es auch ganz einfach mal schnell durch eine TStringList jagen, welche dann zum selben Ergebnis kommt, wie meine genannte Ersetungsreihenfolge.

BlueStarHH 4. Jan 2012 10:47

AW: EmbeddedWB "angezeigten" Text kopieren
 
Danke, himitsu!


Alle Zeitangaben in WEZ +1. Es ist jetzt 01:16 Uhr.

Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz