Unabhängig von allen Suchmaschinen im Web nach allen möglichen Webseiten manuell crawlen und mit den so gefundenen Webadressen eine eigene Webschau auf seiner Seite präsentieren. Mit Linktausch die eigene Seite bekannt machen.

Beitrag 1788 von UFO-Peter » 19.05.2011, 07:27

Unabhängig von allen Suchmaschinen im Web nach allen möglichen Webseiten manuell crawlen und mit den so gefundenen Webadressen eine eigene Webschau auf seiner Seite präsentieren. Mit Linktausch die eigene Seite bekannt machen.

Bild

Mit Suchmaschinen kann man nach bestimmten Inhalten suchen. Problematisch ist aber, dass die Suchergebnisse nach Popularität geordnet sind, sodass sich neue Webseiten kaum etablieren können, weil sie bei den Suchergebnissen immer sehr weit hinten platziert sind.

Leider hat man nämlich nicht die Möglichkeit, Suchergebnisse so anzeigen zu lassen, dass jeweils die zuletzt aufgesuchten Seiten entsprechend weiter oben/vorn angezeigt werden. Auf diese Weise würde der Zufall die Reihenfolge bestimmen.

Wer auf seiner Seite auch eine eigene Webschau präsentieren möchte, wie beispielsweise die von Arte: Klick! Oder www.linkperlen.de, braucht eine Möglichkeit, alle möglichen Webadressen völlig unabhängig von Suchmaschinen und Webkatalogen ausfindig zu machen.

Mit Suchmaschinen kann man bekanntlich nicht irgendwelche Webseiten auflisten, was aber für die Schaffung einer eigenen Webschau unerlässlich ist. Und Suchmaschinen indizieren zudem aus verschiedenen Gründen nicht ausnahmslos alle Webseiten.

Deswegen ist es sinnvoll, ohne Benutzung von Suchmaschinen selbst das Web nach allen möglichen Webseiten zu durchforsten beziehungsweise zu crawlen Falls man hierzu kein Script zur Verfügung hat, kann man das Web manuell crawlen, indem man mit irgendeiner Webseite beginnt, deren URLs in einer Datei listet und diese wiederum aufruft und so weiter.

Nun einige Bemerkungen zum manuellen Crawlen und dem Erstellen einer Linkliste, welche die Webschau sein soll, oder welche hierzu dient. Weil die hinter dem manuellen Crawlen erforderliche Logistik etwas kompliziert ist, habe ich mir hierzu einige Gedanken gemacht, ohne selbst schon so eine Linkliste ercrawlt zu haben.

Als Browser benutzt man vielleicht am besten einen rein textbasierten Browser, wie beispielsweise Lynx: Übrigens habe ich damit begonnen, ein weiteres Makro zu schreiben, das aus dem Quelltext einer Seite dessen URLs generiert. Insbesondere dann wird folgender Browser sehr geeignet sein.

http://lynx.isc.org/lynx2.8.7/index.html

Sämtliche beim Crawlen gefundenen URLs in dieser Liste aufzunehmen, ist meines Erachtens grundsätzlich unsinnig, weil es beispielsweise Foren mit Tausenden Threads/Themen gibt, und diese Liste dadurch sehr langweilig wäre, wenn ein Teil dieser Liste ein geschlossener Block aus unmittelbar aufeinander folgenden Tausenden von URLs zu Threads desselben Forums wären.

Aber andererseits sollten am besten auch solche internen URLs beim Crawlen berücksichtigt werden, weil in der Regel viele von diesen wieder Links zu allen möglichen externen Webseiten enthalten; sodass daraus folgt, dass man mindestens mit zwei Listen beim Crawlen arbeiten muss.

Die erste ist eine temporäre Liste, die jeweils auch alle internen Links enthält. Und die andere finale Liste, in die man jeweils die geeigneten URLs aus der temporären Liste in diese einfügt. Diese Liste ist dann entweder die zu veröffentlichende Webschau selbst; oder sie ist die Grundlage für die zu schaffende Webschau.

Auf interne Links beim Crawlen zu verzichten, sich also nur auf die Haupt- beziehungsweise Startseiten zu beschränken, wäre auch deswegen nicht gut, weil auf Startseiten oftmals nur sehr große populäre Webseiten verlinkt sind. Aber beispielsweise kleinere Homepages oder Blogs sind zumeist nur auf internen Webseiten verlinkt, sodass zumindest zum Crawlen auch interne Links benutzt werden sollten.

Wenn man möchte, nimmt man nur Hauptseiten, also nur reine Domains, in der finalen Liste auf. Oder man nimmt auch besonders ausgesuchte interne Links auf. Oder man kann auch fast ausnahmslos alle internen Links in der finalen Liste aufnehmen. In diesem Fall kommt es aber auf die richtige Mischung mit jeweils neu gecrawlten (externen) Hauptseiten an.

Im Folgenden gehe ich von der letzten Möglichkeit aus, um eine Liste für eine Webschau auch mit mehr oder weniger zahlreichen internen URLs zu erstellen, denn die anderen Möglichkeiten wären einfacher zu realisieren.

Beispielsweise startet man sein manuelles Crawling geradezu genialer Weise mit der URL zu seiner eigenen Webseite. Diese URL zur Hauptseite der eigenen Homepage, Forum, Wiki oder Blog ist also die erste Webadresse in der temporären Liste.

Unter dieser URL füge die URLs sämtlicher externen Links in die mit dem Editor Vim geöffnete temporäre Liste ein; unabhängig davon, ob diese Seiten verlinkt sind oder nur als nicht verlinkter Reintext vorliegen! Und darunter füge dann die URLs aller internen Links dieser Startseite ein!

Die erste URL der temporären Liste kann nun (nur) gelöscht oder in die finale Liste verschoben werden. In diesem Fall wahrscheinlich gelöscht, weil es wohl kaum Sinn machte, auf seiner Webseite eine Webschau zu präsentieren, die damit beginnt, dass man seine eigene Seite präsentiert, die der Leser ja schon aufgerufen hat.

Nun wendet man sich wieder dem nun obersten Eintrag der temporären Liste zu, der eine URL zu einer externen Seite ist und ruft diese Seite auf.. Und verfährt mit dieser Seite genauso, wie man mit der vorigen Seite verfuhr. Dass man also erst alle externen URLs dieser Seite unten an die Liste anfügt und dann die internen.

Wenn man auf diese Weise immer weiter fortfährt, wird die temporäre Liste nicht nur immer länger, sondern externe und interne Links wechseln auf geniale Weise miteinander ab. Irgendwann wird insbesondere die temporäre Liste so lang sein, dass es kaum Sinn machen wird, diese weiterzuführen, sodass irgendwie ein Break sinnvoll zu sein scheint.

Es handelt sich dabei allerdings um eine Liste mit Links, die man bisher weder zum Crawlen nutzte, noch in der Finalliste aufgenommen sind, sodass eine Löschung dieser Datei unsinnig erscheint.

Anstatt weiter zu crawlen, könnte man die jeweils für die finale Liste geeigneten URLs in dieser aufnehmen unter einer Markierung/Lesezeichen. Anschließend könnte man diese temporäre Liste entweder löschen oder die Einträge mit :sort alphabetisch ordnen; und je nach Anfangsbuchstaben auf mehrere Dateien aufteilen. Oder beides nicht.

Falls man das Crawling nun fortführen möchte, beginnt man eine neue temporäre Liste, in die man die URLs in das leere Dokument einfügt, die man zuvor unter der Markierung/Lesezeichen in der finalen Liste einfügte, denn man braucht ja wieder einen Anfang, der am besten nicht wieder die eigene Seite sein sollte.

Das Lesezeichen in der Finalliste kann man nun entfernen und fügt ganz unten in der temporären Liste ein Lesezeichen ein, indem man anstatt einer URL eine entsprechende aussagekräftige Textzeile anfügt. Denn die URLs über dem Lesezeichen sind ja schon in der Finalliste vorhanden; und die neu hinzu kommenden URLs unter dem Lesezeichen noch nicht.

Beim Crawlen braucht man aber jetzt die jeweils verarbeiten URLs nicht in die finale Liste verschieben, sondern nur löschen, weil diese ja schon in der Finalliste vorhanden sind; zumindest bis man das Lesezeichen erreicht hat. Hat man dann aber irgendwann das Lesezeichen erreicht, werden die jeweils geeigneten Seiten wieder in die Finalliste verschoben (und in der Templiste gelöscht).

Wenn man aber möchte, kann man schon eher von den jeweils neu hinzu gecrawlten URLs unter dem Lesezeichen die jeweils geeigneten der finalen Liste hinzufügen. Löschen darf man diese aber nicht in der temporären Liste, weil diese noch nicht gecrawlt wurden. Stattdessen verschiebt man das Lesezeichen entsprechend nach unten.

Wer genau aufgepasst hat, dem ist aufgefallen, dass nach dem Crawling-Neustart in der temporären Liste sozusagen die ältesten URLs fehlen, sodass das Makro nicht diejenigen URLs löscht, die schon in der Finalliste vorhanden sind. Aber dies ist zum einen kaum anders möglich, denn sonst müsste die Finalliste irgendwann fast unendlich lang sein.

Es ist aber auch nicht erforderlich, weil es sogar gut ist, dass nach Ablauf einer längeren Zeit, bereits gecrawlte Seite erneut auf vorhandene Links überprüft werden. Denn Seiten können inzwischen verändert sein.

Die gegebenenfalls so in die Templiste aufgenommenen in der Finalliste bereits vorhandenen URLs werden dann spätestens in der Finalliste als bereits vorhandene durch das Makro gelöscht.

Um jeweils immer wieder mal doppelte Webadressen auszufiltern, kann man beispielsweise den Editor Vim beziehungsweise gVim benutzen: Klick! Zur Bedienung siehe hier Klick!
Code: Alles auswählen
:sort sortiert alle Zeilen alphabetisch.
:sort u entfernt zudem alle doppelten Zeilen.
:.,$sort sortiert von der aktuellen Kursorposition bis zum Dateiende.
Auch kann man nur einen bestimmten Textbereich sortieren, indem man diesen im Visualmodus (Markieren) v oder V vorher markiert.

Das Problem ist aber, dass wiederholt vorkommende URLs nur in Kombination mit der alphabetischen Sortierung entfernt werden können. Und es gibt Seiten, die sowohl mit als auch ohne www aufrufbar sind, die dadurch als mehrfach vorkommende URLs nicht erkannt und entfernt werden.

Um dies zu vermeiden, habe ich für den Editor gVim ein Makro geschrieben, das automatisch wirklich alle Doppelten entfernt, unabhängig ob mit oder ohne www; wobei die Reihenfolge eingehalten wird und mit anderen Ausstattungsmerkmalen.

Aber weil dieses Makro auch bestimmte Windows-Tastenkombinationen benutzt, funktioniert es so nur unter Windows. Wer aber dieses Makro unter einem anderen Betriebssystem verwenden möchte, teile mir bitte mit, wie bei diesem die Hotkeys/Shortcuts für das Ausschneiden, Kopieren und Einfügen sind, damit ich das Makro entsprechend umschreiben kann.

Wenn man in der Temp- und der Finalliste immer wieder mal das Makro zum Entfernen von mehrfach vorkommenden URLs ausführt, beachte man die Arbeitsweise. Wenn man beim manuellen Crawlen bisher das Makro noch nicht ausführte, entfernt es beim ersten Einsatz einfach nur die überzähligen von den mehrfach vorkommenden URLs, wenn zuvor keine Leerzeile vorhanden war. Beispielsweise die Liste von URLs vor der Ausführung des Makros:

Code: Alles auswählen
www.111.de
www.111.de
www.222.de


ist nach der Ausführung des Makros diese, die dann mit einer Leerzeile beginnt:

Code: Alles auswählen

Ab hier alle nicht mehrfach vorkommenden URLs:
www.111.de
www.222.de

Weil dann aber bei jedem weiteren Aufruf des Makros die Funktionsweise so ist, dass die URLs über der Leerzeile nacheinander unter die Leerzeile verschoben werden; wobei das Makro jeweils überprüft, ob diese URL schon vorhanden ist; müssen die URLs, die man sonst ganz unten an die Liste anfügen würde, bei den URLs über der Leerzeile unter diesen eingefügt werden.

Wenn man dann irgendwann das Makro ausführt, werden die URLs über der Leerzeile vom Makro jeweils nacheinander ganz unten unter die URLs unter der Leerzeile verschoben, wobei die Reihenfolge der verschobenen URLs beibehalten werden. Beispielsweise die Liste von URLs vor der Ausführung des Makros:

Code: Alles auswählen
www.111.de
www.111.de
www.222.de

Ab hier alle nicht mehrfach vorkommenden URLs:
www.333.de
www.444.de

ist nach der Ausführung des Makros diese, bei der dann die Leerzeile ganz oben ist:

Code: Alles auswählen

Ab hier alle nicht mehrfach vorkommenden URLs:
www.333.de
www.444.de
www.111.de
www.222.de


Übrigens löscht das Makro keine Textzeilen, falls diese so nicht mehrfach vorkommen; sondern behandelt diese wie URLs. Hier ist es nützlich, dass das von mir geschriebene Makro die Reihenfolge nicht verändert, an dem ich übrigens ungefähr eine Woche tüftelte.

An alle "Experten", die gern unerlaubter Weise reine Downloadlinks auf allen möglichen Webseiten extern verlinken! Die Vim-Datei mit diesem Makro und zwei weiteren kann nur von hier aus heruntergeladen werden. Der Downloadlink funktioniert nämlich nicht, wenn er extern verlinkt ist. Deswegen gegebenenfalls diesen gesamten Beitrag verlinken!

Ich möchte auch erwähnen, dass die so entstandene Webschau, beziehungsweise die Liste mit den URLs, nicht nur ein Besuchermagnet sein kann; sondern auch selbst zwecks Werbung für die eigene Seite genutzt werden kann. Ich empfehle zwecks Linktausch, eine Seite einzurichten mit Links zu allen Seiten, die auch die eigene Seite verlinkt haben.

Man darf aber nicht nacheinander Kontakt mit allen möglichen Seiteninhabern aufnehmen, um ihnen das Angebot eines Linktauschs zu unterbreiten; dass, wo ein Inhaber die eigene Seite verlinkt, dass man auf seiner eigenen Linktauschseite auch diese Webseite verlinken wird oder schon hat.

Ich habe nämlich gelesen, dass immer mehr User rechtsanwaltlich abgemahnt werden wegen Anfragen zwecks Linktausch. Es gilt anscheinend das Prinzip, dass alles, was den Keim des Umsichgreifens in sich birgt, unerlaubter Spam ist. Und dass grundsätzlich nur erwünschte E-Mails erlaubt sind.

Besser ist es also, auf seiner Webseite zum Linktausch einzuladen. Jeder Interessierte darf dann beispielsweise eine entsprechende E-Mail als Antwort senden.

Natürlich müssen diese Links alle ab und zu überwacht werden, ob jeweils die Gegenseite auch ihren Link zur eigenen Seite noch hat. Und natürlich sollte diese Backlink- beziehungsweise Linktauschseite in der eigenen Webseite eingebunden sein, damit die auf diese Seite geleiteten Besucher am besten ganz oben einen Link zur Hauptseite vorfinden.

Bei diesem Linktausch ist es dann am besten, wenn alle Beteiligten jeweils zur Linktauschseite verlinken. Nur so ist es dann nämlich sehr einfach zu überprüfen, ob der Link der jeweils anderen Partei noch vorhanden ist.

Wenn aber der Linkpartner direkt zur Hauptseite verlinkt, kann man ruhig damit einverstanden sein; weil es dann nämlich sein Problem ist zu kontrollieren, ob der Gegenlink noch vorhanden ist, weil er dann die Linktauschseite erst suchen muss.

Das wahrscheinlich Allerbeste ist, wenn man pärchenweise jeweils den Link zur Startseite und unmittelbar darunter den Link zur Unterseite mit den Backlinks verlinkt. Die Besucher können dann auf den jeweils oberen Link klicken. Und selbst kann man als Webseiteninhaber jeweils auf den unteren Link klicken; um zu kontrollieren, ob der Gegenlink noch vorhanden ist.

Dieses Linktauschsystem kann man mit der eigenen Webschau koppeln, indem man in seiner Webschau die Linktauschpartner mit besserer Platzierung bevorzugt; oder das Erscheinen von Seiten in seiner Webschau von der Teilnahme am Linktausch abhängig macht. Auch sollte man völlig neue Webseiten berücksichtigen, die man in der Regel nicht ercrawlen kann, weil deren Webadressen noch nicht bekannt sind.

Hierzu bietet man am besten insbesondere solchen Webseiteninhabern auf der eigenen Seite an, ihre Seite selbst vorzustellen, indem man entsprechende Anrufe oder E-Mails zwecks Teilnahme am Linktausch entsprechend berücksichtigt.

Und man kann auch einen eigenen Webkatalog, Link- oder Bannerliste anbieten, oder (falls man ein Forum hat) auch eine spezielle Kategorie oder Thread, wo jeder seine Seite bekannt machen kann.

Inzwischen steht auch ein weiteres Vim-Makro webschau_makro_zaehl.vim zum Download bereit, um doppelte URLs zu löschen, wobei diese jeweils gezählt werden. Nach der Verarbeitung könnte man übrigens die URLs mit :sort sortieren, sodass diese dadurch nach deren Häufigkeit sortiert sind. Aber zuvor zweites Makro ausführen!




Es ist endlich so weit. 4 Makros zum Download; selbstverständlich gratis und völlig legal. Wahlweise mit oder ohne Zählfunktion und wahlweise mit oder ohne Quelltextauslesung. Alle vier Makros wurden von mir völlig neu überarbeitet und Fehler behoben. Leider arbeiten die beiden Quelltext-Varianten zu langsam, weswegen diese in Kürze in einer verbesserten Version erscheinen werden.
Du hast keine ausreichende Berechtigung, um die Dateianhänge dieses Beitrags anzusehen.
Liebe Leser! Wenn Sie die Schildbürgerstreiche der Politik(er) schon lange satt haben, unter­stützen Sie bitte dieses Forum, indem Sie es auf anderen Seiten verlinken, oder nur aufs 'Welt­rettungs­forum' aufmerk­sam machen!
 
Falls Sie aber meinen, dass ein Staat gemäß Grund­gesetz schon dann demo­kratisch ist, wenn das Wahlvolk alle vier Jahre wählen gehen darf, wer die Dikta­toren sein sollen. Post­fakt­ische Lügenpresse, halt’ die Fresse!
 
Oder es in Ordnung wäre, dass im Gegensatz zur ehe­ma­ligen DDR, Menschen so wenig ver­dienen, dass es nicht zum Leben reicht und vieler­orts unver­schuld­ete Ob­dach­losig­keit herrscht; während dem­gegen­über einige wenige Multi­million­äre in uner­mess­lichem Reich­tum schwelgen.
 
Oder, wenn Sie meinen, dass AfD und PEGIDA rechts­radikal wären, weil beide gegen das Gut­menschen­tum sind, das alle Flücht­linge inte­grieren will ein­schließ­lich Deutsch­lern­pflicht; obwohl sie doch in einem Lager mit Wohn­con­tainern viel besser auf­ge­hoben wären.
 
Oder, wenn Sie abstreiten, dass auch Deutschland den Flüchtlingsstrom mit verursachte, indem die deutsche Regierung verantwortlich dafür war, dass Deutschland 2014 nur noch die Hälfte an den UNHCR zahlte, wodurch eine Hungersnot in den Flüchtlingslagern ausgelöst wurde.
 
Oder, wenn Sie die BRD für einen Rechts­staat halten, obwohl Richter und An­wälte durch per­ma­nente Rechts­beugung vor­ein­ge­nom­men um den Er­halt ihrer Arbeits­plätze be­müht sind; und mich deswegen Richter Rüdiger Richel rechtskräftig dazu verurteilte, Kinder zu ermorden. Wir brauchen eine un­vor­ein­ge­nom­me­ne Justiz anstatt eine unab­hängige Justiz. Genauso brauchen wir un­ab­häng­ige Lehrer anstatt ein (staat­lich ge­steu­er­tes) Bildungs­system.
 
Oder, wenn Sie glauben, dass die Kirche mit ihrer geistes­kranken Wahn­vor­stellung recht hat; dass einst Gott seinen (angeb­lich) einzigen Sohn sandte, damit dieser als Opfer­lamm brutal er­mordet wird zwecks Sünden­ver­gebung. Juden unschuldig an der Kreuzigung Jesu.
 
Oder, wenn Sie allen Ernstes meinen, dass soge­nannte "Lesben" und "Schwule" sexuell so orien­tiert sind, dass unbe­dingt die Ge­nital­ien nicht zu­ein­an­der passen dürfen; oder, dass der Terror­an­schlag in Paris nichts mit dem Islam zu tun hat.
 
Oder die sexuelle Neigung zu 'vor­puber­tärem' Kind ab­artig sei, obwohl manche Mädchen fast schon im Klein­kind­alter ge­schlechts­reif sind und trotzdem zur Prüderie gezwungen werden; Sie aber demgegenüber Zwangs­be­berg­steigung, Zwangs­artistik und Zwangs­leistungs­be­sportung von Kindern OK finden; brauchen Sie dieses Forum natürlich nicht unter­stützen.