Heimdall ist eine JAVA Software zur Analyse des webgraph. Sie benutzt JUNG und COLT.
Download the binary application and the source file
Planung zur Heimdallversion 2.0
Im Gegensatz zur aktuellen Betaversion, die in einer finalen Version 1.0 münden soll, ist Heimdall 2.0 eine vollkommene Neukonzeption. Im folgenden umreiße ich kurz die Kernkonzepte:
- jede Vertex erhält eine eindeutige Referenznummer
- zentrale Look-Up Table: Referenznummer - VertexURL
- byte-Matrix für die Edge-Beziehungen (default=0)
- 0 = keine Edge
- 1 = Edge von x nach y
- 2 = Edge von y nach x
- 3 = reciprocal Edge
- 2 Integer Matrizen zur Repräsentation der Shortest Path Länge
- 1 - Länge des shortest path von x nach y
- 2 - Länge des shortest path von y nach x
- bei beiden: default = 0, entspricht keiner Verbindung
Nach dieser fundamentalen Planung steht als nächstes eine klare Klassen- und Schnittstellendefinition an.
Basisfunktionen von Heimdall
- webcrawler (folgt in einer einstellbaren Tiefe den Links innerhalb der Seed-Domains)
- Aufbau einer Graphstruktur - die webpages werden vertices, die links werden edges
- Analyse des webgraph nach verschiedenen netzwerktheoretischen Eigenschaften
- Speichern des webgraph in GraphML XML Struktur (Einlesen noch fehlerhaft)
- Ranking der vertices (nach PageRank und Betweenness Centrality)
- einfache Visualisierung
Außerdem ist es möglich die Ergebnisse der graphentheoretischen und ranking Analysen als HTML Dokument zu speichern. Hier kann ein Beispiel einer solchen Graphanalyse oder Rankinganalyse betrachtet werden. Hier das GraphML Dokument des Beispielgraphen.
netzwerktheoretische Eigenschaften des webgraph, die Heimdall berechnet
- ranking der vertices
- PageRank
- Betweenness Centrality
- netzwerktheoretische Eigenschaften der vertices
- Betweenness Centrality
- clustering coefficient
- lower order clustering coefficient
- degree
- netzwerktheoretische Eigenschaften des webgraph
- Anzahl der vertices
- Anzahl der edges
- Anzahl der loops (reciprocal Edges)
- diameter des graph (Länge des längsten shortest path)
- average minimum path length
- average indegree
- average outdegree
- average Betweenness Centrality
- global efficiency des webgraph
Heimdall 0.1 Beta
Für meine Diplomarbeit habe ich eine arbeitsfähige Betaversion von Heimdall fertiggestellt.
Die Software kann bereits eigenständig crawlen. Dafür muß man lediglich in das entsprechende Feld auf der GUI eine, oder mehrere durch ";" getrennte, URLs eingeben und den Crawl-Button betätigen. Eine Mac OS X Version der Software kann hier heruntergeladen werden.
Da es sich um eine Betaversion handelt, kann ein reibungsloser Einsatz der Software im produkiven Umfeld leider nicht garantiert werden.