Catching bad guys with data

Extremist rhetoric online, data science and counterspeech: an expert’s view.

Jonathon Morgan is the Founder/CEO of New Knowledge, a data scientist and researcher of violent extremism. He has studied the communication of jihadists online and recently written an insightful and alarming analysis on the rise of violent rhetoric within the American far right. He also hosts an excellent data science podcast. I had the opportunity to talk to him on the subject of extremist groups online for Tages-Anzeiger, with Süddeutsche Zeitung running the piece as well. On the mentioned sites an abbreviated and slightly edited version appeared. Here’s the english transcript of the interview.

You wrote that you’re interested in „catching bad guys with data“ – how does that work?

Just like in real life: Criminals, extremists, people who cause harm engage in behaviors with a certain signature. They do this online and in the real world. These patterns can be fairly complex and I use new techniques to analyse data and new machine learning techniques to recognise them. It’s a way that gives a lot of opportunities to identify extremists and develop strategies for counteracting them. In a law enforcement way but also when it comes to understanding how to stop people from being radicalized. And perhaps create a society where extremists have less success preying upon people who are vulnerable.

What is your motivation?

I’d like to live in a world where people aren’t compelled to hurt one another. I’d like to live in a society where these hateful antagonistic organisations aren’t a preferable alternative to mainstream society.

In your work you have studied different groups of extremists and their behaviour online. How do you gain information on them? Weiterlesen →

Joggingwege kartografieren: Ein kurzes Making-of

Zurich_jogging_klein
Ich habe für den Datenblog des TA eine Visualisierung beliebter Jogging-Routen in Schweizer Städten erstellt. Hier eine Anleitung, wie das einfach möglich ist.

Am Anfang steht die Suche nach dem potentiellen Datenset. Die Daten der Joggingrouten, die ich verwende, stammen vom Trackingdienst RunKeeper. Der Dienst bietet eine Stichprobe ansehnlicher Grösse für eine halbwegs aussagekräftige Analyse. Mit der dortigen Suchfunktion lassen sich die von Nutzern hinterlegten Routen im Umfeld von Städten suchen und filtern. Weiterlesen →

Flugverbindungen kartographieren

Spuren am Himmel: Wie stellt man Millionen von Flugpassagieren auf einer Karte dar?

fluege_kleineRegelmässig wertet das BFS den Schweizer Flugverkehr aus. 2012 kam die Schweiz zum Beispiel auf rund 450’000 Flugbewegungen und 44 Millionen Passagiere.

Genauere Daten geben einen Überblick über die wichtigsten Destinationen von den hiesigen Flughäfen aus. So lassen sich etwa die aktuellen Daten vom ersten Quartal 2013 als Grundlage nehmen, um die Passagierströme auf einer Karte zu visualisieren. Weiterlesen →

D3 in WordPress: Newton’s Balls

Visualization-Press: Das WordPress-Plugin Wp-D3 erlaubt es, Visualisierungen mit D3 in Posts einzubauen.

Content Management Systeme sind von jeher die natürlichen Feinde aller, die sich mit Datenvisualisierungen beschäftigen. Die Technologien dahinter sind in der Mehrzahl so neu, dass die meisten CMS nicht mit ihnen zurecht kommen. Das gilt auch für WordPress, das bekanntlich schon mit Javascript in Posts seine Schwierigkeiten hat. Bis jetzt mussten sich Nutzer mit Workarounds wie zum Beispiel iframes behelfen. Ruben von figurebelow hat nun aber ein simples Plugin geschrieben, das das Einbetten von D3-Scripts in Posts erlaubt.

Weiterlesen →

Make finance: Fotoreportage vom Hackday

48 Stunden Coding im Dienst offener Daten: Ich habe am Hackday von make.opendata einige Impressionen und Stimmen gesammelt.

Am inzwischen vierten Hackday von opendata.ch drehte sich alles um öffentliche Finanzdaten. Ziel war, trockene Statistiken aus ihren Tabellen zu befreien und mit Grafiken anschaulich werden lassen. Der Motor für die Mitmacher: Sich am Lesbarmachen der Daten versuchen, Ideen wie open data und open government fördern und mit anderen zusammen etwas bauen.

Ich war am Samstag vor Ort und habe mit einigen der Teilnehmer gesprochen:

Eine ausführlichere Version des Interviews mit Andreas Amsler gibt es auf Soundcloud. Die besprochenen Projekte: Weiterlesen →

Datalinks 3/13

Links rund um Datenarbeit, computergestützten Journalismus und Zahlen – mindestens ein Mal pro Monat.

Daten

Keine Zeit für Wut: Die NZZ nimmt die New York Times als Vorbild und realisiert ein beeindruckendes Stück Longform-Journalism als Online-Feature – inklusive intelligenter Visualisierungen von Interactive Things.

So lebt Europa ist das neuste Visualisierungsprojekt der Süddeutschen. Ein interaktiver Datenatlas, unter anderem zu Demografie, Wirtschaft und Bildung. Gleichzeitig hat die SZ ihren bisherigen Datenprojekten eine Einstiegsseite spendiert.

Mega-Commuters Take Manhattan: WYNC hat USA-weit Pendelzeiten visualisiert.

 The Upbeat Stats on Statistics: Carl Bialik vom Wall Street Journal über den Aufschwung, den der Blick auf die Daten in verschiedensten Lebensbereichen nimmt.

Lernen

Seven dirty secrets of data visualisation: Ein Artikel, der aufgreift, was in der Diskussion um Visualisierungen oft unter den Tisch fällt – nämlich wie mühsam und schwierig Datenarbeit ist.

Open Refine Starter: Erste Schritte und Einstiegshilfe für das Daten-Raffinierungswerkzeug.

Neu entdeckte Werkzeuge

Tabletop: Eine Javascript-Library, die Google Spreadsheets – die Freunde jedes Datenarbeiters – für die dynamische Nutzung als Listen von JS-Objekten verfügbar macht.

FF Chartwell: Absurd – eine Schriftart, die typografisch statistische Grafiken darstellt.

Journalismus

Mondaynote und Constantin Seibt schlagen in die gleiche Kerbe: Journalistische Medien brauchen eine Erneuerung bei Form, Stil und Inhalten, Experimente und neue Fragestellungen.

Der hyperlokale Hype ist beendet: Passend zum Ende von EveryBlock – Dennis Horn vom WDR findet, dass die neuen, lokalen Newsmodelle am Gleichen kranken wie die Printmedien.

For Journalism: Das Projekt, das per Schwarmfinanzierung Lernmaterialien für Journalisten zur Verfügung stellen möchte, um diese fürs Digitale fit zu machen, hat sein Sammelziel erreicht.

Geodaten sichtbar machen: Gehversuche mit R

Kenntnisse der Statistik-Programmiersprache R stehen jedem Datenjournalisten gut an. Ausprobieren zeigt: R eignet sich nicht nur zur Datenanalyse, sondern auch für Grafiken und Karten.

Zurzeit belege ich zwei Kurse an der Online-Uni Coursera, die dieser Tage in Startup-Kreisen viel Beachtung findet. Beide Kurse drehen sich um statistische Methoden, mit Fokus auf die Programmiersprache RComputing for Data Analysis und Data Analysis. Gegeben werden sie vom Personal von Simply Statistics.

Meine Erfahrung bislang:  Weiterlesen →

Karte: Kinderbetreuung im Kanton Zürich

Wo finde ich eine Kinderkrippe oder einen Mittagstisch in meiner Nähe? Ein Beispiel für die Möglichkeit, öffentlich verfügbare Daten auf einer Karte besser nutzbar zu machen.

Die Farben zeigen die Art des Angebots an.

  • Rot: Kindertagesstätte
  • Gelb: Hort
  • Grün: Mittagstisch
  • Blau: Kinderhütedienst

Mit der untenstehenden Eingabe lassen sich die Einträge durchsuchen. Ein Klick auf die Marker liefert weitere Informationen, wo vorhanden. Weiterlesen →

OutWit Hub: Webdaten per Werkzeug abgreifen

Das Scraping-Werkzeug OutWit Hub spart eine Menge Coding in der Extraktion von Daten aus Webseiten. Ein einfaches Beispiel zeigt wie.

outwitWie im letzten Post erwähnt, gibt es die Kinderbetreuungsangebote der Stadt Zürich online nicht in einer übersichtlichen und leicht verwendbaren Liste. (Update: Das stimmt so nicht mehr ganz – mehr dazu unten.)

Die Informationsplattform hat einen eigenen Navigationspunkt für Kitas, Spiel- und Chrabbelgruppen. Bemüht man die dortige Suchfunktion, erhält man nach etwas Herumprobieren eine geordnete (Druck-)Darstellung der Angebote, die zwar weniger Informationen liefert als die einzelnen Einträge, die aber wegen ihrer kniffligen Struktur kaum mit vertretbarem Aufwand zu scrapen sind. Darum anders: Weiterlesen →

Python scraping: Daten aus Webseiten herausziehen

Das erste Mal unterwegs mit Python – Ergebnis: Ein experimenteller Datascraper für Kinderbetreuungsangebote im Kanton Zürich.


Die Idee entstand eigentlich mehr per Zufall: Auf der Suche nach granularen Daten – und solchen, die sich mit Adressen auf eine Karte umlegen liessen – stiess ich auf den Kinderbetreuungsindex, eine Auswertung der Betreuungsangebote im Kanton Zürich (Krippen, Horte und so weiter). Von da aus gelangte ich auf lotse.zh.ch, das Portal des Amts für Jugend- und Berufsberatung, das Kontaktadressen für Eltern bereitstellt.

Der dabei entstandene Plan: der wenig hilfreichen Imagemap auf dieser Seite eine Alternative zur Seite zu stellen. Das schien mir eine gute Gelegenheit zu einer ersten, richtigen Fingerübung zu sein. Auf mehrere Webseiten verteilt finden sich hier nämlich Adresslisten von Betreuungsangeboten, die in einer gemeinsamen Kartenübersicht gut aufgehoben wären. Darum sammle ich die Adressdaten aller Zürcher Angebote und mache sie anschliessend in einer Google Map verfügbar. Weiterlesen →