Du kan designe et godt diagram med R

Men investerer R-brugere i design?

Sidste uge var dataviz twitter forbløffende, da Edward Tufte beklagede R's manglende evne til at skabe flotte grafikker med gode etiketter og kommentarer. Han foreslog, at den eneste måde at komme til den slags kvalitetsdiagrammer, han promoverede i sine bøger, var at tage output af R ind i Adobe Illustrator og investere i ”resonnementer om ord på grafik”.

Hvis du er ny med datavisualisering, kan du måske tro, at en sådan udtale ville føre til en revurdering af, hvordan folk bruger R, og om de bruger programmeringssprog til at oprette kvalitetsdiagrammer. Det er trods alt Edward Tufte, skytshelgen for datavisualisering.

Du ville tage fejl.

Du ved muligvis ikke det, men der er en ganske spræk relation mellem det moderne datavisualiseringsfællesskab og Tufte. Nogle føler, at han interagerer for voldsomt, andre føler, at hele hans tilgang er baseret på et par intuitioner, som ikke er blevet bakket op af forskning, og andre føler, at hans nøgleeksempler har problematiske antagelser. Mange fremtrædende datavisualiserende udøvere på Twitter betragter det som en æresemblem for at blive blokeret af Tufte.

Så det burde ikke være nogen overraskelse, at svaret på Tufte's tweet hovedsagelig var at sige, at R giver mulighed for at udføre godt dataviz-design. Tufte's påstand syntes at antyde, at det bogstaveligt talt var umuligt, og det var derfor let nok for R-brugergruppen at præsentere eksempler på diagrammer lavet med R, der lignede, hvis ikke nøjagtige kopier af eksemplerne, Tufte har brugt.

Men kritikens indhold var ikke, at R teknisk var ude af stand til at bruge design, snarere at datavisualiseringsdesign ikke er forbundet med at bruge R. Det er let at se, hvorfor Tufte's tweet blev fortolket på denne måde, da han antydede, at R “ikke var nok ”Og at du bliver nødt til at trække resultaterne ind i et andet værktøj, som Illustrator. Om Tufte mente det eller ej, dette spørgsmål om R-brugere synes om design som værd at være deres tid og investering er for vigtigt at ignorere.

For at forstå det bedre, kiggede jeg på 2018 Data Visualization Survey. Jeg bruger ikke R eller Illustrator i min praksis, og undersøgelsesdeltagerne var skæve mod min sociale medie rækkevidde, men jeg er heldig nok til at kende et par mennesker, der er fremtrædende i forskellige datavisualiseringssamfund, der også delte undersøgelsen. Så selvom det ikke er nogen overraskelse, at denne undersøgelse overrepræsenterer D3, har den en god repræsentation af mennesker, der bruger R og endda et anstændigt antal mennesker, der bruger Illustrator til datavisualisering.

Af de 627 personer, der udfyldte undersøgelsen, angav alle, undtagen 133, at de brugte R, Illustrator eller D3 i deres datavisualiseringspraksis, hvor mange brugte en kombination af disse værktøjer.

Et par af spørgsmålene havde specifikt at gøre med rollen som design i datavisualisering, og et især bad deltageren om at estimere mængden af ​​tid pr. Dag, de brugte på design.

Denne glæde plot (eller ridgeline plot) viser kun fordelingen for de respondenter, der angav, at de overhovedet brugte noget på design.

Hvis vi planlægger dette, kan vi se, at R-brugere halter D3-brugere i deres tidsinvestering i design og alvorligt halter Illustrator-brugere. Denne forskel i investering i design fra D3-samfundet og R-samfundet er ikke så enorm, men husk, at D3-samfundet selv lider af en mangel på investering i design.

Mest interessant er formen på kurverne, når Illustrator er en del af datavisualiseringsprocessen. Hvis respondenten erklærede R og Illustrator blandt deres værktøjer (men ikke D3) var investeringen af ​​tid i design faktisk mindre. I alle andre tilfælde syntes Illustrator, der var en del af dit værktøjskasse, at indikere en større værdi for designprocessen.

Når vi sammenligner de mennesker, der ikke gav tid til at designe med dem, der gjorde det, er resultaterne mere slående.

Næsten halvdelen af ​​deltagerne, der bruger R, men ikke D3 eller Illustrator, synes ikke, at design overhovedet er værd i deres proces. Jeg formoder, at dette ikke kun afspejler en mangel på prioritering af design blandt R-brugere, men også en endelig forskel. Jeg vil ikke blive overrasket over at finde mange R-brugere kun tænker på design som grafisk design.

Forskellen bliver endnu mere klar, hvis vi opdeler designkategorien i dem, der bruger en minimal tid på design (1 time eller mindre pr. Dag) med dem, der bruger mere.

Så selvom der er eksempler på smukt designede diagrammer, der er oprettet rent med R, understøtter undersøgelsessvarerne stereotype af R-diagrammer som kun dem med den lysegrå baggrund og standardfarveskema og ringe eller ingen etiketter og annotering. Det understøtter også et grundlæggende aspekt af Tufte's kritik, og hvorfor vi skal være mere åbne for kritik, selv når det kommer i en mindre end perfekt pakke.

Men der er noget andet ved undersøgelsen: Flertallet af de adspurgte sagde, at de ville være bedre til at designe med datavisualisering. Og for dem, der bruger R, var dette ønske om at understrege udjævning af design i forhold til data mere fremtrædende, ikke mindre. Det kan være denne erkendelse, at samfundet havde brug for at arbejde på sine designfærdigheder, der gjorde det så følsomt over for Tufte's kritik.

Design er skræmmende, især i datavisualisering, hvor der ikke er gjort meget for at oversætte det til maksimalt ud over et par ting om farve, mærkning og valg af kort. Der synes også at være en bias blandt statistikere og dataforskere mod "smukke" diagrammer som noget, der på en eller anden måde bliver retorisk kompromitteret. Det ser ud til, og jeg har på ingen måde gjort en udtømmende undersøgelse for at støtte dette, at der er en fornemmelse blandt forskere, at standardindstillingerne bare viser dig dataene, og at noget mere arbejde ud over det er at pynte dataene uærligt.

Jeg formoder mere end at det er et spørgsmål om tid. Du kan lære en ny dimensionel reduktionsteknik, som har konkrete trin og målelige måder, som det hjælper med din praksis, eller du kan læse om informationsdesign og komme væk med flere spørgsmål end svar. Det er svært at evaluere og svært at belønne for et godt design inden for et felt, der ikke værdsætter det, og det er derfor svært at bede fagfolk om at investere i det.

Men der er værdi i datavisualiseringsdesign, som det fremgår af svaret på Tufte's kritik og de beviser, der blev fremlagt for ham af diagrammer lavet med R, der var godt designet. Veludformede diagrammer vinder ikke bare Twitter-argumenter, de kommunikerer mere effektivt i alle situationer, og vi bør alle stræbe efter at blive bedre til datavisualisering, hvad enten vi bruger R eller ej.