Klik hier om naar de overige artikelen te gaan
Klik hier om naar de samenvatting te gaan
Klik hier om naar het hoofdmenu te gaan

Struktuur en genese, 2004, vol.17, p.26-54

Statistiek en de statistieken
dr. Ewald Vervaet

Inhoudsopgave

A. De zes betekenissen van de term 'statistiek'
A.I. Beschrijvende statistiek: turven en tellen
A.II. Kansrekening, van spel naar wetenschap
A.III. Verzekeren 'op vaste Mathematique gronden'
A.IV. Meetfouttheorie
A.V. Informatie halen uit gegevens
A.VI. Stochastische natuurkunde

B. Statistiek en wetenschap
B.I. Getallen en kennis
B.II. Kansrekening en verklaren
B.III. Verzekeringswiskunde als wetenschap
B.IV. Kennisverwerving en meetfouten
B.V. Statistische methode en inductie
B.VI. Stochastische verklaringen

C. Samenvatting en hoofdconclusie

Noten

Op 24 april 1991 houd ik voor de Skepsiswerkgroep van Amsterdam de voordracht Feit versus artefact. Daarin onderscheid ik zes verschillende betekenissen aan de term 'statistiek'. Het zijn dezelfde 6 betekenissen als hieronder in deel A. De concrete aanleiding om dit artikel 14 jaar later te schrijven zijn de woorden 'Met zijn baanbrekend werk legde Durkheim de grondslag voor een heel bouwwerk van statistische methoden voor het analyseren van causale netwerken' van Glas in Methodologische overpeinzingen bij psychologisch onderzoek (syllabus bij het débat 'Sociale wetenschap kan beter, veel beter!', Studium Generale Universiteit Twente, 5 april 2005.[1] Glas doelt op Durkheims onderzoek naar het 'verband tussen al dan niet gehuwd zijn en zelfmoord' in diens boek Le suïcide (1897). Op de vraag in welke zin Durkheims zelfmoordonderzoek statistisch is, komen we in B.I en aan het slot van B.V terug.
Dit artikel bestaat uit 3 delen. Deel A is historisch van aard en is zowel inhoudelijk als begripsmatig verkennend en dus vermoedelijk ook zeer voor rechtzettingen vatbaar, al was het maar omdat ik vaak geen primaire bronnen heb geraadpleegd.
[2] Het doel is echter de statistiek in de 6 betekenissen van deel A op hun wetenschappelijke basis door te lichten. Dat gebeurt in deel B. Deel C vat het betoog samen.

A. De zes betekenissen van de term 'statistiek'
In dit deel schetsen we de 6 betekenissen van de term 'statistiek' of, juister, de 6 conteksten waarin die term gebruikt wordt: beschrijvende statistiek (A.I), waarschijnlijkheids- of kansrekening (A.II), verzekeringswiskunde (A.III), meetfouttheorie (A.IV), inductieve of inferentiële statistiek (A.V) en stochastische natuurkunde (A.VI). De volgorde I-VI is die waarin de onderwerpen die met de verschillende betekenissen samenhangen, in de geschiedenis ten tonele zijn verschenen.

A.I. Beschrijvende statistiek: turven en tellen
Als men telt hoeveel slagers er in dorp D zijn, hoeveel kippen in streek S, hoeveel molens in land L, hoeveel mannen in vereniging V en hoeveel lijders aan ziekte Z in ziekehuis X, bedrijft men beschrijvende statistiek.
De tel- en turfstatistiek heeft een lange geschiedenis en heet pas enkele eeuwen statistiek. Vaak leest men dat het woord 'statistiek' teruggaat op de Duitser Achenwall (1719-1772).
[3] In 1672 verschijnt echter al een satirisch boek van Politanus met de titel Microscopium statisticum, terwijl Oldenburger in zijn boek Itinerarium Germaniae politicum (1675) 'rationes statisticae' opstelt.[4] Achenwall zelf gebruikt het woord in een publikatie voor het eerst in 1749. In het voorwoord bij zijn boek Abriss der Staatswissenschaft der europäischen Reiche schrijft hij namelijk onder meer dat hij dat boek als een 'Leitfaden seiner statistischen Stunden' aanmerkt.[5]
Het woord 'statistiek' lijkt gemunt te zijn door de Italiaan Paruta (1540-1598). Deze heeft volgens Ghilini (1589-1668) een onuitgegeven werk geschreven met de titel Ristretto della civile, politica, statistica e militare scienza. Aldus de taalkundige Migliorini. Paruta zou dus over 'statistica scienza' (wetenschap over de staat) hebben geschreven. Ghilini zelf gebruikt de term 'statistico' (statistisch) onder meer in de zin 'Paruta liet zich kennen door een uitzonderlijke voorzichtigheid in de staatszaken van de Republiek Venetië'. Elders omschrijft Ghilini 'statistica' (statistiek) als: 'Beschrijving van de kwaliteiten die een staat karakteriseren, en van de bestanddelen die hem samenstellen'.[6]
Al met al vermoed ik dat het bijvoeglijke naamwoord 'statistisch' in het Italiaans als 'statistico' is ontstaan in de algemene betekenis 'betreffende de staat', in het Duits tot het zelfstandige naamwoord 'Statistik' is geworden met min of meer de betekenis 'kwalitatieve en kwantitatieve informatie over de staat' en van daaruit in die betekenis in de overige Europese talen is doorgedrongen: 'statistics' in het Engels, 'statistique' in het Frans, 'statistiek' in het Nederlands, enzovoort.[7]
Hoe dit ook zij, al ver vóór 1540, Paruta's geboortejaar, verzamelt men kwantitatieve en kwalitatieve gegevens over de samenleving, om te weten hoeveel onderdanen wapens kunnen dragen, in verband met de verdeling van landbouwgronden, met het oog op het innen van belastingen, enzovoort. Zo kan men uit het Boek der jaarboeken (Sjoe k'ing), dat aan Confucius (551-479 v.C.) wordt toegeschreven, opmaken dat men in China al rond 2300 v.C. landmetingen en volkstellingen houdt en vermeldt het Oude Testament dat de Israëlieten onder Mozes en onder David volkstellingen houden.[8]
In Europa lijkt het eerste verzamelen van gegevens in Griekenland te beginnen. Zo verhaalt Xenofons Memorabilia dat Sokrates ene Glaukos, die naar een baan bij het stadsbestuur dingt, over de inkomsten en uitgaven van Athene, het leger en dergelijke ondervraagt.[9] Een oudere bron, die ik nergens ben tegengekomen, lijkt me Homerus' Ilias te zijn. Immers, het tweede boek somt op wie hoeveel schepen naar Troje zendt: de Boiotiërs 50 schepen met 120 mannen elk (B 509v); de Minyeien 30 schepen (B 516); enzovoort. Het totaal beloopt 28 contingenten met 1186 schepen en tussen de 100.000 en 140.000 manschappen. Behalve cijfermatig materiaal geeft Homerus ook namen van aanvoerders en andere kwalitatieve feiten.
Tot ongeveer het begin van onze jaartelling zijn het vooral particulieren die melding maken van de gegevens die we nu als statistisch zouden aanmerken: Homerus, Herodotos, Thukydides, Xenofon, Aristoteles, Plinius, Cicero en Sullustius. Met het Breviarium imperii van keizer Augustus (27 v.C.-14 n.C.; geboren in 63 v.C.) verandert dit. Daarin doet de ambtenarij, de overheid zelf dus, voor het eerst verslag van de beschrijvingen van en tellingen over land- en zeemacht, over de staatskas, enzovoort. Met het Breviarium komen we dus een kwalitatieve stap dichter bij de hedendaagse beschrijvende statistiek.
[10]
Ook in de Middeleeuwen organiseert de overheid niet alleen het verzamelen van gegevens over het rijk, maar maakt zij ook zelf de uitkomsten openbaar. Het bij verre belangrijkste voorbeeld is het Doomesday-book, het door Willem I in 1083-1086 aangelegde rijkskadaster van Engeland. Zijn verovering van Engeland in 1066 vanuit Normandië gaat immers gepaard met confiscatie van vele eigendommen, verwoestingen van hele graafschappen, vlucht naar het buitenland van Angelsaksische landeigenaren, waar weer grote onzekerheid over erfopvolging uit ontstaat, enzovoort. Daarom wil Willem I in de eerste plaats zijn eigen inkomsten uit belastingen, pachten en dergelijke veilig stellen. In de tweede plaats wil hij het algemene gevoel van rechtszekerheid herstellen. Het Doomesday-book bevat een schat aan informatie waarmee historici nog steeds hun voordeel doen. Aan de kwalitatieve kant zien we bijvoorbeeld de namen van 34 graafschappen en van alle distrikten en heerlijkheden daarbinnen en aan de kwantitatieve kant onder meer de inkomsten van de koning, de bevolkingsaantallen naar standen en van sommige graafschappen zelfs naar leeftijdklassen, de topografie van het grootste deel van Engeland, bezit aan houtkap, weiden en akkers, aantallen molens, visvijvers, enzovoort.[11]
In de komende eeuwen vindt het initiatief van Willem I veel navolging, onder meer in Denemarken (1231), weer in Engeland zelf (1272-1307) en bij keizer Frederik II (1212-1250; geboren in 1194) op Sicilië.[12]
Het Concilie van Trente (1545-1563) bepaalt dat pastoors de dopen, huwelijken en begrafenissen van hun parochies moeten registreren. Uit vergelijkbare registers van de Anglikaanse Kerk put de Engelsman Graunt (1620-1674) voor zijn boek van 1662. Het bevat vele demografische gegevens over de stad Londen en omliggende dorpen voor de periode 1629-1660: aantal dopelingen, aantal overledenen per ziekte en aandoening, enzovoort. Er staan twee nieuwigheden in, die voor de rest van dit artikel van belang zijn. Ten eerste, hoofdstuk 8 meldt dat er in de hele periode in het hele beschreven gebied 139.782 jongens en 130.866 meisjes zijn gedoopt; dus in een verhouding van 1,068. Graunt voegt eraan toe dat 'de boeken van het platteland in deze kwestie volkomen overeenstemmen met die van Londen'. Hij geeft hier per jaar informatie over: in elk van de 32 jaren zijn er meer jongens gedoopt dan meisjes. Voor 1629 zijn de cijfers 5.218 en 4.683, voor 1630 4.858 en 4.457, voor 1631 4.422 en 4.102, enzovoort. In 1640 zijn de meeste kinderen gedoopt (5.518 en 5.332) en in 1650 de minste (2.890 en 2.722). Steeds echter overtreft het aantal jongens het aantal meisjes. De tweede nieuwigheid is de eerste sterftetafel in de geschiedenis. Graunt neemt aan dat van 100 borelingen er binnen 6 jaar 36 zullen sterven; tussen 6 en 16 jaar 24; tussen 16 en 26 15; tussen 26 en 36 jaar 9; tussen 36 en 46 jaar 6; tussen 46 en 56 jaar 4; tussen 56 en 66 jaar 3; tussen 66 en 76 jaar 2 en tussen 76 en 86 jaar 1. Het aantal overlevenden stelt hij op dus 64 (met 6 jaar), 40 (met 16), 25 (met 26), 16 (met 36), 10 (met 46), 6 (met 56), 3 (met 66), 1 (met 76) en 0 (met 80 en dus ook met 86).[13]
In 1792 wordt in Frankrijk per decreet de moderne burgerlijke stand ingevoerd. In ons land gebeurt dat in 1796 in Zeeuws-Vlaanderen en Limburg na hun inlijving bij Frankrijk in 1795. Vlissingen volgt in 1808, na de inlijving van deze vestigingstad in 1807, en de rest van Nederland in 1811. Van dit soort gegevens, van gegevens over keuringen van dienstplichtigen en van gegevens van rechtbanken maakt de Belg Quetelet (1796-1874) gebruik bij het bepalen van gemiddeldes, zoals van de borstomvang van dienstplichtigen. Bij hem wordt 'statistiek' van 'wetenschap over de staat' tot 'wetenschap over kwantitatieve gegevens over mensen'.
Geïnspireerd door Quetelet ontwikkelt de Engelse Nightingale (1820-1910), bekend als de ‘vrouw met de lamp’ in verband met haar verzorging van gewonden tijdens de Krimoorlog (1853-1856), zich tot de ‘gepassioneerde statistica’ vanwege haar grote belangstelling in en geweldige inzet voor de medische statistiek. Ze is immers de uitvindster van grafische voorstellingswijzen van statistische gegevens, in allerlei diagrammen (polaire, lijnvormige) en voor allerlei doeleinden (vergelijken tussen de 12 maanden van het jaar, tussen soldaten en niet-soldaten, enzovoort).
[14]
Om voornoemd en vergelijkbaar cijfermatig materiaal op een onafhankelijke en deskundige wijze te verzamelen, te verwerken en bekend te maken wordt in Nederland in 1899 het nog steeds bestaande Centraal Bureau voor de Statistiek (CBS) opgericht. België heeft zo zijn Nationaal Instituut voor de Statistiek, Luxemburg zijn I nstitut national de statistique du Luxembourg , Duitsland zijn Statistisches Bundesamt, enzovoort.
Uiteraard zijn statistische gegevens met het opkomen van de nationale staten, met het ingewikkelder worden van de samenleving en met de verwetenschappelijking en technocratisering van het openbare leven steeds talrijker geworden. Zo beschrijft het CBS tientallen onderwerpen: van beroepsvisserij tot dierlijke mest, van woon-werk-verkeer tot woningbouw, van veiligheid en criminaliteit tot vrije tijd. Het doel is echter de afgelopen eeuwen hetzelfde gebleven: de bestuurders van goede en betrouwbare informatie voorzien. Daarbij is het cijfermatige aspect in de loop van de tijd steeds belangrijker geworden. Zelfs zo belangrijk dat de naar mijn mening meeste mensen bij het woord 'statistiek' tegenwoordig eerst en vooral aan cijfermatigheid denken. Ondertussen is het woord dat voor dit alles is ontstaan, 'statistiek' (zie eerder in deze paragraaf), zozeer ingeburgerd dat het in 2005 veel meer betekent dan alleen het verzamelen, verwerken en bekendmaken van gegevens betreffende het openbare leven. Over die andere betekenissen gaan de paragrafen A.II-VI.

A.II. Kansrekening, van spel naar wetenschap
Als iemand uitrekent hoe groot de kans is om met 2 eerlijke (of kansgeneratorachtige) dobbelstenen 6 te gooien, bij hoeveel mensen men 50% zekerheid heeft dat ten minste 2 van hen op dezelfde dag jarig zijn, of hoe groot de kans is dat bij een referendum 'vóór' zal winnen als in een aselecte steekproef van 400 kiesgerechtigden er 215 zeggen vóór te zullen stemmen en 185 tegen, bedrijft hij waarschijnlijkheids- of, kortweg en voortaan, kansrekening.
De antwoorden op de 2 eerste vragen, 5/36 respectievelijk 23, hangen met het toeval samen en berusten onder meer op het verschil tussen een mogelijkheid en een kans en op het begrip 'gelijke mogelijkheid'. Immers, als men uit het feit dat er 3 mogelijkheden zijn om met 2 dobbelstenen 6 te gooien, {1,5}, {2,4} en {3,3}, terwijl er in totaal 21 mogelijke tweetallen zijn, zou concluderen dat de kans 1/7 is, dan zou men na enig spelen snel merken dat dat niet klopt.Volgens dezelfde redenering zou de kans om 2 te gooien 1/21 zijn (vanwege {1,1}), zodat men 3 keer zo vaak 6 zou gooien dan 2 (1/7 = 3 x 1/21). Nog minder kan men uit het feit dat er 11 verschillende totalen zijn, lopend van 2 (bij {1,1}) tot en met 12 (bij {6,6}), concluderen dat de kans op 2 even groot is als die op 6. Een kans is dan ook het aantal gunstige gevallen gedeeld door het aantal mogelijke gevallen met gelijke mogelijkheid. En aangezien er in totaal 36 even mogelijke tweetallen zijn en daarbinnen de uitkomst 6 5 keer voorkomt ({1,5}, {2,4}, {3,3}, {4,2} en {5,1}) is de kans 5/36 .
Onder meer omdat men lange tijd niet onderscheidde naar 'mogelijkheid' en 'kans'
[15], is de kansrekening vrij laat ontstaan. Zo werd wat wij nu zakelijk aan het toeval toeschrijven, lange tijd aan goden en godinnen toegeschreven. De Oude Romeinen bijvoorbeeld geloven dat de in hun ogen meest gunstige worp met 4 bikkels door de godin Venus wordt geschonken. Een bikkel is het sprongbeentje in de enkel van een schaap en kan op 4 zijden (in plaats van 6 als bij een dobbelsteen) vallen. In een Venusworp ligt elk vlak 1 keer boven. Daar de kansen ongeveer 1÷1÷4÷4 zijn, zijn er echter enkele meer unieke mogelijkheden dan een Venusworp. De dichter Martialis (±40-103/104) laat er de godin Venus over zeggen: 'Als geen van de bikkels die je gooit, dezelfde kant toont, zul je zeggen dat ik je een groot geschenk heb gegeven'. De wijsgeer Cicero (106-43 v.C.) gelooft niet dat Venus achter zo'n worp zit, maar zet ook geen vraagteken bij het bijzondere ervan: 'Wat is zo onzeker als de worp met dobbelstenen? Toch is er niemand die vaak bikkelt, die niet soms een Venusworp gooit, soms zelfs nog eens en een derde keer. Daarom zijn we toch niet zo dwaas om te zeggen dat dat door een stoot van Venus gebeurt en niet door het toeval?'.[16]
De eerste schriftelijke verwijzing in het Westen naar een zuiver wiskundig in plaats van deels religieus geïnspireerd toevalsbegrip dat ook is gebaseerd op het onderscheid naar mogelijkheid en kans, vinden we in het gedicht Over het oude wijf dat wellicht tussen 1220 en 1250 is geschreven. Voor het gooien met 3 dobbelstenen telt het 216 mogelijkheden: in 6 worpen zijn de 3 getallen gelijk; in 30 worpen zijn er 2 dobbelstenen gelijk en elk daarvan komt 3 keer voor (zoals 366, 636 en 663); in 20 zijn ze alle 3 verschillend en die komen elk 6 keer voor (zoals 125, 152, 215, 251, 512 en 521); samen: 6x1 + 30x3 + 20x6 = 216.[17]
Waarschijnlijk zonder Over het oude wijf te kennen vindt de Italiaan Galilei (1564-1642) in zijn verhandeling Over de ontdekkingen aan de dobbelstenen eveneens 216 mogelijkheden. De uitkomst 3 kan maar op één manier gehaald worden, namelijk met {1,1,1}. Die van 4 ook, met {1,1,2}, maar die komt 3 maal voor: 112, 121 en 211. Enzovoort. Zo komt hij voor de uitkomsten 3-10 op 1+3+6+10+15+21+25+27 = 108. De komsten 11-18 zijn symmetrisch aan die van 10-3 zodat het totale aantal mogelijkheden 2x108 = 216 is. Weliswaar geeft de Italiaan Cardano (1501-1576) in zijn verhandeling Over het kansspel van 1525 al een adekwate oplossing voor het eenvoudigere probleem van de hoeveelheid verschillende worpen met 2 dobbelstenen, maar die verschijnt pas in 1663, dus na Galilei's dood.[18]
Na 1650, dus al vóór 1663, het verschijningsjaar van Cardano's verhandeling, groeit de wetenschappelijke belangstelling voor kansspelen en voor het kansbegrip fors. In 1654 hebben de Fransen Pascal (1623-1662) en Fermat (1601-1665) hun beroemde briefwisseling over een aantal kansvraagstukken. Hiervan verneemt de Nederlander Huygens (1629-1695) tijdens zijn verblijf in 1655 in Parijs. Hij zoekt één en ander zelf uit omdat Pascal en Fermat hun vondsten geheim houden. Huygens' onderzoek resulteert in zijn verhandeling Rekeningh in spelen van geluck van 1657, dus vóór de gedeeltelijke (vanwege het verloren gaan van enkele brieven) publikatie van Pascals en Fermats brieven in 1679. Daarmee is Huygens de eerste schrijver van een algemene wetenschappelijke publicatie waarin kansen met formele beginselen worden bepaald in plaats van door concreet alle mogelijkheden langs te lopen zoals in Over het oude wijf, bij Cardano en bij Galilei.[19]
Zoals we in A.I hebben gezien is één van Graunts vondsten dat het lijkt dat er systematisch meer jongens worden geboren, althans gedoopt, dan meisjes: 139.782 tegen 130.866. Over de hele linie vinden Graunt en velen na hem dat er meer jongens dan meisjes worden geboren zodat men zich afvraagt of hier sprake is van een systematisch en allerminst toevallig overschot.
De eerste die deze koe bij de horens vat, is de Zwitser Jakob Bernoulli (1654-1704), en wel voor het algemene geval dat er twee uitkomstmogelijkheden zijn. Er zitten witte (r) en zwarte steentjes (s) in een urn, maar men weet niet in welke verhouding. Stel dat het om 3.000 witte en 2.000 zwarte steentjes gaat, dan kan een waarnemer, die de verhouding 1,5 niet kent, er met elke door hem gewenste graad van zekerheid achter komen dat de verhouding 1,5 is. Dat wil zeggen, als hij er, met terugwerping, 300 witte en 200 zwarte uit trekt, dan kan hij elke graad van zekerheid krijgen dat de verhouding tussen 299/200 en 301/200 ligt door nog een bepaald aantal trekkingen te doen. Na 3.000 witte en 2.000 zwarte kunnen deze grenzen 2999/2000 en 3001/2000 worden, enzovoort. Algemeen gesteld en met (r+s) in plaats van s in de noemer: 'Men neme aan dat het aantal gunstige gevallen [...] zich tot het totale aantal gevallen precies of benaderingsgewijze verhoudt als r/(r+s), wat tussen de grenzen (r-1)/(r+s) en (r+1)/(r+s) ligt. Dan kunnen [...] zoveel waarnemingen gedaan worden, dat het willekeurig vaak [...] waarschijnlijker wordt dat de verhouding van de gunstige tot alle waarnemingen binnen deze grenzen ligt, dan erbuiten'. Dit is de stelling van Bernoulli, door de Fransman Poisson (1781-1840) in 1836 omgedoopt tot de wet der grote getallen, wat geheel in Bernoulli's lijn is want hij stelt dat 'een groot aantal waarnemingen vereist is'. Bernoulli bewijst zijn stelling door eerst (r+s)^[n(r+s)] te ontwikkelen tot r^[n(r+s)] + {n(r+s) ~ 1}r^[n(r+s)-1].s + {n(r+s) ~ 2}r^[n(r+s)-2].s^2 + … + {n(r+s) ~ ns}r^nr.s^ns + … + {n(r+s) ~ 2}r2^.s^[n(r+s)-2] + {n(r+s) ~ 1}r.s^[n(r+s)-1] + s^n(r+s), met r, s en n gehele getallen; {a ~ b} = a!/(a-b)!b! ; (a+b)^m = Som over i, met i van 0 tot m {m ~ i}a^(m-i).b^i. Dan laat hij achtereenvolgens zien: van alle termen heeft {n(r+s) ~ ns}r^nr.s^ns de hoogste waarde; de overige termen worden steeds kleiner naarmate ze verder links of rechts van dit maximum staan; als Ln de term is op plaats n vóór het maximum, is er voor elk getal p altijd een n zodat de verhouding tussen het maximum en Ln groter is dan p en als Rn de term is op plaats n na het maximum, is er voor elk getal p altijd een n zodat de verhouding tussen het maximum en Rn groter is dan p; sterker nog: voor elk getal p is er altijd een n zodat de verhouding tussen de som van de termen Ln tot en met Rn en de som van alle overige termen (dus links van Ln en rechts van Rn) groter is dan p. Tot slot bewijst hij zijn stelling en geeft hij enkele voorbeelden. Met r=30 en s=20 is de kans 1.000 tegen 1 dat de verhouding witte tot zwarte steentjes tussen 29/50 en 31/50 ligt na het trekken van 25.550 steentjes en 10.000 tegen 1 na 31.258 steentjes.
[20]
Wat Bernoulli hier doet, is slechts een begin zoals we uitvoerig in A.IV zullen zien. Door zijn werk en dat van onder meer de Fransman De Moivre (1667-1754), de Engelsman Bayes (1702-1761) en de Fransman De Buffon (1707-1788) groeit de kansrekening in de breedte en in de diepte: het probleem van de spelduur, de benadering van de ontwikkeling van (a+b)^n als n naar oneindig gaat (De Moivre; 1733 en 1738), de kansbepalingen over het vallen van een naald met lengte L op een oneindig vlak met oneindig veel evenwijdige lijnen met afstand A en andere meetkundige waarschijnlijkheden (De Buffon; 1733-1734), de omgekeerde kansrekening als in de vraag 'Hoe groot is de kans dat deze witte knikker uit vat A (20 witte en 30 zwarte knikkers) komt en niet uit vat B (10 witte en 40 zwarte knikkers)?', enzovoort.[21]
Al met al kan de Fransman Laplace (1749-1827) in 1812 de eerste houdbare definitie van het kansbegrip in de geschiedenis geven: 'de maat van de kans [...] is een breuk waarvan de teller het aantal gunstige gevallen is en de noemer dat van alle mogelijke gevallen' - als die althans gelijke mogelijkheden hebben. Dit is het klassieke kansbegrip dat nog steeds wordt gebruikt in het onderricht van het kansbegrip en dat de basis is voor de verdere ontwikkelingen sedert 1812.[22]
Waarom staat deze korte schets over de fylogenese van het klassieke kansbegrip in dit artikel over statistiek? Immers, strikt genomen is een zegswijze als 'De statistische kans om met 2 dobbelstenen 6 te gooien is 5/36' onjuist, al wordt ze wel gedaan. Ze zou moeten luiden 'Volgens de kansrekening is de kans om met 2 dobbelstenen 6 te gooien 5/36'. Toch heeft er onmiskenbaar een betekenisuitbreiding van 'statistiek' naar het begrip 'kansrekening' plaatsgevonden. Hier volgen 8 voorbeelden.
a. De Engelsman Merz schrijft over de bijdragen van Clausius en Maxwell aan de kinetische gastheorie: 'introducing the more refined statistical methods of the theory of probability'. b. De Engelsman Kendall: 'It might have been supposed that during the several thousand years of dice playing preceding, say, the year A.D. 1400, some idea of the permanence of statistical ratios [...] would have appeared'. Bij 3 dobbelstenen noemt hij de verhouding 1÷27 voor de uitkomsten 3 en 10 dus 'statistisch'. c. De Engelse David noemt Graunt: 'the vital statistician (the empirical probabilist) of 1660-1670'. d. De Rus Sheynin geeft zijn artikel over de kansrekening en stochastiek in de natuurkunde de titel 'On the history of the statistical method in physics', schrijft daarin dat 'noch Maxwell noch Boltzmann de statistische methode systematisch hebben toegepast' en noemt Laplace de 'eerste die de statistische methode in de natuurkunde heeft toegepast'. e. De Nederlander Van der Vlis noemt Mendels onderzoeksmateriaal om zijn erfelijkheidswetten mee na te trekken 'statistische gegevens' en stelt dat Mendel een 'bijdrage aan de statistiek leverde', dat 'zijn ontdekking uit statistisch oogpunt bezien wat buiten de belangstelling van zijn tijd lag' en dat 'zijn ontdekking nu juist lag in de toevoeging van de kansrekening, in dit geval het toeval van het ontstaan van combinaties'. f. In de Skepsiswerkgroep waar ik de zesdeling van de term 'statistiek' introduceer (zie de opening), duidt een statistica mijn bezwaren tegen de inductieve statistiek (zie B.V) als een niet bereikt hebben van de formeel-operationele fase in de genese van het kansbegrip. g. Van Dale geeft bij betekenis 2 van het lemma 'kansrekening': '(stat) het berekenen van kansen behoorden bij de mogelijke resultaten van toevalsexperimenten'. De kansrekening geldt hier kennelijk als een onderdeel van de statistiek ('stat'), wat merkwaardig is want de betekenissen van 'statistiek' zijn: '1 (g.mv.) leer en methode om door middel van cijfers inzicht te krijgen in massale verschijnselen, m.n. van maatschappelijke, economische en natuurwetenschappelijke aard en van het weergeven van de resultaten in tabellen of grafische voorstellingen' en '2 (-en) uitkomst van een onderzoek als bij 1, stuk waarin feiten of gegevens van statistische aard zijn vervat'. h . De catalogus bij de tentoonstelling 'Christiaan Huygens. Facetten van een genie' (UB Leiden, 8 april - 31 mei 2004) heeft een hoofdstuk 'Grondslagen van statistiek (1656)' en schrijft daarin: 'Ofschoon hij een kans nauw koppelt aan een geldbedrag dat verloren of gewonnen kan worden, of dat ingezet moet worden, geeft Huygens hier voor het eerst een analytische formulering van de grondslagen der waarschijnlijkheidsrekening of statistiek'.
[23]

A.III. Verzekeren 'op vaste Mathematique gronden'
Als Lodewijck Huygens (1631-1699) op 22 augustus 1669 aan zijn broer Christiaan schrijft: 'Volgens mijne berekening zult gij ongeveer 56 en een half jaar oud worden, en ik 55' en deze hem op 21 november 1669 verbetert met de zin 'Ik zie bijvoorbeeld dat gij [...] nog ongeveer 19 jaren en 4 maanden leven kunt' (hij zou 50% kans hebben om bijna 58 te worden – Lodewijck is van 31 maart 1631), bedrijven ze actuariële of verzekeringswiskunde.[24]
Omdat het leven vol onzekerheden zit, probeert men zich bij ziekte, ramp of tegenspoed te beschermen. De oudste vorm ligt in het geven van hulp aan direct bekenden zoals bloedverwanten, buren en stamgenoten. De geboden hulp nu werkt immers als verzekering voor de toekomst. Dat hoopt men althans.
Zodra de leden van een groeiend collectief elkaar niet meer direct of via een gemeenschappelijke bekende kennen en/of handel gaan drijven, zijn nieuwe wegen nodig om zich te verzekeren. De Babyloniërs bijvoorbeeld, die elders hout en metaal halen, maken van de te vervoeren handelsgoederen een inventaris in tweevoud op te bakken kleitabletten: één voor de verkoper en één voor de handelaar. Bij behouden aankomst zal de handelaar de helft van de winst aan de verkoper geven; bij diefstal is hij van die plicht ontslagen. De Romeinen kennen al lijfrenten. En vanaf de elfde eeuw worden de gilden van ontspanningsgezelschappen tot beroepsgroepen die via hulpkassen ook bijstand geven aan weduwen en wezen van gestorven leden. In de dertiende eeuw komt de lijfrente weer op – de oudste lijfrentebrieven worden uitgegeven door Doornik, in 1228.
Zolang wetenschappers met het grillige lot geen raad weten, is verzekeren een kwestie van schatten en gokken. Een voorbeeld daarvan is het advies van de Nederlander De Witt (1625-1672; vanaf 1653 raadpensionaris van Holland) aan zijn tante Maria. Op 10 november 1656 vraagt ze hem waar ze als 53-jarige het beste aan doet: zich jaarlijks 800 gulden laten uitkeren of 6.000 gulden ineens ontvangen. Vóór het laatste zou pleiten dat haar ouders niet veel ouder dan 53 zijn geworden: als zij hen volgt, zou de dood voor de deur staan en 6.000 gulden het beste zijn. Echter, als ze haar beide grootmoeders volgt, zou ze nog minstens 25 jaar te leven hebben en zouden 6.000 gulden en de interest daarvan veel minder zijn dan 25 of meer keren 800 gulden te beuren. De Witt raadt zijn tante aan de 6.000 ineens te nemen. Ten eerste schat hij haar sterftekans de helft groter dan die van een jong en gezond mens. En ten tweede berekent hij dat 800 per jaar hetzelfde bedrag zou opleveren als de jaarlijkse opbrengst van 6.000 gulden tegen 13,33% rente, wat voor een jong mens zou neerkomen op een rente van 6,66%. En die rente is te laag ten opzichte van het lijfrentepercentage van dat moment, dat 9,09% of ten laagste 8,33% bedraagt.
[25]
De kansrekening in wetenschappelijke zin komt pas kort na 1650 van de grond; zie A.II. Het is dan ook geen wonder dat het verzekeringswezen zijn eerste wetenschappelijke stap pas na de eerste wetenschappelijke verhandeling over de kansrekening zet, dus na Huygens' Rekeningh in spelen van geluck van 1657. Daartoe moet het verzekeren echter eerst met sterftetafels verbonden worden. De eerste die dat doet, is Lodewijck Huygens. Op 22 augustus 1669, dus 12 jaar na Rekeningh, schrijft hij vanuit Den Haag aan zijn broer in Parijs dat hij een tafel heeft gemaakt, afgeleid uit 'the Bils [sic recte] of Mortality', dus uit Graunts boek van 1622; zie A.I. Lodewijck gaat er zelf mee aan de slag. Hij meent: 'De uitkomsten [...] kunnen zelfs nuttig zijn bij het berekenen van lijfrenten'. Volgens zijn berekeningen zal zijn broer 56,5 jaar oud worden en hij zelf 55.[26]
Christiaan Huygens is de eerste die het verzekeren met de kansrekening verbindt. In zijn antwoord aan Lodewijck van 28 augustus 1669 schrijft hij namelijk: 'Hetgeen ik als zeker uit de gegevens van de tafel kan afleiden is dit, dat hij die zou wedden dat een pas geboren kind [...] den 16 jarigen leeftijd zal bereiken, een onvoordeelige zaak doet, want hij heeft 4 slechte kansen tegen 3 goede'. Over Lodewijcks voorspelde 56,5 en 55 jaar laat hij zich dan niet uit.[27]
Lodewijck zet in een brief van 30 oktober 1669 zijn berekeningen uiteen. Op 21 en 28 november 1669 laat Christiaan zien dat ze niet kloppen; zie de eerste alinea van A.III. Lodewijck maakt namelijk geen onderscheid tussen levensverwachting (of gemiddelde levensduur) en levenskans; Christiaan: 'Maar ofschoon de verwachting van een jonggeborene 18 jaren en 2½ maand waard is, zoo is daarmede niet gezegd, dat het waarschijnlijk is dat hij of zij zoolang zal leven, want het is veel waarschijnlijker dat zulk een kind vóór dien tijd zal sterven'. Volgens zijn berekeningen is de levensverwachting van een pasgeborene in die dagen namelijk 11 jaar.[28]
In 1669 verbindt Christiaan Huygens dus als eerste in de geschiedenis statistische gegevens van A.I, namelijk die van Graunt, en de kansrekening van A.II met elkaar. Die verbinding is nog steeds de basis van de verzekeringsleer. De eerste verhandeling in die lijn verschijnt 2 jaar later. Het is van de hand van De Witt, die zijn tante in 1656 een onfortuinlijk advies geeft want ze leeft nog 15 jaar, tot 1671. Wellicht zet dit De Witt aan het denken. Behalve rechten heeft hij immers ook wiskunde gestudeerd, terwijl in 1661 een verhandeling over kromme lijnen van hem uit 1658 verschijnt: Beginselen van de leer der kromme lynen. Hoe dit ook zij, omdat Engeland, Frankrijk, Münster en Keulen in 1670 de Republiek de oorlog verklaren, moet deze zich wapenen en anderszins voorbereiden. Om aan geld te komen schrijft De Witt onder meer Waerdije van lijfrenten naar proportie van los-renten van 1671. Dat is de eerste verhandeling in de geschiedenis over een verzekeringskwestie die geheel op wetenschappelijke basis steunt. De Witt doet er een goede poging in om een lijfrentekoopsom exact te berekenen, in het licht zowel van sterftegegevens als van de actuele rentevoet.[29]
De Witt laat zich duidelijk door Huygens' Rekeningh inspireren: Huygens' 'fondament' in de inleiding en de twee eerste 'voorstellen' keren vrijwel letterlijk terug in Waerdije. Er zijn alleen enkele terminologische verschillen. Waar Huygens van 'kanssen' spreekt, speekt De Witt van 'expectativen' of 'kanssen'. En waar Huygens ons begrip 'toeval' met 'geval' aanduidt, doet De Witt dat met 'apparentie' of 'hazardt'. Daardoorheen introduceert De Witt zijn sterftekansen. Voor de eerste 3 levensjaren en voor 81 jaar en ouder neemt hij daar niets over aan. Voor 3 of 4 tot 53 of 54 jaar houdt hij de sterftekans gelijk en stelt hij die impliciet op 1. Daarna volgen relatieve sterktekansen. Voor 53 tot 63 jaar neemt hij 3 op 2 aan; voor 63 tot 73 jaar 2 op 1; voor 73 tot 80 jaar 3 op 1. Hoe hij aan deze kansen komt, is onduidelijk maar waarschijnlijk heeft hij ze van Hudde (1628-1704) die net als hijzelf in Leiden rechten en wiskunde heeft gestudeerd, en vanaf 1663 voor de stad Amsterdam werkt. Op 22 mei 1671 schrijft Hudde aan Huygens dat hij voor de sterftes in Amsterdam in de periode 1587-1589 'een geheel andere ordening als [Graunt] ons heeft aangeleverd' vindt. Op 31 juli 1671 stuurt hij zijn getallen voor genoemde periode naar De Witt.[30]
Met voornoemde sterftekansen en uitgaande van de rentevoet van 4% van dat moment berekent De Witt dat de lijfrentebrieven tegen het veertienvoudige bedrag als de rente verkocht dienen te worden om zowel voor de Republiek als voor de kopers voordelig te zijn. Zijn berekeningen worden nagetrokken door 2 boekhouders en zijn bewijsvoering door Hudde. Deze schrijft in Waerdije: 'Verklare ick ondergeschreven [...] te oordeelen, dat de methode gebruyckt [tot de uytvindinge van de waerde van een Lijf-rente teghens een Los-rente van vier ten hondert 's Jaers] seer accuraet is uytgevonden, ende dat het besluyt daer uyt ghemaeckt [...] op vaste Mathematique gronden is steunende'.
Geheel volgens Waerdije worden door de Republiek in 1671 en 1672 lijfrentebrieven verkocht tegen 7,14% rente. Daarmee is het verzekeringswezen niet over de hele linie verwetenschappelijkt. Zo wordt er in 1769, dus 98 jaar later, in Amsterdam nog de Lijfrente Societeit opgericht, met 19 verzekeringsklassen waarvan de leden elk een bepaalde jaarlijkse contributie moeten betalen. In 1773 wordt echter al De tweede Lijfrente Societeit opgericht, met dezelfde 19 klassen maar met geheel andere contributiebedragen. Ook worden er nog tot diep in de achttiende eeuw zogeheten tontines uitgeschreven die meer op gokken lijken dan op verzekeren.
[31]
In 1671 zijn voor een algehele wetenschappelijke basis onder (levens)verzekeringen nog niet alle voorwaarden voldaan. Één daarvan is dat de sterftetafel van De Witt niet deugt: ook over de sterftekansen van 0- tot 3-jarigen valt wat te zeggen; die tussen 3 en 53 jaar zijn niet gelijk - toen niet en nu niet; de sterftekans tussen 53 en 63 jaar is niet anderhalf keer zo groot als die tussen 3 of 4 en 53 of 54 jaar, zelfs niet als beide in die periodes constant zouden zijn; enzovoort. Een andere voorwaarde is dat de sterftetafels van jaar tot jaar niet constant zijn: de sterftekansen veranderen omdat mensen gemiddeld ouder worden vanwege medische vooruitgang, betere hygiëne, wetten die medische controles verplicht stellen. Ook moeten verzekeraars vanwege het aanvaardbare nemen van risico's de wet van de grote getallen kennen, hetgeen pas na Bernoulli's boek van 1713 het geval kan zijn; zie A.II. Enzovoort.
Tot slot het verband tussen de verzekeringswiskunde en de term 'statistiek'. Mijns inziens is dat verband vooral indirect van aard. Aan de ene kant liggen aan de verzekeringswiskunde demografische gegevens ten grondslag, over sterfte, branden, ongevallen, diefstallen enzovoort. Dan is 'statistiek' in de zin van A.I aan de orde. Aan de andere kant is er steeds sprake van sterfte- en andere kansen - 'statistiek' in de zin van A.II.

A.IV. Meetfouttheorie
Als de Duitser Mayer (1723-1762) in 1748 de lengtegraad tot op 1° nauwkeurig bepaalt via waarnemingen aan de maankrater Manilius en de Dalmatiër Boscovich (eigenlijk Bǒsković) (1711-1787) in 1755-1760 laat zien dat 5 boogmetingen overeenkomen met de door Newtons zwaartekrachttheorie voorspelde afplatting van de aarde aan de polen, bedrijven ze meetfouttheorie.
[32]
Geïsoleerd vinden we bij de Deen Brahe (1546-1601) en Galilei (zie ook A.II) pogingen om waarnemingen met elkaar te combineren voor het geval er meer waarnemingen zijn dan theoretische onbekenden.[33] Stel dat men in een plat vlak de precieze gedaante van een ellips zoekt (bijvoorbeeld voor de baan van een terugkerende komeet), dan dient men in de vergelijking x^2 + ay^2 = b (a en b>0) waarden voor a en b te vinden. Met 2 foutloze waarnemingen (x1,y1) en (x2 ,y2) zou dat mogelijk zijn, maar (i) foutloze waarnemingen bestaan niet en (ii) vaak heeft men 3, 4 of nog meer waarnemingen – als er meer waarnemingen zijn dan onbekenden, spreekt men van een overbepaald stelsel waarnemingen.
Vanaf 1750, het verschijningsjaar van Mayers onderzoek van 1748, pakt men in toenemende mate overbepaalde stelsels aan. En pas na Legendre's verhandeling over de methode van de kleinste kwadraten in 1805 suggereert de Duitser Gauss (1777-1855) in 1809 dat de meetfouten zijn verdeeld volgens (1/V(2{pi}))exp(-½x^2), de bekende klokkromme; zie mathworld.wolfram.com/NormalDistribution.html. Sedertdien neemt men deze kromme vrij algemeen aan voor de verdeling van meetfouten. Echter, al eerder zijn er wetenschappers die de kansrekening gebruiken bij het combineren van waarnemingen. De eerste is de Engelsman Simpson (1710-1761)
.[34]
Simpson stelt in 1757 vast dat vrijwel alle sterrekundigen het 'gemiddelde van verschillende waarnemingen' nemen 'om de meetfouten die uit de onvolmaaktheden van de instrumenten en van het waarnemingsorgaan voortkomen, te verkleinen', maar dat die methode nog niet is bewezen. Zelf wil hij een poging doen en daartoe maakt hij 2 aannames waarvan de eerste luidt: 'Er is niets in de constructie of plaatsing van de instrumenten waardoor de meetfouten constant in dezelfde richting tenderen, maar de respectieve kansen dat ze te veel of te weinig plaatsvinden, óf precies óf bijna dezelfde zijn'. Ook neemt hij aan dat de kans op een meetfout recht evenredig is aan zijn grootte; zie Simpson, 1757, p.1, linkerdeel van de afbeelding, maar dan een kwartslag gedraaid.[35]
De Duitser Lambert (1728-1777) publiceert zijn meetfouttheorie in 1760. Ook hij maakt kanstheoretische aannames die we hier laten rusten omdat ze nauwelijks of geen invloed hebben gehad op het verdere verloop van de geschiedenis van de meetfouttheorie. [Lamberts verdelingsfunctie is wel weergegeven in het artikel maar vooralsnog is dat in deze internetversie niet mogelijk].[36]
Vrijwel zeker onafhankelijk van Simpson en Lambert doet Laplace in 1772 en 1774 over de verdeling van meetfouten 3 aannames in Simpsons geest, zoals: '1. Ze moet in 2 geheel gelijke delen worden verdeeld [...], omdat het even waarschijnlijk is dat de waarneming van de waarneming naar rechts afwijkt als naar links. 2. Ze moet [...] een asymptoot hebben, omdat de waarschijnlijkheid dat de waarneming met een oneindige afstand van de waarheid verschilt, evident 0 is'. De verdelingsfunctie op basis hiervan en van andere aannames is (m/2)exp(-m|x|), met onbekende m - de tweezijdig symmetrische exponentiële verdeling; zie Laplace, 1772/1774, figuur 2 op p.43.[37]
In 1777 stelt Laplace (1/2a )log(a/|x|) voor als verdelingsfunctie en in 1778 Daniel Bernoulli (1700-1782) a^2 -x^2, met |x| < of = a [beide verdelingsfuncties zijn wel weergegeven in het artikel maar vooralsnog is dat in deze internetversie niet mogelijk; Bernoulli's verdelingsfunctie is overigens een halve cirkel].[38]
Als gesteld, de klokkromme wordt al spoedig na 1809 algemeen als verdelingsfunctie gebezigd. Gezien deze korte historische schets is het wel begrijpelijk dat ze de Gausskromme wordt genoemd, maar de kromme zelf is door De Moivre (zie ook A.II) gevonden, in 1733. In essentie is De Moivre's klokkromme door Gauss - en Laplace, zoals we nog zullen zien - met het combineren van waarnemingen op basis van de kansrekening gesynthetiseerd tot de algemeen aanvaarde meetfouttheorie zoals we die in 2005 nog steeds kennen. Om dat te kunnen plaatsen gaan we terug naar 1662, naar Graunt!
Zoals we in A.I hebben gezien is één van Graunts vondsten dat het lijkt dat er systematisch meer jongens worden geboren dan meisjes. Jakob Bernoulli leidt af hoe men de verhouding tussen beide empirisch des te nauwkeuriger kan vinden naarmate men meer waarnemingen doet; zie A.II.
Nikolaus Bernoulli (1687-1759) trekt de lijn van zijn oom Jakob in 2 brieven (11 oktober 1712 en 23 januari 1713) door, op een moment dat Jakobs postuum te verschijnen boek bij de drukker ligt en hij diens theorie nog niet precies kent. Voor de periode 1629-1710 geldt dat er in Londen bij benadering op elke 18 jongens 17 meisjes zijn geboren. Onder de aanname dat die verhouding in werkelijkheid 18÷17 is, laat hij zien dat de kans groter is dan 43÷1 dat op 14.000 geboortes het aantal jongens tussen 7.037 en 7.363 ligt in plaats van erbuiten. Daartoe ontwikkelt hij (18+17)^14000 op de wijze van zijn oom en maakt hij enkele benaderingen die enerzijds noodzakelijk zijn omdat n! een lastige rekengrootheid is en anderzijds geoorloofd omdat n zeer groot is. Hij trekt zijn theorie en benaderingen na aan de hand van de gegevens voor Londen over 1629-1710. Er vloeit namelijk uit voort dat de kans 1÷1 is dat van de 82 jaren in die periode er 3 buiten het interval [7.037;7.363] liggen als men alle jaartotalen op 14.000 normeert. In werkelijkheid is dat voor 11 jaren het geval - de orde van grootte is dus juist. Nikolaus Bernoulli besluit: 'Er is daarom in het geheel geen reden om verbaasd te zijn dat het aantal kinderen van elk geslacht niet verder van elkaar liggen'.
[39]
Achteraf bekeken kunnen de beide Bernoulli's slechts doen wat ze doen, en kunnen ze niet afleiden dat de binomiale verdeling van (a+b)^n voor a=b naar de klokkromme nadert als n naar oneindig gaat, omdat ze geen goede benadering hebben voor n!. Die heeft De Moivre in 1733 wel en daarmee kan men laten zien dat de binomiale verdeling in de limietovergang naar de functie (1/V(2{pi}))exp(-½x^2) gaat. Vrijwel zeker zijn hijzelf en de Engelsman Stirling (1692-1770) de uitvinders van Stirlings formule: n! = n^(n+½).exp(-n)V(2{pi}). Hiermee laat De Moivre zien dat de middelste term in (1+1)^n, t½n die gelijk is aan n!/{(½n)!(½n)!}, voor grote n benaderd kan worden met 2^(n+1)/V(2{pi}n). Ook volgt eruit dat t½n en elk van de termen op de plaatsen ½n+k en ½n-k, t½n+k en t½n-k, zich tot elkaar verhouden als exp(-2k^2/n) zodat t½n+k = t½n-k = {2^(n+1)/V(2{pi}n)}exp(-2k^2/n). Verder leidt hij voor een oneindig vaak herhaalde gebeurtenis die een even grote kans heeft om wel of niet plaats te hebben, af dat de kans dat de uitkomst tussen ½n-½Vn en ½n+½Vn (dus met k=½Vn) ligt, 68% is. Dit geldt ook voor grote n. Zo is bij 3.600 keer tossen (dus voor n=3.600 zodat ½n=1.800 en ½Vn=30) de kans om tussen de 1.770 en 1.830 keer munt te gooien 68%. Door nu onder meer de oorsprong van ½n naar 0 te verplaatsen, het discontinue k/Vn door de continue variabele x te vervangen, de limietovergang te maken en te eisen dat {integraalteken}f(x)dx (van -{oneindigteken} naar +{oneindigteken}) = 1, krijgen we f(x) = (1/V(2{pi}))exp(-½x^2). Dan blijkt {integraalteken}f(x)dx (van -1 naar +1) = 0,68; sedert 1893 heten x=-1 en x=+1 de standaarddeviatie.[40]
In 2005 ligt het voor de hand liggen om de functie (1/V(2{pi}))exp(-½x^2) niet alleen in verband te brengen met het herhalen van een gebeurtenis, zoals De Moivre zelf al doet, maar ook met de nauwkeurigheid van herhaalde waarnemingen. Aan De Moivre zelf, maar aanvankelijk ook aan Laplace, die in 1772 en 1777 voor het eerst de verdeling van meetfouten onderzoekt, is dat verband geheel ontgaan. Daar komt verandering in als de Fransman Legendre (1752-1833) in 1805 de methode van de kleinste kwadraten wereldkundig maakt. We keren dus terug naar het eerste onderwerp van IV, het combineren van waarnemingen in een overbepaald stelsel.
Om de baan van een komeet zo nauwkeurig mogelijk te bepalen met zo veel mogelijk goede waarnemingen, neemt Legendre de som van de kwadraten van de meetfouten om vervolgens die som te minimaliseren. Dit is de methode van de kleinste kwadraten. Ook buiten de sterrekunde is ze te gebruiken. Voorbeeld 1. Men neemt een constante temperatuur 5 maal waar en vindt 17,2; 17,7; 17,2; 17,3; 17,6°C. Het gemiddelde is 17,4°C. Vat de gemiddelde waarde echter dat vijftal wel het beste samen? Ja. Immers, voor de gecorrigeerde (vaak met 'werkelijke' aangeduide) waarde x en de 5 gemeten waarden a1, a2, a3, a4 en a5 geldt dat de meetfouten x-ai (i = 1, ..., 5) zijn. Algemeen geldt dat de som van de kwadraten van de meetfouten = (x-a1)^2 + (x-a2)^2 + (x-a3)^2 + (x-a4)^2 + (x-a5)^2 = S. De vraag is dus: voor welke x is S minimaal? Het antwoord luidt: voor x met dS/dx=0. Welnu, dS/dx = 2(x-a1) + 2(x-a2) + 2(x-a3) + 2(x-a4) + 2(x-a5) = 10x - 2{somteken}ai = 0. Dus: x = {somteken}ai/5, wat het gemiddelde is van de 5 waargenomen waarden. Omgekeerd kan men dan ook stellen dat de methode van de kleinste kwadraten een generalisatie is van het gemiddelde. Voorbeeld 2. Als volgens de theorie y = ax+b geldt, dan kan men die lijn empirisch trachten te bepalen met 4 meetpunten (0,0), (1,2), (2,3) en (3,3). Deze geven dus 4 meetfouten ei = yi-axi-b (i = 1,2,3,4). Deze keer minimaliseert de methode van de kleinste kwadraten S = e1^2 +e2^2 +e3^2 +e4^2 = {somteken}∑(yi-axi-b)^2. Dat wil zeggen, dS/da = 0 en dS/db = 0. Dit levert 2 vergelijkingen op met 2 onbekenden a en b en vindt men a=1 en b=0,5. De gezochte lijn is dus y=x+0,5. Zie verder de noot.
[41]
Legendre meent dat door de methode van de kleinste kwadraten 'er zich tussen de meetfouten onderling een evenwicht instelt, dat enerzijds voorkomt dat extreme waarden een te groot gewicht in de schaal leggen en anderzijds heel geschikt is om de toestand van het stelsel die het dichtste bij de waarheid ligt, te doen kennen'. Legendre maakt in zijn meetfouttheorie, anders dan Simpson, Lambert, Laplace en Daniel Bernoulli vóór hem, geen kansoverwegingen. Gauss doet dat al als achttien- of negentienjarige, in 1794 of 1795, wel, maar publiceert er pas over in 1809. Hij neemt namelijk aan dat voor meetfouten de wetten van de kansrekening gelden: 'Alle twijfelachtige gegevens zullen aan meetfouten, ook al zijn het slechts kleine, onderworpen zijn. [...] Men moet volgens de grondregels van de waarschijnlijkheid aannemen dat bij alle [gegevens] verschillende grotere of kleinere meetfouten gelijk mogelijk zijn', waarbij hij ook aanneemt dat kleinere meetfouten vaker begaan worden dan grotere. Voorts stelt hij: 'Het onderzoek naar de baan [van een hemellichaam] die in strikte zin de grootste waarschijnlijkheid heeft, zal afhangen van de kennis van de wet volgens welke de waarschijnlijkheid van de meetfouten afneemt naarmate ze groter worden. Deze wet hangt echter van zo veel onbepaalde en twijfelachtige - ook fysiologische - overwegingen af, die zich aan het rekenen onttrekken [...]. Niettemin is het onderzoek naar de samenhang tussen deze wet en de meest waarschijnlijke baan, dat we nu in zijn grootste algemeenheid willen ondernemen, geenszins als een onvruchtbare speculatie te beschouwen'. Als we de grootte van een meetfout met z weergeven en zijn kans met f(z), luiden Gauss' 4 verdere aannames: f(z) is maximaal voor z=0; f(z) is symmetrisch: f(z) = f(-z); f(z) gaat naar 0, wanneer z naar -{oneindigteken} en naar {oneindigteken} gaat; van waarnemingen die onder dezelfde omstandigheden zijn gedaan, 'stelt het [...] gemiddelde van alle waargenomen waarden de meest waarschijnlijke waarde voor'. Op basis hiervan stelt hij een differentiaalvergelijking op. Daaruit volgt ln(f(z)) = ½kz^2 +C en daaruit f(z) = {kappa}exp(½kz^2). Opdat f(z) een maximum kan hebben, moet k<0. Daarom herschrijft hij ½k als -h^2; h is te duiden als een maat voor de meetnauwkeurigheid. Welnu, daar is bewezen dat {integraalteken}exp(-z^2)dz voor z van -{oneindigteken} naar {oneindigteken} = V{pi} en omdat {integraalteken}f(z)dz voor z van -{oneindigteken} naar {oneindigteken} = 1 (alle kansen moeten samen 1 zijn), geldt: f(z) = (h/V{pi})exp(-h^2.z^2) (wat met z= x/(hV2) ekwivalent is aan f(x) = (1/V(2{pi}))exp(-½x^2)). Voor waarnemingen met gelijke meetnauwkeurigheid h kan Gauss nu de methode van de kleinste kwadraten verantwoorden, en wel vanuit de gedachte dat de kans op het gelijktijdige optreden van een aantal meetfouten zo groot mogelijk is. Immers, als die kans zo groot mogelijk is, benadert men de gecorrigeerde waarde zo dicht mogelijk. Nemen we 10 waarnemingen a1, a2, ..., a10 met meetfouten z1, z2, ..., z10, elk met kans f(zi). Dan: kans op gelijktijdigheid = product van de kansen op elk der meetfouten = f(z1).f(z2)...f(z10) = (h/V{pi})exp(-h^2.z1^2).(h/V{pi})exp(-h^2.z2^2)...(h/V{pi})exp(-h^2.z10^2) = (h/V{pi})^10.exp(-h^2.(z1^2+z2^2+...+z10^2)). Dit product moet dus maximaal zijn. Omdat -h^2.(z1^2+z2^2+...+z10^2)<0, is dat het geval als z1^2+z2^2+...+z10^2 minimaal is. In woorden: 'Het waarschijnlijkste stelsel van de waarden van de onbekenden [...] zal daarom datgene zijn, waarin de kwadraten van de verschillen tussen waargenomen en berekende functiewaarden [...] de kleinste som geven'.[42]
Uit niets blijkt dat Laplace er vóór 1810 over denkt om een functie als exp(-½x^2) of exp(-x^2) in verband te brengen met de meetfouttheorie. Maar kort na 9 april 1810 maakt hij kennis met Gauss' boek van 1809. Dat is op het juiste moment want hij legt dan de laatste hand aan zijn artikel over benaderingen van bepaalde formules en hun toepassingen in de kansrekening. Zoals we hebben gezien neemt Gauss, om de methode van de kleinste kwadraten te rechtvaardigen, onder meer aan dat het gemiddelde de meest waarschijnlijke waarde is voor een verzameling gelijkwaardige waarnemingen. Welnu, Laplace bewijst die aanname van Gauss. Eerst laat hij echter het volgende zien: als men veronderstelt dat elke waarneming w zelf het gemiddelde is van een groot aantal meer fundamentele waarnemingen W, dan zijn de waarnemingen w verdeeld volgens de klokkromme. Dan bewijst hij dat het gemiddelde als meest waarschijnlijke waarde volgt uit de kansrekening zelf: 'In het algemene geval lijkt het me dat [...] de zaak uit de kansrekening zelf volgt'. Kortom, de synthese tussen enerzijds de meetfouttheorie die op de kansrekening is gebaseerd, en anderzijds de klokkromme van De Moivre van 1733 is nu een feit.[43]
In 1811 onderbouwt Laplace zijn theorie van 1810 verder, maar dan zonder - zoals eerder - gebruik te maken van de omgekeerde kansrekening. Tevens breidt hij zijn beschouwing over één meetfout uit naar 2 meetfouten die gelijktijdig optreden, elk bij één waarneming. Daarmee is hij de eerste in de geschiedenis van de meetfouttheorie die 2 of meer gelijktijdige meetfouten in ogenschouw neemt. We geven de afleiding van de Fransman Bravais (1811-1863) van 1846 vanwege haar relatieve eenvoud en omdat ze betrekking heeft op een meetkundige en dus vrij aanschouwelijke situatie. We nemen de situatie dat er 2 grootheden worden gemeten, zeg de horizontale en de verticale coördinaten H en V van een punt waar men met een pijl op mikt. Hun meetfouten zijn dh respectievelijk dv; de meetresultaten zijn dus H±dh en V±dv. Omdat we met dh en dv verder werken noemen we ze kortheidshalve x en y. Stel het eenvoudigste geval dat x en y door 2 deelfouten p en q worden bepaald, en wel op lineaire wijze: x = Ap+Bq en y = A´p+B´q of, terugrekenend, p = ax+by en q = cx+dy. De kans op meetfout p = (V(g/{pi}))exp(-gp^2) en de kans op meetfout q = (V(h/{pi}))exp(-hq^2), met g en h>0 (Bravais' g en h zijn dus te vergelijken met h^2 van Gauss). De kans op hun gelijktijdige optreden is dus ((V(gh))/{pi})exp(-{gp^2 + hq^2}). We willen echter de gelijktijdige kans op x en y kennen, de meetfouten van de gemeten H en V. Omdat p = ax+by en q = cx+dy is die kans, vermenigvuldigd met een factor F die een functie is van a, b, c en d door de overstap op een ander coördinatenstelsel: F((V(gh))/{pi})exp(-{g(ax+by)^2+h(cx+dy)^2}). Welnu, g(ax+by)^2 + h(cx+dy)^2 = ga^2.x^2+2gabxy+gb^2.y^2 + hc^2.x^2+2hcdxy+hd^2y^2 = (ga^2+hc^2)x^2 + (2gab+2hcd)xy + (gb^2+hd^2)y^2 = (daar g, h, a, b, c en d constantan zijn) sx^2 + txy + uy^2 (met s, t en u opnieuw constanten). Als we tot slot constante F(V(gh)) vervangen door constante K, is de kans op het gelijktijdige optreden van de meetfouten x (in H) en y (in V) dus (K/{pi})exp(-{sx^2+txy+uy^2}). Deze gedachte nu is uit te breiden naar meer deelfouten, dus naar p=p1, q=p2, p3, ..., pn. Een complicatie is dat er overgestapt moet worden van het coördinatenstelsel met p1, ..., pn naar dat met x en y. Daar zijn namelijk n in plaats van slechts 2 functies voor nodig. Naast x en y moeten er daarom (n-2) extra variabelen en naast x = Ap+Bq en y = A´p+B´q (n-2) extra functies worden aangenomen. Het resultaat blijft echter hetzelfde omdat de constanten uit die extra functies ook opgaan in de uiteindelijke constanten K, s, t en u van de gezochte kans. Vervolgens bepaalt Bravais die 4 constanten. Hij vindt voor de gezochte kans dat die gelijk is aan (K/{pi})exp(-K^2{{alpha}x^2 -2{bêta}xy +{gamm}y^2}). Met andere woorden, de gezochte kans is niet meer gelijk aan het product van twee enkelvoudige kansen Cexp(-{s´x^2+u´y^2}), dus zonder een term met xy. De 2 meetfouten hangen kennelijk met elkaar samen; Bravais: 'Het naast elkaar bestaan van dezelfde variabelen [p1, p2, p3, ...] in de gelijktijdige vergelijkingen in [H en V] brengt een zodanige correlatie met zich mee dat [...] g en h niet meer de mogelijkheid voorstellen van de gelijktijdige waarden van (x,y) onder het werkelijke gezichtspunt van de kwestie'. En inderdaad, als t=0 (dus zonder xy-term) dan wordt de gezochte kans ((V(g´h´))/{pi})exp(-{g´x^2+h´y^2}), waarin g´ en h´ dezelfde grootheid zijn ten opzichte van x en y als g en h ten opzichte van p en q. Ook laat Bravais zien dat even grote kansen op een gelijktijdig optreden van de meetfouten x en y op een ellips liggen. Immers, sx^2+txy+uy^2 = D is de formule voor een ellips. Wanneer men D verschillende waarden laat doorlopen, ontstaat er dus een verzameling concentrische ellipsen.[44]
Tot slot, men komt de term 'statistiek' vaak tegen in de zin van 'meetfouttheorie'. We laten dit zien aan de hand van de volgende 5 voorbeelden.
a. De Amerikaan Stigler noemt zijn boek over de geschiedenis waar die van de meetfouttheorie een belangrijk onderdeel van is, The history of statistics; the measurement of uncertainty before 1900; ook de tekst zelf bevat veel voorbeelden, zoals 'The method of least squares was the dominant theme [...] of nineteenth-century mathematical statistics' en 'Throughout much of this time statistical methods were commonly referred to as "the combination of observations"' (p.11). b. De Deen Hald noemt zijn hoofdstuk over de eerste pogingen om sterrekundige waarnemingen meetfouttheoretisch te behandelen 'Mathematical model and statistical methods in astronomy from Hipparchus to Kepler and Galileo'. c. De Canadees Denis schrijft: '[...] understand the concept of "error" and error theory as used in statistics'. d. De Amerikaan Miller ziet in de meetfouttheorie een vorm van statistiek: 'Between 1750 and 1830 mathematicians and astronomers [...] created the first elaborate theory of statistical inference, the theory of errors' (zijn cursivering). e. De Duitser Schmitz schrijft in zijn geschiedenis van de stochastiek in Duitsland: 'Gauss hatte [...] den spektakulären Erfolg der Positionsvorhersage des neuen Planetoiden Ceres (1801) [...] mit statistischen Methoden erreicht'.
[45]

A.V. Informatie halen uit gegevens
Als Quetelet als onderwerp van zijn boek van 1835 aanmerkt 'het bestuderen van de oorzaken [...] in hun effecten op de ontwikkeling van de mens, het pogen te meten van de invloed van die oorzaken en van de wijze waarop ze elkaar wederzijds veranderen' om zo 'uit waarneming de wetten te trachten te vatten die [de verschijnselen betreffende de mens] samen verbinden', als de Engelsman Galton (1822-1911) de 'wetten van de menselijke erfelijkheid' voor een 'uitstekend onderwerp voor de statistiek' als lichaamslengte onderzoekt, en als de Duitser/Engelsman Eysenck (1916-1997) de persoonlijkheidsdimensies neuroticisme, psychoticisme en extraversie/introversie via een vragenlijst en met 'statistische procedures' wil vinden, dan bedrijven ze inductieve (of inferentiële) statistiek.[46]
Jakob Bernoulli acht het gebruik van de kansrekening bij het voorspellen van het weer van de volgende maand of van het volgende jaar, bij het voorspellen van de winnaar in een spel dat deels van psychische en/of lichamelijke factoren afhangt, en bij het onderzoeken van andere 'zaken die van geheel verborgen oorzaken afhangen, die bovendien nog door de oneindige menigvuldigheid van hun samenwerken onze kennis voortdurend misleiden', 'volledig zinloos'. Wat volgens hem wel mogelijk is, verwoordt hij in wat bekend is geworden als de stelling van Bernoulli; zie A.II.[47]
Na de ontdekking van de omgekeerde kansrekening (Bayes, 1763; Laplace, 1774; zie A.II), gaat men hier langzaam maar zeker anders over denken. Zo schrijft Laplace zelf in 1814: 'De kansrekening is al met succes toegepast op verscheidene onderwerpen van de morele [in 2005: gamma-; EV] wetenschappen', zoals 'waarschijnlijkheid van getuigenissen' en 'keuzes en beslissingen van vergaderingen'. Onder de aanname dat een bepaalde getuige 1 op 10 keer misleidt, stelt hij dat 'de waarschijnlijkheid van zijn getuigenis 9/10 is' en berekent hij de kans dat hij de waarheid spreekt en de kans dat hij liegt, bij de bewering dat hij het getal 79 uit een vaas met 1000 getallen heeft getrokken. Poisson werkt soortgelijke gedachtes nader uit in zijn boek van 1837.[48]
In 1837 publiceert de oervader van de inductieve statistiek, Quetelet, al enkele jaren in Laplaces en Poissons geest. Na zijn promotie in de wiskunde (1819) beijvert hij zich voor een sterrewacht in Brussel. Hij krijgt veel steun en gaat met het oog op de feitelijke oprichting in 1823 aan de sterrewacht van Parijs studeren. Hij volgt er ook lessen in de kansrekening bij Laplace en Fourier. In 1826 wordt de sterrewacht van Brussel opgericht. Quetelet wordt er in tot sterrekundige benoemd en in 1830 tot directeur. In 1826 is al zijn eerste statistische publicatie verschenen, over de ‘wetten van de geboortes en van de sterfte’ van Brussel. Van de gegevens over 18 jaren berekent hij het gemiddelde aantal borelingen per maand. De aantallen nemen van mei tot eind oktober af om daarna tot mei weer toe te nemen. Dit noemt hij de 'wet van de geboortes'. Meetkundig 'vindt men een [...] kromme die veel op een sinusoïde lijkt. Men zou er dus de vergelijking y = a + b.sinx aan kunnen geven', met a het gemiddelde over het hele jaar en b het verschil tussen a en het maximum van mei of het minimum van oktober.[49]
In zijn twee eerste statistische artikelen staat Quetelet nog in de traditie van de beschrijvende statistiek van A.I, die overigens in de loop van de achttiende eeuw steeds getalsmatiger en exacter van aard is geworden, met inbegrip van tabellen, grafieken en dergelijke. In zijn derde statistische artikel, over het toen verenigde koninkrijk der Nederlanden, zet Quetelet zijn eerste stap in de richting van de inductieve statistiek. Net als enkele anderen verbindt hij dan de beschrijvende statistiek met de kansrekening van A.II: 'Onder de talloze toepassingen die men van de kansrekening heeft gemaakt, is de vergelijkende statistiek zeker niet één van de minst belangrijke; zij is voor de maatschappij ongeveer wat de vergelijkende anatomie is voor het diererijk'. Dit artikel behandelt van Nederland onder meer zijn bevolking, boekhandels, kranten en onderwijs. Ook vergelijkt het de criminaliteit van Frankrijk, Groot-Brittannië en Nederland met elkaar. Hij concludeert onder meer dat in 1825 en 1826 'de grote misdaden tegen personen in Frankrijk 4 maal zo talrijk zijn geweest dan in ons land; terwijl die tegen bezittingen [...] nog niet het dubbele zijn'. Ook vindt hij dat criminaliteit een constant verschijnsel is. Hij spreekt zelfs van een 'verschrikkelijke exactheid waarmee de misdaden zich telkens weer voordoen'. In de periode 1825-1827 zijn er in Frankrijk 7.816, 7.591 respectievelijk 7.774 misdadigers veroordeeld, 176, 197 respectievelijk 51 doodstraffen uitgesproken, enzovoort. Het kanstheoretische van deze studie zit overigens niet in het statistische (in de zin van A.V) bewerken van deze statistische (in de zin van A.I) feiten, maar in hun verklaringspoging: 'Het aandeel van de gevangenissen, van de boeien en van het schavot lijkt voor [de menselijke soort] met evenveel waarschijnlijkheid vast te liggen als de inkomsten van de staat'. Zo dient zijn begrip 'neiging tot misdaad' verstaan te worden. 'Tussen 21 en 25 jaar zou men 2 keer zo misdadig zijn als tussen 35 en 45 jaar' houdt in dat iemand in de eerste leeftijdcategorie 2 keer zoveel kans zou hebben tot het plegen van een misdaad dan in de tweede.[50]
In 1835 verschijnt Quetelets eerste statistische boek. Kwa onderwerpen en gegevens vat het zijn artikelen van tot dan toe samen. Hij heeft inmiddels meer gegevens dan in 1827 en ook daaruit blijkt dat de criminaliteit constant is. En nu bewerkt hij zijn gegevens wel in de zin van de inductieve statistiek, namelijk doordat hij zijn aandacht richt op de mens in het algemeen in plaats van op de staat zoals in de beschrijvende statistiek van A.I, en doordat hij aanneemt dat de wet van de grote getallen ook van toepassing is op 'morele' verschijnselen: 'Als men de massa's beschouwt, zouden morele verschijnselen in zekere zin binnen de orde van de fysieke verschijnselen komen'. Daartoe vat hij individuele eigenaardigheden op als storingen ('storende acties') op de meetwaarden van de factoren die een maatschappij zouden kenmerken: 'hoe groter het aantal individuen dat men waarneemt, hoe meer de individuele bijzonderheden, hetzij fysieke hetzij morele, worden uitgewist en hoe meer ze de reeks algemene feiten laten overheersen, krachtens welke de maatschappij bestaat en zich in stand houdt'. Quetelet past dus de meetfouttheorie van A.IV toe: op zoek naar getalswaarden voor de mens door wie een maatschappij gekenmerkt wordt, vat hij gegevens van mensen op als 'geobserveerde waarden' en stelt hij die gelijk aan 'gemiddelde minus meetfouten'. Immers, 'de kansrekening laat zien dat, wanneer alles gelijk is, men des te meer de waarheid of de wetten die men wil vatten, benadert naarmate de waarnemingen een groter aantal individuen behelzen'. De opening van A.V is dan ook niet slechts het doel van zijn boek, maar ook een onderzoeksprogramma: het bestuderen van de effecten van oorzaken op de ontwikkeling van de mens, het meten van die effecten en van hun onderlinge beïnvloeding en het vinden van de wetten tussen allerlei menselijke verschijnselen. Dat alles voor de gemiddelde mens, een 'fictief wezen, voor wie alles zal gebeuren overeenkomstig de gemiddelde resultaten die voor de maatschappij zijn verkregen'. En omdat de gemiddelde mens in de maatschappij te vergelijken is met het zwaartepunt in een lichaam, noemt hij de theorie die hij hierop hoopt te baseren, de sociale natuurkunde.[51]
Bij lichamelijke kwaliteiten als lichaamslengte geeft de bepaling van de gemiddelde mens weinig problemen. Dat ligt anders bij 'morele en intellectuele kwaliteiten'. Immers, van een schrijver kan men wel het aantal boeken tellen, maar welke maat moet men hanteren voor de 'onderzoekingen en overdenkingen' bij het schrijven van een boek? In 1828 spreekt Quetelet zijn basale vertrouwen uit dat hiervoor een oplossing moet zijn, door zijn populair-wetenschappelijke werkje over de kansrekening te eindigen met Mundum numeri regunt (getallen regeren de wereld), een spreuk die men aan Pythagoras toedicht. In veel gevallen acht Quetelet de meetproblemen namelijk eerder schijn dan echt, vooropgesteld dat men geen absolute bepalingen doet per persoon, maar relatieve tussen personen. Bijvoorbeeld, als in een land op 500 diefstallen van mannen tussen 21 en 25 jaar er 300 worden gepleegd door mannen tussen 35 en 40 jaar, kan men stellen dat hun neigingen tot stelen zich verhouden als het 'waarschijnlijke verband' 5÷3. Afwijkingen van dit verband, die in Frankrijk daadwerkelijk zijn gevonden over 4 jaren, vormen geen principieel bezwaar want 'als men 4 dagen achter elkaar het verband zou meten tussen de krachten van 2 mannen door middel van de dynamometer van Régnier, zouden de afwijkingen van het algemene gemiddelde, die de 4 afzonderlijke verbanden zouden opleveren, ongetwijfeld aanzienlijker zijn'. En als van 2 personen de één een tekst in 2 uur van buiten kent en de ander in 4 uur, dan verhouden hun leergemak zich als 1÷2. Kortom, 'het is mogelijk de gemiddelde mens van een volk of van de menselijke soort te bepalen; de schijnbare absurditeit van een dergelijk onderzoek komt slechts voort uit een tekort aan waarnemingen die met precisie en in een voldoend groot aantal gedaan zijn opdat de resultaten de grootst mogelijke waarschijnlijkheid bieden dat ze met de waarheid overeenkomen'.[52]
In 1845 zet Quetelet de volgende stap door van de meetfouttheorie een geheel nieuw gebruik te maken. Hij gaat uit van het ideale geval dat men van 1 persoon de lichaamslengte 2^13 = 8.192 keer zo nauwkeurig mogelijk bepaalt, terwijl de meetresultaten tussen 1,693 en 1,707 meter liggen, met een gemiddelde van 1,700 meter. Als men het interval [1,693;1,707] in 14 delen van elk 0,001 meter verdeelt, is de verdeling van hun meetfouten bovendien symmetrisch-binomiaal: 1, 13, 78, 286, 715, 1.287, 1.716, 1.716, 1.287, 715, 286, 78, 13, 1. Dus, 41,9% van alle metingen ligt in [1,699;1701] (1.716 + 1.716 = 3.432, wat 41,9% is van 8.192). Evenzo ligt 73,3% van de metingen in [1,698;1,702], namelijk 6.006 van 8.192. Hij trekt deze theorie na voor de 487 metingen van één van de plaatscoördinaten van de poolster van de sterrewacht in Greenwich voor 1836-1839. De theorie blijkt goed te kloppen: de metingen vormen een klokkromme rond het gemiddelde. Dan komt het nieuwe: terwijl bij iemands lichaamslengte en bij die coördinaat 'er werkelijk een getal bestond, waarvan we de waarde probeerden te bepalen', vraagt hij zich af 'of er in een volk een typische mens bestaat, een mens die dit volk door zijn lichaamslengte vertegenwoordigt en ten opzichte van wie alle andere mensen van hetzelfde volk zouden moeten worden beschouwd als min of meer grote afwijkingen vertonend'. De gemiddelde mens van voordien wordt de typische mens met betrekking tot wie zijn land- of groepsgenoten afwijken als meetfouten in de zin van de meetfouttheorie. Hij trekt deze gedachte na voor de 2 voorbeelden die hij tot zijn beschikking heeft: de borstomvangen van 5.738 Schotse recruten en de lichaamslengtes van 100.000 Franse recruten. In beide gevallen zijn de meetresultaten inderdaad ongeveer volgens de klokkromme verdeeld, rond het gemiddelde van 0,962 meter respectievelijk rond dat van 1,62 meter. Deze keer drukt hij zich nader uit met de ‘waarschijnlijke meetfout’ – 50% van alle metingen bevindt zich daarbinnen en 50% daarbuiten. In het eerste geval is de waarschijnlijke meetfout ongeveer 0,033 meter (50% van de borstomvangen ligt tussen 0,929 en 0,995 meter) en in het tweede ongeveer 0,049 meter (50% van de lichaamslengtes ligt tussen 1,571 en 1,669 meter). Quetelet besluit: 'Men kan verscheidene reeksen waarnemingen [onder de klokkromme] met elkaar vergelijken, zelfs als deze waarnemingen betrekking zouden hebben op heterogene kwantiteiten'.[53]
Sedert 1865 heeft Galton de theorie van de voorouderlijke erfelijkheid. Daarin zijn alle lichamelijke en psychologische eigenschappen geheel erfelijk bepaald, en wel zo dat alle voorouders er een afnemend aandeel in hebben. Voor de mannelijke lijn bijvoorbeeld 'draagt de vader gemiddeld de helft van zijn natuur over, de grootvader een vierde, de overgrootvader een achtste; terwijl het aandeel stap voor stap in een meetkundige reeks met grote snelheid afneemt'. Weliswaar kent hij Quetelets' wet van de "afwijking van een gemiddelde"', dus de klokkromme, al vanaf 1863, maar hij kan die niet met zijn theorie verbinden. De klokkromme vooronderstelt immers dat er vele factoren, i.c. erfelijkheidsdeeltjes, in het spel zijn. Hij heeft dus een erfelijkheidsleer nodig die over veel deeltjes handelt. Zijn beroemde neef de Engelsman Darwin (1809-1882) levert hem die in 1868: de pangenesetheorie. Deze houdt in dat alle lichaamscellen deeltjes, 'gemmulen', afscheiden die aan het nageslacht worden doorgegeven om daar uit te groeien tot volwassen cellen: 'Aangenomen wordt dat ze van de ouders aan het nageslacht worden overgedragen'. Ze klusteren samen tot ei- en zaadcellen die daardoor niet zelf nieuwe organismen voortbrengen, maar de 'cellen zelf in heel het lichaam'. Per groep gelijke cellen (zoals levercellen of hersencellen) zijn de gemmulen identiek en 'moeten hun aantal en nietigheid iets onvoorstelbaars zijn'. Tot zover Darwin. Vooral vanwege hun onvoorstelbaar grote aantal neemt Galton in 1869 aan dat gemmulen verdeeld zijn volgens de klokkromme. Immers, deze zou bij een 'groot aantal gelijke gebeurtenissen' gelden en de werkingen van gemmulen zijn zulke gebeurtenissen. Dan 'zal de gemiddelde waarde van deze gebeurtenissen constant zijn' en 'zullen de afwijkingen van de verschillende gebeurtenissen van het gemiddelde geregeerd worden door deze wet (die in beginsel dezelfde is als die welke gelukskansen aan een speeltafel bepalen)'. Galton acht deze kanstheoretische optiek niet alleen geldig voor lichaamslengte en andere fysieke grootheden maar ook voor intelligentie. Dat laatste trekt hij na bij de cijfers voor een examen van een militaire academie, vooropgesteld dat die 'het gemiddelde vermogen van de kandidaten weergeven'. De verdeling van de cijfers van de 73 kandidaten komt voldoende met de klokkromme overeen. Galton besluit daarom dat ze geldt 'voor elk examen dat natuurlijke gaven tot uitdrukking brengt, of het nu in schilderen, in muziek of in staatsmanschap wordt gehouden'.[54]
De klokkromme maakt het dus mogelijk om binnen intelligentie te onderscheiden, maar dat is Galton nog niet genoeg. Immers, voor lichaamlengte en dergelijke is er een getalsmaat waarmee men kan rekenen, maar voor intelligentie is die er vooralsnog niet. In 1874 beschikt Galton er wel over. Dan oppert hij voor kwaliteiten waar de klokkromme voor geldt, de suggestie om deze kromme in gelijke delen te verdelen, bijvoorbeeld 100. Als men dan 100 individuen rangschikt van de kleinste naar de grootste, van de zwakste naar de sterkste of van de domste naar de slimste, heeft men automatisch een metriek: 'Ik stel voor om een schaal te gebruiken die op de wet [van de klokvormige verdeling van de meetfouten] is gebaseerd, die een schaal geeft van gelijke delen, overal waar die wet voor geldt, en ik gebruik de "waarschijnlijke meetfout" voor de eenheid van de schaal'. Aldus ligt op een schaal van 0 tot 100 de gemiddelde waarde op 50; de ene waarde die met de waarschijnlijke meetfout overeenkomt ligt op 25 en noemt hij -1° en die op 75 +1°; om vergelijkbare redenen noemt hij die op 2 -3°, die op 9 -2°, die op 91 +2° en die op 98 +3°. Hij noemt dit de gewone statistische schaal.[55]
Galtons kernvraag is die naar de mate waarin eigenschappen van de ouders op hun kinderen worden overgedragen. In 1888 vindt hij daar een maat voor en ook die steunt op de meetfouttheorie en op de klokkromme. Op zekere dag in 1886 zet hij de lichaamslengtes van ouders en kinderen in een tabel. Voor die van de ouders neemt hij het gemiddelde van de lengte van de vader en 1,08 maal die van de moeder (om te corrigeren voor het feit dat mannen gemiddeld 1,08 maal zo lang zijn), dat hij de lichaamslengte van de midouder noemt. Op de horizontale as zet hij de lichaamslengtes van 928 volwassen kinderen uit in 14 groepen (kleiner dan 61,7 inch; tussen 61,7 en 62,7 inch; …; tussen 72,7 en 73,7 inch; groter dan 73,7 inch) en op de vertikale die van 205 midouders in 11 soortgelijke groepen. Omdat er in de aantallen in de tabel zelf uitschieters zijn, effent hij ze door elk aantal te vervangen door het gemiddelde van zijn 4 buren boven, onder, links en rechts. In de geëffende tabel merkt hij dat de hokjes met bijvoorbeeld het aantal 12 samen een ellips vormen. Dat geldt algemeen: gelijke aantallen liggen op ellipsen met hetzelfde middelpunt. Eind 1888 maakt hij een vergelijkbare tabel, maar dan voor 2 gegevens van telkens één individu, namelijk lichaamslengte en lengte van de linkervoorarm van 348 volwassen mannen. Weer komen concentrische ellipsen naar voren: 'Plotseling trof het me dat hun vorm bijna gelijk was aan die waarmee ik zeer vertrouwd was geworden toen ik bezig was met het bespreken van verwantschap. [...] Reflectie maakte het me spoedig duidelijk dat [dit nieuwe probleem en een derde, eveneens nieuw probleem] in beginsel identiek waren aan het oude verwantschapsprobleem dat ik al had opgelost, maar dat ze alle 3 niet meer waren dan bijzondere gevallen van een veel algemener probleem - namelijk, dat van correlatie', aldus Galton in 1890 over zijn ontdekking in 1888. Al in 1888 verstaat hij onder correlatie: 'wanneer de variatie van het ene orgaan gemiddeld door meer of minder variatie van het andere orgaan wordt begeleid, en wel in dezelfde richting'. Dus als mensen met een grote lichaamslengte er toe neigen ook een lange linkervoorarm te hebben, dan correleren deze 2 grootheden met elkaar. Galton past zijn correlatiebegrip meteen toe op het onderwerp 'verwantschap': 'de lichaamslengte van de vader is gecorreleerd aan die van de volwassen zoon'. Als maat voor de correlatie neemt Galton de richtingscoëfficiënt van de rechte lijn door de medianen van de waarden per rij of per kolom van de tabel - de mediaan van een oneven aantal getallen is het middelste getal (van {2,3,6} is 3 de mediaan) en van een even aantal het gemiddelde van de 2 middelste getallen (van {2,3,5,8} is (3+5)/2 = 4 de mediaan). Verscheidene statistici hebben andere maten voorgesteld. De meest gebruikte is de correlatiecoëfficiënt van de Engelsman Pearson (1857-1936) van 1896. Volgens hem zijn de 'fundamentele correlatiestellingen voor de eerste keer en bijna uitputtend door Bravais besproken'. Hij volgt diens afleiding van de functie van A.V maar vervangt de meetfouten door variabelen. Hij past Bravais' theorie over de grootheden dh en dv dus toe op H en V. Als 'beste waarde van de correlatiecoëfficiënt' voor N metingen van 2 variabelen leidt hij dan af dat die gelijk is aan - in hedendaagse notatie (alle sommaties, over i, gaan van 1 tot en met N): {{somteken}(xi-m)(yi-n)}/Ns1s2; m = gemiddelde van alle xi, n = gemiddelde van alle yi, standaarddeviaties s1 = V{{somteken}[(xi-m)2]/N} en s2 = V{{somteken}[(yi-n)2]/N}.[56]
De Engelsman Yule (1871-1951) acht de praktische betekenis van Pearsons correlatiecoëfficiënt gering daar in de biologie en de economie niet aan de voorwaarde is voldaan dat de variabelen klokvormig zijn verdeeld. Daarom stelt hij voor om bij niet-klokvormige variabelen x en y niet hun correlatiecoëfficiënt te bepalen, maar hun algebraïsche verband. Voor het lineaire verband y = ax+b komt dat neer op het bepalen van de coëfficiënten a en b. Yule laat zien dat men bij het bepalen van a en b de methode van de kleinste kwadraten kan gebruiken en dat Bravais' formules (lees: Pearsons formule) geldig blijven ondanks niet-klokvormigheid. Op basis van deze overwegingen voert Yule in 1899 de eerste regressieanalyse in de geschiedenis van de sociale wetenschappen uit, naar het verband tussen de verandering in armlastigheid enerzijds en de veranderingen in de steunratio (de verhouding tussen twee soorten steun), de leeftijdverdeling en 'andere economische, sociale en morele factoren' anderzijds. Voor 1871-1881 vindt hij - alles is in %: 'verandering in armlastigheid = -27,07 + 0,299 verandering in de steunratio + 0,271 verandering in het aantal bejaarden in de bevolking + 0,064 verandering in de bevolking'.[57]
In 1900 staan sociale wetenschappers dus flink wat inductief-statistische middelen ter beschikking voor het verwerken van waarnemingen: klokvormige verdeling, kansrekening, bewerken van kwaliteiten tot kwantitatieve schalen, correlatiecoëfficiënt en regressieanalyse. Dat verband met waarnemingen is licht te begrijpen want, zoals we hebben gezien, de inductieve statistiek is één van de uitlopers van de beschrijvende statistiek van A.I. Naast waarnemen is experimenteren echter de andere poot waar wetenschappelijke kennisverwerving op steunt zodat het voor de hand ligt de statistische methode ook daarnaar uit te breiden. Daarin speelt de Engelsman Fisher (1890-1962) een hoofdrol. In zijn boek over het opzetten van experimenten wil hij 'de beginselen illustreren, die alle proefneming met elkaar gemeen heeft'. Hij doet dat aan de hand van een proef bij een vrouw die zegt bij thee met melk uit te kunnen maken of eerst thee dan wel melk is ingeschonken. Om dat na te trekken zet men haar in willekeurige volgorde 8 koppen thee voor; bij 4 is eerst thee ingeschonken en bij 4 eerst melk. De hypothese luidt dan dat ze dat onderscheid niet kan maken - de zogeheten nulhypothese. Deze wordt verworpen als haar aantal juiste vaststellingen significant (zie verderop) afwijkt van het aantal dat ze door te gokken, dus door het toeval, verkrijgt. Goed gokken heeft een kans van 1 op 70. Immers, het aantal groepen van 4 dat men met 8 voorwerpen kan vormen, is {8 ~ 4} = 8!/4!4! = 70. Het significantienivo in deze proef is dan ook 1/70 = 1,4%. Dat vindt Fisher vrij streng want een nivo van 5% acht hij voldoende. Men zou het criterium kunnen verzachten door ook 3 goede antwoorden toe te laten. Dat is echter geen oplossing want zo worden er 16 (= {4 ~ 3}.{4 ~ 1} = 4.4) antwoordmogelijkheden meer goed gerekend, wat het totaal op 17 brengt en dat brengt de gokkans op 24,3%, wat te ver boven 5% ligt. Als de vrouw de 4 koppen juist aanwijst, is echter nog niet bewezen dat ze paranormaal begaafd is: 'De nulhypothese wordt nooit bewezen of gestaafd, maar wordt mogelijkerwijze weerlegd, in de loop van de proefneming. Men kan stellen dat elke proef er slechts is om de feiten een kans te geven de nulhypothese te weerleggen'. Fisher past de kansrekening nog op een andere manier toe in zijn beschouwing over proeven. Men kan de 8 koppen thee namelijk in een willekeurige volgorde bereiden en aan de vrouw geven. Dat heet 'toevallig verdelen' of, met een vernederlandst Engels woord, 'randomiseren'. Fisher noemt dit het 'enige punt in de experimentele procedure waarin de kanswetten [...] uitdrukkelijk geïntroduceerd zijn'.[58]
Het andere punt van Fisher waar we bij stilstaan, is zijn wiskundige behandeling van het inductieve aspect van de inductieve statistiek. Onder inductie verstaat hij 'betekenis geven aan cijfers' of, juister, 'van het bijzondere naar het algemene besluiten of, zoals we vaker in de statistiek zeggen, van de steekproef naar de populatie'. Wat daarbij 'wiskundig bewijs' behoeft, is dat de grenswaarde van 1/(nV) (n = aantal waarnemingen; V = s^2 = variantie) kleiner dan of gelijk is aan een zekere hoeveelheid i. Met een aantal aannames, leidt hij af dat inderdaad 1 < of = niV. Voor bepaalde methodes kan hij laten zien dat 1=niV. Met ni=I geldt dan dus 1=IV of I=1/V. Hij stelt erover: 'Het bewijs laat in feite zien dat waar i eindig is, er werkelijk I en niet minder informatieëenheden zijn, die uit de gegevens kunnen worden geëxtraheerd als we de geëxtraheerde informatie gelijk stellen aan [1/V]' en 'De hoeveelheid informatie is dus meetbaar op een schaal die omgekeerd is [...] aan het kwadraat van de [standaarddeviatie]'. Voor die methodes geldt dus: hoe kleiner de standaarddeviatie s, hoe kleiner V en hoe groter de hoeveelheid informatie uit een experiment met onder meer nulhypothese en toevallig verdelen. In 1960 ziet Fisher in deze manier van wetenschappelijk denken dan ook een mogelijkheid om het menselijke denken te verfijnen, zoals in de titel van een artikel uit dat jaar besloten ligt.[59]
Tot slot volgen hier 3 voorbeelden van het woord 'statistiek' in de zin van 'inductieve' of 'inferentiële statistiek', naast de 2 aan het begin van deze paragraaf.
a. Pearson: 'Één van de meest voorkomende taken van de statisticus [...] is een reeks waarnemingen of metingen weer te geven door een beknopte en geschikte formule. Zo'n formule [...] mag ons in staat stellen door een paar goed gekozen constantes een brede schaal aan experimentele of observationele gegevens weer te geven'. b. Yule over zijn regressieanalyse van 1899: 'De voornaamste onderzoeksmoeilijkheid ligt in het gebrek aan statistische maten voor veranderingen in afzonderlijke eenheden; ik zou heel blij zijn met elke suggestie in deze categorie'. c. Een artikel van Fisher heet 'Statistical methods and scientific induction' en een boek Statistical methods and scientific inference.
[60]

A.VI. Stochastische natuurkunde
Als de Duitser Clausius (1822-1888) over gasmoleculen in een gesloten vat in 1857 schrijft 'Volgens de waarschijnlijkheidswetten mogen we aannemen dat er net zo veel moleculen zijn waarvan de hoeken van weerkaatsing binnen een zeker interval vallen, bijvoorbeeld tussen 60° en 61°, als er moleculen zijn waarvan de hoeken van inval dezelfde grenzen hebben' en de Engelsman Maxwell (1831-1879) in 1860 'de snelheden zijn onder de deeltjes verdeeld volgens dezelfde wet als in de theorie van de "methode van de kleinste kwadraten" de meetfouten zijn verdeeld onder de waarnemingen', dan bedrijven ze natuurkunde over toevalsprocessen: statistische of, beter, stochastische natuurkunde.
[61]
Terwijl Clausius en Maxwell zich hoofdzakelijk toeleggen op de kinetische gastheorie, bestrijkt de stochastische natuurkunde in 2005 onder meer ook de Brownse beweging, delen van de kwantummechanica en de stochastische signaaltheorie. De opening is van de Duitser Krönig (1822-1879). In 1856 oppert hij de gedachte dat gasmoleculen in plaats van, zoals men dan aanneemt, elk rond een vast punt te trillen, met constante snelheid rechtlijnig bewegen totdat ze botsen op een ander gasmolecuul of op de wand van het vat. Clausius, die deze gedachte al vóór 1850 heeft, werkt Krönigs gedachte op kanstheoretische basis uit. Dat kan vooral dankzij Avogadro's moleculaire hypothese van 1811. Immers, kansen moeten aan concrete kansdragers toegekend kunnen worden en moleculen lenen zich daar goed voor. Aldus leidt hij in 1857 uit zijn theorie enkele reeds vele jaren gevestigde natuurkundige wetten af, zoals de wet van Boyle van 1662, volgens welke bij een constante temperatuur T het product van druk p en volume V van een gas constant is: pV = C. Ook berekent hij dat zuurstofmoleculen bij 0°C een snelheid van 461 m/sec hebben. In 1858 vindt Clausius voor de gemiddelde weglengte de formule L = 3/(4n{pi}s^2) met n = aantal moleculen per volumeëenheid en s = diameter van een molecuul dat hij bolvormig veronderstelt. Die weglengte berekent hij voor 1 bewegend molecuul onder de aanname dat de 'overige moleculen in rust blijven'.
[62]
Maxwell vindt Clausius' aanname dat alle moleculen op 1 na in rust zijn, niet realistisch en vindt een manier om alle moleculen als bewegend in zijn beschouwing op te nemen. Daartoe maakt hij over de moleculen als collectief een aantal aannames, met name omtrent de verdeling van hun snelheden. Zo vindt hij dat per volumeëenheid het aantal moleculen met snelheid v = n(v) = n(c/2{pi})^(3/2).exp(-½cv^2), waarin c bij constante temperatuur een constante >0 is. Afgezien van de coëfficiënten heeft deze formule inderdaad dezelfde vorm als die voor de verdelingsfunctie van meetfouten: (1/V(2{pi}))exp(-½x2).
[63]
Tot slot volgen 6 voorbeelden van het gebruik van de term 'statistisch' in de zin van 'stochastisch'.
a. Maxwell spreekt in zijn boek Theory of heat van 1870 onder meer van de 'statistische methode om het gemiddelde aantal van groepen moleculen die volgens hun snelheden zijn geselecteerd, te beschouwen' en van de 'essentieel statistische aard' van kennis die aldus is verkregen. b. Merz schrijft: 'Het is nu bekend dat de schijnbaar continue druk van gassen in werkelijkheid het hevige bombardement van de randen van het omvattende vat is door hun moleculen. [...] Bekeken vanuit dit standpunt is onze kennis van natuurlijke objecten slechts statistisch: ze handelt over aggregaten'. c. De Amerikaan Shannon (1916-2001) betrekt in zijn communicatietheorie de 'statistische struktuur van de oorspronkelijke boodschap'. d. De Duitser Born (1882-1970) behandelt in zijn verhandeling 'Einstein's statistical theories' ten minste 8 statistische onderzoekingen van Einstein. e. In 1962 start het tijdschrift Studies in statistical mechanics - het laatste mij bekende nummer is van 1987. f. De titel van Sheynins artikel over de geschiedenis van de stochastische natuurkunde luidt: 'On the history of the statistical method in physics'.
[64]

B. Statistiek en wetenschap
Als aan het begin van deel A gesteld, de schets aldaar vertoont zonder meer historische en inhoudelijke lacunes en waarschijnlijk ook wel passages die verbeterd zullen dienen te worden. Hij is echter voldoende voor het doel van dit artikel: het doorlichten van de wetenschappelijke status van de 6 beschreven vormen van statistiek. Leiden ze alle 6 tot vermeerdering en/of verbetering van geldige, betrouwbare en toepasbare kennis of zijn ze althans een toepassing van zulke kennis?
Om die vraag te kunnen beantwoorden moeten we over criteria beschikken, die zelf getoetst zijn en houdbaar zijn bevonden. Die zijn er en ze vloeien voort uit de onderzoekscyclus die verklarend beschrijft hoe geldige, betrouwbare en toepasbare kennis (voortaan kortweg 'kennis') ontstaat. We schetsen eerst de 3 stappen van de onderzoekscyclus en laten daar 3 verbijzonderingen op volgen. Daarna passen we het gevondene toe in B.I-VI op de 6 vormen van statistiek van deel A.
Vanwege het cyclische karakter van de onderzoekscyclus moeten we er voor zijn uiteenzetting in snijden. We doen dat op de plaats waarop de kenner/kenster of onderzoek(st)er (voortaan: 'kenner') al kennis meent te beschikken over een bepaald kenveld (getallen, Italiaans, kleuren, massa's). De eerste stap van de onderzoekscyclus is dan dat hij op dat kenveld een waarneming doet, die niet binnen zijn kennisbestand past. Dat is de verrassing. Het verbaast hem bijvoorbeeld dat er op zekere dag meer geld uit zijn portemonnee gegaan lijkt te zijn dan de som van zijn winkelbonnen. De volgende stap is dat hij die verrassing tracht te verklaren: de verklaringspoging. Hij vraagt zich eerst af of hij een bon is vergeten. Hij laat de hele dag de revue passeren aan de hand van de bonnen: nee, geen bon vergeten. 'Ik zal wel een optelfout gemaakt hebben', flitst het door zijn hoofd. Hij telt de bedragen van de bonnen opnieuw op. De som is hetzelfde als wat er uit zijn portemonnee is gegaan. De derde stap heet verankering: het vermoeden 'ik heb een bon over het hoofd gezien' blijkt verworpen te moeten worden maar 'ik heb verkeerd opgeteld' blijkt houdbaar. Ten opzichte van de verankerde achtergrondgedachtes 'ik heb vandaag zoveel uitgegeven' en 'ik heb zoveel in mijn portemonnee' doet zich vroeg of laat weer een verrassing voor; op haar beurt vergt die ook weer een verklaringspoging, die ook weer een verankering behoeft; enzovoort; enzovoort. Dit maakt de onderzoekscyclus inderdaad tot een cyclus.
De onderzoekscyclus geldt voor vele kenvelden. Hier volgen er 2. Een kind dat in een Italiaanstalige omgeving opgroeit, leert vanaf ongeveer 26 maanden dat het meervoud van 'il bambino' 'i bambini' is, van 'l'olivo' 'gli olivi', enzovoort. Dat zal al spoedig zijn 'verankerde achtergrond' zijn. Dan is het echter verrassend dat het meervoud van 'l'osso' niet altijd 'gli ossi' is, maar vaak 'le ossa'. Het kan daar allerlei vermoedens voor krijgen. Die moet het allemaal verwerpen op die ene na, namelijk dat 'le ossa' op bij elkaar horende botten slaat, bijvoorbeeld van 1 levende kip, en 'gli ossi' niet, bijvoorbeeld voor de botten die overblijven na het eten van kip. Het tweede voorbeeld is dat het iemand verwondert dat zijn buurman niet ziet of de kersen rood zijn of niet. Pas vanaf 1776 heeft men hier hypotheses over opgeworpen, waarvan 'kleureblindheid' houdbaar is gebleken.
[65]
Om de onderzoekscyclus geheel met vrucht toe te kunnen passen op de 6 soorten statistiek moeten we nog 3 opmerkingen maken, die het voorafgaande verbijzonderen. De eerste opmerking is dat verankerde kennis toegepast kan worden. Menig Italiaanstalige kind zal bij de karren van 1 boerderij in plaats van 'i carri' 'le carra' zeggen. Dat 'le carra' alleen in sommige dialekten goed is en niet in het officiële Italiaans, verandert daar niets aan. In epistemologisch opzicht is het voor zo'n kind echter wel een verrassing van de tweede orde als zijn omgeving tegen die karren niet 'le carra' zegt.
De tweede opmerking expliciteert slechts wat we al doen: we dienen het kind in onze beschouwing te betrekken. Ook voor hem geldt de onderzoekscyclus zoals we bij het meervoud van 'il/l'...o' hebben gezien. Vooral in B.I zal blijken dat we in verband met het toepassen van getallen bij het kind moeten aansluiten.
In de derde plaats is er het onderwerp 'wijken van het verklaren'. Bijvoorbeeld, het kind dat 'le ossa' en dergelijke adekwaat begrijpt en gebruikt, kan zich afvragen waarom het Italiaans een klasse woorden heeft, waarin de uitgang -a, die in het algemeen gereserveerd is voor vrouwelijk enkelvoud ('pizza'), ook voor het meervoud gebruikt wordt en/of waarom het mannelijke 'l'osso' in die gevallen van geslacht verandert tot het vrouwelijke 'le ossa'. Ook in de geschiedenis van de Italianistiek heeft men zich die vragen gesteld. Ze zijn in 1972 door de Kroaat Tekavčić op houdbare wijze beantwoord. Ook bij kleureblindheid komt het wijken van het verklaren tot uiting. Immers, ook als men weet dat en hoe allerlei kleureblinden kleuren verwisselen, kan men zich nog altijd afvragen hoe kleureblindheid, net als het ongestoorde kleurezien, fysiologisch verklaard dient te worden.
[66]
Na de uitleg van de onderzoekscyclus en deze 3 opmerkingen gaan we over op het doorlichten vanuit de onderzoekscyclus van de 6 in deel A besproken soorten statistiek. We zullen zien dat 5 ervan tot kennis leiden en/of erop gebaseerd zijn en één, de inductieve statistiek van A.V, niet. Net als in deel A is ook in deel B zelfs niet naar uitputtendheid gestreefd, laat staan dat die gehaald zou zijn. Voor de basisgedachte - dat de statistiek in al haar vormen, op de inductieve statistiek na, wetenschappelijk in orde is - is die uitputtendheid ook geen voorwaarde. B.I hoort bij A.I, B.II bij A.II, enzovoort.  

B .I. Getallen en kennis
In het kader van het onderwerp 'beschrijvende statistiek en kennis' staan we stil bij getalsmatigheid, Graunt, Nightingale en Durkheim.
Dat getalsmatige beschrijvende statistiek op kennis berust, blijkt uit het feit dat tellen en het beheersen van de positieve gehele getallen volgens de onderzoekscyclus ontstaan. Vanaf de fase van de tweezijdige kwartaire circuits (1;10-2;2) kent het kind enkele gehele getallen. Het telt bijvoorbeeld '1, 2, 4, 6, 4, 3, 6' als het 7 knikkers één voor één verplaatst. In de fase van de pre-operationele intelligentie (rond 5, 6 jaar) leert het adekwaat tellen, bijvoorbeeld tot 50. Het heeft dan echter geen besef van wat een geheel getal is. Weliswaar oordeelt het dat 10 bloemen en 10 stuivers die in 2 evenwijdige rijen één-op-één liggen, evenveel zijn, maar als de 10 bloemen vervolgens uit elkaar worden geschoven en de 10 stuivers naar elkaar toe, meent het dat er meer bloemen zijn dan stuivers. Als daarna de bloemen naar elkaar toe worden geschoven en de stuivers uit elkaar, meent het dat er meer stuivers zijn. Bij Pit van 6;11 doet zich een overgang voor en daarin wordt hij verrast en werpt hij een nieuwe verklaringspoging op. Pit heeft 10 bloemen in zijn handen, terwijl de 10 stuivers in een rij op tafel liggen; Szeminska: 'Zijn er evenveel bloemen als stuivers?'; Pit legt de bloemen één-op-één naast de stuivers; Pit: 'Ja, er zijn veel bloemen, zoals er veel stuivers zijn'; Szeminska schuift de stuivers uit elkaar, legt de bloemen op een hoop en vraagt: 'Is het evenveel?'; Pit: 'Nee, hier (stuivers) is het meer'; Szeminska: 'En nu (bloemen uit elkaar; stuivers op een hoop)?'; Pit: 'Niet evenveel. Er zijn veel bloemen', legt ze weer één-op-één en roept: 'Ah! Ja, het is evenveel'. Kortom, terwijl Pits eerste verankerde achtergrond is dat 'meer' en 'minder' met ruimtelijke ordening van doen hebben en meent dat er meer bloemen zijn dan stuivers, wordt hij erdoor verrast dat hij een één-op-één-correspondentie kan maken. Hij werpt hier een nieuwe verklaringspoging voor op: er zijn evenveel bloemen als stuivers, ongeacht hun onderlinge ligging. Wanneer dit inzicht zich bij Pit heeft gestabiliseerd (wat enkele maanden kan duren), kan hij getalsmatige beschrijvende statistiek bedrijven, bijvoorbeeld door te turven hoeveel auto's met een Nederlands, Duits en Belgisch nummerbord op een middag ergens voorbijrijden. Omgekeerd, iedere volwassene die getalsmatige beschrijvende statistiek bedrijft, past zijn eerste begrip van geheel getal van rond 7, 8 jaar toe op aantallen schepen, molens, borelingen enzovoort.
[67]
Dat Graunt volgens de onderzoekscyclus werkt, blijkt onder meer uit de 2 volgende voorbeelden. a. Graunt acht de opvatting van zijn tijd dat pestperiodes samenvallen met het aantreden van een nieuwe vorst, niet houdbaar: 'Zowel het jaar 1648, waarin de huidige koning zijn regeerrecht begon uit te oefenen, alsook het jaar 1660, waarin hij de uitoefening ervan opnieuw aanvatte [namelijk na de afschaffing van de monarchie in 1649], waren beide in hoge mate gezond'. b. In 1628-1662 zijn er in Londen meer mannen dan vrouwen begraven, maar de verklaringspoging voor dit verschil als 'verrassing', namelijk dat zaken doen en dergelijke vooral een mannenaangelegenheid is, dient volgens hem verworpen te worden, terwijl hij voor het feit dat er in diezelfde periode meer jongens worden geboren dan meisjes, geen verklaringspoging wil opwerpen: 'Er zijn van het jaar 1628 tot en met het jaar 1662 209.436 mannen begraven en slechts 190.474 vrouwen. Maar men zal tegenwerpen dat dat in Londen inderdaad zo kan zijn maar elders anders omdat Londen voor de zakenwereld één grote werkplaats en winkel is, waarin het mannelijke geslacht het grootste aandeel heeft. Maar wij antwoorden dat er in dezelfde tijd ook 139.782 jongens en maar 130.866 meisjes zijn gedoopt en dat de verslagen van buiten Londen in dit opzicht voldoende gelijkluidend zijn aan die van Londen. Wat de oorzaken hiervan zijn: we zullen er geen moeite voor doen om, zoals in andere gevallen, daarover vermoedens op te werpen'.
[68]
Een voorbeeld van Nightingales statistische werk als vorm van kennis is dat ze getalsmatige gegevens verzamelt om de houdbaarheid van bepaalde preventieve maatregelen aan te tonen. Zo blijkt in februari 1855 het sterftecijfer in het militaire ziekehuis in Scutari (het huidige Üsküdar bij Istanboel) 42,7% van alle gevallen te zijn. Ze tracht deze verrassing te verklaren met 'tekort aan hygiënische maatregelen'. Ze zorgt ervoor dat er met heet in plaats van koud water wordt gewassen, richt extra keukens in, enzovoort. Drie maanden later is het sterftecijfer gedaald tot 2,2%! De maatregelen werken kennelijk. Oftewel, haar verklaringspoging blijkt in een verankeringsproces houdbaar te zijn.
[69]
Als geschreven in de opening ziet Glas in de Fransman Durkheim (1858-1917) degene die 'de grondslag legde voor een heel bouwwerk van statistische methoden voor het analyseren van causale netwerken'. Dat is in 2 opzichten juist. Ten eerste, Durkheim gebruikt in zijn zelfmoordstudie gegevens uit de beschrijvende statistiek. Zie vooral zijn taltijke tabellen. Zo heet tabel I 'Stabiliteit van zelfmoord in de voornaamste Europese landen (absolute cijfers)' met daarin zelfmoordcijfers voor 6 Europese landen. Zijn terminologie sluit hierbij aan; zie 'de statistieken voor één en dezelfde samenleving zijn bijna invariabel', 'deze statistische gegevens drukken de zelfmoordneiging uit, waardoor elke samenleving collectief wordt getroffen' en 'Pruisische statistieken hebben over dit onderwerp meer omvangrijke gegevens verzameld'. Ten tweede, Durkheim analyseert 'causale netwerken' in de zin van de onderzoekscyclus: hij werpt voor 'verrassingen' in zijn statistische tabellen 'verklaringspogingen' op, die hij met andere, statistische maar ook weerkundige en dergelijke gegevens verankert. Bijvoorbeeld (onze epistemologische duiding volgt steeds na het streepje), 'Vooropgesteld dat niet een te lange periode wordt beschouwd, zijn de statistieken voor één en dezelfde samenleving bijna invariabel' - die constantie is een 'verrassing'; '[Die invariabiliteit] is er omdat de omgevingsomstandigheden die het leven van volkeren begeleiden, van jaar tot jaar relatief onveranderd blijven' - onveranderde omstandigheden als 'verklaringspoging' die hij niet uitdrukkelijk verankert, waarschijnlijk omdat het de recente geschiedenis betreft (1841-1872) en hij impliciet aanneemt dat zijn lezers die relatieve constantie herkennen; 'Weliswaar komen meer aanzienlijke variaties nu en dan voor, maar ze zijn vrij uitzonderlijk' - aanzienlijke variaties als 'tweede-orde-verrassingen'; 'Één of andere voorbijgaande crisis die de maatschappelijke toestand beïnvloedt' - 'verklaringspoging' voor die tweede-orde-verrassingen; 'Aldus deed zich in 1848 een abrupte daling voor in alle Europese staten' - 'verankering' van die verklaringspoging met het revolutiejaar 1848. Durkheim werkt dus met gegevens van de beschrijvende statistiek volgens de onderzoekscyclus en brengt zo sociologische kennis tot stand. Hij werkt dus niet volgens de methodes van de inductieve statistiek van A.V zoals Glas suggereert: voor het 'bouwwerk van statistische methoden' zou Durkheim de grondslag hebben gelegd.
[70]
Kortom, in de beschrijvende statistiek werkt men volgens de onderzoekscyclus en dus met kennis. Zie het tellen en Graunts, Nightingales en Durkheims werk.

B.II. Kansrekening en verklaren
Ook de kansrekening berust op de 3 stappen van de onderzoekscyclus en is dus een vorm van kennis.
Dat de Romeinen de Venusworp met de godin Venus in verband brengen, is een vorm van verklaren die als artificialistisch is te kwalificeren. Dat wil zeggen, in de fase van de tweezijdige kwinaire circuits (2;7-3;0) ontstaat het vermogen om verrassingen te verklaren met een levend wezen dat men niet ziet. In Cicero's uitspraak 'We zijn toch niet zo dwaas om te zeggen dat [het 2 of 3 keer achter elkaar gooien van de Venusworp] door een stoot van Venus gebeurt en niet door het toeval?' verwerpt hij de verklaringspoging met Venus en aanvaardt hij de beschrijvende met het toeval.
[71]
Galilei's opening van zijn verhandeling over 3 dobbelstenen maakt meteen duidelijk dat de kansrekening verklarend is: 'Dat in het spelen met dobbelstenen sommige uitkomsten vaker voorkomen dan andere, heeft zijn heel duidelijke reden. Die is dat de eerstgenoemde gemakkelijker en veelvuldiger boven kunnen komen dan de laatstgenoemde. En dat hangt af van het vermogen om met een verscheidenheid aan getallen gevormd te worden. Vandaar dat 3 en 18, als uitkomsten die slechts op 1 manier met 3 getallen samengesteld kunnen worden [...], moeilijker te werpen zijn dan bijvoorbeeld 6 of 7 welke op meer manieren samengesteld kunnen worden (dat wil zeggen, 6 met 1,2,3, 2,2,2 en 1,1,4 en 7 met 1,1,5, 1,2,4, 1,3,3 en 2,2,3)'. Als Galilei dit schrijft, weet hij uiteraard al dat die verklaringspoging houdbaar is, maar kennelijk is dat voor hem niet het hele verhaal want een verrassing van de tweede orde doet zich voor als men zich realiseert dat 3 en 4 slechts op 1 manier gevormd kunnen worden - met 1,1,1 respectievelijk 1,1,2 - terwijl 4 toch vaker gegooid wordt dan 3. Galilei betoogt dit meteen na '[...] 1,3,3 en 2,2,3)', niet voor 3 en 4 maar voor 9 en 10 (en, vanwege de symmetrie, voor 12 en 11): 'Nochtans, ofschoon 9 en 12 op evenveel manieren zijn samen te stellen als 10 en 11, om hetgeen ze van gelijk nut geacht zouden moeten worden, ziet men niettemin dat de langdurige waarneming gemaakt heeft dat 10 en 11 door de spelers gunstiger worden geacht dan 9 en 12'. Hij licht dit nader toe: 'Het is duidelijk dat 9 en 10 [...] met gelijke verscheidenheden aan getallen te vormen zijn', namelijk elk met 6 drietallen: 1,2,6, 1,3,5, 1,4,4, 2,2,5, 2,3,4 en 3,3,3 respectievelijk 1,3,6, 1,4,5, 2,2,6, 2,3,5, 2,4,4 en 3,3,4. Zijn verklaringspoging luidt dat 9 op 25 manieren te vormen is en 10 op 27 en hij bekijkt daartoe per drietal hoeveel combinatiewijzen ('permutaties') er zijn. De lezer kan dit voor zichzelf gemakkelijk nagaan. Hij doet dit ook voor de uitkomsten 3-8 en 11-18 en vindt dat er in totaal 216 uitkomsten zijn, evenveel als het aantal worpen: 6x6x6 = 216. Hij acht zijn redenering dus sluitend en, gezien de logische tussenstappen, houdbaar.
Ook Bernoulli wil met zijn stelling iets verklaren. Dat blijkt duidelijk als we zijn benadering vergelijken met die van de Engelsman Arbuthnot (1629-1710) die in een artikel een verklaring tracht te geven voor de vrijwel constante verhouding mannelijke en vrouwelijke borelingen. De titel luidt: 'Een argument voor de goddelijke voorzienigheid, ontleend aan de constante regelmaat die wordt waargenomen in de geboortes van beide geslachten'. Hij drukt zijn verrassing en verklaringspoging uit in termen van die laatste: 'Tussen ontelbare voetsporen van de goddelijke voorzienigheid die er in de werken van de natuur te vinden zijn, is er een heel opmerkelijke waar te nemen in het exacte evenwicht dat wordt gehandhaafd tussen de aantallen mannen en vrouwen. [...] Deze gelijkheid van mannen en vrouwen is niet het gevolg van toeval maar van goddelijke voorzienigheid'. En Bernoulli tracht zakelijk te verklaren dat men met een bepaalde zekerheidsgraad mag aannemen dat de steentjes in een urn, waarvan men slechts weet dat er alleen witte en zwarte steentjes in zitten, in de verhouding 3÷2 wit en zwart zijn, als men er 3.000 witte en 2.000 zwarte uit heeft getrokken: 'Het feit dat iemand 3.000 witte en 2.000 zwarte steentjes uit die urn heeft getrokken, mag hij met zekerheid Z toeschrijven aan het feit dat het aantal witte staat tot het aantal zwarte steentjes in die urn 3 staat tot 2 is'. Zowel de trekker van die steentjes als Bernoulli werken hier dus verklarend.
[72]
Voorzover de kansrekening over dobbelstenen handelt, doet ze dat over eerlijke dobbelstenen. In 1774 besteedt Laplace echter ook aandacht aan valse: 'Vaak zal een dobbelsteen die een perfecte kubus lijkt te zijn, een goed merkbare ongelijke neiging vertonen naar zijn verschillende vlakken, zodat in een groot aantal worpen het ene vlak veelvuldiger boven zal komen dan het andere. Dit kan toe te schrijven zijn aan de heterogeniteit van het materiaal waar de dobbelsteen van is gemaakt, of aan een gebrek in de perfect kubusvormige gedaante'. Vervolgens leidt hij af hoe groot de kansen (1+p(i))/6 (p(i) ongelijk aan 0 en i=1,...,6) zijn dat de vlakken van een oneerlijke dobbelsteen boven komen. Inderdaad is de verhouding 1÷1÷1÷1÷1÷1 de verankerde achtergrond bij dobbelstenen, terwijl empirisch gevonden afwijkingen daarvan te verklaren verrassingen zijn.
[73]
Conclusie: de kansrekening is verklarend, toetsend en dus wetenschappelijk.

B.III. Verzekeringswiskunde als wetenschap
Omdat de verzekeringswiskunde goeddeels een synthese is van de beschrijvende statistiek van A.I en de kansrekening van A.II geldt dat ook zij een vorm van kennis is. In aanvulling op B.I en B.II volgen nu 2 voorbeelden van haar wetenschappelijkheid.
We beginnen met de briefwisseling tussen De Witts tante en De Witt zelf. Zij twijfelt tussen de 2 haar geboden alternatieven. Vóór de verklaringspoging '800 gulden per jaar is voordeliger dan 6.000 gulden ineens' pleit dat ze (als vrouw?) wel eens de leeftijd van haar beide grootmoeders zou kunnen bereiken en vóór de andere verklaringspoging dat haar ouders niet veel ouder zijn geworden dan haar huidige leeftijd van 53 jaar. Haar tantezegger volgt haar tweede verklaringspoging maar om andere redenen. Iemand zal als eerste hebben opgemerkt dat die redenering niet klopt (wellicht hijzelf, maar daar ken ik geen bewijsplaats voor) en dat staat dan voor 'De Witts verklaringspoging is niet houdbaar'.
Tegen het eind van A.III hebben we gezien dat er in 1671 nog veel ontbreekt aan de wetenschappelijke basis van de verzekeringsleer. De Engelsman Halley (1656-1742), van de bekende komeet, geeft een vervolg op Graunts sterftetafel van 1622. Daarin en in een vergelijkbare tafel voor Dublin stelt hij 3 verrassingen vast: 'Ten eerste, omdat het aantal van de bevolking ontbrak. Ten tweede, omdat de leeftijden van de stervenden niet verkregen kon worden. En ten laatste, omdat zowel Londen als Dublin vanwege de grote en toevallige toestroom van vreemdelingen die daarin sterven (zoals in beide bleek, door het grote surplus van begrafenissen boven geboortes) hen ongeschikt maakte om voor dit doel als standaarden te fungeren'. Dit 'ten laatste' bevat een voorbeeld van de onderzoekscyclus: 'meer begrafenissen dan geboortes' is een verrassing die Halley verklaart met 'toestroom van vreemdelingen'. Verder had Halley een vierde verrassing kunnen noemen, namelijk het feit dat eerdere tafels sterftekansen voor opeenvolgende jaren constant houden en trapsgewijs in plaats geleidelijk oplopen. Halley's impliciete alternatief daarvoor is dat hij sterftekansen per jaar uitrekent en, daar de Breslause tafels die hij gebruikt, onregelmatigheden vertonen, ze effent tot een continu toenemende verloop. Hij vergelijkt zijn eigen tafel met andere: 'Op basis van deze overwegingen heb ik de bijgevoegde tafel gevormd [...] die een juister beeld geeft van de staat en de conditie van de mensheid dan wat ook maar dat voorhanden is, waar ik weet van heb'. Voor zijn derde verrassing geeft Halley meteen zijn verklaringspoging: '[Een standaard] vereist dat, als het mogelijk zou zijn, de mensen waar we het over hebben, zouden [...] sterven waar ze zijn geboren, zonder enige bijkomende toename vanuit het buitenland of afname door verhuizing naar elders. Aan die voorwaarde voldoen de tafels van Breslau voor de periode 1687-1691. Zijn verklaring(spoging) daarvoor is dat Breslau ver van enige zee ligt, 'waardoor de toestroom van vreemdelingen slechts klein is'. Vanuit 2005 terugkijkend moeten zich ten minste 2 hogere-orde-verrassingen hebben voorgedaan ten opzichte van Halley's sterftetafel: Halley neemt aan dat de bevolking over een lange periode stationair is (globaal genomen is de wereldbevolking in de afgelopen eeuwen fors gegroeid) en acht zijn tafel ‘universeel’ (in 1700 heeft een 40-jarige Londenaar stellig een kleinere sterftekans dan een 40-jarige Russische boer).
[74]
De verzekeringswiskunde past dus kennis toe dan wel brengt kennis voort, zowel in het afwegen van 2 of meer uitkeringsvoorstellen als in het bepalen van sterftekansen per jaar. Ze is dan ook ten volle wetenschappelijk.

B.IV. Kennisverwerving en meetfouten
Ook de meetfouttheorie heeft alles met kennisverwerving van doen. Haar 'oerverrassing' is dat er een discrepantie is tussen theorie en waarnemingen. Er zijn 2 basale varianten. In de ene is het theoretische uitgangspunt dat bijvoorbeeld een ster per ogenblik 1 'ware' positie inneemt, terwijl 10 waarnemingen doorgaans 10 verschillende posities opleveren. In de andere basisvariant is de theoretische gedachte dat bijvoorbeeld een planeet maar 1 baan kan doorlopen, terwijl 10 waarnemingsreeksen doorgaans 10 verschillende banen opleveren. Voor de verrassing bij de ster is de ene verklaringspoging dat ze een betrekkelijk snelle beweging uitvoert en de andere dat ze niet merkbaar beweegt maar dat de waarnemingen onvolmaakt zijn. In het geval van de planeet is de ene verklaringspoging dat hij min of meer om een ellips heen hobbelt, en de andere dat hij een ellips volgt maar dat de waarnemingsreeksen niet volkomen zijn. Het oudste mij bekende voorbeeld hiervan ben ik bij de Griekse sterrekundige Ptolemaios (±85-±165 n.C) tegengekomen over de Griekse sterrekundige Hipparchos (±190-±120 v.C.). Deze stelt vast dat verschillende waarnemingen van de lengte van het zonnejaar (dat is de periode tussen bijvoorbeeld 2 opeenvolgende lentepunten - dus als er in de overgang van winter naar lente tussen zonsopgang en -ondergang precies 12 uur zit) niet geheel met elkaar overeenstemmen. Hij stelt dat zijn waarnemingen niet zo'n opvallend gebrek aan overeenstemming hebben dat men 'omwille daarvan enige ongelijkheid in de lengte van het jaar zou moeten vaststellen'. Op grond van zijn waarnemingen verwerpt hij dus de verklaringspoging 'Het zonnejaar is van jaar tot jaar niet constant'. Hipparchos: 'Uit deze waarnemingen blijkt duidelijk dat het verschil tussen de jaarlengtes slechts heel klein is. Wat de zomer- en winterpunten [als de periode tussen zonsopgang en -ondergang maximaal respectievelijk minimaal is; EV] betreft kan ik me niet aan het bezwaar onttrekken dat we [...] zowel bij hun waarneming als ook bij de aan de waarneming verbonden berekening een fout maken die het vierde deel van een dag zou kunnen bedragen'. Hij verklaart de verschillen dus als reken- én meetfouten.
[75]
Boscovich stelt in 1755 vast dat zijn 5 gemeten meridiaanbogen (dit is een maat voor de afwijking van de exacte bolvorm van de aarde) zowel onderling als met Newtons theorie, die een aan de polen afgeplatte ellips voorspelt, verschillen: 'Zo is het duidelijk dat de bepaling van deze graden niet verzoend kan worden met de ellips van Newton noch met enige andere ellips die aan de polen meer of minder is afgeplat. Vijf willekeurig genomen graden moeten altijd dezelfde ellips geven, maar we hebben gezien hoe weinig overeenkomst er is tussen die welke we hebben gekozen. Hun verschillen zijn niet evenredig aan [wiskundige grootheid G]. Als ze dat wel zouden zijn, zou elke combinatie graden [...] dezelfde ellipsvorm geven'. Voor deze verrassing geeft hij in 1757 zijn verklaringspoging, in hedendaagse termen en notatie: 1. Voor elk van de 5 meetplaatsen levert Newtons theorie een vergelijking tussen de breedtegraad {thêta}i en een andere grootheid ai: ai = z + y(sin{thêta}i)^2 (i=1,...,5); hij voegt daar meetfout dai aan toe: ai + dai = z + y(sin{thêta}i)^2. 2. Negatieve en positieve meetfouten zijn even waarschijnlijk: {somteken}dai = 0. 3. De som van de absolute waarden van de meetfouten, {somteken}|dai|, is minimaal.
[76]
Met meetfouttheoretische overwegingen kan men ook een inhoudelijke verklaringspoging houdbaar dan wel onhoudbaar achten. Het beroemdste voorbeeld lijkt me te zijn dat de Duitser Kepler (1571-1630) de cirkelvormige baan van de planeet Mars verwerpt op grond van Brahes nauwkeurige waarnemingen: '[Uit Brahes] waarnemingen verraadt zich de afwijking van 8 boogminuten in Ptolemaios' berekening [in verband met de cirkelvorm. ...] We moeten ons ervoor inspannen om eindelijk de werkelijke vorm van de bewegingen aan de hemel op te sporen. [...] Alleen deze 8 boogminuten wijzen ons de weg naar de hervorming van de hele sterrekunde'. Kepler moet de cirkelvorm als verklaringspoging voor Brahes waarnemingen dus verwerpen, maar daarmee neemt hij een nieuwe taak op zich: welke vorm verklaart ze dan wel in overeenstemming met hun nauwkeurigheid? Hij schuift allerlei vormen als verklaringspoging naar voren, onder meer de ovaalvorm en de 'via buccosa' (die op 2 bolle wangen lijkt). Hij verwerpt ze eveneens om een te groot verschil ten opzichte van Brahes geringe meetfouten. Pas kort na Pasen 1605 trekt hij de ellipsvorm, die hij in een brief van december 1604 al opwerpt maar dan verwerpt, na. Kepler, in hoofdstuk 58: 'De cirkel van hoofdstuk 43 is te groot en de ellips van hoofdstuk 45 te klein. Beide afwijkingen zijn van dezelfde grootte. Tussen die cirkel en die ellips is de enige tussenvorm echter een andere ellips. Daarom is de baan van de planeet een ellips. [... In het volgende hoofdstuk] zal het bewijs geleverd worden dat voor de planeet geen andere baanvorm overblijft als een volkomen ellips, omdat de uit de natuurkundige beginselen afgeleide gronden zowel met de in dit hoofdstuk aangevoerde waarnemingsresultaten als met de alternatieve hypothese overeenstemmen'. In hoofdstuk 59 weegt hij 2 concrete ellipsen tegen elkaar af: '[In de ene ellips] week bij 45° de vereffende anomalie van de juiste waarde, die door de toets aan de waarnemingen was gevonden, plus 5½ boogminuten af en bij 135° ongeveer minus 4 boogminuten. [In een andere ellips] kwam de vereffende anomalie volkomen overeen met de alternatieve hypothese, dat wil zeggen met de waarnemingen'. In het 'premeetfouttheoretische tijdperk' moet Kepler dus via concreet gissen-en-missen niet alleen de houdbare vorm voor een planeetbaan vinden maar ook welke concrete ellips uiteindelijk de meest houdbare is.
[77]
We sluiten af met 3 voorbeelden van de onderzoekscyclus uit de geschiedenis van de meetfouttheorie zelf.
In B.II hebben we gezien dat Arbuthnot de vrijwel constante geslachtsverhouding metafysisch tracht te verklaren, met de goddelijke voorzienigheid. En in A.IV is te lezen dat Nikolaus Bernoulli die constante verhouding met de kansrekening verklaart, als de aantallen maar groot genoeg zijn. Deze en andere kanstheoretische verklaringspogingen zijn uiteraard anderssoortig dan biologische verklaringspogingen ervoor.
[78]
Simpson verdiept zich in meetfouten na zijn vaststelling dat er 2 verklaringspogingen zijn voor de verrassing dat de theoretische verwachting dat er empirisch 1 waarde wordt gevonden, niet wordt bewaarheid. Hij vraagt zich af of ze allebei even goed zijn: 'De methode die door sterrekundigen wordt aangewend in het verminderen van de meetfouten die voortkomen uit de onvolmaaktheden van instrumenten en van de waarnemingsorganen, door het nemen van het gemiddelde van verscheidene waarnemingen, is niet zo algemeen aanvaard, dat sommige personen met een aanzienlijke faam gemeend hebben en zelfs openlijk hebben beweerd dat 1 enkele waarneming die met gepaste zorg is gedaan, net zo betrouwbaar zou zijn als het gemiddelde van een groot aantal'. Door de eerste methode met de kansrekening te verbinden kan hij aantonen ('verankeren') dat die beter is dan de tweede.
[79]
In 1821 schetst Gauss dat en hoe Laplace in 1810 aantoont dat de methode van de kleinste kwadraten de doelmatigste methode is bij een oneindig groot aantal waarnemingen. Die stelling, houdbaar als ze is, bevat echter 2 verrassingen: 'Men ziet hieruit dat [mijn en Laplaces] motiveringen nog wat te wensen over laten. De eerste hangt geheel af van de hypothetische vorm voor de waarschijnlijkheid van de meetfouten en zodra men deze verwerpt zijn de waarden van de onbekende grootheden die men met de methode van de kleinste kwadraten heeft gevonden, werkelijk niet meer de waarschijnlijkste [...]. De tweede soort motivering laat ons geheel in het duister wat er bij een gering aantal waarnemingen te doen is. De methode van de kleinste kwadraten heeft dan niet meer de rang van een wet die door de kansrekening wordt geboden, maar is slechts aanbevelingswaardig door de eenvoud van de ermee verbonden [naar ik aanneem reken- en wiskundige; EV] operaties'. Voor beide verrassingen is Gauss' meetfouttheorie van 1823, waar hij in 1821 de grondtrekken van aangeeft, een verankerde, want bewezen, verklaringspoging. Dat is ze ook in Gauss' ogen: 'De methode van de kleinste kwadraten blijkt in haar nieuwe, hier gegeven motivering algemeen als de doelmatigste combinatie van waarnemingen te zijn, niet benaderingsgewijze maar volgens wiskundige scherpte; de functie voor de waarschijnlijkheid van de meetfouten mag zijn welke zij wil; het aantal waarnemingen mag groot of klein zijn'.
[80]
Kortom, de meetfouttheorie is in ten minste 3 opzichten kennisverwervend van aard: ze verklaart de discrepanties tussen theorie en waarnemingen; ze helpt bij het beslissen over het aannemen dan wel verwerpen van niet-meettheoretische verklaringspogingen; haar geschiedenis gaat volgens de onderzoekscyclus.

B.V. Statistische methode en inductie
Zoals al is aangekondigd in de inleiding van deel B: de inductieve statistiek beantwoordt niet aan de stappen van de onderzoekscyclus en is daarom geen vorm van kennisverwerving. Wat Jakob Bernoulli impliciet hoopte dat niet zou gebeuren (zie het begin van A.V) is sedert en door misschien wel de grootste kanstheoreticus uit de geschiedenis, Laplace, langzaam maar zeker van de grond gekomen om in 2005 de toenmalige 'morele' en dus de huidige gammawetenschappen te domineren. Niet ter discussie staan de formules waarvan men zich bedient, wel de veelal impliciet blijvende maar op cruciale momenten in de genese van de inductieve statistiek wel degelijk geëxpliciteerde gedachte in en achter die formules, namelijk dat kennis op inductieve wijze tot stand zou kunnen komen; in Fishers woorden: 'Ik heb mijn artikel "De logica van inductieve inferentie" genoemd. Het had net zo goed "Over het betekenis geven aan cijfers" kunnen heten'. Onder een inductief proces verstaat hij dan ook: 'van het bijzondere naar het algemene besluiten of, zoals we vaker in de statistiek zeggen, van de steekproef naar de populatie'. Welnu, inductie is een verklaringspoging voor het feit dat kennis tot stand komt, zowel bij het individu als in wetenschappelijke gemeenschappen. Een alternatieve verklaringspoging is abductie. Dat woord 'abductie' is een vertaling van de Amerikaan Peirce (1839-1914) voor het begrip 'apagoogè' van de Griek Aristoteles (384-322 v.C.) volgens wie kennis langs 4 wegen tot stand kan komen: inductie, abductie, deductie en analogieredenering. Peirce neemt alleen de eerste 3 aan. Voor ons is slechts het verschil tussen inductie en abductie (of 'retroductie') van belang. Abductie is het proces waarin men een verklaringspoging voor een verrassing in het kenveld met nieuwe feiten natrekt - de abductiegedachte vat de stappen 'verklaringspoging' en 'verankering' van de onderzoekscyclus dus samen. Welnu, een verklaringspoging voorspelt nieuwe feiten. Bij het uitkomen van die voorspelling staat de verklaringspoging sterker; bij niet uitkomen zwakker. Volgens de inductiegedachte van de inductieve statistiek (voortaan kortweg 'inductie(gedachte)') daarentegen dient men niet met verklaren te beginnen naar aanleiding van (volgens de abductiegedachte verrassende) feiten, maar dient men meer feiten te verzamelen, en wel van getalsmatige aard, in de hoop dat daar vroeg of laat iets algemeens, een verklaring bijvoorbeeld, uit zal voortkomen. Anders gezegd, volgens de abductiegedachte verleent de kenner een begripsmatige en inzichtelijke betekenis aan wat hij nog niet begrijpt (en trekt hij de adekwaatheid van die betekenisverlening na, altijd bereid haar te verwerpen en een andere betekenis te zoeken). Volgens de inductiegedachte daarentegen is de betekenis niet begripsmatig en inzichtelijk van aard, maar beperkt ze zich tot de vraag of een uitkomst statistisch significant is of niet. Bovendien mogen de getallen, waaraan deze beperkte betekenis verleend zou dienen te worden, zelf betekenisloos zijn. Dat ze doorgaans betekenisloos zijn, brengt Galtons gewone statistische schaal duidelijk tot uiting. Zijn metriek vloeit niet voort uit enige verklaringspoging voor enig cognitief verschijnsel en dus ook niet uit enig inzicht omtrent intelligentie, maar slechts uit het rekenkundige verdelen van het interval waarop de klokkromme geldt, in gelijke delen. Zeker, in de schalen van de hedendaagse inductieve statistiek is de koppeling aan de klokkromme losgelaten, maar gebleven is dat er geen inzicht aan een test of vragenlijst ten grondslag zou moeten liggen en dus ook niet ligt. Welnu, de verklaringspoging 'inductie' moet verworpen worden: bij kinderen, in het dagelijkse leven van volwassenen en in de wetenschapsgeschiedenis komt nergens inductie voor. Omgekeerd kan de verklaringspoging 'abductie' aanvaard worden: bij kinderen, in het dagelijkse leven van volwassenen en in de wetenschapsgeschiedenis komt abductie steeds voor; zie met name de inleiding van deel B, maar ook B.I-IV en B.VI.
[81]
Feitelijk is in de vorige alinea gezegd wat er gezegd moet worden: de inductieve statistiek steunt op een onhoudbare optiek op kennis en kennisverwerving: welke formules men ook hanteert, het menselijke brein verwerft kennis niet langs inductieve maar langs abductieve weg zodat die formules en de ermee uitgevoerde berekeningen betekenisloos en oneigenlijk zijn. We laten dit voor enkele punten uit A.V concreet zien.
Laplace berekent onder meer kansen in rechtszalen, maar een aanname als 'de waarschijnlijkheid van zijn getuigenis is 9/10' is op zijn best een verklaringspoging voor iemands geloofwaardigheid. Zo’n verklaringspoging is ook bij de stand van zaken in 2005 in het geheel onverankerd, maar zelfs als ze houdbaar zou zijn, dan nog kan iemands lieg- of waarheidsneiging veranderen. Verder is het onderwerp 'leugen-waarheid' veel ruimer dan het al dan niet liegen omtrent het feit of men het getal 79 uit een vaas met 1000 getallen heeft getrokken. En zelfs als iemand de waarheid spreekt, is er nog altijd de interpretatiekwestie: de ontvanger van een boodschap kan die anders interpreteren dan haar zender.
Quetelets y = a + b.sinx voor bepaalde geboortecijfers is op zijn best een ruwe benadering want ze klopt stellig niet. Dit zijn de gemiddeldes voor januari-december:
1,0403; 1,1570; 1,0991; 1,0790; 0,9893; 0,9559; 0,9012; 0,9033; 0,9401; 0,9492; 0,9679; 1,0175.
In zo'n strikt exacte contekst lijkt het me onjuist per maand te middelen daar niet alle maanden even lang duren. Verder heeft een sinus bij 12 getallen (ongelijk aan 0), 6 getallen groter dan 1 en 6 kleiner, maar bij deze getallen is het 5 respectievelijk 7. Quetelets exactheid verschilt dan ook hemelsbreed van die van de natuurwetenschappen waar getallen uit verklaringspogingen voortvloeien in plaats van vooropgezet te worden zoals in de inductieve statistiek. Zo is de uitspraak 'Dit is groen van 520 nanometer' gebaseerd op Youngs golftheorie die een verklaring(spoging) is onder meer voor interferentie. Zonder haar is die uitspraak volstrekt betekenisloos. Die 520 nanometer is immers de lengte van de lichtgolf van dat groen. Quetelets exactheid is daarom schijn. Dat blijkt ook uit de constanties die hij voor misdaadcijfers aanneemt. Bij de 8 categorieën die hij noemt voor de 3 jaren 1825-1827, kan men zowel het verschil tussen het maximum en het minimum als het percentage van dat verschil ten opzichte van het middelste getal uitrekenen. De percentages liggen tussen 2,9 en 26,1. Vooral zijn tweede drietal, 141.733, 159.740 en 171.146, maakt allerminst de indruk een constantheid te vertegenwoordigen. Het verschil tussen de extremen, 29.413, bedraagt 18,4% van de middelste waarde 159.740. Mede op grond van de wet van de grote getallen dient het vermoeden dat er in dat drietal iets constants aan de hand is, daarom verworpen te worden.
[82]
Gaan we over op een idee van Quetelet waar inductieve statistici in 2005 vrijwel dagelijks mee werken. Ik doel op de impliciete of expliciete aanname van de klokkromme in psychologische, maatschappelijke en politieke verschijnselen. Volgens Quetelet mag de klokkromme van de meetfouttheorie bij 1 object overgeplant worden naar metingen bij een groep objecten, bijvoorbeeld van 1 persoon wiens lichaamslengte men 8.192 keer meet, naar de lichaamslengtes van 8.192 personen die men elk 1 keer meet. Dit overplanten is echter volstrekt onterecht. Geen enkel collectief mensen heeft een typische lichaamslengte waar de lichaamslengtes van de afzonderlijke individuen afwijkingen van zouden zijn. In de meetfouttheorie is er een 'ware' of, juister, gecorrigeerde waarde waar de afzonderlijke waarnemingen inderdaad afwijkingen van zijn. De reden is dat de afzonderlijke metingen herhalingen van elkaar zijn. Elke afzonderlijke meting is een proefneming in verband met de lichaamslengte van persoon P. Zo weegt Simpson 2 situaties tegen elkaar af: 1 waarneming heel zorgvuldig doen of het gemiddelde nemen van verscheidene waarnemingen, uiteraard van 1 sterrekundige object. Laplace stelt in 1774: 'Bepaal het gemiddelde dat men zou dienen te nemen tussen 3 gegeven waarnemingen van hetzelfde verschijnsel'. En in 1809: 'Laten we nu veronderstellen dat eenzelfde element door [N] waarnemingen [van verschillende soorten] wordt gegeven'. En Bravais stelt al aan het begin: 'De bepaling van een plaats die wordt bezet door een punt in de ruimte'. Het gestelde geldt zelfs voor De Moivre, buiten de meetfouttheorie maar wel aan haar basis: 'Als een gebeurtenis zo afhankelijk is van het toeval terwijl de kansen van zijn al dan niet voorkomen gelijk zijn en een zeker gegeven aantal n proefnemingen wordt gedaan om waar te nemen hoe vaak het zich voordoet en hoe vaak niet'. Als hij daarna uitrekent dat de kans om bij 3.600 keer tossen tussen de 1.770 en 1.830 keer munt te gooien 68% is, dan heeft hij het duidelijk over het gooien met één en dezelfde munt. Kortom, voorzover de klokkromme bij het meten van 1 variabele een plausibele meetfouttheoretische aanname is (en dat is ze heel vaak), is er altijd de theoretische aanname dat er op elk ogenblik 1 gecorrigeerde waarde mee overeenkomt. Bij de lichaamslengtes van 2 of meer personen is er echter geen sprake van een herhaalde proefneming: persoon P1 is in biologisch opzicht de unieke uitkomst van de voorplanting tussen man M1 en vrouw V1, persoon P2 die van die tussen M2 en V2, enzovoort. Althans, in 2005 is dat zo. In Quetelets tijd en in Galtons tijd tot 1900, het jaar waarin Mendels binaire, ouderlijke (in plaats van voorouderlijke) erfelijkheidsleer wordt herontdekt, ligt dat anders. Dan geldt de mengerfelijkheidsoptiek, waar ook Darwins pangenesetheorie van uit gaat. In die optiek is het wellicht verdedigbaar om elke persoon op te vatten als de uitkomst van een herhaalde proefneming, namelijk voorzover men meent aan te kunnen nemen dat de erfelijkheidsdragers, zoals Darwins 'gemmulen', noch kwa individuele opbouw noch kwa groepssamenstelling veranderen in de loop van de generaties. Echter, sedert de binaire, ouderlijke erfelijkheidsgedachte een houdbare verklaringspoging is gebleken, is het overplanten van de klokkromme van de meetfouttheorie naar metingen van biologische en a fortiori psychologische grootheden onhoudbaar. Al in Quetelets tijd is er nog een reden om aan dat overplanten te twijfelen. Immers, bij de 100.000 lichaamslengtes ligt 50% van alle metingen tussen 1,571 en 1,669 meter. Het verschil tussen die 2 waarden bedraagt dus 0,098 meter. Dat is veel meer dan het totale meetfoutinterval van 0,014 meter in zijn meetfoutvoorbeeld. Daarin ligt 100% van de metingen tussen 1,693 en 1,707 meter - het verschil tussen de extremen bedraagt slechts 0,014 meter. Kortom, als men het bepalen van 100.000 lichaamslengtes al volgens de meetfouttheorie wil behandelen, dan moet men een kolossale meetfout aannemen, wat strijdig is met het totale meetfoutinterval van 0,014 meter. Met andere woorden, Quetelets inductief-statistische bijdragen zijn op het vlak van kennis geheel onhoudbaar.
[83]
Op grond van het voorafgaande kunnen we meteen besluiten dat Galtons verbinding van de klokkromme met de erfelijkheidsleer geheel onhoudbaar is. Daar komen 2 punten bij. a. Galton acht de klokkromme geldig voor intelligentie omdat de examencijfers van 73 kandidaten er voldoende mee overeen zouden komen. Die overeenkomst laat echter veel te wensen over, met name in het midden en aan de onderkant. Zie de tabel; de eerste kolom bevat het cijfertotaal van de kandidaten.

cijfertotaal aantal kandidaten klokkromme
6500 en meer 0 0
5800-6500 1 1
5100-5800 3 5
4400-5100 6 8
3700-4400 11 13
300-3700 22 16
2300-3000 22 16
1600-2300 8 13
totaal: 73 72

Over het feit dat er niemand is met een totaal lager dan 1100 punten merkt Galton op: 'De symmetrie van de dalende tak is ruw bedorven'. Zijn abductieve (en dus niet uit inductie voortgekomen! Galton is hier strijdig met zichzelf) verklaringspoging luidt dat degenen met een totaal minder dan 1100 punten 'óf het niet waagden mee te dingen óf men liet ze zakken'. Hoe hij dit meent te weten, vermeldt hij niet. De rest van de tabel luidt:

1100-1600 0 8
400-1100 0 5
400 en lager 0 1

Dus, met de 32 (= 16+16) kandidaten in het midden van de klokkromme komen 44 (= 22+22) kandidaten overeen en met de 14 (= 8+5+1) aan de onderkant 0. Of het intelligentienivo in de zin van toelatingsexamencijfers symmetrisch of zelfs volgens de klokkromme verdeeld is, acht ik daarom met Galtons gegevens niet aangetoond. Galton komt echter al in 1869 tot 'de onontkenbare en onverwachte conclusie dat uitzonderlijk begiftigde mensen net zoveel boven de middelmatigheid uitsteken als idioten eronder verlaagd zijn'. Die conclusie vloeit echter slechts voort uit de aanname van een klokkromme, maar aanname en dus ook conclusie worden niet door Galtons feiten gestaafd. b. Galton redeneert: Darwins pangenetische theorie is voorlopig, maar we kunnen haar, houdbaar of niet, toch dienstbaar maken voor erfelijkheidsonderzoek, onder meer door er wiskundige formules mee af te leiden: 'Als de pangenetische theorie klopt [...] brengt ze alle invloeden die op erfelijkheid betrekking hebben, in een vorm die geschikt is voor de macht van wiskundige analyse'. In 2005 echter zijn Darwins pangenetische theorie en Galtons en Pearsons voorouderlijke erfelijkheidsleer geheel achterhaald. Daarmee dienen allerlei formules die mede op basis daarvan zijn ontwikkeld, eveneens verworpen te worden en dus, tenzij nieuw onderzoek een nieuw licht op de zaak werpt, niet meer toegepast te worden. Immers, formules die uit een theorie voortvloeien, kan men niet meer zinvol aanwenden als die theorie verworpen blijkt te moeten worden. De gepresenteerde formules betekenen dus vooralsnog niets in biologisch of in psychologisch opzicht, aangezien hun oorspronkelijke betekenissen direct verbonden zijn aan Quetelets ongeoorloofde overplanting van de klokkromme en aan onhoudbaar gebleken erfelijkheidstheorieën. Hiermee is Galtons gewone statistische schaal dus geheel verworpen. Daar komt vanuit de abductiegedachte bij dat Galtons metriek ten onrechte niet uit een empirisch verankerde psychologische verklaringspoging voor enige cognitief-psychologisch verschijnsel voortvloeit, maar geheel vanuit de inductiegedachte is vooropgezet.[84]
Dan de correlatiecoëfficiënt. Ten eerste, Galton komt op de correlatiegedachte terwijl hij het begrip 'midouder' gebruikt. Dat is het gemiddelde van de vader en de gecorrigeerde moeder. Hij rekent dus met verschijnselen die toen net zo min als nu, in het licht van de binaire, ouderlijke erfelijkheidsleer, bestaan zoals spoken, eenhoorns, feniksen en andere fantasiewezens. Ten tweede, inductieve statistici stellen doorgaans dat Galton de ontdekker van het correlatiebegrip is; zie bijvoorbeeld 'Correlatiegedachte, aan Galton te danken'. Dat is stellig onjuist. De vader van het correlatiebegrip is de Fransman Cuvier (1769-1832). In 1826 formuleert hij 'correlatie van de vormen' als volgt: 'Elk georganiseerd wezen vormt een geheel, een uniek en gesloten systeem, waarvan de delen wederzijds met elkaar overeenkomen en samenwerken in dezelfde bepaalde actie door een wederkerige reactie. Geen enkele van deze delen kan veranderen zonder dat de andere ook veranderen; en dus geeft elk afzonderlijk deel alle andere aan'. Zo moet een vleesetend zoogdier geschikte klauwen en schouders hebben om zijn prooi te kunnen vangen en vasthouden, geschikte kaken om hem te verscheuren, geschikte maag en darmen om hem te verteren, enzovoort. Een graseter daarentegen kan hoeven, licht gebouwde schouders, enzovoort hebben. Voorts staat het correlatiebegrip in een verklarende contekst; Cuvier, in een brief van 17 november 1788 over het boomkruipertje en de specht, klimvogels met een harde respectievelijk zachte tong: 'De tong [van het boomkruipertje] is heel hard en stijf; toen ik hem geopend had, vond ik spoedig de reden voor dit verschil; de maag bevatte namelijk slechts [gepantserde insekten]; daar nu de vogel voor deze voeding was bestemd, dan zou hem de [zachte] tong waarmee de specht de larven van die insekten (die hij alleen moet opvreten) doorboord zijn en zou hem zo'n tong in het geheel niet gediend hebben tot het vangen van de hardere insekten'. Mede door de grote populariteit van Cuviers werk vond het begrip 'correlatie' snel ingang. Zoals we in A.IV hebben gezien bezigt Bravais het in zijn meetfouttheorie: 'Het naast elkaar bestaan van dezelfde variabelen [...] in de gelijktijdige vergelijkingen [...] brengt een zodanige correlatie met zich mee dat [...]'. Verder bezigt Darwin het geregeld in zijn boek On the origin of species van 1859, onder meer in de paragraaf Correlation of growth. Welnu, Galton kent het werk van zijn neef Darwin heel goed. De correlatiegedachte hebben we dus niet aan Galton te danken. Hij vertaalt die hooguit naar de inductieve statistiek. Ten derde, Pearson past in zijn correlatiecoëfficiënt Bravais' formule toe op variabelen en niet op meetfouten waar ze voor is bedoeld en strikt genomen slechts voor geldt. Weliswaar weet hij dat in 1896, maar kennelijk overziet hij dan niet wat hij doet, want in 1920 schrijft hij over zijn betoog van 1896: 'Nu spijt het me te moeten zeggen dat bijna alle bovenstaande beweringen hopeloos onjuist zijn'. Even daarvoor stelt hij al vast dat Gauss' meetfouttheorie 'bijna het omkeerde is van onze moderne opvattingen van correlatie [lees: correlatiecoëfficiënt; EV]': 'Voor hem zijn de waargenomen variabelen onafhankelijk, voor ons zijn de waargenomen variabelen geassocieerd of gecorreleerd. Voor hem zijn de niet-waargenomen variabelen gecorreleerd, dankzij hun bekende meetkundige relaties met waargenomen variabelen, voor ons mogen de onwaarneembare variabelen verondersteld worden ongecorreleerde oorzaken te zijn en verbonden te zijn door onbekende functionele relaties met de gecorreleerde variabelen'. Hij laat er meteen op volgen: 'Kortom, er is in Gauss' werk geen spoor van waargenomen natuurkundige variabelen die - afgezien van vergelijkingen [...] - organisch georganiseerd zijn, hetgeen de fundamentele opvatting van [de correlatiecoëfficiënt] is'. Inderdaad, afgezien van de formules zijn de meetfouttheorie en de correlatierekening van de inductieve statistiek elkaars omgekeerden: in epistemologisch opzicht is de laatste de inductieve variant van de eerste. Anders gezegd: Galton en Pearson hebben enkele elementen, waaronder formules, van de meetfouttheorie overgenomen, terwijl ze haar abductief kader hebben vervangen door een inductief. In de inductieve statistiek is de correlatiecoëfficiënt immers één van de inductieve instrumenten om kennis over erfelijkheid, intelligentie of wat voor kenveld ook maar te verkrijgen. Kort en goed: met behoud van de wiskundige formules keren ze abductie op onhoudbare wijze om naar inductie. Zeker, het menselijke brein verwerft kennis, maar alleen langs abductieve en dus psychologisch-construerende weg en niet langs inductieve en dus constructieloze weg. In de inductieve statistiek tracht men kennis uit de empirie af te tappen door ze door wiskundige formules bij wijze van buizen en kranen te leiden. Kortom, de correlatiecoëfficiënt is om ten minste 3 redenen onhoudbaar: haar constructie steunt op iets onbestaands als midouders; ze mist de verklarende contekst van Cuviers oorspronkelijke correlatiebegrip; Pearsons formule zet de epistemologische gang van zaken op zijn kop door het bestaande abductieproces ten onrechte te vervangen door het niet-bestaande want slechts hypothetische inductieproces.
[85]
Wat hierboven over het meten van 1 variabele is gesteld, geldt mutatis mutandis ook voor de regressieanalyse. De methode van de kleinste kwadraten geldt slechts wanneer er een algebraïsch verband tussen x, y enzovoort is, waarvan men de onbekende coëfficiënten a, b enzovoort wil bepalen. Zo schrijft Legendre in zijn introductie van de methode van de kleinste kwadraten overduidelijk over 1 'stelsel vergelijkingen' waarvan men de onbekende coëfficiënten wil bepalen. Ook Gauss' methode van 1809 geldt slechts voor een vergelijking, in dit geval voor de baan van een hemellichaam, die men al kent of meent te kennen en die men nader wil bepalen: '[Het combineren van overbepaalde waarnemingen] kan pas dan ondernomen worden als men reeds de baan bij benadering kent, welke dan zo verbeterd dient te worden dat ze zo nauw mogelijk met alle waarnemingen overeenkomt'. In 1826 zegt hij het zo: 'Aan alle vroegere werken over de toepassing van de kansrekening op het doelmatigste gebruik van de waarnemingen [...] ligt 1 bepaalde vooronderstelling ten grondslag [...]. Deze vooronderstelling bestaat daarin dat de waargenomen grootheden op een bekende wijze van zekere onbekende grootheden (elementen) afhangen'. Daar is volgens Gauss niet altijd aan voldaan, maar dan geldt, vertaald naar de onderzoekscyclus, dat het aangenomen verband een verklaringspoging is, waarvan men de verankerbaarheid tracht aan te tonen - deze uitzondering bevestigt de regel. In regressieanalyses is dus niet aan de basisvoorwaarde voldaan, want in plaats van een houdbaar verband te hebben, gaat men daarin juist naar op zoek. En dus wordt ook hier abductie ten onrechte door inductie vervangen. Bovendien nemen inductieve statistici vrijwel altijd een lineair verband aan. Vanuit abductieve optiek bekeken is dat in eerste instantie in orde. Dat lineaire verband kan immers een verklaringspoging zijn. Echter, in plaats van die verklaringspoging na te trekken neemt men impliciet haar houdbaarheid aan en bepaalt men alvast de bijbehorende coëfficiënten. Dat heeft echter niets met kennisverwerving en dus ook niets met wetenschap te maken. Formules die langs inductief-statistische weg zijn verkregen, zoals Yules formule 'W = -27,07 + 0,299X + 0,271Y + 0,064Z', staan dan ook niet voor kennis.
Fishers optiek op experimenteren ten slotte. Met zijn boek The design of experiments meent hij 'de beginselen [te] illustreren, die alle proefneming met elkaar gemeen heeft'. Dat is beslist onjuist. In het voorbeeld van de wellicht paranormaal begaafde vrouw moet er iets verrassends in haar leven zijn, bijvoorbeeld dat ze heel vaak meent te weten of haar moeder eerst thee of eerst melk heeft ingeschonken. Haar verklaringspoging daarvoor is: 'Ik ben paranormaal begaafd voor de wijze van het inschenken van thee'. Inderdaad dient nagetrokken te worden of die verklaringspoging houdbaar is of niet. Zien of haar aantal juiste vaststellingen beduidend van de gokkans afwijkt, is daar een mogelijke onderzoeksopzet bij omdat het onderzochte verschijnsel nu eenmaal per definitie een paranormale en dus niet strikt empirische component heeft. In de meeste gevallen van wetenschappelijk onderzoek is de verklaringspoging echter niet paranormaal en wel geheel empirisch van aard. Zo zijn 'cirkelvormige baan', 'via buccosa' en 'ellipsvormige baan' 3 van de verklaringspogingen van Kepler voor Brahes waarnemingen van de positie van Mars bij wijze van 'verrassingen'; zie B.IV. Op natuurkundig vlak zit daar niets stochastisch en dus ook niets kanstheoretisch aan; pas in de meetfouttheoretische overwegingen is er - doorgaans impliciet - een kanstheoretisch element in het geding. De betekenisverlening in dit proces is dan ook van geheel andere en veel meer omvattende aard dan Fisher het doet voorkomen. Terwijl in zijn fictieve, want inductieve, geval de betekenisverlening zich beperkt tot het bepalen van het signifikantienivo, strekt die zich in het werkelijke, want abductieve, geval uit tot het vaststellen van een verrassing, namelijk ten opzichte van een verankerde achtergrondgedachte, tot het opwerpen van een verklaringspoging daarvoor en tot het beoordelen van haar al dan niet houdbaarheid. Als gesteld, in de laatste betekenisverlening kunnen kanstheoretische overwegingen een rol spelen: bij het natrekken van verklaringspogingen met een paranormale component, in een meetfouttheoretische afweging en wellicht in nog andere situaties. Hiermee lijkt me voldoende aangetoond dat Fishers zienswijze dat de inductieve statistiek een mogelijkheid is om het menselijke denken te verfijnen, op weinig meer berust dan op wensdenken. Nogmaals: inductie is een niet bestaand, want slechts en louter hypothetisch kennisverwervingsproces. Het is slechts een verklaringspoging voor de totstandkoming van kennis, maar die verklaringspoging is onhoudbaar want het blijkt zich nergens voor te doen, niet bij het kind, niet in het dagelijkse leven van de volwassene en ook niet in de wetenschapsgeschiedenis.
De inductieve statistiek is dus een geheel onmogelijke weg om kennis te vergaren: de van de meetfouttheorie losgemaakte klokkromme, het in kwantitatieve schalen gieten van kwaliteiten, de correlatiecoëfficiënt, regressieanalyses en het experimenteren rond hulhypotheses in de hoop uit gegevens informatie te extraheren en nog vele andere inductief-statistische onderzoeksmiddelen die hier in het geheel niet aan bod geweest zijn ('verklaren' via het uitrekenen van varianties; experimentele- versus controlegroep; factoranalyses; enzovoort), zijn niet kennisverwervend aangezien ze gebaseerd zijn op inductie, wat een onhoudbare verklaringspoging is voor kennisverwerving. Ook is het niet waar, zoals Quetelet uitdrukkelijk belijdt en in de inductieve statistiek doorgaans stilzwijgend wordt gepraktiseerd, dat getallen de wereld zouden regeren. Voorzover getallen een rol spelen in de empirische wetenschappen, doen ze dat op terechte wijze indien er een getoetste verklaringspoging aan ten grondslag ligt zoals we hebben gezien voor het toekennen van getallen aan kleuren. En dit geldt ook voor wiskundige formules, vergelijkingen en dergelijke.
Ook al zou de beschouwing van B.V op niets zijn gebaseerd, bijvoorbeeld omdat niet inductie maar abductie een onhoudbare verklaringspoging is, dan nog heeft de inductieve statistiek inhoudelijk geen kennis, in de zin van geldige, betrouwbare en toepasbare inzichten, opgeleverd. Dat geldt voor de 3 disciplines aan het begin van A.V: Quetelet en zijn opvolgers hebben geen kennis tot stand gebracht in sociologie, demografie en politicologie; Galton en zijn opvolgers hebben geen kennis tot stand gebracht in de erfelijkheidsleer; en Eysenck en zijn opvolgers hebben geen kennis tot stand gebracht in de persoonlijkheidsleer. Het schrijnendste voorbeeld is wel de IQ-psychologie. In 2005 viert ze haar eerste eeuwfeest, terwijl haar definitie van intelligentie ondanks het werk van duizenden psychologen, nog op precies hetzelfde nivo staat als in 1905, namelijk 'intelligentie is wat deze (IQ-)test meet' - in het licht van dit artikel is het dus haar laatste eeuwfeest. Dit lijkt me hét praktische bewijs van de epistemologische en inhoudelijke leegheid van de inductieve statistiek. Voorzover het principiële betoog van B.V als een huis staat (en daar ziet het naar uit gezien de brede verankering van de onderzoekscyclus en dus ook van abductie), komt dit punt er dus nog eens bij. Met andere woorden, de inductieve statistiek is geen kennisverwervende activiteit. Dat geldt dus ook voor Glas' onderzoek maar niet voor Durkheims onderzoek en niet voor elk ander statistisch onderzoek in de zin van A.I-IV, en van A.VI zoals we in de volgende paragraaf zullen zien.

B.VI. Stochastische verklaringen
Ten aanzien van de stochastische natuurkunde verstaan we ons met de geldigheid van de onderzoekscyclus en het wijken van het verklaren.
De onderzoekscyclus is houdbaar voor de stochastische natuurkunde. Zo zijn zowel Krönigs theorie (1856) en Clausius' theorie (1857) als Lavoisiers daaraan voorafgaande calorische theorie (1783) uitdrukkelijk verklaringspogingen die tot nader order (namelijk tot een nieuwe verrassing) houdbaar zijn geacht, en wel op empirische gronden. Zo tracht Krönig de druk van een gas te verklaren door aan te nemen dat gasmoleculen met constante snelheid rechtlijnig bewegen tot ze ergens op botsen. Clausius deelt die opvatting, maar stuit op een verrassing. Berekeningen laten namelijk zien dat die bewegingen alleen onvoldoende zijn: 'De [hoeveelheid energie] van de voortgaande beweging alleen is te klein om de hele warmte die in het gas aanwezig is, voor te stellen'. Clausius neemt daarom aan dan ook het roteren en trillen van de gasmoleculen een rol spelen. Zijn berekeningen laten zien dat die gedachte houdbaar is. Voor de druk van een gas volstaat Krönigs theorie echter wel: 'De verklaring van de expansieve kracht van gassen en zijn afhankelijkheid van volume en temperatuur, zoals gegeven door Krönig, leidt geen wezenlijke verandering door de introductie van andere bewegingen'. Clausius' aldus verankerde theorie bergt echter een verrassing in zich want ze gaat voor het berekenen van de vrije weglengte van een gasmolecuul uit van 1 bewegend molecuul in een rustende omgeving. Maxwells theorie van 1860 neemt van meet af aan dat alle moleculen bewegen, en wel met een snelheidsverdeling volgens de klokkromme. Enzovoort. De stappen verrassing, verklaringspoging en verankering wisselen elkaar dus in deze volgorde cyclisch af en daarmee is de geldigheid van de onderzoekscyclus althans voor het begin van de stochastische natuurkunde aangetoond.
Clausius leidt uit zijn theorie van 1857 de wet van Boyle (pV = C) af met u voor de snelheid van molecuul en m en n grootheden die constant blijken te zijn: 'Als {alfa} het oppervlak is van de zijde en p de druk op de eenheid van oppervlak, dan p = mnu^2/3{alfa}h. Het product {alfa}h dat hier aan de orde is, geeft het volume van het vat of gas; als we dat met [V] weergeven, hebben we p = mnu^2/3V'. Oftewel, bij constante temperatuur geldt dat pV = C. Omdat Maxwells theorie van 1860 1 cyclus verder is dan Clausius' theorie (vorige alinea), is te verwachten dat ook uit haar de wet van Boyle is af te leiden. Dat is het geval. Maxwell in 1870 daarover: 'Dit is de wet van Boyle, die nu van de rang van een experimenteel feit tot die van een afleiding uit de kinetische gastheorie is verheven'. Welnu, de wet van Boyle is op zijn beurt een verankerde verklaringspoging en dus verklaring, onder meer voor de verrassing dat de vloeistof in een zogeheten buis van de Italiaan Torricelli (1608-1647), de voorloper van de hedendaagse vloeistofbarometer, over de uren geen constant nivo houdt. Torricelli zelf tracht die verrassing te verklaren met de variatie van de atmosferische druk. Maar waarom zou Torricelli die buis zijn gaan maken? Die buis is een verbetering van de meterslange sifons van de Italiaan Berti (±1600-1643) om Galilei's vermoeden na te trekken dat water in een buis ten hoogste ongeveer 11 meter stijgt. Dat vermoeden werpt Galilei op naar aanleiding van de verrassing die hij van makers van waterpompen verneemt, namelijk dat water slechts zo hoog stijgt. En zo terug. Kortom, Clausius en Maxwell trachten de wet van Boyle, die zelf een verklaring is, te verklaren - vandaar de naam 'wijken van het verklaren'. De kinetische gastheorie zit overigens vol van voorbeelden van het wijkende verklaren. In 1860 bijvoorbeeld schrijft Maxwell: 'Dit resultaat komt overeen met de scheikundige wet dat gelijke volumes van gassen scheikundig gelijkwaardig aan elkaar zijn' en 'De verklaring voor de wrijving van een gas is volgens onze hypothese [...]'.
[86]
Gezien het beantwoorden van de stochastische natuurkunde aan de 3 stappen van de onderzoekscyclus en haar wijkende verklaringen kan er geen enkele twijfel bestaan over haar wetenschappelijkheid. Die is er, en dat nog wel van een zeer hoge status.

C. Samenvatting en hoofdconclusie
We vatten de gevolgde weg samen en trekken de voornaamste conclusie.
[87]
Er zijn ten minste 6 disciplines die 'statistisch' genoemd worden: beschrijvende statistiek, kansrekening, verzekeringswiskunde, meetfouttheorie, inductieve statistiek en stochastische natuurkunde. De vraag is of ze alle 6 berusten op kennis in de zin van geldige, betrouwbare en toepasbare inzichten. Immers, de 3 stappen van de onderzoekscyclus - verrassing, verklaringspoging en verankering - vormen een houdbaar geheel, met name in de geschiedenis van de natuurwetenschappen (zwaartekrachtverschijnselen; spectraalanalyse; stoommachine; olievondsten; kleureblindheidsplaten), maar ook in die van de taalwetenschappen (afwijkende Italiaanse meervouden 'le ossa', 'le mura', 'le dita' en dergelijke; de wau als letter die uit het pre-Homerische Grieks is verdwenen) en van de psychologie (Piagets onderzoek naar aanleiding van het feit dat kinderen van 5, 6 jaar menen dat een lange rij van 5 damstenen meer is dan een korte van eveneens 5 damstenen; mijn onderzoek naar het feit dat Ria eerder 'Ria hebben' zegt dan 'ik(ke) hebben'). De onderzoekscyclus is dus niet slechts een verklaringspoging voor kennisverwerving, maar een empirisch houdbare verklaring daarvoor, een epistemologisch feit. Daarom kan de onderzoekscyclus op die 6 statistische disciplines toegepast worden om te zien of ze aan die 3 stappen voldoen of niet.
Voor 5 van de 6 vormen van statistiek geldt dat ze aan de onderzoekscyclus voldoen en dus terecht het predikaat 'wetenschappelijk' dragen. Voor 1 geldt dit niet, voor de inductieve statistiek in het algemeen en voor de toepassing van de klokkromme op gegevens die geen uitkomsten zijn van herhaalde proefnemingen, voor het in kwantitatieve schalen brengen van kwaliteiten, voor de correlatiecoëfficiënt, voor regressieanalyses en voor experimenteren rond nulhypotheses in het bijzonder. Hoe juist hun formules in wiskundig opzicht ook mogen zijn en hoe correct men er ook mee rekent, in epistemologisch opzicht heeft er ten onrechte een omkering in plaats van abductie (het verwerven van nieuwe feiten om de houdbaarheid van een verklaringspoging na te trekken) naar inductie (het proces waarin men van feiten naar inzichten, wetten en theorieën zou kunnen geraken, zonder psychologisch-constructieve voeding van de kant van de kenner). Genoemde wetenschapsgeschiedenissen pleiten namelijk behalve vóór de onderzoekscyclus en dus vóór abductie, ook tegen inductie.
Tenzij inductieve statistici alsnog óf de onhoudbaarheid van de onderzoekscyclus en van abductie en de houdbaarheid van inductie aantonen óf aantonen dat de inductieve statistiek in weerwil van haar naam wél aan de onderzoekscyclus voldoet en dus abductief van aard is, dient hun vak niet meer aan de universiteiten beoefend te worden en dienen onderzoeksprogramma's in haar geest óf in abductieve zin omgebouwd te worden (in de cognitieve psychologie bijvoorbeeld van IQ-tests naar Piagetiaans intelligentieonderzoek) óf van de universiteiten verwijderd te worden.

Noten

1 Deze Struktuur en genese, vol.17, is geantidateerd op november 2004, maar verschijnt pas in augustus 2005. Daardoor is het mogelijk het thema dat Glas op 5 april 2005 aankaart en dat zo wezenlijk is voor de discussie 'feitelijk-empirisch versus empiristisch-positivistisch', nader te onderzoeken in deze aflevering. In dit artikel draait die discussie om de begrippen onderzoekscyclus en abductie enerzijds en inductie anderzijds. Voor Glas' bijdrage voor 5 april 2005 zie www.stichtinghistos.nl/5aprilglas.htm. Terug naar de tekst

2 Aan wie de geschiedenis van de 'statistiek' wil bestuderen beveel ik de volgende publikaties van harte aan:
C. Gouraud, Histoire du calcul des probabilités depuis ses origines jusqu'à nos jours, Parijs, Durand, 1848.
I. Todhunter, A history of the mathematical theory of probability, from the time of Pascal to that of Laplace, Londen, Macmillan, 1865.
V. John, Geschichte der Statistik, Stuttgart, Enke, 1884.
E. Czuber, 'Die Entwicklung des Wahrscheinlichkeitstheorie und ihrer Anwendungen', Jahresbericht der deutschen Mathematiker-Vereinigung, Leipzig, 1898, vol.7, p.1-279.
J.T. Merz, A history of European thought in the nineteenth century (4 volumina), Edinburgh, Blackwood, vol.2, 1904, p.548-626 ('On the statistical view of nature'). Merz behandelt dezelfde 6 betekenissen van 'statistiek' als dit artikel. Hij behandelt ze uitvoerig in de hoofdtekst, op de betekenis 'verzekeringswiskunde' na die hij slechts op p.565 kort in de hoofdtekst aanstipt en er op diezelfde bladzijde een voor Merz' doen korte noot aan wijdt. Merz' boek heb ik op 7 juni 2005 voor het eerst gezien. Ik neem dus aan dat mijn zesdeling vrij dekkend is. Sedert 24 april 1991 heb ik scherp gelet op de verschillende betekenissen van het woord 'statistiek'. Ik meen echter nooit een andere dan die 6 tegengekomen te zijn. Ik sluit het echter niet uit dat er binnen de stochastische natuurkunde van A.VI en B.VI wellicht een differentiatie aangebracht dient te worden tussen stochastische klassieke natuurkunde als van de kinetische gastheorie enerzijds en stochastische kwantumnatuurkunde anderzijds. Het al dan niet principiële van die differentiatie kan ik in dit stadium niet overzien.
H.M. Walker, Studies in the history of statistical method, Baltimore, Williams & Wilkins, 1929.
F.N. David, Games, gods and gambling, Londen, Griffin , 1962.
H. Freudenthal, 'De eerste ontmoeting tussen de wiskunde en de sociale wetenschappen', Verhandelingen van de Koninklijke Vlaamse Academie voor Wetenschappen, Letteren en Schone Kunsten van België, 1966, vol.28, p.1-52.
Studies in the history of statistics and probability , 2 volumina, Londen, Griffin , 1970 (E.S. Pearson en M.G. Kendall) en 1977 (M.G. Kendall en R.L. Plackett).
O.B. Sheynin, artikelen in de Archive for history of exact sciences, in elk geval tussen 1971 en 1984.
J. Tankard, The statistical pioneers, New York , Schenkman, 1984.
A. Hald, A history of probability and statistics and their applications before 1750, New York , Wiley, 1986.
T.M. Porter, The rise of statistical thinking 1820-1900, Princeton , University Press, 1986.
S.M. Stigler, The history of statistics; the measurement of uncertainty before 1900, Cambridge (Mass), Harvard University Press, 1986.
J.H. van der Vlis, Geschiedenis van kansrekening en statistiek, Rijswijk, Pandata, 1989.
A. Hald, A history of mathematical statistics from 1750 to 1930, New York , Wiley, 1998.
S.M. Stigler, Statistics on the table, Cambridge (Mass), Harvard University Press, 1999.
Terug naar de tekst

3 Onder meer A. Quetelet, 'Recherches statistiques sur le royaume des Pays-Bas', Nouveaux mémoires de l'Académie Royale de Bruxellles, 1829, vol.5, artikel 5, p.i-vi en p.1-57 (als boekje met dezelfde titel verschenen bij Hayez, Brussel, 1829), met name p.47, noot bij 'Achenwall': 'Célèbre professeur à l'Université de Goetingue, qui, le premier, en 1749, a employé le mot statistique' en E. Klein, A comprehensive etymological dictionary of the English language, Amsterdam, Elsevier, 1967, vol.2, p.1507, onder 'statistics': 'fr. Gk. Statistik, coined by the German statistician Gottfried Achenwall (1719-1772) in 1748'. Terug naar de tekst

4 Geschichte (op.cit), p.6v. Terug naar de tekst

5 Geschichte (op.cit), p.8. Terug naar de tekst

6 G. Ghilini, Teatro d'huomini letterati, Venezië, Guerigli, 1647 (waarschijnlijk kort na 1630 geschreven; vol.1, p.362), vol.1, p.235 ([Paruta] si fece conoscere di segnalata prudenza [...] ne' statistici affari [della Repubblica di Venezia]). Aldus B. Migliorini in Saggi sulla lingua del Novecento, Firenze, Sansoni, 1963 (derde herziene en uitgebreide uitgave), p.122, noot 1.
Zich baserend op Cusumano en Prato zou volgens John de term 'scienza statistica' al gebruikt zijn in een manuskript van Ghilini uit 1587; Geschichte (op.cit), p.xii. Dit kan niet kloppen omdat Ghilini pas in 1589 is geboren. Wordt wellicht op Paruta's Ristretto gedoeld, onder de aanname dat dat werk in 1587 is geschreven?
Ghilini's omschrijving van de term 'statistica' in 'Descrizione delle qualità che caratterizzano e degli elementi che compongono uno stato' heb ik op internet gevonden, maar ben ik in geen enkele schriftelijke bron tegengekomen.
Terug naar de tekst

7 Geschichte (op.cit), p.11v, noot 2. Terug naar de tekst

8 Enciclopedia italiana, 1936, vol.32, p.507.
Exodus 12:37, 30:12; Numeri 1, 24; 2 Samuel 18:1vv, 24.
Terug naar de tekst

9 Geschichte (op.cit), p.16. Terug naar de tekst

10 Geschichte (op.cit), p.18-22. Terug naar de tekst

11 Geschichte (op.cit), p.25-27. Terug naar de tekst

12 Geschichte (op.cit), p.31v. Terug naar de tekst

13 J. Graunt, Natural and political observations mentioned in a following index, and made upon the bills of mortality, Londen, Martin, Allestry & Dicas, 1662, p.47, p.76 en p.62. Terug naar de tekst

14 I.B. Cohen, 'Florence Nightingale', Scientific American, maart 1984, vol.250, p.128-137. Terug naar de tekst

15 S. Sambursky, 'On the possible and the probable in ancient Greece', Osiris, 1956, vol.12, p.35-38. Sambursky vertaalt het Griekse 'eikos' mijns inziens ten onrechte met 'probable' (waarschijnlijk). Juister is, lijkt me: 'aannemelijk'. Terug naar de tekst

16 Martialis, Epigrammaton XIV (Apophoreta), XIV.
Cicero, De divinatione, II, LIX, 121.
Terug naar de tekst

17 M.G. Kendall, 'The beginnings of probability calculus', Biometrika, 1956, vol.43, p.1-14. Terug naar de tekst

18 G. Cardano, De ludo aleae (geschreven in 1525; herschreven in 1565), Lyon, Huguetan & Ravaud, 1663.
G. Galilei, Sopra le scoperte dei dadi (geschreven tussen 1613 en 1623), verschenen rond 1630; zie G. Galilei, Opere (2 volumina), Milaan, Rizzoli, 1936, vol.1, p.699-673 en Games, gods and gambling (op.cit), p.192-195.
Terug naar de tekst

19 C. Huygens, De ratiociniis in ludo alaeae (vertaling door Huygens' leraar Van Schooten van Rekeningh van spelen van geluck), in F. à Schooten, Exercitationum mathematicarum libri quinque, Leiden, Elsevier, 1657, p.517-534 (Nederlandstalige uitgave van 1660, p.485-500).
De correspondentie tussen Pascal en Fermat is voor het eerst gepubliceerd in Varia opera mathematica Petri de Fermat (red. Cl.-S. de Fermat), Toulouse, Pech, 1679.
Terug naar de tekst

20 J. Bernoulli, Ars conjectandi, Bazel, Fratres Thurnisii, 1713, p.223-239; Bernoulli zelf noemt eerst de bovengrens en dan de ondergrens.
S.D. Poisson, 'Note sur la loi des grands nombres', Comptes rendus hebdomadaires des séances de l'Académie des Sciences, 1836, vol.2, p.377-382. De wet van de grote getallen vindt men op concreet vlak al veel eerder, onder meer bij Cicero: 'Wat is zo onzeker als de worp met dobbelstenen? Toch is er niemand die vaak bikkelt, die niet soms een Venusworp gooit, soms zelfs nog eens en een derde keer' (zie ook A.II) - als men maar vaak genoeg bikkelt, gooit men altijd wel eens Venus. Zo ook Cardano, door mij toegespitst op dobbelstenen: 'In het algemeen moet men in acht nemen dat in een willekeurig aantal worpen, al zouden het er honderd zijn, elk aantal alle 6 de mogelijkheden op dezelfde manier volbrengt. Als daarom het totale aantal dat door hen wordt getoond, wordt gedeeld door het aantal vlakken, komt daar de gemiddelde waarde uit'; Ludo (op.cit), hoofdstuk 32. En zie ook Galilei in A.II: 'Men ziet [...] dat de langdurige waarneming gemaakt heeft dat 10 en 11 door de spelers gunstiger worden geacht dan 9 en 12'.
Bernoulli meent dan ook dat zijn eis van een 'groot aantal waarnemingen [...] aan elk mens duidelijk is' en stelt: 'Soms heeft ook reeds een heel eenvoudig mens ten gevolge van een of ander natuurlijk instinkt uit zichzelf en zonder enig voorafgaand onderricht de ervaring opgedaan (wat werkelijk een wonder is) dat hoe meer desbetreffende waarnemingen voorhanden zijn, men des te minder gevaar loopt van de waarheid af te dwalen'. Dat er geen 'natuurlijke instinkt' voor de wet van de grote getallen is - ook niet als we 'intuïtie' lezen voor 'instinkt' - blijkt duidelijk uit het onderzoek bij kinderen: pas vanaf 11, 12 jaar vatten kinderen die wet; J. Piaget en B. Inhelder, La genèse de l'idée de hasard chez l'enfant, Parijs, PUF, 1951, p.247v.
Terug naar de tekst

21 A. de Moivre, The doctrine of chances, Londen, Wordfall, 1718 en Approximatio ad summam terminorum binomii (a+b) n in seriem expansi, een onder enkele vrienden verspreid kort artikel van 1733, door hemzelf vertaald in het Engels als A method of appoximating the sum of the terms of the binomial (a+b)^n expanded into a series in The doctrine of chances, Londen, Woodfall, 1738 (tweede druk).
T. Bayes, 'Essay towards solving a problem in the doctrine of chances', Philosophical transactions, 1763, vol.53, p.370-418; in moderne notatie in Biometrika, 1958, vol.45, p.296-315.
G.L.L. de Buffon, Essai d'arithmétique morale in Histoire naturelle, générale et particulière, Parijs, Imprimerie Royale, 1777, vol.4, supplement, p. 46-123.
Terug naar de tekst

22 P.S. de Laplace, Théorie analytique des probabilités, Parijs, Courcier, 1812, p.178. De volledige omschrijving luidt: 'La théorie des probabilités consiste à réduire tous les événemens qui peuvent avoir lieu dans une circonstance donnée, à un certain nombre de cas également possibles; c'est-à-dire, tels que nous soyons également indécis sur leur existence, et à déterminer parmi ces cas, le nombre de ceux qui sont favorables à l'evénement dont on cherche la probabilité. Le rapport de ce nombre à celui de tous les cas possibles, est la mesure de cette probabilité qui n'est donc qu'une fraction dont le numérateur est le nombre des cas favorables, et dont le dénominateur est celui de tous les cas possibles'. Zie ook P.S. de Laplace, Essai philosophique sur les probabilités, Parijs, Bourgois, 1814: 'De kans is de verhouding van het aantal gunstige gevallen tot die van alle mogelijke gevallen' (eerste beginsel). Terug naar de tekst

23 History of European thought (op.cit), p.590; zie ook p.591, noot 1. Merz' definitie van statistiek is dat het de wetenschap is van de grote getallen en van gemiddeldes; ib, p.567.
Beginnings (op.cit), begin van §10.
Games, gods and gambling (op.cit), p.100.
O.B. Sheynin, 'On the history of the statistical method in physics', Archive for history of exact sciences, 1985, vol.33, p.351-382, met name p.352 en p.353.
Geschiedenis van kansrekening en statistiek (op.cit), p.123. Van Oorschot onderscheidt in zijn voorwoord 2 benaderingen binnen de kansrekening: de 'statistische methode (de inductieve benadering) en de deductieve methode van de kansrekening'; ib, p.9. Van der Vlis zelf stelt in zijn inleiding: 'In de statistiek verzamelt men [...] gegevens waaruit men een theorie of kwantitatieve verwachting destilleert, zoals bij schattingen van de kans op regen of stormvloeden'; ib, p.10 - deels heeft hij daarbij terecht de omgekeerde kansrekening op het oog, maar deels ook de inductieve statistiek van A.V.
De statistica verwees naar Genèse de l'idée de hasard (op.cit).
Van Dale's Groot woordenboek der Nederlandse taal (3 volumina), Utrecht, Van Dale Lexicografie, 1999 (dertiende druk), vol.2, p.1542.
Terug naar de tekst

24 Bouwstoffenvoor de geschiedenis van de levensverzekeringen en lijfrenten in Nederland (red. Algemeene Maatschappij van Levensverzekering en Lijfrente (AMLL)), Amsterdam, AMLL, 1897, p.64 en p.71 (door AMLL uit het Frans vertaald); Bouwstoffen noemt Lodewijck 'Lodewijk'. Terug naar de tekst

25 Brieven aan Johan de Witt (red. R. Fruin), vol.1, Amsterdam, Müller, 1919, p.211v. Brieven van Johan de Witt (red. R. Fruin), vol.1, Amsterdam, Müller, 1906, p.336v.
M. van Haaften, 'Johan de Witt en de levensverzekering', De levensverzekering, 1925, vol.2, p.171-185, met name p.177. Men drukt zich in die tijd niet uit in termen van percentages maar in termen van 'tegen de penning X'; bijvoorbeeld het toenmalige 'tegen de penning 5' is ons '20%'.
Terug naar de tekst

26 Bouwstoffen (op.cit), p.64. De correspondentie in het Frans is te lezen in Hollandsche Maatschappij der Wetenschappen, Oeuvres complètes de Christiaan Huygens, Den Haag, Nijhoff, 1895, vol.6, p.483vv. Terug naar de tekst

27 Bouwstoffen (op.cit), p.65. De verhouding 4÷3 is onjuist en moet 3÷2 zijn, zoals Christiaan wel juist stelt in zijn brief van 21 november 1669; ib, p.70. Terug naar de tekst

28 Bouwstoffen (op.cit), p.75. Op 28 november 1669 stelt Christiaan het zo: 'Wij hebben beiden gelijk maar wij beschouwen de zaak van verschillende kanten. Gij geeft aan een jonggeborene 18 jaren en 2½ maand te leven, en het is waar dat zijne verwachting inderdaad zoo groot is. Intusschen is het niet waarschijnlijk dat hij zoo lang leven zal, want het is veel waarschijnlijker, dat hij vóór dien termijn sterven zal, zoodat als men wilde wedden dat hij dien wèl zal bereiken, men een onvoordeelige zaak zou doen, want men kan, zoo de partijen gelijk zullen zijn, alleen wedden dat hij ongeveer 11 jaren leven zal, zooals ik dat door mijne manier vindt'; ib, p.81. Terug naar de tekst

29 J. de Witt, Waerdije van lijfrenten naer proportie van los-renten in Resolutien van de Heeren Staaten van Hollant en West-Vrieslant, Den Haag, 4 en 18 februari 1671. Waerdije is in 1671 uitgegeven in Den Haag door Scheltus. Deze uitgave is afgedrukt in Die Werke von Jakob Bernoulli, vol.3, Bazel, Birkhäuser, 1975, p.327-350. Eerder is Waerdije verschenen in Bernoulli's Ars conjectandi (op.cit) en als feestuitgave van het Wiskundig Genootschap te Amsterdam, Haarlem, Enschedé, 1879.
'Johan de Witt', Bouwstoffen (op.cit), p.1-28.
'Johan de Witt en de levensverzekering' (op.cit).
M. van Haaften, Elementaire levensverzekeringswiskunde, Groningen, Noordhoff, 1947, vol.2, p.371v.
K. Kohli en B.L. van der Waerden, 'Bewertung von Leibrenten', Werke von Jakob Bernoulli, (op.cit), p.515-539.
Hoe de lijn van de Huygensen naar De Witt precies loopt, ben ik niet nagegaan, maar ik zie ten minste 4 mogelijkheden:
a. Wellicht kennen Christiaan Huygens en De Witt elkaar vanuit hun studies rechten en wiskunde in Leiden.
b. Beiden hebben wiskunde gestudeerd bij Van Schooten (1615-1661), vanaf 1646 hoogleraar wiskunde in Leiden. Deze heeft van beiden een in het Latijn vertaalde wiskundige verhandeling in een boek van hemzelf opgenomen: Huygens' Rekeningh in spelen van geluck in een boek van 1657 en De Witts verhandeling over kromme lijnen van 1658, Beginselen van de leer der kromme lynen, in een boek van 1661. Van Schooten overlijdt in 1661 en kan tussen de briefwisseling van de gebroeders Huygens in 1669 en het verschijnen van Waerdije in 1671 dus niet zelf de tussenschakel zijn, maar wellicht is dat een andere wiskundige in Leiden of een familielid van Van Schooten die met beide oud-studenten contact houdt.
c. De Nederlander Hudde (1628-1704), die eveneens in Leiden rechten en, ook bij Van Schooten, wiskunde heeft gestudeerd, werkt vanaf 1663 voor de stad Amsterdam. Hij correspondeert in 1665 met Christiaan Huygens over kansspelen, weet van de briefwisseling tussen de broers en weet dat Graunts sterftetafel ontoereikend is voor gebruik bij een solide verzekering. Daarom verzamelt hij rond 1670 sterftegegevens over Amsterdam voor de jaren 1586-1590, die hij in lijsten samenvat die nauw verwant zijn aan sterftetafels zoals die nu in de verzekeringswereld worden gebruikt. Voor (of althans niet tegen) dit vermoeden pleit dat Hudde De Witts bewijzen in Waerdije controleert en dat De Witt tussen 2 augustus en 2 november 1671 8 brieven aan Hudde schrijft over actuariële kwesties betreffende Waerdije.
d. Lodewijck woont dan in Den Haag, niet ver van De Witt en verkeerde stellig in dezelfde kringen als deze.
Terug naar de tekst

30 Hudde schrijft in zijn brief van 22 mei 1671 aan Huygens '1687, 88, 89 enzovoort', maar in zijn brief van 31 juli 1671 aan De Witt schrijft hij correct '1586, 87, 88, 89 en 90'; Oeuvres complètes (op.cit), vol.7. Terug naar de tekst

31 'De Lijfrente Societeit [sic recte] van 1769', Bouwstoffen (op.cit), p.333-336. 'Die Tontinen', 'Bewertung' (op.cit), p.518v. Terug naar de tekst

32 J.T. Mayer, 'Abhandlung über die Umwalzung des Monds um seine Axe und die scheinbare Bewegung der Mondsflecten', Kosmographische Nachrichten und Sammlungen auf das Jahr 1748, 1750, p.52-183.
R.J. Boscovich en C. Maire, De litteraria expeditione per pontificiam ditionem ad dimetiendas duas meridiani gradus, Rome, Palladis, 1755. Franse vertaling van een bewerking hiervan: R.J. Boscovich en C. Maire, Voyage astronomique et géographique, dans l'état de l'église, Parijs, Tilliard, 1770.
Terug naar de tekst

33 T. Brahe, Astronomiae instauratae progymnasmata, Praag, Kepler, 1602.
G. Galilei, Dialogo, Firenze, Landini, 1632.
History of probability and statistics (op.cit), p.146-160.
Terug naar de tekst

34 We gaan voorbij aan de Engelsman Cotes (1682-1716), die als eerste uitdrukkelijk een algemene, zij het korte, meetfouttheoretische beschouwing geeft. In Aestimatio errorum in mixta mathesis (in R. Cotes, Harmonia mensurarum, Cambridge, 1722, slot, p.1-22) maakt hij echter geen kanstheoretische aannames.
Er zijn veel andere namen voor de klokkromme. Drie daarvan zijn: continue benadering van de symmetrische binomiaalverdeling (a+b)^n voor n naar oneindig, Gausscurve en normale verdeling (Peirce, 1873; Lexis, 1877; Galton, 1877; K. Pearson,
'Contributions to the mathematical theory of evolution - II', Philosophical transactions, serie A, 1895, vol.186, p.343-414; bij 2 maal goed doornemen heb ik een uitdrukking als 'normal distribution' of 'normal curve' echter niet gezien). De eerste is inhoudelijk en historisch de meest juiste, maar te lang en omslachtig voor geregeld gebruik. De tweede is onjuist omdat Gauss de klokkromme niet heeft gevonden, maar slechts in de meetfouttheorie heeft geïntroduceerd. De derde is terminologisch twijfelachtig (er is niets normaals aan de klokkromme en niets abnormaals aan welke andere verdeling dan ook) en leunt inhoudelijk te zeer tegen de inductieve statistiek van A.V aan, waarvan we in B.V zullen zien dat ze een kandidaat is om uit het wetenschappelijke curriculum verwijderd te worden. Omdat de term 'klokkromme' kort is in het gebruik, inhoudelijk neutraal is en slechts naar de meetkundige vorm verwijst (en niet naar de contekst waarin de kromme is gevonden en/of wordt gebruikt), verdient ze mijns inziens de voorkeur boven de 3 genoemde andere benamingen. Terug naar de tekst

35 T. Simpson, 'On the advantage of taking the mean of a number of observations, in practical astronomy', Philosophical transactions, 1755, vol.49, p.82-93. Op p.83 stelt Simpson: 'Wat voor reeks ook wordt aangenomen voor de kansen op het voorkomen van de verschillende meetfouten, het resultaat zal zeer ten gunste blijken van [het nemen van het gemiddelde]'. Zeer waarschijnlijk naar aanleiding van een schriftelijk commentaar hierop van Bayes heeft Simpson deze zeer ruime en irreële aanname gespecificeerd tot zijn eerste aanname die in de hoofdtekst is weergegeven; zie History of statistics (op.cit), p.94v.
T. Simpson, 'An attempt to shew the advantage, arising by taking the mean of a number of observations, in practical astronomy', in Miscellaneous tracts on some curious, and very interesting subjects in mechanics, physical-astronomy, and speculative mathematics, Londen, Nourse, 1757, p.64-75.
Terug naar de tekst

36 J.H. Lambert, Photometria, Augsburg , Klett, 1760, art.271-306. De 2 andere meetfouttheoretische publikaties van Lambert zijn: Theorie der Zuverlässigkeit der Beobachtungen und Versuche en Anmerkungen und Zusätze zur practischen Geometrie in Beyträge, beide in Beyträge zum Gebrauche der Mathematik und deren Anwendung (4 volumina), Berlijn, Buchladen der Realschule,1765, vol.1, p.424-488 respectievelijk art.420, 429v en 443-445.
Zie ook O.B. Sheynin, 'Origin of the theory of errors', Nature, 1966, vol.211, p.1003v.
Terug naar de tekst

37 P.S. Laplace, 'Mémoire sur la probabilité des causes par les évènemens', Mémoires de mathématique et de physique, 1774, vol.6, p.621-656; in het Engels vertaald als 'Memoir on the probability of the causes of events', Statistical science, 1986, vol.1, p.364-378. Laplaces manuskript van 1772 is hierin verwerkt als 'probleem III'; zie History of statistics (op.cit), p.105. Terug naar de tekst

38 P.S. Laplace, 'Recherches sur le milieu qu'il faut choisir entre les résultats de plusieurs observations', in C.C. Gillispie, 'Mémoires inédits ou anonymes de Laplace sur la théorie des erreurs, les polynômes de Legendre, et la philosophie des probabilités', Revue d'histoire des sciences, 1979, vol.32, p.223-279.
D. Bernoulli, 'Dijudicatio maxime probabilis plurium observationum discrepantium atque verisimillima inductio inde formanda', Acta Academiae Scientiarum Imperialis Petropolitanae, 1777, vol.1, p.3-23; in Engelse vertaling in M.G. Kendall, 'Daniel Bernoulli on maximum likelihood', Biometrika, 1961, vol.48, p.1-18.
Terug naar de tekst

39 N. Bernoulli's brief van 11 oktober 1712 in P.R. Montmort, Essay d'analyse sur les jeux de hazard, Parijs, Quillau, 1713, tweede uitgave, p.371-375. N. Bernoulli's brief van 23 januari 1713 in Essay d'analyse (op.cit), p.375-387. Bernoulli ontleent zijn getallen over de geboortes in Londen aan J. Arbuthnott, 'An argument for divine Providence, taken from the constant regularity observ'd in the births of both sexes', Philosophical transactions, 1710, vol.27, p.186-190. Terug naar de tekst

40 Approximatio (op.cit) en Doctrine of chances (op.cit), p.235vv (De Moivre bezigt de letter l waar ik, om misverstanden met het cijfer 1 te voorkomen, de letter k bezig) en Doctrine of chances, Londen, Millar, 1756 (derde druk), p.243-254.
De term 'standaarddeviatie' wordt voor het eerst door Pearson op 31 januari 1893 gebruikt tijdens een college. Zie K. Pearson,
'Contributions to the mathematical theory of evolution', Philosophical transactions, serie A, 1894, vol.185, p.71-110. Een andere eigenschap in verband met de standaarddeviatie is dat de tweede afgeleide van de klokkromme er 0 is - grafisch maakt ze er dus een knik. Terug naar de tekst

41 Met 'gemiddelde' bedoelen we steeds het rekenkundige gemiddelde.
A.M. Legendre, Sur la méthode des moindres quarrés, in Nouvelles méthodes pour la détermination des orbites des comètes, Parijs, Courcier, 1805, p.72-80.
dS/da = -2{somteken}(yi-axi-b)xi = 0 en dS/db = -2{somteken}(yi-axi-b) = 0. Daaruit volgt: a{somteken}xi^2+b{somteken}xi = {somteken}xi.yi respectievelijk a{somteken}xi+4b = {somteken}yi. Uit de waarnemingen volgt: {somteken}xi=6, {somteken}xi^2=14, {somteken}yi=8 en {somteken}xi.yi=17. De vergelijkingen worden dus 14a+6b=17 en 6a+4b=8. De oplossing daarvan is a = 1 en b = 0,5.
Terug naar de tekst

42 Méthode des moindres quarrés (op.cit), p.73.
C.F. Gauss, Theoria motus corporum coelestium in sectionibus conicis solem ambientum, Hamburg, Perthes & Besser, 1809, boek II, deel 3, met name §174-179. In plaats van f en x gebruikt Gauss de Griekse letters phi respectievelijk delta. In §186 schrijft Gauss dat hij de methode van de kleinste kwadraten al in 1795 heeft gebruikt; elders noemt hij ook 1794.
De Amerikaan Adrain (1775-1843) bewijst al in 1808 dat de methode van de kleinste kwadraten het beste resultaat levert, met c.exp(-h^2.x^2) voor de verdelingsfunctie van de meetfouten; R. Adrain, 'Research concerning the probabilities of the errors with happen in making observations', The analyst or mathematical museum, 1808, vol.1, p.93-109; voor verdere gegevens hierover zie ook Studies in the history (op.cit), p.21, noot 51, met deze aanvulling: men kan Merrimans 'List of writings' vinden in Transactions of the Academy of Arts and Sciences, 1877, vol.4, p.151-232.
Terug naar de tekst

43 P.S. Laplace (1810), 'Mémoire sur les approximations des formules qui sont fonctions de très grands nombres et sur leur application aux probabilités', Mémoires de l'Académie des Sciences, eerste serie, 1809, vol.10, p.353-415, deel VI en 'Supplément au mémoire sur les approximations des formules qui sont fonctions de très grands nombres', ib, p.559-565 (in de oorspronkelijke tekst staat op p.559 abusievelijk ±rh/n in plaats van ±rh/Vn). Terug naar de tekst

44 P.S. Laplace (1811), 'Mémoire sur les intégrales définies et leur application aux probabilités, et spécialement à la recherche du milieu qu'il faut choisir entre les résultats des observations', Mémoires de l'Académie des Sciences, eerste serie, 1810, vol.11, p.279-347. In deel VIII luidt de formule: {twee integraaltekens}(kI/(4k"a^2.{pi}VE))exp({-k/(4k"aE}{Fu^2 + 2Guv + Hv^2})dudv; Laplace heeft u' waar wij v bezigen.
A. Bravais, 'Analyse mathématique sur les probabilités der erreurs de situation d'un point', Mémoires présentés par divers savants à l'Académie Royale des Sciences de l'Institut de France, 1846, vol.9, p.255-332, met name p.263-279.
Al eerder oppert Adrain een soortgelijke gedachte als Laplace in 1810(1811), maar die werkt hij niet nader uit maar Adrains werk is pas veel later in Europa bekend geworden; 'Research' (op.cit).
De Italiaan Plana (1781-1864) breidt Laplaces gedachtegang uit en komt op een vergelijkbare formule; J. Plana, 'Mémoire sur divers problèmes de probabilité', Mémoire de l'Académie Impériale de Turin, 1812, vol.20, p.355-498.
Langs een andere weg komt Gauss op een vergelijkbare formule; C.F. Gauss, 'Theoria combinationis observationum erroribus minimis obnoxiae', Commentationes Societatis Regiae Scientiarium Gottingensis recentiores, 1823, vol.5, p.33-90 en 'Supplementum theoriae combinationis observarionum erroribus minimis obnoxiae', ib, 1828, vol.6, p.57-93.
Terug naar de tekst

45 History of statistics (op.cit). Andere voorbeelden: 'statistical problems that arise in [pendulum experiments and arc measurements]' (p.40); Stigler noemt de Gauss-Laplace-synthese een 'marvelous statistical technology' (p.158).
History of probability (op.cit), p.144-169.
D.J. Denis, 'The origins of correlation and regression: Francis Galton or Auguste Bravais and the error theorists?', History and philosophy of psychology bulletin , 2001, vol.13, p.36-44.
J. Miller,
www.members.aol.com/jeff570/e.html, onder 'Error'.
N. Schmitz, over de geschiedenis van het Institut für Mathematische Statistik in Münster, 'Einige Anmerkungen zur Geschichte der Stochastik in Deutschland', p.2, r.8v;
wwwmath1.uni-muenster.de/statistik/Geschichte/geschkap1.pdf. Terug naar de tekst

46 A. Quetelet, Sur l'homme et de développement de ses facultés ou Essai de physique sociale, Parijs, Bachelier, 1835, deel 1, p.21.
F. Galton, Natural inheritance, Londen, MacMillan, 1889, p.83.
H.J. Eysenck, The scientific study of personality, Londen, Routledge & Kegan, 1952, p.35 en p.298.
Terug naar de tekst

47 Ars conjectandi (op.cit), p.224. Terug naar de tekst

48 Essai philosophique (op.cit), 'Application du calcul des probabilités aux sciences morales'.
Een anonieme schrijver, waarschijnlijk de Engelsman Craig (zie Studies in the history (op.cit), p.30, noot 84), is zijn tijd ver vooruit met zijn artikel 'A calculation of the credibility of human testimony', Philosophical transactions, 1699, vol.21, p.359-365. Weliswaar baseert hij zijn beschouwing niet uitdrukkelijk op de kansrekening, maar impliciet blijkt dat wel uit woorden en zinsneden als '1 op 6 om gewaarborgd te zijn' en 'een goede weddenschap kan gedaan worden' en expliciet spreekt hij één keer van 'waarschijnlijkheid of evenredig deel in zekerheid' en 'kans van de rest'.
S.D. Poisson, Recherches sur la probabilité des jugements en matière criminelle et en matière civile, précédées des règles générales du calcul des probabilités, Parijs, Bachelier, 1837.
Terug naar de tekst

49 É. Mailly, Essai sur la vie et les ouvrages de L.-A.-J. Quetelet, Brussel, Hayez, 1875.
A. Quetelet, 'Mémoire sur les lois des naissance et de la mortalité à Bruxelles', Nouveaux mémoires de l’Académie Royale de Bruxelles, 1826, vol.3, p.495-512.
Terug naar de tekst

50 Quetelets tweede statistische publikatie is 'Recherches sur la population, les naissances, les décès, les prisons, les dépôts de mendicité, etc, dans le royaume des Pays-Bas', Nouveaux mémoires de l'Académie Royale de Bruxelles, 1827, vol.4, p.117-192; als boekje met dezelfde titel verschenen bij Tarlier, Brussel, 1827.
'Recherches statistiques' (op.cit).
Terug naar de tekst

51 Sur l'homme (op.cit), p.8-26 (cursivering van Quetelet). Terug naar de tekst

52 Sur l'homme (op.cit), p.97-116 (cursivering van Quetelet).
A. Quetelet, Instructions populaires sur le calcul des probabilités, Brussel, Hayez, 1828, p.233.
Terug naar de tekst

53 A. Quetelet, 'Sur l'appréciation des documents statistiques, et en particulier sur l'appréciation des moyennes', Bulletin de la Commission Centrale de Statistique, 1845, vol.2, p.205-286, met name p.250-272. Hij noemt de klokkromme de 'kromme van de mogelijkheden' (p.249) en het algebraïsche verband erachter het 'verband van de nauwkeurigheid' (p.272).
Zie ook A. Quetelet, Lettres à S.A.R. le duc régnant de Saxe-Cobourg et Gotha, sur la théorie des probabilités, Brussel, Hayez, 1846, p.124-148 (brieven 19-21).
Quetelet ontleent zijn gegevens over de Schotse recruten aan 'Statement of the sizes of men in different counties of Scotland, taken from the local militia' (anoniem), The Edinburgh medical and surgical journal, 1817, vol.13, p.260-264 ('Appréciation' (op.cit), p.258 vermeldt slechts p.261) en die over de Franse recruten aan Hargenvilliers in Recherches et considérations sur la formation et te recrutement de l'armée en France, zonder nadere gegevens over die publikatie te geven (ib, p.260).
Terug naar de tekst

54 F. Galton, 'Hereditary talent and character', MacMillan's magazine, juni 1865, p.157-166 en augustus 1865, p.318-327. Voor meer informatie over de leer van de voorouderlijke erfelijkheid: E. Vervaet, 'Intelligentie en de erfelijkheid-omgeving-kwestie', Struktuur en genese, 2001, vol.14, p.4-58, met name p.19-23.
C. Darwin, The variation of animals and plants under domestication (2 delen), Londen, Murray, 1868, deel 2, p.357-404, met name p.374-402.
F. Galton, Hereditary genius, Londen, MacMillan, 1869, p.22-32.
Terug naar de tekst

55 F. Galton, 'On a proposed statistical scale', Nature, 1874, vol.9, p.348v.
F. Galton, 'Statistics by intercomparison, with remarks on the law of frequency of error', Philosophical magazine, vierde serie, 1875, vol.49, p.33-46.
Terug naar de tekst

56 F. Galton, 'Regression towards mediocrity in hereditary stature', Journal of the Anthropological Institute, 1886, vol.15, p.246-263.
F. Galton, 'Co-relations and their measurement, chiefly from anthropometric data', Proceedings of the Royal Society of London, 1888, vol.45, p.135-145.
F. Galton, 'Kinship and correlation', North American review, 1890, vol.150, p.419-431; overgenomen in S.M. Stigler, 'Francis Galton's account of the invention of correlation', Statistical science, 1989, vol.4, p.73-85, met name p.81-85.
K. Pearson, 'Mathematical contributions to the theory of evolution - III. Regression, heredity and panmixia', Philosophical transactions, 1896, p.253-318, met name p.261-268. In zijn afleiding gaat Pearson ongeveer te werk als Gauss bij diens bewijs van de juistheid van de methode van de kleinste kwadraten, namelijk door de kans op een gelijktijdig optreden van meerdere factoren, in Pearsons geval afwijkingen van gemiddeldes, te maximaliseren, wat gelijkstaat aan het gelijkstellen aan 0 van de exponent van de e-macht; zie A.V.
Terug naar de tekst

57 G.U. Yule, 'On the significance of Bravais' formulae for regression, &c, in the case of skew correlation', Proceedings of the Royal Society of London, 1897, vol.60, p.477-489.
G.U. Yule, 'An investigation into the causes of changes in pauperism in England, chiefly during the last two intercensal decades, I', Journal of the Royal Statistical Society, 1899, vol.62, p.249-286.
Terug naar de tekst

58 R.A. Fisher, The design of experiments, Edinburgh, Oliver and Boyd, 1949 (vijfde druk, ten opzichte van de eerste druk uit 1935 verbeterd en uitgebreid), p.9, p.11-25. Op p.6v (en in vele andere publikaties) geeft Fisher aan dat en waarom hij zich van de klassieke in plaats van van de omgekeerde kansrekening bedient. Terug naar de tekst

59 R.A. Fisher, 'The logic of inductive inference', Journal of the Royal Statistical Society, 1935, vol.98, p.39-54 en Design of experiments (op.cit), p.182v.
R.A. Fisher, 'Scientific thought and the refinement of human reasoning', Journal of the Operations Research Society of Japan, 1960, vol.3, p.1-10; p.3: 'De continue ontwikkeling van het wiskundige denken [...] vanaf de zeventiende eeuw is in onze tijd tot rijpheid gekomen door kruisbestuiving met de natuurwetenschappen, door een model [...] te verschaffen voor het correcte gebruik van het inductieve redeneren. [...] Een model slechts, want de ontwikkeling van de menigvuldige latente mogelijkheden ervan zijn bijna onaangeroerd gebleven [...]'.
Zie ook: R.A. Fisher, 'The rhesus factor; a study in scientific method', American scientist, 1947, vol.35, p.95-103; 'Statistical methods and scientific induction', Journal of the Royal Statistical Society, 1955, vol.17, p.69-78; 'The place of the design of experiments in the logic of scientific inference', Colloques internationaux du Centre National de la Recherche Scientifique, 1962, vol.110, p.13-19.
Terug naar de tekst

60 K. Pearson, 'On the systematic fitting of curves to observations and measurements', Biometrika, 1902, vol.1, p.265-303., met name p.266.
'Investigation into the causes' (op.cit), p.278.
'Statistical methods and scientific induction' (op.cit) en R.A. Fisher, Statistical methods and scientific inference, Edinburgh, Oliver & Boyd, 1956.
Terug naar de tekst

61 R. Clausius, 'Über die Art der Bewegung welche wir Wärme nennen', Annalen der Physik, 1857, vol.100, p.353-380.
J.C. Maxwell, 'Illustrations of the dynamical theory of gases', The London , Edinburgh and Dublin philosophical magazine , 1860, vol.19, p.19-32 en vol.20, p.21-37.
Terug naar de tekst

62 K. Krönig, 'Grundzüge einer Theorie der Gase', Annalen der Physik, 1856, vol.99, p.315-322. Eerdere gedachtes in deze richting, van de Nederlander Daniël Bernoulli en van de Engelsen Herapath, Waterston en Joule, zijn niet aangeslagen; D. Bernoulli, Hydrodynamica sive de viribus et motibus fluidorum, Dulsecker, Reinhold, 1738, J. Herapath, 'A mathematical inquiry into the causes, laws and principal phenomena of heat, gases, gravitation, etc.', Annals of philosophy, 1821, vol.1, p.278 en 280v, J.J. Waterston, 'On the physics of media that are composed of free and perfectly elastic molecules in a state of motion' (1845; 1846), Philosophical transactions, serie A, 1892, vol.183, p.5-79 (met een voorwoord van Rayleigh op p.1-5) en J.P. Joule, 'Some remarks on heat and the constitution of elastic fluids', Memoirs of the Manchester Literary and Philosophical Society, november 1851 (herdrukt in The London, Edinburgh and Dublin philosophical magazine, 1857, vol.14, p.211-216).
'Über die Art der Bewegung' (op.cit).
R. Clausius, 'Über die mittlere Länge der Wege, welche bei Molecularbewegung gasförmiger Körper von den einzelnen Molecülen zurückgelegt werden, nebst einigen anderen Bemerkungen über die mechanische Wärmetheorie', Annalen der Physik, 1858, vol.105, p.239-258.
Terug naar de tekst

63 'Illustrations' (op.cit); c = m/(kT) met m de massa van een molecule, k de constante van Boltzmann en T de absolute temperatuur; de notaties zijn de hedendaagse. Terug naar de tekst

64 J.C. Maxwell, Theory of heat, Londen, Longmans & Green, hoofdstuk 22 (p.315 en p.339 in de nieuwe uitgave van 1894).
History of European thought (op.cit), p.589v; zie ook p.591, noot 1; p.595v.
C.E. Shannon, 'A mathematical theory of communication', The Bell System technical journal , 1948, vol.27, p.379-423 en p.623-656.
M. Born, 'Einstein's statistical theories', Albert Einstein: philosopher-scientist (red. P.A. Schilpp), New York, Tudor, 1949, p.163-177.
O.B. Sheynin, 'History of the statistical method in physics' (op.cit); ten minste op p.356 bezigt hij de term 'stochastisch': 'The first stochastic reasoning in the physical literature of the 19 th century is apparently that of Clausius'.
Terug naar de tekst

65 De onderzoekscyclus is alles behalve een volstrekt nieuw idee. Zoals elders gesteld en aangetoond zijn er allerlei verbanden, onder meer met Piagets assimilatie-accommodatie-schema, met Kuhns wetenschappelijke cyclus (... --> normale wetenschap --> anomalie --> wetenschappelijke revolutie --> normale wetenschap --> ...), met Aristoteles' apagogègedachte en met Peirce's abductiegedachte. Ten minste 2 punten zijn wel nieuw. a. Met de onderzoekscyclus sluit ik uitdrukkelijk deductie en vooral inductie in de wetenschap uit; Piaget doet dat ook bij het kind, maar dan in termen van aangeborenheid van kennis respectievelijk empirisme. b. Mij is geen zo brede wetenschapshistorische aantoning bekend; zie bijvoorbeeld deze lijst publikaties:
E. Vervaet, 'Enige hoogtepunten uit de geschiedenis van het denken over zwaartekrachtverschijnselen', Strukturalistische verkenningen in kennisleer en persoonlijkheidsleer, Amsterdam, Vervaet, 1986, p.103-124.
E. Vervaet, ' De geboorte van de spectraalanalyse', Intermediair, 23 oktober 1987, p.43, p.45 en p.47.
E. Brand, 'De ontdekking van aardolie', Struktuur en genese, 1989, vol.2, p.25-28.
Over de stoommachine: E. Vervaet, ' Theorie en praktijk (2)', Maandblad Geestelijke volksgezondheid, spetember 1989, p.970-974; E. Vervaet, 'Theorie: fundament noch dak, maar vloer en plafond', Struktuur en genese, 1989, vol.2, p.29-31.
E. Vervaet, 'Pseudo-isochromatische kleurenblindheidsproeven', Struktuur en genese, 1990, vol.3, p.30-39 en Struktuur en genese, 1991, vol.4, p.18-34; E. Vervaet, 'Zicht op kleur', Natuur & techniek, 1990, vol.58, p.636-647; E. Vervaet, 'De eerste kleurenblindheidsproeven', Tijdschrift voor de geschiedenis der geneeskunde, natuurwetenschappen, wiskunde en techniek, 1991, vol.14, p.74-95.
E. Vervaet, 'AIDS-mysterie', Struktuur en genese, 1991, vol.4, p.7.
E. Vervaet, 'De ontdekking van Amerika - I', Struktuur en genese, 1992, vol.5, p.24-28.
J. Stelleman en E. Vervaet, 'De ontdekking van de kernramp bij Tsjernobyl', Struktuur en genese, 1996, vol.9, p.28-33.
E. Vervaet, 'Taalvoorbeelden van de onderzoekscyclus', Struktuur en genese, 1996, vol.9, p.34-38 en Struktuur en genese, 1997, p.4-30.
De onderzoekscyclus moet als verklaringspoging voor de totstandkoming van geldige, betrouwbare en toepasbare kennis ook voor zichzelf gelden. Dat blijkt het geval te zijn; zie R. Kooijman en E. Vervaet, 'Is de onderzoekscyclus zelfgeldig?', Struktuur en genese, 1997, vol.10, p.32-42. Terug naar de tekst


66 'Taalvoorbeelden' (op.cit), vol.9, p.36-38; 'Zicht op kleur' (op.cit). Terug naar de tekst

67 E. Vervaet, Groeienderwijs, Amsterdam, Ambo, 2002, §8.1.
J. Piaget en A. Szeminska, La genèse du nombre chez l'enfant, Neuchâtel, Delachaux & Niestlé, 1941, hoofdstuk 3, met name p.71.
Terug naar de tekst

68 Natural and political observations (op.cit), p.40 en p.47. Terug naar de tekst

69 'Florence Nightingale' (op.cit), p.131. Terug naar de tekst

70 É. Durkheim, Le suïcide; étude de sociologie, Parijs, Alcan, 1897; geciteerd is uit de Engelse vertaling Suicide; a study in sociology, Londen, Routledge & Kegan Paul, 1952, p.47 (tabel 1), p.46, 51, p.116, p.37, p.46; andere voorbeelden van Durkheims werkwijze volgens de onderzoekscyclus staan onder meer op p.115vv en p.171vv.
Durkheim geeft een enkele keer een empiristische voorstelling van zaken: 'Deze hypothese volgt [...] direct uit tabel XIII' (p.116). In werkelijkheid is de door hem aangenomen relatie een verklaringspoging voor de feiten in die tabel, een verklaringspoging waarvan hij met andere feiten de houdbaarheid aantoont. Bij die uitspraak treedt Durkheim als epistemoloog op. Ter discussie staat echter niet of hij epistemologische kennis voortbrengt maar of dat het geval is met sociologische kennis. En dan is het antwoord volmondig: Durkheim brengt sociologische kennis voort.
Terug naar de tekst

71 J. Piaget, La représentation du monde chez l'enfant, Parijs, Alcan, 1926, sectie 3.
E. Vervaet, 'Het ontstaan van het zelfgevoel - IX',
Struktuur en genese, 2004, p.4-25, met name deel III; in het artificialisme wordt het niet waargenomen bezielde wezen dus achter het te verklaren verschijnsel geplaatst en niet erin zoals in het animisme. Terug naar de tekst

72 'Argument for divine providence', (op.cit). Terug naar de tekst

73 'Mémoire sur la probabilité des causes' (op.cit), VI. Terug naar de tekst

74 E. Halley, 'An estimate of the degrees of the mortality of mankind, drawn from curious tables of the births and funerals at the city of Breslaw; with an attempt to ascertain the price of annuities upon lives', Philosophical transactions, 1693, vol.17, p.596-610 en 'Some further considerations on the Breslaw bills of mortality', ib, p.654-656. Terug naar de tekst

75 Ptolemaios, Almagest, boek 3, hoofdstuk 1. Terug naar de tekst

76 De litteraria expeditione (op.cit), p.501; Voyage astronomique (op.cit), p.484 en p.501. In 1760 beschrijft Boscovich zijn meetfouttheorie zelfs formeel: 'Als een zeker aantal graden is gegeven, vind de correctie die op elk daarvan aangebracht moet worden, onder de aanname dat aan de volgende 3 voorwaarden is voldaan. De eerste is dat hun verschillen evenredig zullen zijn aan de verschillen tussen [de G's]. De tweede is dat de som van de positieve correcties gelijk zullen zijn aan de som van de negatieve. De derde is dat de som van alle correcties, positief en negatief, zo klein mogelijk zal zijn [...]. De eerste voorwaarde wordt gevergd door de wet van het evenwicht, die een ellipsvorm vereist; de tweede wordt gevergd door het feit dat afwijkingen van een slinger [waarmee men de metingen verricht; EV] of meetfouten van waarnemers, die graden vergroten of verkleinen, dezelfde mate van waarschijnlijkheid hebben; de derde is noodzakelijk om de waarnemingen zo nauw mogelijk te benaderen'. Boscovich' methode wordt wel aangeduid als de methode van Boscovich-Laplace omdat Laplace in 1772 en 1774 bij Boscovich aansluit wanneer hij voor de meetfouten de verdelingsfunctie (m/2)exp(-m|x|) aanneemt. Terug naar de tekst

77 J. Kepler, Astronomia nova, Heidelberg, Voegelinus, 1609, hoofdstukken 19, 58 en 59. Terug naar de tekst

78 E. Sober, 'Sex ratio theory, ancient and modern', in J. Riskin (red), The history and philosophy of artificial life, nog te verschijnen, volgens een e-brief van Riskin van 11 augustus 2005 bij de University of Chicago Press. Terug naar de tekst

79 'On the advantage of taking the mean', (op.cit), p.82v. Terug naar de tekst

80 C.F. Gauss, 'Theoria combinationis observationum erroribus minimis obnoxiae; Anzeigen', Göttingische gelehrte Anzeigen, 1821, vol.33, p.321-327. Terug naar de tekst

81 'Logic of inductive inference' (op.cit), p.39.
C.S. Peirce, 'Deduction, induction, and hypothesis', Popular science monthly , 1878, vol.13, p.470-482, en vele andere publikaties van hem.
Er zijn 2 inductiegedachtes. Volgens het empirisme zou kennis uit het waarnemen van feiten voortkomen - daarbij hoeven de feiten niet getalsmatig van aard te zijn. Volgens het empiristisch-positivisme zou kennis eveneens uit het waarnemen van feiten voortkomen, terwijl de feiten wel van getalsmatige aard zouden dienen te zijn. In dit artikel beperken we ons goeddeels tot de empiristisch-positivistische variant op de inductiegedachte.
Terug naar de tekst

82 De grafiek voor de geboortecijfers staat aan het slot van 'Recherches sur la population' (op.cit). Zie ook visualiseur.bnf.fr/Visualiseur?Destination=Gallica&O=NUMM-81568, eerste webpagina na p.90 van het artikel.
De misdaadcijfers staan in 'Recherches statistiques' (op.cit), p.35. Anderen trekken Quetelets constantheid later, wanneer er veel meer cijfers in de zin van de beschrijvende statistiek bekend zijn, na. Ook zij verwerpen Quetelets verklaringspoging in deze; zie bijvoorbeeld Geschichte (op.cit), p.363vv. Bijvoorbeeld, tussen 1825 en 1834 schommelt het aantal doodstraffen per jaar in Frankrijk tussen 15 en 111, terwijl 111 maar liefst een factor 7,4 meer is dan 15.
Terug naar de tekst

83 Voor Laplace, zie 'Mémoire sur la probabilité des causes' (op.cit), probleem III en 'Supplément' (op.cit), p.559v.
Voor Gauss, zie Theoria motus (op.cit), §172 en 'Supplementum theoriae combinationis observationum erroribus minimis obnoxiae', Göttingische gelehrte Anzeigen, 1826, vol.153, p.1521-1527.
Terug naar de tekst

84 Hereditary genius (op.cit), p.28v, p.32 en p.358. Terug naar de tekst

85 Studies in the history of statistical method (op.cit), p.92.
G. Cuvier, Discours sur les révolutions de la surface du globe, et sur les changemens qu'elles ont produits dans le règne animal , Parijs, Dufour, 1826, 'Principe de cette détermination'.
G. Cuvier, Briefe an C.-H. Pfaff, aus den Jahren 1788-1792 (red. W.F.G. Behn), Kiel , Schwers, 1845, p.68.
C. Darwin, On the origin of species by means of natural selection, or the preservation of favoured races in the struggle for life, Londen, Murray, 1859, p.143-150.
History of statistics , p.297v en 'Francis Galton's account' (op.cit).
K. Pearson, 'Notes on the history of correlation', Biometrika, 1920, vol.13, p.25-45, met name (2) en (1).
Terug naar de tekst

86 J. Agassi, 'Who discovered Boyle's law?', Studies in history and philosophy of science, 1977, vol.8, p.189-250.
J.B. West, 'The original presentation of Boyle's law', Journal of applied physiology, 1999, vol.87, p.1543-1545.
R. Hooykaas, Geschiedenis der natuurwetenschappen, Utrecht, Bohn, Scheltema & Holkema. 1976 (tweede druk), p.151v en p.157v.
Terug naar de tekst

87 Historisch gezien is het anders gegaan dan hier betogenderwijze is gepresenteerd. Al vóór mijn promotieonderzoek (1981-1984) koester ik enig wantrouwen tegen de inductieve statistiek. Met name kan ik me niet voorstellen naar wat voor samenhang de correlatiecoëfficiënt zou kunnen verwijzen. In de laatste fase van mijn studie, vooral tijdens het schrijven van mijn skriptie met Mary Lommerse, en tijdens mijn promotieonderzoek groeit mijn wantrouwen. Mijn eigen werkwijze, waarvan ik nota bene in dat onderzoek de geldigheid aantoon aan de hand van de geschiedenis van zwaartekrachtverschijnselen van de Babyloniërs via Plato, Aristoteles, Ptolemaios, Copenicus en Newton tot Einstein, blijk ik niet terug te kunnen vinden bij persoonlijkheidsvragenlijsten en de faktoranalytische benadering. Na mijn promotie wordt mijn overtuiging dat de inductieve statistiek een schijnwetenschap is, alleen maar versterkt, niet alleen door de vele wetenschapshistorische studies van anderen en van mezelf (zie noot 65; zie met name de studie naar kleureblindheidsplaten die door inductief-statistische psychologen annexerenderwijze 'kleureblindheidstests' worden genoemd en op voet van gelijkheid met IQ- en persoonlijkheidstests worden geplaatst), maar ook doordat de aanhangers en beoefenaren van de inductieve statistiek in de psychologie de discussie op oneigenlijke wijze blijken te ontwijken en wegens belangen (Cito, testburo's) - en niet omdat ze zich verdedigd zouden hebben tegen mijn kritiek ondanks dat die mede in een proefschrift uitvoerig is uiteengezet - verder doen alsof er niets aan de hand is. Terug naar de tekst

Klik hier om naar de overige artikelen te gaan
Klik
hier om naar de samenvatting te gaan

Klik hier om naar het hoofdmenu te gaan