Hallo,
Ik wil even een idee voorleggen voor een programma. Het moet een tekst bekijken en uitrekenen welke woorden daarin het vaakst voorkomen. Woordfrequenties berekenen, oftewel een top tien maken van de meest populaire woorden (het woord "de" maakt een goede kans om koploper te zijn...)
Het Windows-venster zal een invoer-veld voor tekst moeten hebben (zelf intikken of kopiëren via klembord), een knop om het tellen te starten en een uitvoer-veld, waarin de woorden staan met hun score, de hoogste score bovenaan. Ik denk dat de woorden in twee (grote) array's kunnen worden opgeslagen, één voor de woorden en één voor de bijbehorende teller.
Het splitsen van regels of een hele tekst in losse woorden roept de vraag op wàt een woord is. Wat begrenst een woord? Als "delimiters" dringen zich in elk geval "begin van de regel", spatie, tab en "einde van de regel" (CR + LF) op. Ook leestekens als punt, komma, dubbel aanhalingsteken, haakjes, puntkomma en dubbele punt. Sommige tekens zijn soms een probleem: liggend streepje (zee-egel), apostrof (auto's), slash (1/2)...
Tenslotte zou het tellen moeten gebeuren zonder acht te slaan op hoofdletters (Tenslotte en tenslotte zijn het zelfde woord). En woorden van één letter kunnen buiten beeld blijven (anders zou "i.v.m." de woorden "i", "v" en "m" opleveren).
Wie ziet er wat in?
groeten,
rob bishoff