Kolik slov je v knihách LOTR? – Quora

zajímavá otázka.

jsem slovo cruncher a statistik, takže si myslím, že na to mohu odpovědět. Destiloval jsem plný text LOTR z mého vydání PDF, odstranil jsem zjevné nevyžádané pošty z digitálního textu(čísla stránek, záhlaví a zápatí, zabalené řádky a slova atd.) Pozor: do analýzy jsem vzal Tolkienovu předmluvu, ale ne přílohy, protože moje PDF vydání je postrádá.

text LOTR má 482 058 výskytů, s 12 972 odlišnými Lemmy. Aby byl koncept jasnější: v textu lze každé slovo použít více než jednou, samozřejmě: v LOTR, lemma a používá se 19,987 krát; to dělá 19,987 výskytů a 1 lemma.

v Lotru Tolkien používá 4 470 hapaxů (hapax, řecké slovo, které znamená Jednou, pouze jednou, je slovo použité jen jednou v textu): to znamená, že jedno slovo ze tří (přesněji 34,51%) se v knize používá jen jednou; to je opravdu obrovské množství hapaxů, pro tak masivní text: znamení Tolkienova velkého lexikálního mistrovství (některé hapaxy jsou samozřejmě elfské, trpasličí nebo jiné). orkish slova: není to také známka Tolkienova velkého lexikálního mistrovství?).

jaká jsou nejpoužívanější slova, s výjimkou spojek, předložek, modálních a časových příslovců, článků a zájmen? Seznam není nijak zvlášť překvapivý:

  1. frodo1991
  2. long1351
  3. sam1290
  4. great1283
  5. down1203
  6. like1146
  7. gandalf1123
  8. think1107
  9. man1106
  10. back1007
  11. know938
  12. day841
  13. fall827
  14. time825
  15. dark818
  16. way800
  17. find790
  18. eye790
  19. pass783
  20. hand780
  21. leave760
  22. stand757
  23. hear756
  24. well749
  25. aragorn722
  26. pippin685
  27. light683
  28. lie679
  29. turn667
  30. thing665
  31. speak642
  32. ring639
  33. tree637
  34. road628
  35. merry603

Líbí se mi skutečnost, že tři podstatná jména obsažená v tomto seznamu, která poukazují na konkrétní věci, jsou prsten (samozřejmě), strom a silnice. Strom! Jak je to hezké? Strom je jedním z nejpoužívanějších slov v Lotru, a jedno ze tří hlavních jmen věcí! Být sám milovníkem stromů, tento výsledek si hodně užívám.

samozřejmě existuje mnoho slov (slovesa, předložky a substantiva) o pohybu (LOTR je kniha o cestě), spousta sloves o lidské komunikaci a několik slov o procesu vnímání světa smysly: oči, tma, světlo, slyšet.

metodická poznámka o lži: software, který jsem použil pro analýzu, provádí proces lemmatizace (před analýzou je každé slovo přeměněno na jeho slovníkové lemma: množná podstatná jména na singulární a konjugovaná slovesa na infinitivní formu: to, aby se snížila matice dat a aby výsledky byly méně rozptýlené a smysluplnější). Software však není schopen provádět sémantickou analýzu, takže nedokáže říci, že současná forma ležela, od do ležela, od minulé dokonalé formy ležela, od do lži. Měl jsem provést disambiguaci, ale myslím si, že by to do značné míry přehnalo účel této odpovědi: každopádně software lemmatizoval pod lež další události: 373 lež, 110 lež, 89 lži, 84 lhaní, 22 lež a jen 1 lhal. Můžeme říci, že lhaní je proces, který není pro vývoj vyprávění LOTR Neznámý.

bylo by velmi zajímavé analyzovat také hapax: například (jen se snažím vyprázdnit moře lžičkou) existuje jedno daňové slovo, které se používá v obrazovém smyslu:

‚lžeš, řekl Wormtongue. „A tento meč, který váš pán sám dal do mého držení.“

„a nyní to od vás znovu vyžaduje“, řekl Théoden. Nelíbí se vám to?‘

‚ jistě ne. pane, řekl Wormtongue. ‚Starám se o vás a Vaše, jak nejlépe mohu. Ale neunavujte se, nebo zdaňujte příliš silně svou sílu. Nechte ostatní vypořádat se s těmito nepříjemnými hosty.

a tam je jen jeden bastard slovo, odkazoval se na potomky Ungoliant:

široko daleko její menší mláďata, bastardi ubohých kamarádů, její vlastní potomstvo, které zabila, se rozšířila z glen do glen, z Ephel Dúath do východních kopců, do Dol Guldur a rychlosti Mirkwoodu. Ale nikdo ji nemohl soupeřit, Shelob velký, poslední dítě Ungoliantu, které trápí nešťastný svět.

existuje spousta adjektiv začínajících un-, myslím, že Tolkien je měl naprosto milovat (stejně jako já, jako ne nativní, nebo nepřirozený, nebo nespojený, anglický mluvčí a čtenář): nevděčný, unfading, neprozkoumaný, nerozumný, jednotvárný, nadpozemský, unheeding, unhopeful, a tak dále.

snažil jsem se také provést klastrovou analýzu. V textové analýze, proces shlukování vytváří mapy, které označují, která slova se používají v přísné blízkosti, se kterými jinými slovy: mapa nám umožňuje individualizovat některé obsahové oblasti, které sdílejí lexikální afinitu; a, v přímém důsledku toho, tato analýza umožňuje učenci odhalit hlavní témata přítomná v analyzovaném textu.

můžete snadno rozpoznat čtyři hlavní třídy z analýzy clusteru textu LOTR; dvě třídy (ty, které se nacházejí v horní části mapy) jsou zase rozděleny do dvou podtříd.

  • Červená Třída odkazuje na cestu Froda a sama do Mordoru. Jak můžete snadno vidět, tento shluk je naplněn krátkými,“ popraskanými “ slovy dotýkajícími se zoufalého morálního a fyzického úsilí páru, v jejich pohybu směrem k Hoře Doom, a na pusté krajině sopečné Pustiny. Spousta částí těla, spousta sloves vyjadřujících bolest, spousta onomatopoeia (ruka, syčení, hlava, okamžik, Glum, táhnout, lapat po dechu, krk, krok, záda, noha, křičet, Shagrat, grind, orc, odporný, paže, plakat, koleno, grip, zvuk, dech, oko, tápat, čepel, Boj, křičet, bič, kravata, zápach, plazit se).
  • bledě zelená a akvamarínová třída se vztahuje k společenským cestám. Zejména zelená podtřída se zmiňuje o“ správné “ cestě a je plná lemmat zabývajících se pohybem a je spojena s únavou a obtížnou turistikou (svah, kopec, silnice, stoupání, potok, dolů, míle, strom, strana, Hora, cesta, břeh, strmý, údolí, mrak, vzestup, hřeben, vítr, úzký, skála…). Na druhé straně se podtřída akvamarín zabývá „magickými mezihrami“, které cestu lemují: zejména starým lesem, Lórienem a šedými ráji. Tato podtřída je plná lemmat, které se zmiňují o barvách a přírodě, a jsou konotovány krásou, jasností a svěžestí (stříbro, list, Bílá, Zelená, hvězda, lesk, zpěv, květina, vlasy, Goldberry, zlato, voda, slunce, sladký , strom, světlo, žlutá, jasná, loď, jasná, Fontána, umyvadlo, plachta, šedá, moře, pěna, píseň, léto, zlatý, vítr, klenot, Rosa, déšť, modrá, svíčka, teplá, štíhlá, třpyt).
  • Třída Grey odkazuje na hrabství a Bree a je plná útulných, útulných, praktických, každodenních slov a slov o lidské komunikaci: Hobiti jsou přece jen velmi upovídaní lidé. Je to slovní zásoba „výchozí situace, tak klidná a nudná“, kterou můžete spatřit v každém příběhu dobrodružství. Nicméně, tato třída obsahuje některé malé plíživé slova, předvídat tvar věcí, které přijdou (Strider, dobrý, Bree, myslet, mluvit, předpokládat, vědět, příběh, jídlo, Pane, starosti, kousnutí, strach, podnikání, trajekt, zeptejte se, řekněte, obchod, skutečný, kolega, smích, čas, queer, pronajímatel, hostinec , dobrodružství, zprávy, aféra).
  • modrá a fialová Třída označuje řádnou válku mužů proti Sauronovi. Zejména Modrá třída se zmiňuje o zlém vlivu prstenu, s jeho oběťmi a nepřáteli (Sauron, Boromir, moc, nepřítel, zlo, Isildur, prsten, Saruman, Elrond, moudrý, Minas Tirith, Moria, nebezpečí, zničit, zahynout, tradice, účel, Mordor, služebník, pochybnost, strach, bane, moudrost, nositel, osud). Fialová Třída zmiňuje skutečné válečné činy, samotné bitvy v Rohanu a v Gondoru (pán, král, Éomer, Théoden, Éowyn, jízda, muž, Denethor, syn, město, Gondor, dům, Faramir, Beregond, léčit, Bitva, Rohan, Správce, Mark, Imrahil, kapitán, Aragorn, válka, princ, rytíř, strážce, kůň, láska , sestra, Edoras, léčitel, služba, čest , nabídka, žena, spěch).

tak dlouho, kolik slov v knihách LOTR. Doufejme, že moje odpověď je pro Tolkienovy fanoušky a možná i vědce zajímavá. Pokud má někdo nějakou zvědavost, která přímo nesouvisí s odpovědí, o výsledcích analýzy, nebo o metodikách, neváhejte mě DM.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.