Slovník ORBIS a sémantické třídy

Autoři:

Vydání:

2007, ročník 11, číslo 9 [2]

Rubrika:

Úvod

Ve své disertaci [FRIŠ, 2006] jsem se zabýval sémantickými třídami, platností Mandelbrotova a Zipfova zákona pro tyto třídy a v souvislosti s tím též částí slovní zásoby českého jazyka. Následující text představuje základní myšlenky obsažené v disertaci a její téma dále rozvíjí.

Slovník ORBIS

V rámci disertace [FRIŠ, 2006] byl ze souboru 10 000 slov sestaven slovník sémantických tříd, který nese na počest Jana Amose Komenského název ORBIS. Jedná se o slovník středního až malého rozsahu (slovní zásoba češtiny přesahuje 100 000 slov, běžné jsou slovníky v rozsahu 20 000 až 50 000 slov). Obsahuje nejdůležitější slova – jejich důležitost přitom byla stanovena na základě jejich frekvence, tj. důležitými slovy jsou ta, která jsou v češtině velmi frekventovaně užívána. Za účelem určení frekvence slov byly využity dva frekvenční slovníky, nejprve slovník z roku 1961 [JELÍNEK; BEČKA; TĚŠITELOVÁ, 1961] a následně slovník z roku 2004 [ČERMÁK, 2004]. Do slovníku ORBIS bylo zmiňovaných 10 000 nejfrekventovanějších slov vybráno na základě slovníku z roku 2004. . Internetovou podobu slovníku je možné nalézt na webových stránkách dostupných na adrese http://martin1946.sweb.cz/ [4].

Slovník ORBIS byl vytvořen podle vzoru anglických slovníků Rogetův tezaurus [Roget’s Thesaurus] a Wordnet [Wordnet]. V angličtině mají neabecední slovníky tohoto typu dlouhou tradici a jsou dodnes často vydávány. Rogetův tezaurus vyšel poprvé v roce 1852. O Wordnetu se pořádají mezinárodní konference (2. mezinárodní konference [5] se dokonce uskutečnila v roce 2004 v Brně, jejím pořadatelem byla Masarykova univerzita).

V češtině doposud slovník tohoto typu zatím chyběl, pokud nepočítáme-li abecední slovníky synonym, např. Slovník synonym a frazeologismů J. V. Bečky [BEČKA, 1982] či Slovník českých synonym [PALA; VŠIANSKÝ, 2000]. Pojetí Rogetova tezauru se pak blíží Slovník věcný a synonymický [HALLER, 1969-1987], ten však přes svůj velký rozsah zůstal nedokončen.

Slovník ORBIS podává informaci o jazyce a o slovech, která jej tvoří. Umožňuje se na slovní zásobu dívat shora, tj. z ptačí perspektivy, a ukazuje, která slova do daného tématu patří či nepatří. Slovník také usnadňuje učení se cizím jazykům, neboť slova jsou v něm řazena podle příbuznosti. Perspektivně by měl umožnit také automatické (počítačové) vytvoření informačního profilu dokumentu a usnadnit jeho následné vyhledání. Tento způsob využití slovníku je však v současné době ještě předmětem výzkumu. V budoucnu však lze očekávat využití slovníku ORBIS také v knihovnické praxi.

Sémantické třídy

Sémantickou třídou je pro účely slovníku ORBIS míněna třída slov, které si jsou blízké svým významem. Např. slova židle, stůl, skříň a pohovka patří do sémantické třídy Nábytek.

Ve slovníku ORBIS je obsaženo celkem 32 hlavních (nejvyšších) sémantických tříd. Každá hlavní sémantická třída se dále člení na tři sémantické skupiny, každá skupina pak na tři sémantické podskupiny. Slovník tak obsahuje celkem 96 sémantických skupin a cca 300 podskupin.

Sémantické třídy vznikly původně ze záhlaví/kategorií zmiňovaného Rogetova tezauru, a to seskupením a sdružením těchto záhlaví/kategorií do větších celků. Rogetových záhlaví je již tradičně 1 000. V tab. 1 je uveden seznam sémantických tříd slovníku ORBIS a počet slov v nich. Je zřejmé, že rozdělení slov do jednotlivých tříd je zhruba rovnoměrné – průměrně je v jedné třídě obsaženo 60 slov. Díky tomu, že byly jednotlivým slovům přiřazeny jejich frekvence, můžeme rovnoměrnost sledovat ještě podrobněji, např. si je rozdělit do čtyř rovnoměrných frekvenčních intervalů (podle pořadí), které označíme jako interval A (1. až 500. místo podle frekvence), B (501. – 1 000. místo), C (1 001 – 1 500. místo) a D (1 501. – 2 000. místo). Třídy celkově obsahují 1 635 plnovýznamových slov. Dalších 365 slov jsou slova gramatická a vlastní jména. Celkový počet zpracovávaných slov je tedy 2 000.

Tab. 1: Počty slov v sémantických třídách a v jednotlivých intervalech frekvence

>

Číslo třídy	Název třídy	Počet slov v třídě	Intervaly
Číslo třídy	Název třídy	Počet slov v třídě	A	B	C	D
1	bytí, událost	28	8	10	6	4
2	vztah, seskupení	49	16	14	11	8
3	množství, číslo	52	14	17	8	13
4	řád, zákonitost	51	13	12	13	13
5	změna, příčina	70	12	24	22	12
6	čas, období	34	12	12	4	6
7	průběh času	52	18	14	12	8
8	prostor	50	10	12	13	15
9	tvar	37	5	10	13	9
10	pohyb	62	13	9	15	25
11	přenos, změna polohy	43	4	12	12	15
12	hmota, krajina	45	8	12	11	14
13	vlastnosti hmoty, smysly	77	15	20	23	19
14	živočich, biologická činnost	42	11	8	13	10
15	části organismu	43	9	12	13	9
16	práce, činnost	42	17	2	8	15
17	zemědělství, průmysl, doprava	49<-td>	6	17	9	17
18	obchod, majetek, dát	61	15	16	15	15
19	úřad, řízení, výchova	61	3	13	25	20
20	společnost, stát, skupina	62	16	17	17	13
21	boj, politika, armáda	40	3	12	5	20
22	vztahy mezi lidmi, morálka	63	8	17	15	23
23	rodina, sex, přátelství	69	18	18	16	17
24	město, obydlí	47	10	13	12	12
25	oděv, jídlo, nemoc	30	2	11	6	11
26	zpráva, řeč, psaní	53	11	18	13	11
27	hledání, vyučování, pravda	71	16	11	25	19
28	myšlení, vědomost	69	11	23	19	16
29	věda, umění, náboženství	47	6	16	16	9
30	charakter, zážitek, zábava	48	9	14	13	12
31	nálada, dojmy, city	49	7	7	13	12
32	lidská situace	39	2	5	11	21
Celkem		1 635	328	438	427	443

V tab. 2 jsou prezentovány aritmetický průměr součinů pořadí a frekvence a standardní odchylka pro jednotlivé sémantické třídy. První sloupec (Číslo třídy) obsahuje číslo sémantické třídy (číslování je totožné s číslováním v tab. 1). Ve druhém sloupci (Aritmetický průměr součinů) je pak uveden aritmetický průměr součinů pořadí a frekvence (do výpočtu však není zahrnuto prvních pět slov v pořadí, u nichž jsou odchylky od Zipfova zákona – viz dále – největší). Ve třetím sloupci (Standardní odchylka) je uvedena standardní odchylku od aritmetického průměru. Poznamenejme, že ve dvou případech, konkrétně u třídy č. 13 a 28, byl výpočet aritmetického průměru a standardní odchylky z technických důvodů proveden pouze pro prvních 50 slov.

Tab. 2: Aritmetický průměr součinů pořadí a frekvence a standardní odchylka pro jednotlivé sémantické třídy

Číslo třídy	Aritmetický průměr součinů	Standardní odchylka
3	5718	1097
4	5050	982
5	6982	1156
6	4761	1125
7	6704	1286
8	4461	886
9	3304	757
10	5043	929
11	3659	777
12	4120	854
13	6559	1293
14	4298	917
15	4465	945
16	4579	977
17	4104	816
18	5929	1055
19	4729	846
20	6399	1130
21	3005	671
22	4989	877
23	6892	1154
24	4485	910
25	2710	689
26	5316	1015
27	6261	1035
28	5765	1137
29	4459	906
30	4568	916
31	4326	871
32	2463	600

Zipfův a Mandelbrotův zákon

Ve výpočetní lingvistice je známý a velmi populární Zipfův zákon. Dokonce se dá říci, že od publikování jeho zveřejnění v roce 1935 se datuje historie komputační (výpočetní) lingvistiky. Zdůvodnění svého zákona se Zipf věnuje ve své slavné a často citované knize Principle of least effort and human behavior [ZIPF, 1949].

Formulace zákona je velmi jednoduchá, zní takto: r = konst./ f , kde r je rank (pořadí v seznamu slov uspořádaných podle klesající frekvence), f je frekvence (četnost) slova ve zpracováváném textu a konst. je vhodná konstanta. Jedná se o empirický zákon, resp. zákon statistické povahy, daná rovnice proto neplatí ve všech případech, s malými odchylkami však platí pro jednotlivé hodnoty, konstanta je tedy „rozmazaná“.

Existuje ještě Mandelbrotův zákon z roku 1955. Je zobecněním Zipfova zákona, jeho tvůrce Benoit Mandelbrot (známý jako tvůrce fraktálů) navíc podal jeho exaktní matematický důkaz [MANDELBROT, 1964] , [VALOUCH, 1970]. Důkaz má podobu řešení optimalizační úlohy množství informace předané textem. Výsledkem řešení integrální rovnice je zákon v tomto znění: r = konst/ (f + A) exp beta

V Mandelbrotově zákoně jsou oproti Zipfově zákonu navíc konstanty A a beta (výrazem exp beta je míněn exponent beta). Mandelbrotův zákon je tak mnohem pružnější a může vystihnout širší paletu textů než původní Zipfův zákon. Zipfův zákon například selhává v některých případech vědeckých textů.

Rozložení odborných termínů ve vědeckém textu

V disertační práci [FRIŠ, 2006] byla také zkoumána problematika rozložení odborných termínů ve vědeckém textu. Z knihy Úvod do teorie grafů [SEDLÁČEK, 1981] byly vybrány všechny matematické termíny obsažené v rejstříku. Výběr slov do sémantických tříd byl tedy objektivní, nepodléhal subjektivitě sestavovatele. Výsledek zpracování textu knihy je prezentován v tab. 3 a 4. Tab. 3 představuje frekvenční slovník celého textu a ukazuje, že celý text splňuje výše zmiňovaný Mandelbrotův zákon.

Tab. 3: Fragment tabulky frekvenčního slovníku textu knihy [SEDLÁČEK, 1981]

Pořadové číslo (klesající pořadí) – výběr	Slovo/heslo	Empiricky zjištěná frekvence	Frekvence vypočtená užitím Mandelbrotova zákona	Rozdíl mezi empirickými a vypočtenými hodnotami
258	odvodit	9	8	1
238	stačit	10	9	1
218	společný	11	10	1
198	vztah	12	11	1
178	odstranit	14	13	1
158	podaný	16	15	1
138	kubický	19	17	2
118	dát	24	21	3
98	dokázat	29	26	3
78	tak	36	35	1
58	pravidelný	47	49	-2
38	množina	72	79	-7
18	z	124	175	-51
10	hrana	184	303	-119
8	že	254	366	-112
6	uzel	355	457	-102
4	graf	529	601	-72
2	.	1062	854	208

Tab. 4 obsahuje seznam matematických termínů ve zmiňované knize [SEDLÁČEK, 1981] a rovněž ukazuje, že i tento seznam slov splňuje Mandelbrotův zákon (byť i s jinými parametr).

Tab. 4: Fragment tabulky frekvenčního slovníku odborných termínů z textu knihy [SEDLÁČEK, 1981]

Pořadové číslo (klesající pořadí) – výběr	Slovo/heslo	Empiricky zjištěná frekvence	Frekvence vypočtená užitím Mandelbrotova zákona	Rozdíl mezi empirickými a vypočtenými hodnotami
20	podgraf	34	25	9
19	uzlový	36	27	9
18	most	40	29	11
17	strom	40	32	8
16	tah	44	35	9
15	délka	47	38	9
14	pravidelný	47	42	5
13	komponenta	50	47	3
12	souvislost	53	52	1
11	konečný	59	58	1
10	množina	72	66	6
9	souvislý	77	75	2
8	sled	80	86	6
7	faktor	81	101	-20
6	kružnice	83	119	-36
5	číslo	86	144	-58
4	stupeň	140	177	-37
3	hrana	184	224	-40
2	uzel	355	294	61
1	graf	529	406	123

Je velice pravděpodobné, že kdybychom obdobně zpracovali odborné knihy z oblasti chemie či biologie, budou i tyto knihy splňovat Mandelbrotův zákon. Lze se domnívat, že se jedná o univerzální vlastnost. odborných textů..

V rámci disertace bylo rovněž prozkoumáno zastoupení sémantických tříd v souvislém beletristickém textu [ŘEZÁČ, 1944]. Z tohoto textu bylo vybráno deset úseků, z nichž každý byl tvořen 3 000 slovy. V tab. 5 je uveden počet slov (z jednotlivých sémantických tříd), který se vyskytuje v tomto textu a zároveň je uveden ve výše zmiňovaném seznamu 2 000 nejfrekventovanějších slov. Jako příklad jsou v tab. 5 uvedeny sémantické třídy 3 a 24.

Tab. 5: Ukázka zastoupení sématnických tříd v beletristickém textu [ŘEZÁČ, 1944]

	Třída 3		Třída 24
Úseky textu	Počet slov ze seznamu nejfrekventovanějších slov	Odchylka od aritmetického průměru	Počet slov z e seznamu nejfrekventovanějších slov	Odchylka od aritmetického průměru
1	23	- 8,4	16	- 10,3
2	20	- 11,4	29	2,7
3	31	- 0,4	33	6,7
4	32	0,6	21	- 5,3
5	34	2,6	45	18,7
6	38	6,6	32	5,7
7	42	10,6	18	- 8,3
8	39	7,6	23	- 3,3
9	31	- 0,4	19	- 7,3
10	24	- 7,4	27	0,7
	Aritmetický průměr: 31, 4		Aritmetický průměr: 26,3

Podobné hodnoty se vyskytují i u zbývajících 31 sémantických tříd zkoumaného beletristického textu. Můžeme tedy v tomto případě rovněž hovořit o jisté rovnoměrnosti zastoupení sémantických tříd v textu.

Sémantické třídy a klasifikace věd

Tab. 6 ukazuje souvislosti sémantických tříd s klasifikací věd. Jedná se o pracovní přehled, přiřazení oborů vědy vychází ze znalostí a zkušeností autora.

Tab. 6: Korespondence sémantických tříd s jednotlivými obory vědy

Název třídy	Obor vědy
existence	filozofie
událost	filozofie
skutečnost	filozofie
vztahy/vztah	logika, filozofie
seskupení	filozofie
řád, řada	filozofie
zákonitost	filozofie
změna, začátek	filozofie
příčina	filozofie
množství, počet	matematika
číslo	matematika
prostor	geometrie
tvar	geometrie
čas	fyzika
období	fyzika
průběh (času)	fyzika
pohyb	fyzika
přenos, přinést	fyzika
krajina, svět	geografie
hmota	fyzika
smysl(y), vidět, hlas	fyziologie
živočich, spát	biologie
(části) těla, ruka	biologie
práce	praxeologie
činnost	praxeologie
zemědělství	zemědělství
průmysl	inženýrství
doprava, auto, cesta	doprava
obchod, mít, firma	ekonomie
majetek	ekonomie
dát	ekonomie
úřad, správní úřad	státní správa
řízení	management
výchova	pedagogika
společnost, vláda, veřejný	sociologie, politologie
(sociální) skupina	sociologie
boj, válka	vojensví
politika	politologie
armáda	vojensví
morálka	filozofie, právo-justice
vztahy (mezi lidmi), soud	psychologie, sociologie
rodina, osoba	antropologie
láska, sex	antropologie, sexuologie
přátelství	antropologie
město	urbanistika, architektura
obydlí	architektura
domácnost	ekonomie
oděvy	textilní inženýrství
jídlo	gastronomie
nemoc, nemocnice	medicína
zprávy/zpráva	žurnalistika
řeč, jazyk	jazyky, lingvistika
psaní	jazyky, lingvistika
hledání	logika
vyučování, škola	pedagogika
pravda	logika, filozofie
myšlení, řešení	psychologie
vědomost, vědět	knihovnictví, informatika
věda	věda
umění	umění
náboženství	teologie
charakter, trenér	psychologie
zážitek	psychologie
zábava, sport	zábava
sport	sport
nálada	psychologie
dojmy (dojem)	psychologie
city (cit)	psychologie
(lidská) situace	praxeologie
bezpečnost	praxeologie
gramatika (slova gramatická)	gramatika, lingvistika
jméno (vlastní)	lingvistika
divná slova	divná slova

Pro zájemce o problematiku klasifikace věd doporučuji dílo Základové konkrétné logiky od T. G. Masaryka, např. ve vydání z roku 2001 (MASARYK, 2001).

Závěr a perspektivy

Článek podává úvodní informaci o sémantických třídách a slovníku sémantických tříd. Ukazuje, že sémantické třídy mají příznivé vlastnosti - jsou rovnoměrné a stabilní. Jejich využití lze tedy ve srovnání s jinými sémantickými klasifikacemi pokládat za výhodné. Rovněž je žádoucí další výzkum v této oblasti. V praxi lze prezentovaných poznatků využít např. v oblasti automatického zpracování textů a k vyhledávání (souvislé texty by např. mohly být převedeny k na čísla sémantických tříd a na jejich základě by mohly být automaticky zjišťovány obsahové vlastnosti zpracovávaných textů). Autor textu také počítá s převedením slovníku sémantických tříd do angličtiny (s využitím anglického frekvenčního slovníku [JOHANSSON; HOFLUND, 1989]).

Použitá a doporučená literatura:

ADAMIC, L.; HUBERMAN, B. 2002. Zipf's law and Internet. Glottometrics. 2002, no. 3, s.143-150. ISSN 1617-8912.

ALTMANN, G. 2002. Zipfian linguistics. Glottometrics. 2002, no. 3, s. 19-26. ISSN 1617-8912.

ANDERSEN, S. 2002. Speaker's information content : length-frequency correlation as partial correlation. Glottometrics. 2002, no. 3, s. 90-109. ISSN 1617-8912.

BEČKA, J. V. 1973. Lexikální složení českých odborných textů technického zaměření. Díl 1. Úvodní studie. Praha : SPN, 1973. 230 s. Acta Universitatis 17 Novembris Pragensis. Vědecký sborník fakulty společenských věd. Řada monografická, sv. 5.

BEČKA, J. V. 1982. Slovník synonym a frazeologismů. 3. upr. a dopl. vyd. Praha : Novinář, 1982. 463 s. Knihovnička novináře, sv. 29.

CARNAP, R. 1950. Logical foundations of inductive probability. Chicago, 1950.

CARNAP, R.; BAR-HILLEL, Y. 1964. Sémantická informace. In Teorie informace a jazykověda. 1. vyd. Praha : ČSAV, 1964, s. 165-175.

CONRAD, B.; MITZENMACHER M. 2004. Power laws for monkeys typing randomly : the case of unequal probabilities. In IEEE Transaction on Information Theory. July 2004, vol. 50, no. 7, s. 1403-1414. Postprint dostupný na World Wide Web: <http://www.eecs.harvard.edu/~michaelm/postscripts/toit2004a.pdf [6]>.

CYHELSKÝ, L. ; KAŇOKOVÁ, J.; NOVÁK, I. 1986. Teorie statistiky. 2. upr. vyd. Praha : SNTL, 1986. 340 s.

ČERMÁK, F. et al. 2004. Frekvenční slovník češtiny. Vyd. 1. Praha : Nakladatelství Lidové noviny, 2004. 595 s. Obsahuje CD-ROM. ISBN 80-7106-676-1.

FENK-OZLON, G. ; FENK A. 2002. Zipf's tool analogy and word order. Glottometrics. 2002, no. 5, s. 22-28. ISSN 1617-8912.

FRIŠ, M. 2006. Mandelbrotův zákon a sémantické třídy. Praha, 2006. 45 s. Disertace. Univerzita Karlova v Praze, Matematicko-fyzikální fakulta. Vedoucí disertace prof. PhDr. Eva Hajičová, DrSc.

GABAIX, X. 1999. Zipf's Law for cities : an explanation. The Quaterly Journal of Economics. August 1999, vol. 114, no. 3, s. 739-767. Dostupné také na World Wide Web: <http://econ-www.mit.edu/faculty/download_pdf.php?id=530 [7]>.

GRAŽDANIKOV, E. D. 1987. Metod postrojenija sistemnoj klassifikaciji nauk. Novosibirsk, 1987.

GUMENJUK, A.; KOSTYSHIN A.; SIMONOVA S. 2002. An approach to the analysis of text structure. Glottometrics. 2002, no. 3, s. 61- 89. ISSN 1617-8912.

HALLER J. et al. (ed.). 1969-1977. Český slovník věcný a synonymický. 1. vyd. Praha : SPN, 1969-1977. 3 sv.

HALLER, J. 1969 – 1987. Slovník věcný a synonymický. Praha : SPN, 1969-1987. 4 sv.

HALLIG, R.; WARTBURG, W. 1963. Begriffsystem als Grundlage fur die Lexikographie. Berlin, 1963.

HERDAN, G. 1962. The calculus of linguistic observations. Haag : Mouton, 1962. 271 s.

HERDAN, G. 1964. Quantitative linguistics. London : Butterworths, 1964. xvi, 284 s.

HILBERG, W. 2002. The unexpected fundamental influence of mathematics upon language. Glottometrics. 2002, no. 5, s. 29-50. ISSN 1617-8912.

HŘEBÍČEK, L. 2002. Zipf's Law and text. Glottometrics. 2002, no. 3, s. 27-38. ISSN 1617-8912.

JELÍNEK, J.; BEČKA, J. V.; TĚŠITELOVÁ, M. 1961. Frekvence slov, slovních druhů tvarů v českém jazyce. 1. vyd. Praha : SPN, 1961. 585 s.

JOHANSSON, S.; HOFLUND, K. 1989. Frequency analysis of English. Cambridge, 1989.

KOEHLER, R. 2002. A general remark on certain criticism of Zipf 's Law. Glottometrics. 2002, no. 5, s. 51-61. ISSN 1617-8912.

KOMENSKÝ, J. A. 1941. Orbis pictus. Praha : Fr. Borový, 1941. 254 s.

KOSOVSKIJ, B. I. 1974. Obyščeje jazykoznanije. Minsk, 1974.

KRÁLÍK, J. 1983. Some notes on the frequency-rank relation. In HAJIČOVÁ, E. (ed.). Prague Studies in Mathematical Linguistics. Sv. 8. 1. vyd. Praha : Academia, 1983, s. 67-80.

KROMER, V. 2002. Zipf's law and its modification possibilities. Glottometrics. 2002, no. 5, s. 1-13. ISSN 1617-8912.

LI, W. 2002. Zipf's Law everywhere. Glottometrics. 2002, no. 5, s. 14-21. ISSN 1617-8912. LIMPERT E.; STAHEL, W. A.; ABBT, M. 2001. Log-normal distributions across the sciences. Bioscience. 2001, vol. 51, no. 5, s. 341-352. Dostupné také na World Wide Web: <http://stat.ethz.ch/~stahel/lognormal/bioscience.pdf [8]>.

Longman lexicon of contemporary English. London, 1981.

MANDELBROT, B. 1964. Komunikace a formální struktura textů. In Teorie informace a jazykověda. Praha : ČSAV, 1964, s. 130-150.

MANDELBROT, B. On the theory of word frequencies and on related Markovian models of discourse. In Structure of language and its mathematical aspects : proceedindgs of symposia in applied mathematics. Vol. 12. Providence (RI, USA) : American Mathematical Society, 1961, s. 190-219.

MASARYK T. G. 2001. Základové konkrétné logiky. Praha : Masarykův ústav AV ČR, 2001.

MORKOVKIN, V. V. et al. 1984. Leksičeskaja osnova russkogo jazyka. Moskva, 1984.

MORKOVKIN, V. V. et al. 1985. Leksičeskoje minimum sovremennogo russkogo jazyka. Moskva, 1985.

MOSKOVIČ, V. A. 1969. Statistika i semantika. Moskva, 1969.

NIRENBURG S.; RASKIN V. 2004. Ontological semantics. Cambridge (MA, USA) : c2004. xii, 420 s. ISBN 0262140861.

PALA, K.; VŠIANSKÝ, J. 2000. Slovník českých synonym. 3., dopl. vyd. Praha : Nakladatelství Lidové noviny, 2000. 479 s. ISBN 80-7106-450-5.

POPESCU, I.-I. 2003. On a Zipf ' Law extension to impact factors. Glottometrics. 2003, no. 6, s. 83- 93. ISSN 1617-8912.

PRUEN, C.; ZIPF, R. 2002. Biographical notes on G. K. Zipf. Glottometrics. 2002, no. 3, s. 1-11. ISSN 1617-8912.

QUINE, W.O. 1966. The ways of paradox, and other essays. New York (NY, USA) : Random, x, 258 s. 1966.

RACHMANOV, I.V. 1967. Slovar‘ naiboleje upotribitel‘nych slov nemeckogo jazyka. Moskva, 1967.

ROBBINS, J. 2002. Technology, ease, and entropy : a testimonial to Zipf' Principle of Least Effort. Glottometrics. 2002, no. 5, s. 81-96. ISSN 1617-8912.

Roget‘s Thesaurus of English words and phrases. Harmondsworth (Velká Británie) : Penguin Books, 1968. 712 s.

Roget’s Thesaurus. In Wikipedia [online]. [cit. 2007-07-21]. Dostupné na World Wide Web: <http://en.wikipedia.org/wiki/Roget's_Thesaurus [9]>.

ROUSSEAU, R. 2002. Georg Kingsley Zipf : life, ideas, his law and informetrics. Glottometrics. 2002, no. 3, s. 11-18. ISSN 1617-8912.

ŘEZÁČ, V. 1944. Rozhraní. 1. vyd. V Praze : Fr. Borový, 1944. 528 s. Sbírka hodnotné prózy Žatva, sv. 57.

SADOWSKI, W. 1975. Matematická štatistika. 1. vyd. Bratislava : Alfa, 1975. 103 s.

SEDLÁČEK, J. 1981. Úvod do teorie grafů. Praha : Academia 1981. 271 s. Cesta k vědění, č. 29.

SILAGADZE, Z. K. 1999. Citations and the Zipf-Mandelbrot‘s law [online]. Submitted on 21 Jan 1999 (v1 [10]), last revised 26 Jan 1999 (this version, v2). [cit. 2007-07-07]. Dostupné na World Wide Web: <http://arxiv.org/abs/physics/9901035 [11]>. arXiv:physics/9901035v2 [12] [physics.soc-ph].

SMETÁČEK, V. 1982. Sémantický analyzátor : úvod do problematiky. 1. vyd. Olomouc : Univerzita Palackého, 1982. 189 s.

SMETÁČEK, V. 1984. Sémantický analyzátor : experimentální ověřování. 1. vyd. Olomouc : Univerzita Palackého, 1984. 296 s.

SMETÁČEK, V. 1988. Základní informace o bázi BALEX. Československá informatika. 1988, roč. 30, č. 11, s. 330-333.

ŠTEINFELDT, E. 1963. Častotnyj slovar´ russkogo jazyka. Talin, 1963.

TĚŠITELOVÁ, M. 1974. Otázky lexikální statistiky. Praha : Academia 1974. 289 s. Studie a práce lingvistické ČSAV, sv. 9.

TĚŠITELOVÁ, M. 1980. Využití statistických metod v gramatice. Praha : Academia 1980. 219 s. Studie a práce lingvistické ČSAV, sv. 15.

TĚŠITELOVÁ, M. 1992. Quantitative linguistics. 1. vyd. Praha : Academia,1992. 253 s. ISBN 80-200-0131-X.

TĚŠITELOVÁ, M. et al. 1983. Frekvenční slovník češtiny věcného stylu. Praha : Ústav pro jazyk český ČSAV, 1983. 329 s.

THORNDIKE, E. L.; LORGE, I. 1972. The teacher’s word book of 30,000 words. New York, 1972.

UHLÍŘOVÁ, L. 2002. Zipf's notion of "economy" on text level. Glottometrics. 2002, no. 3, s. 39-60. ISSN 1617-8912.

VALOUCH, V. 1970. Vztahy mezi pořadím a četností kódových znaků (slov). Praha, 1970. 42 s. Univerzita Karlova v Praze, Matematicko-fyzikální fakulta. Vedoucí disertace Marie Koenigová.

Wordnet [online]. Princeton (NJ, USA) : Princeton University, Cognitive Science Laboratory [cit. 2007-07-07]. Dostupné na World Wide Web: <http://wordnet.princeton.edu/ [13]>.

ZANETTE D. H.; MONTEMURRO M. A. 2005. Dynamics of text generation with realistic Zipf's distribution. Journal of Quantitative Linguistics. 2005, vol. 12, no.1, s. 29-40.

ZIPF, G. K. 1935. The psycho-biology of language. Boston (MA, USA) : Houghton Mifflin Company, 1935. ix, 336 s.

ZIPF, G. K. 1949. Human behaviour and the principle of least effort. Cambridge (MA, USA) : Addison-Wesley, 1949.

ZIPF, G. K. 1965. The psycho-biology of language. Cambridge (MA, USA) : MIT Press, 1965.

Klíčová slova:

filozofie vědy [14]

indexace [15]

lingvistika [16]

slovníky [17]

Zipfův zákon [18]

Hodnocení: