14:09 

Популярная комбинаторика и непопулярная лингвистика

Раздели Наноль
Я знаю только то, что ничего не знаю. А если подумать - то и этого не знаю.
"...определенные представления о комбинаторике были у греческих ученых - философ Ксепократ, живший в IV в. до н.э., подсчитывал число слогов..."
"...ученик (Аристотеля) Аристоксен из Тарента перечислил различные комбинации длинных и коротких слогов в стихотворных размерах."
"...в XII в. индийский математик Бхаскара написал книгу "Лилавати" (о вопросах комбинаторики) ... (в том числе) о применениях перестановок к подсчету вариаций размера в стихосложении..."

Популярная комбинаторика


Как вы наверное заметили, я таки начал читать книжку по комбинаторике. Занимаясь этим исключительно в свободное от свободного времени время, я постиг много нового) Например, в моей голове рядом с фрактальным деревом (росшим там со старших классов) и броуновским (случайно посаженным туда Заболекарь) выросло Древо Порфирия. А еще я захотел к своим танграмам стомахион и пентамино. А еще я хочу понять что такое категорический силлогизм и использовать его в дальнейшем в своих лингво-комбинаторных измышлениях.

Так вот...
Чтобы прекратить свое броуновское движение между лингвистикой и комбинаторикой и хоть как-то систематизировать свою подпольную деятельность, я решил четко поставить задачу.
И так, задача такова - подсчитать количество возможных слов в языке, если известен алфавит. Имеется в виду количество для однобуквенных, двубуквенных и т.д. слов.
Взяв идеальный язык, в котором буквы могут встречаться в любом порядке и любое буквосочетание имеет место быть, мы получим очень простую формулу:

n(a,b) = a^b,

где:
n - количество слов
a - количество букв в алфавите
b - количество букв в слове

Общее количество слов будет:

n(a,b) = a^1+a^2+...+a^b или если вспомнить про геометрическую прогрессию:

n(a,b) = (1-a^b)/(1-a), если я ничего не напутал.

Примером такого языка пожалуй может служить Сольресоль, который, как видно из названия, основан на названиях нот в диатонической гамме.
Однако не все так просто, если начать задумываться о реальном положении дел. Например, есть языки, в которых звуки бывают гласные и согласные. И слово из одних только согласных может существовать, скажем - в чешском языке, но это легкости произношения не добавляет. К тому же, если переходить на частности - слова образуются из слогов (не везде, но все-таки). А слог, как правило - это гласная буква + некоторое количество согласных.
Тут я вставляю такое условие - в слоге не должно стоять подряд две одинаковые согласные. Через гласную - можно, а в остальном - удвоение согласной происходит только на стыке слогов.
И вот тут начинается путаница. Если обозначить множество гласных как G{g1,g2,..,ga}, а множество согласных как S{s1,s2,..,sa}, то бывают слова, которые пишутся одинаково, но могут состовляться из разных слоговых комбинаций:

gsgs = [gs][gs] = [g][sgs], и тому подобные.

А есть слова, которые могут составляться только однозначно:

gss'ss'g = [gss'][ss'g]

То есть на лицо:
1. Подряд идут 4 согласных.
2. Согласные в первом слоге и во втором попарно должны различаться, а пара на стыке может состоять и из одинаковых согласных.

Если попытаться абстрагироваться от слов и слогов, то:
1. Имеется два множества S и G, которые в сумме дают множество A.
2. Имеются множество L, состоящее из подмножеств вида l1, l2,..., lk (k - максимальное количество букв в слоге)
3. Подмножества множества L в свою очередь состоят из элементов, которые являются комбинациями элементов S и G по k штук, при чем каждое lk содержит один элемент из G и k элементов из S, при чем возможны повторения, но соседние элементы должны быть различны.
4. А теперь внимание! Имеется множество... ну скажем M, которое состоит из подмножеств {m1,m2,...,mb}. Каждый элемент этих подмножеств - это комбинация из элементов множества L (ну то есть слова, состоящие из слогов... не получилось полностью абстрагироваться)
5. То есть теперь вот уже внимание! Нужно! Подсчитать для каждого mb (при заданном b) количество различных комбинаций элементов типа s и g, составляющих mb. Хотя выше было сказано, что m составляется из l, но нас интересует именно последовательность из элементов s и g.
По русски говоря - мы составляем слова из слогов и смотрим, чтобы не попадалось одинаковых слов. Одинаковые отбрасываем - остальные считаем.

Фух... кажется теперь мне стало самому хотя бы все понятно)

URL
   

Мои прохладные дни

главная