ListRules/AnatolBazjukin

Материал из ALT Linux Wiki

< ListRules(Различия между версиями)
Перейти к: навигация, поиск
(Import from freesource.info)
(Классификация трафика)
 
(7 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
{{MovedFromFreesourceInfo|AltLinux/MailVsMail/ListRules/AnatolBazjukin}}
+
<!-- {{Шаблон:Викифицировать}} -->
-
 
+
<onlyinclude>
 +
== Классификация трафика ==
 +
<pre>
Date: Fri, 27 May 2005 02:05:50 +0400
Date: Fri, 27 May 2005 02:05:50 +0400
-
From: "Anatol B. Bazjukin" <anatol@>
+
From: "Anatol B. Bazjukin"
To: <community@>
To: <community@>
Subject: Re: [Comm] Предложение: Тематический классификатор в поле <Тема>
Subject: Re: [Comm] Предложение: Тематический классификатор в поле <Тема>
 +
</pre>
Hello spider,
Hello spider,
Строка 10: Строка 13:
Thursday, May 26, 2005, 10:02:21 PM, you wrote:
Thursday, May 26, 2005, 10:02:21 PM, you wrote:
-
s> Предложение: построить классификатор тематики и указывать
+
s> Предложение: построить классификатор тематики и указывать<br />
-
s> сайн класса в сабже. Например,
+
s> сайн класса в сабже. Например,<br />
-
s> [mmedia]Не работает xmms:-(
+
s> [mmedia]Не работает xmms:-(<br />
-
s> [devel]А где лежит qmake
+
s> [devel]А где лежит qmake<br />
-
s> и т.п.
+
s> и т. п.<br />
К сожалению, это пересекающиеся множества, если не по Subject, то по
К сожалению, это пересекающиеся множества, если не по Subject, то по
Text точно.
Text точно.
-
Я в одном из тредов приводил [[MailVsMail/ListRules/AnatolBazjukin/FreqAnalysis|частотный анализ]] слов в Subject для
+
Я в одном из тредов приводил [[ListRules/AnatolBazjukin/FreqAnalysis|частотный анализ]] слов в Subject для
[Comm]. Всего выделено 8958 слов, большая часть которых встречаются редко.
[Comm]. Всего выделено 8958 слов, большая часть которых встречаются редко.
8607 реже 10 раз.
8607 реже 10 раз.
Низкое качество классификации связано с отсутствием минимальной стандартизации
Низкое качество классификации связано с отсутствием минимальной стандартизации
-
вопросов в Subject. Ну что за тема &#8730; &#8992;1001 вопрос от новичка&#9632;(но в
+
вопросов в Subject. Ну что за тема — «вопрос от новичка» (но в
-
тексте может быть вполне разумные вопросы).
+
тексте может быть вполне разумные вопросы)?
Предложения:
Предложения:
-
&#8730; один вопрос &#8730; один тред
+
* один вопрос — один тред
-
- в заголовке указание пакета, устройства, сервиса, то есть
+
* в заголовке указание пакета, устройства, сервиса, то есть некие ключевые слова, а не эмоции и не слова-паразиты. Это менее строгое требование, чем цитируемое предложение, но оно легче реализуемо.
-
:некие ключевые слова, а не эмоции и паразитные слова. Это менее
+
-
:строгое требование, чем цитируемое предложение, но оно легче
+
-
:реализуемо.
+
Раскладывание тредов по папочкам очень увлекательное занятие, но опыт
Раскладывание тредов по папочкам очень увлекательное занятие, но опыт
-
показывает, что проще свалить все в одну и выполнить search(google -
+
показывает, что проще свалить все в одну и выполнить search (google -
ау..) У меня на мыше с папкой 70 тыс. писем поиск занимает максимум 5
ау..) У меня на мыше с папкой 70 тыс. писем поиск занимает максимум 5
-
минут в самом тяжелом случае. И недаром в offtopic'е разгорелось
+
минут в самом тяжелом случае. И недаром в offtopic’е разгорелось
соревнование фирм в создании систем локального поиска.
соревнование фирм в создании систем локального поиска.
 +
</onlyinclude>
 +
 +
 +
{{Category navigation|title=ListRules|category=ListRules|sortkey={{SUBPAGENAME}}}}

Текущая версия на 16:58, 24 июня 2013


Классификация трафика

Date: Fri, 27 May 2005 02:05:50 +0400
From: "Anatol B. Bazjukin"
To: <community@>
Subject: Re: [Comm] Предложение: Тематический классификатор в поле <Тема>

Hello spider,

Thursday, May 26, 2005, 10:02:21 PM, you wrote:

s> Предложение: построить классификатор тематики и указывать
s> сайн класса в сабже. Например,
s> [mmedia]Не работает xmms:-(
s> [devel]А где лежит qmake
s> и т. п.
К сожалению, это пересекающиеся множества, если не по Subject, то по Text точно.

Я в одном из тредов приводил частотный анализ слов в Subject для [Comm]. Всего выделено 8958 слов, большая часть которых встречаются редко. 8607 реже 10 раз. Низкое качество классификации связано с отсутствием минимальной стандартизации вопросов в Subject. Ну что за тема — «вопрос от новичка» (но в тексте может быть вполне разумные вопросы)?

Предложения:

  • один вопрос — один тред
  • в заголовке указание пакета, устройства, сервиса, то есть некие ключевые слова, а не эмоции и не слова-паразиты. Это менее строгое требование, чем цитируемое предложение, но оно легче реализуемо.

Раскладывание тредов по папочкам очень увлекательное занятие, но опыт показывает, что проще свалить все в одну и выполнить search (google - ау..) У меня на мыше с папкой 70 тыс. писем поиск занимает максимум 5 минут в самом тяжелом случае. И недаром в offtopic’е разгорелось соревнование фирм в создании систем локального поиска.


 
Личные инструменты