ListRules/AnatolBazjukin
Материал из ALT Linux Wiki
м («MailVsMail/ListRules/AnatolBazjukin» переименована в «ListRules/AnatolBazjukin»: obsolete prefix) |
(template change / update) |
||
Строка 1: | Строка 1: | ||
- | {{ | + | {{Шаблон:Викифицировать}} |
- | + | <pre> | |
Date: Fri, 27 May 2005 02:05:50 +0400 | Date: Fri, 27 May 2005 02:05:50 +0400 | ||
- | From: "Anatol B. Bazjukin" | + | From: "Anatol B. Bazjukin" |
To: <community@> | To: <community@> | ||
Subject: Re: [Comm] Предложение: Тематический классификатор в поле <Тема> | Subject: Re: [Comm] Предложение: Тематический классификатор в поле <Тема> | ||
+ | </pre> | ||
Hello spider, | Hello spider, | ||
Строка 10: | Строка 11: | ||
Thursday, May 26, 2005, 10:02:21 PM, you wrote: | Thursday, May 26, 2005, 10:02:21 PM, you wrote: | ||
- | s> Предложение: построить классификатор тематики и указывать | + | s> Предложение: построить классификатор тематики и указывать<br> |
- | s> сайн класса в сабже. Например, | + | s> сайн класса в сабже. Например,<br> |
- | s> [mmedia]Не работает xmms:-( | + | s> [mmedia]Не работает xmms:-(<br> |
- | s> [devel]А где лежит qmake | + | s> [devel]А где лежит qmake<br> |
- | s> и т.п. | + | s> и т.п.<br> |
К сожалению, это пересекающиеся множества, если не по Subject, то по | К сожалению, это пересекающиеся множества, если не по Subject, то по | ||
Text точно. | Text точно. | ||
- | Я в одном из тредов приводил [[ | + | Я в одном из тредов приводил [[ListRules/AnatolBazjukin/FreqAnalysis|частотный анализ]] слов в Subject для |
[Comm]. Всего выделено 8958 слов, большая часть которых встречаются редко. | [Comm]. Всего выделено 8958 слов, большая часть которых встречаются редко. | ||
8607 реже 10 раз. | 8607 реже 10 раз. | ||
Низкое качество классификации связано с отсутствием минимальной стандартизации | Низкое качество классификации связано с отсутствием минимальной стандартизации | ||
- | вопросов в Subject. Ну что за тема | + | вопросов в Subject. Ну что за тема -- "вопрос от новичка" (но в |
тексте может быть вполне разумные вопросы). | тексте может быть вполне разумные вопросы). | ||
Предложения: | Предложения: | ||
- | + | - один вопрос -- один тред | |
- | - в заголовке указание пакета, устройства, сервиса, то есть | + | - в заголовке указание пакета, устройства, сервиса, то есть некие ключевые слова, а не эмоции и паразитные слова. Это менее строгое требование, чем цитируемое предложение, но оно легче реализуемо. |
- | + | ||
- | + | ||
- | + | ||
Раскладывание тредов по папочкам очень увлекательное занятие, но опыт | Раскладывание тредов по папочкам очень увлекательное занятие, но опыт | ||
- | показывает, что проще свалить все в одну и выполнить search(google - | + | показывает, что проще свалить все в одну и выполнить search (google - |
ау..) У меня на мыше с папкой 70 тыс. писем поиск занимает максимум 5 | ау..) У меня на мыше с папкой 70 тыс. писем поиск занимает максимум 5 | ||
минут в самом тяжелом случае. И недаром в offtopic'е разгорелось | минут в самом тяжелом случае. И недаром в offtopic'е разгорелось | ||
соревнование фирм в создании систем локального поиска. | соревнование фирм в создании систем локального поиска. |
Версия 11:50, 20 августа 2008
Date: Fri, 27 May 2005 02:05:50 +0400 From: "Anatol B. Bazjukin" To: <community@> Subject: Re: [Comm] Предложение: Тематический классификатор в поле <Тема>
Hello spider,
Thursday, May 26, 2005, 10:02:21 PM, you wrote:
s> Предложение: построить классификатор тематики и указывать
s> сайн класса в сабже. Например,
s> [mmedia]Не работает xmms:-(
s> [devel]А где лежит qmake
s> и т.п.
К сожалению, это пересекающиеся множества, если не по Subject, то по
Text точно.
Я в одном из тредов приводил частотный анализ слов в Subject для [Comm]. Всего выделено 8958 слов, большая часть которых встречаются редко. 8607 реже 10 раз. Низкое качество классификации связано с отсутствием минимальной стандартизации вопросов в Subject. Ну что за тема -- "вопрос от новичка" (но в тексте может быть вполне разумные вопросы).
Предложения: - один вопрос -- один тред - в заголовке указание пакета, устройства, сервиса, то есть некие ключевые слова, а не эмоции и паразитные слова. Это менее строгое требование, чем цитируемое предложение, но оно легче реализуемо.
Раскладывание тредов по папочкам очень увлекательное занятие, но опыт показывает, что проще свалить все в одну и выполнить search (google - ау..) У меня на мыше с папкой 70 тыс. писем поиск занимает максимум 5 минут в самом тяжелом случае. И недаром в offtopic'е разгорелось соревнование фирм в создании систем локального поиска.