Избежание отвлечения от темы и возможность пересечения туннелей — две основные сложности в фокусированном краулинге. Чтобы преодолеть проблему отвлечения от темы, мы разработали комплексный метод оценки приоритетов (CPE) на основе веб-текста, анкорного текста и контекста гиперссылок, который улучшает оценку релевантности темы для непосещённых гиперссылок. Далее мы предлагаем улучшенный байесовский классификатор с весами (BCW), который добавляет весовые метки к признакам байесовского классификатора для повышения точности классификации веб-страниц. Для прохождения туннелей, через которые можно добраться до некоторых тематически релевантных страниц с низко релевантных страниц, мы создаём технологию сегментации блоков контента (CBS) для веб-страниц на основе метода обратного отслеживания, которая сегментирует веб-страницу на несколько блоков, а затем оценивает релевантность каждого блока контента, извлекая гиперссылки с высокой комплексной релевантностью. Наконец, предлагается стратегия фокусированного краулинга на основе BCW, сочетающая стратегии CPE и CBS (BCW_CC), которая экспериментально оценена для фокусированного краулинга в двух областях: ливневых бедствиях и спорте. Результаты демонстрируют эффективность разработанного метода BCW_CC.