Поиск и удаление дубликатов
Как найти и потереть одинаковые файлы во всём многообразии уже имеющихся документов?
Ленивые линуксоиды должны были что-то придумать на этот счёт - придумать и включить в Дебиан/Ubuntu. Так и есть: в репозитории ищем и находим очаровательную утилиту fdupes. Она сравнивает файлы как побайтово, так и с помощью подсчёта md5-суммы при том, что занимает какие-то пару сотен килобайт. Работает невероятно быстро, сортировка производится в полуавтоматическом режиме: программа выводит в консоли дублирующиеся файлы и спрашивает, какой из них оставить. Вот как это выглядит:
penta4@penta4rce:~$ fdupes -r -d /mnt/wd250Gb/my/matlab/Study/Statii/ImageProcessing/
[1] /mnt/wd250Gb/my/matlab/Study/Statii/ImageProcessing/Algorythms/Linear/Gabor/jei_2005.pdf
[2] /mnt/wd250Gb/my/matlab/Study/Statii/ImageProcessing/Algorythms/Linear/Gabor/jei_2004.pdf
Set 1 of 1, preserve files [1 - 2, all]:
Отвечаем, какие файлы оставить - остальные программа сразу снесёт. Будьте внимательны: восстановить их потом будет нелегко, если вообще возможно. У программы много настроек, она умеет отличать жёсткие и мягкие ссылки, искать рекурсивно и так далее - man fdupes много чего интересного рассказывает.
$ fdupes -rd .
Точка в конце говорит о том, что искать дубликаты fdupes будет, начиная с текущего каталога, поэтому можно в каталоге со статьями сделать подкаталог 1/ и набросать туда скачанные статьи.
Опубликовано